Data mining/modulo: (Data mining) (Data mining) Corso di laurea: Scienze Statistiche ed Economiche Docente: Marta Nai Ruscone ITALIANO Lingua insegnamento Contenuti Testi di riferimento Obiettivi formativi Prerequisiti Metodi didattici Altre informazioni Modalità di verifica dell’apprendimento Programma esteso INGLESE Italiano Manipolazione dati e trattamento dei missing. Calssificazione: regressione logistica, analisi discriminante. Text mining. Italian Data manipulation and imputation of missing data. Classification: logistic regression, linear discriminant analysis. Text mining Longhow Lam, An Longhow Lam, An introduction to R introduction to R Kabacoff R. I., R in action – Kabacoff R. I., R in action – Data analysis and graphics Data analysis and graphics with R, Manning (2015) with R, Manning (2015) Gareth J., Witten D., Hastie Gareth J., Witten D., Hastie T., Tibshirani R., An T., Tibshirani R., An Introduction to statistical Introduction to statistical learning with application in learning with application in R, springer (2013) R, springer (2013) Zhao Y., R and data mining Zhao Y., R and data mining Example and case studies, Example and case studies, Academic Press (2012) Academic Press (2012) Il corso si propone di fornire The course aims at giving the nozioni di manipolazione dati e concepts of data manipulation, gestione dei missing, presentare imputation of missing data, principali tecniche di classification and the classificazione e illustrare nozioni fundamental concepts of text base di text mining. mining. E’ consigliata la conoscenza di Basic notions of R software are nozioni di base di required programmazione di R. L’attività formativa è svolta Lecture and laboratory attraverso lezioni ed è coadiuvata da esercitazioni in laboratorio e-mail: marta.nairuscone e-mail: marta.nairuscone L’esame consiste in una prova Written and oral exam scritta e in una prova orale. Struttura dei dati. Trattamento dati: indicizzazione di vettori, indicizzazione di matrici, trattamento data frame. Data structure. Data manipulation: vectors subscripts, matrix subscripts, manipulating data frame. Identificazione, visualizzazione e imputazione di dati mancanti. Classificazione: regressione logistica e analisi discriminante. Confronto tra i due metodi. Text mining: esplorazione dei dati, relazione tra termini e cluster di termini simili. Identification, visualization and multiple imputation of missing data. Classification: logistic regression, linear discriminant analysis. A comparison of classification methods. Text mining: explore data, relationships between terms, clustering by term similarity.