Data mining/modulo: (Data mining) (Data mining)
Corso di laurea: Scienze Statistiche ed Economiche
Docente: Marta Nai Ruscone
ITALIANO
Lingua insegnamento
Contenuti
Testi di riferimento
Obiettivi formativi
Prerequisiti
Metodi didattici
Altre informazioni
Modalità di verifica
dell’apprendimento
Programma esteso
INGLESE
Italiano
Manipolazione dati e
trattamento dei missing.
Calssificazione: regressione
logistica, analisi discriminante.
Text mining.
Italian
Data manipulation and
imputation of missing data.
Classification: logistic
regression, linear discriminant
analysis.
Text mining
 Longhow Lam, An
 Longhow Lam, An
introduction to R
introduction to R
 Kabacoff R. I., R in action –
 Kabacoff R. I., R in action –
Data analysis and graphics
Data analysis and graphics
with R, Manning (2015)
with R, Manning (2015)
 Gareth J., Witten D., Hastie
 Gareth J., Witten D., Hastie
T., Tibshirani R., An
T., Tibshirani R., An
Introduction to statistical
Introduction to statistical
learning with application in
learning with application in
R, springer (2013)
R, springer (2013)
 Zhao Y., R and data mining
 Zhao Y., R and data mining
Example and case studies,
Example and case studies,
Academic Press (2012)
Academic Press (2012)
Il corso si propone di fornire
The course aims at giving the
nozioni di manipolazione dati e
concepts of data manipulation,
gestione dei missing, presentare imputation of missing data,
principali tecniche di
classification and the
classificazione e illustrare nozioni fundamental concepts of text
base di text mining.
mining.
E’ consigliata la conoscenza di
Basic notions of R software are
nozioni di base di
required
programmazione di R.
L’attività formativa è svolta
Lecture and laboratory
attraverso lezioni ed è
coadiuvata da esercitazioni in
laboratorio
e-mail: marta.nairuscone
e-mail: marta.nairuscone
L’esame consiste in una prova
Written and oral exam
scritta e in una prova orale.
Struttura dei dati.
Trattamento dati: indicizzazione
di vettori, indicizzazione di
matrici, trattamento data frame.
Data structure.
Data manipulation: vectors
subscripts, matrix subscripts,
manipulating data frame.
Identificazione, visualizzazione e
imputazione di dati mancanti.
Classificazione: regressione
logistica e analisi discriminante.
Confronto tra i due metodi.
Text mining: esplorazione dei
dati, relazione tra termini e
cluster di termini simili.
Identification, visualization and
multiple imputation of missing
data.
Classification: logistic
regression, linear discriminant
analysis.
A comparison of classification
methods.
Text mining: explore data,
relationships between terms,
clustering by term similarity.