Tecniche e strumenti di analisi dei dati

. –Tecniche e strumenti di analisi dei dati
PROF. FRANCESCO CIVARDI
OBIETTIVO DEL CORSO
“Per evitare il pericolo di annegare nelle informazioni, ma perire per la mancanza
di conoscenza, è emersa l’area di ricerca nota come data analysis, ed è stato
sviluppato un numero considerevole di metodi e strumenti software. Tuttavia gli
strumenti da soli non bastano; affinché un progetto di intelligent data analysis
abbia successo, è necessario affiancare agli strumenti l’applicazione intelligente
dell’intuizione umana unita al potere computazionale, una solida conoscenza di
base insieme alla modellazione al computer, la costruzione automatica di modelli e
la riflessione critica sui risultati ottenuti” (Berthold et al., 2010)
Obiettivo del corso è fornire allo studente la padronanza dei concetti che gli
permetteranno di applicare varie tecniche di analisi dei dati, “data warehousing”,
“OLAP”, “data mining” e algoritmi di “machine learning” a diverse aree
applicative.
Tali concetti nascono grazie alla sinergia tra varie discipline: l’Intelligenza
Artificiale, la Statistica, i Metodi Bayesiani, la Teoria dell’Informazione, la Teoria
del Controllo, la Teoria della Complessità Computazionale, la Neurofisiologia, la
ricerca sui Data Base e le tecniche di Information Retrieval. Ultima aggiunta, la
nuova Scienza delle Reti (sociali, biologiche ecc.).
Le aree applicative spaziano dalla diagnosi medica all’analisi del rischio di credito
dei clienti di una banca, dall’analisi del comportamento d’acquisto della clientela
di un supermercato all’ottimizzazione di processi industriali, fino
all’individuazione di frodi o alla previsione di attacchi di terrorismo.
PROGRAMMA DEL CORSO
–
–
–
–
–
–
–
–
–
–
Introduzione alla Business Intelligence, all’OLAP e al Data Mining
Concetti di DataWarehousing
Analisi multi-dimensionale. Modellazione Dimensionale
Data Base Relazionali e Multidimensionali
Richiami del linguaggio SQL
Cenni al linguaggio MDX
Temi del Data Mining: Classificazione, Predizione, Clustering, Associazione
Alberi Decisionali. Entropia e Information Gain
Richiami di teoria delle probabilità. Teorema di Bayes
Naive Bayes. Reti bayesiane
–
–
–
–
–
–
–
Regressioni lineari e multiple. Regressione logistica
Reti neuronali
Support Vector Machines
Validazione e confronto di modelli di classificazione
Cluster Analysis: Algoritmi EM e K-Means, Algoritmi gerarchici
Analisi delle associazioni
Introduzione alla Scienza delle Reti.
BIBLIOGRAFIA
- Slides e appunti delle lezioni
- Siti web e papers comunicati a lezione
M.R. BERTHOLD – C. BORGELT – F. HÖPPNER - F. KLAWONN, Guide to intelligent data analysis, Springer
2010.
C. VERCELLIS, Business Intelligence - Modelli matematici e sistemi per le decisioni, McGraw-Hill,
2006.
Per consultazione:
R. KIMBALL, Data Warehouse: La guida completa, Hoepli, 2002.
I. H. WITTEN - EIBE FRANK, Data Mining, Practical Machine Learning Tools and Techniques with
Java implementations, Morgan Kaufmann, 1999.
J. HAN E M. KAMBER, Data Mining: Concepts and Techniques, Morgan Kaufmann, 2001.
DIDATTICA DEL CORSO
Lezioni frontali in aula,
NodeXL).
progetti al computer con software free (KNIME, Gephi,
METODO DI VALUTAZIONE
La valutazione sarà basata sulla partecipazione attiva al corso e su di un progetto finale
con relativa presentazione e discussione dei risultati.
AVVERTENZE
Il prof. Civardi riceve gli studenti prima e dopo le lezioni, nello studio presso il
Dipartimento di Matematica e Fisica, Via Musei 41.
Ulteriori
informazioni
si
possono
trovare
sul
sito
del
docente:
http://www2.unicatt.it/unicattolica/docenti/index.html o nella bacheca della Facoltà.