Data Mining and Analytics
A.A. 2016-17
Docente: Prof. Fabrizio Riguzzi
Docente
Fabrizio Riguzzi
http://ds.ing.unife.it/~friguzzi/
Orario di ricevimento: su appuntamento studio docente,
blocco B, terzo piano, corridoio di sinistra, studio M306
Sito web del corso
http://www.unife.it/ing/lm.infoauto/data-mining-analytics
Google classroom code qb0vzm
Obiettivi
L'obiettivo principale del corso consiste nel rendere gli studenti in grado
di analizzare i dati memorizzati in database con strumenti di crescente
complessità sia descrittivi che predittivi.
Le principali conoscenze acquisite sono relative a:
- tecnologie per le datawarehouses,
- data analytics
- knowledge discovery in databases,
- data mining
- machine learning
Le principali abilità (ossia la capacità di applicare le conoscenze
acquisite) sono:
- progettazione logica e fisica di una datawarehouse,
- analisi descrittive dei dati,
- analisi predittive dei dati.
Programma
•
•
•
•
•
•
•
•
Introduzione al data mining (7,5 ore): richiami di teoria della probabilità,
introduzione all’apprendimento, apprendimento di concetti e ordinamento da
generale a specifico
Alberi di decisione (7,5 ore).
Reti bayesiane (7,5 ore): inferenza e apprendimento.
Apprendimento basato sulle istanze e apprendimento di regole proposizionali
(7,5 ore).
Reti neurali e metodi kernel (7,5 ore).
Apprendimento di regole del primo ordine (7,5 ore).
Linguaggi logico probabilistici (7,5 ore): inferenza e apprendimento.
Data mining descrittivo (7,5 ore): datawarehouse e OLAP, clustering, regole
associative.
Testi di riferimento
•
•
•
•
Dispense del docente.
Fabrizio Riguzzi, Arianna Fabbri, and Elena Zuffi, “Sistemi informativi”, Collana
Progetto Leonardo. Esculapio, 2011
T. M. Mitchell, “Machine Learning”, McGraw-Hill, 1997
Ian Witten, Eibe Frank, “Data Mining: Practical Machine Learning Tools and
Techniques with Java Implementations”, Second Edition Morgan Kaufmann
Publishers, 2005
Luc De Raedt, “Logical and Relational Learning”, Springer, Series: Cognitive
Technologies, 2008
Testi consigliati per approfondimento
•
•
•
•
•
•
Alessandro Rezzani, “Big Data -Architettura, tecnologie e metodi per l’utilizzo
di grandi basi di dati”, Apogeo Education, 2013
Matteo Golfarelli, Stefano Rizzi, “Data Warehouse, Teoria e pratica della
progettazione”, McGraw-Hill, 2006
Luc De Raedt, Kristian Kersting, Sriraam Natarajan, and David Poole,
“Statistical Relational Artificial Intelligence: Logic, Probability, and
Computation”, Morgan & Claypool, 2016
Daphne Koller, Nir Friedman, “Probabilistic graphical models: principles and
techniques”, MIT Press, 2009
J. Ross Quinlan: “c4.5: Programs for machine learning”, Morgan Kaufmann
Publishers, 1992
N. Lavrac and S. Dzeroski, “Inductive Logic Programming Techniques and
Applications”, Ellis Horwood, 1994, http://www-ai.ijs.si/SasoDzeroski/ILPBook/
Modalità d’esame
• L'esame consiste di una prova scritta e di una prova
teorica.
• La prova scritta contiene quattro esercizi: uno sugli alberi
di decisione, uno sulle reti bayesiane, uno su linguaggi
logico probabilistici e uno su clustering/regole associative.
La prova dura due ore. Vale fino a 17 punti. Non è
consentito utilizzare PC personali o smart phone. E'
consentito usare materiale didattico.
Modalità d’esame
• La prova teorica consiste di tre domande sugli argomenti
teorici del corso. Vale fino a 15 punti. Non è consentito
utilizzare né PC personali o smart phone né materiale
didattico.
• Il voto finale è data dalla somma dei voti nelle due parti.
Per superare l'esame i voti della prova scritta e di quella di
teoria devono entrambi essere almeno 9.
• Si possono sostenere le due prove in appelli diversi.
Date d’esame
• Pubblicate sul sito studiare.unife.it
• Indicativamente:
• 3 date, successivamente al corso a GiugnoLuglio
• 1 a Settembre
• 2 tra Dicembre-Febbraio