Data Mining and Analytics A.A. 2016-17 Docente: Prof. Fabrizio Riguzzi Docente Fabrizio Riguzzi http://ds.ing.unife.it/~friguzzi/ Orario di ricevimento: su appuntamento studio docente, blocco B, terzo piano, corridoio di sinistra, studio M306 Sito web del corso http://www.unife.it/ing/lm.infoauto/data-mining-analytics Google classroom code qb0vzm Obiettivi L'obiettivo principale del corso consiste nel rendere gli studenti in grado di analizzare i dati memorizzati in database con strumenti di crescente complessità sia descrittivi che predittivi. Le principali conoscenze acquisite sono relative a: - tecnologie per le datawarehouses, - data analytics - knowledge discovery in databases, - data mining - machine learning Le principali abilità (ossia la capacità di applicare le conoscenze acquisite) sono: - progettazione logica e fisica di una datawarehouse, - analisi descrittive dei dati, - analisi predittive dei dati. Programma • • • • • • • • Introduzione al data mining (7,5 ore): richiami di teoria della probabilità, introduzione all’apprendimento, apprendimento di concetti e ordinamento da generale a specifico Alberi di decisione (7,5 ore). Reti bayesiane (7,5 ore): inferenza e apprendimento. Apprendimento basato sulle istanze e apprendimento di regole proposizionali (7,5 ore). Reti neurali e metodi kernel (7,5 ore). Apprendimento di regole del primo ordine (7,5 ore). Linguaggi logico probabilistici (7,5 ore): inferenza e apprendimento. Data mining descrittivo (7,5 ore): datawarehouse e OLAP, clustering, regole associative. Testi di riferimento • • • • Dispense del docente. Fabrizio Riguzzi, Arianna Fabbri, and Elena Zuffi, “Sistemi informativi”, Collana Progetto Leonardo. Esculapio, 2011 T. M. Mitchell, “Machine Learning”, McGraw-Hill, 1997 Ian Witten, Eibe Frank, “Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations”, Second Edition Morgan Kaufmann Publishers, 2005 Luc De Raedt, “Logical and Relational Learning”, Springer, Series: Cognitive Technologies, 2008 Testi consigliati per approfondimento • • • • • • Alessandro Rezzani, “Big Data -Architettura, tecnologie e metodi per l’utilizzo di grandi basi di dati”, Apogeo Education, 2013 Matteo Golfarelli, Stefano Rizzi, “Data Warehouse, Teoria e pratica della progettazione”, McGraw-Hill, 2006 Luc De Raedt, Kristian Kersting, Sriraam Natarajan, and David Poole, “Statistical Relational Artificial Intelligence: Logic, Probability, and Computation”, Morgan & Claypool, 2016 Daphne Koller, Nir Friedman, “Probabilistic graphical models: principles and techniques”, MIT Press, 2009 J. Ross Quinlan: “c4.5: Programs for machine learning”, Morgan Kaufmann Publishers, 1992 N. Lavrac and S. Dzeroski, “Inductive Logic Programming Techniques and Applications”, Ellis Horwood, 1994, http://www-ai.ijs.si/SasoDzeroski/ILPBook/ Modalità d’esame • L'esame consiste di una prova scritta e di una prova teorica. • La prova scritta contiene quattro esercizi: uno sugli alberi di decisione, uno sulle reti bayesiane, uno su linguaggi logico probabilistici e uno su clustering/regole associative. La prova dura due ore. Vale fino a 17 punti. Non è consentito utilizzare PC personali o smart phone. E' consentito usare materiale didattico. Modalità d’esame • La prova teorica consiste di tre domande sugli argomenti teorici del corso. Vale fino a 15 punti. Non è consentito utilizzare né PC personali o smart phone né materiale didattico. • Il voto finale è data dalla somma dei voti nelle due parti. Per superare l'esame i voti della prova scritta e di quella di teoria devono entrambi essere almeno 9. • Si possono sostenere le due prove in appelli diversi. Date d’esame • Pubblicate sul sito studiare.unife.it • Indicativamente: • 3 date, successivamente al corso a GiugnoLuglio • 1 a Settembre • 2 tra Dicembre-Febbraio