. –Tecniche e strumenti di analisi dei dati PROF. FRANCESCO CIVARDI OBIETTIVO DEL CORSO “La crescente disponibilità di dati nell’attuale società dell’informazione ha evidenziato la necessità di disporre di strumenti adeguati per la loro analisi. La statistica applicata ed il data mining si propongono come strumenti privilegiati per estrarre informazioni da questi dati.” (Paolo Giudici, Data Mining, McGraw-Hill, 2001). Obiettivo del corso è fornire allo studente la padronanza dei concetti che gli permetteranno di applicare tecniche di analisi dei dati, “data warehousing”, “OLAP”, “data mining” e algoritmi di “machine learning” a diverse aree applicative. Tali concetti nascono grazie alla sinergia tra varie discipline: l’Intelligenza Artificiale, la Statistica, i Metodi Bayesiani, la Teoria dell’Informazione, la Teoria del Controllo, la Teoria della Complessità Computazionale, la Neurofisiologia, la ricerca sui Data Base e le tecniche di Information Retrieval. Le aree applicative spaziano dalla diagnosi medica all’analisi del rischio di credito dei clienti di una banca, dall’analisi del comportamento d’acquisto della clientela di un supermercato all’ottimizzazione di processi industriali, fino all’individuazione di frodi o alla previsione di attacchi di terrorismo. PROGRAMMA DEL CORSO – – – – – – – – – – – – – – Introduzione alla Business Intelligence, all’OLAP e al Data Mining Concetti di DataWarehousing Analisi multi-dimensionale. Modellazione Dimensionale Data Base Relazionali e Multidimensionali Richiami del linguaggio SQL Introduzione al linguaggio MDX Temi del Data Mining: Classificazione, Predizione, Clustering, Associazione Alberi Decisionali. Entropia e Information Gain Richiami di teoria delle probabilità. Teorema di Bayes. Naive Bayes. Reti bayesiane Regressioni lineari e multiple. Regressione logistica Reti neuronali Support Vector Machines Validazione e confronto di modelli – Cluster Analysis: Algoritmi EM e K-Means, Algoritmi gerarchici. – Analisi delle associazioni. BIBLIOGRAFIA - Slides e appunti delle lezioni - Siti web e papers comunicati a lezione C. VERCELLIS, Business Intelligence - Modelli matematici e sistemi per le decisioni, McGraw-Hill, 2006. Per consultazione: R. KIMBALL, Data Warehouse: La guida completa, Hoepli, 2002 R. J. ROIGER – M. W. GEATZ, Introduzione al Data Mining, McGraw-Hill, 2004 P. GIUDICI, Data Mining. Metodi statistici per le applicazioni aziendali, McGraw-Hill, 2001 I. H. WITTEN - EIBE FRANK, Data Mining, Practical Machine Learning Tools and Techniques with Java implementations, Morgan Kaufmann, 1999 T. MITCHELL, Machine learning, McGraw-Hill, 1997 J. HAN E M. KAMBER, Data Mining: Concepts and Techniques, Morgan Kaufmann, 2001. DIDATTICA DEL CORSO Lezioni frontali in aula, progetti al computer con software free (KNIME, Orange, Weka), dimostrazioni su MSFT SQL Server / Analysis Services. METODO DI VALUTAZIONE La valutazione sarà basata sulla partecipazione attiva al corso e su di un esame finale (scritto / orale). AVVERTENZE Il prof. Civardi riceve gli studenti prima e dopo le lezioni, nello studio presso il Dipartimento di Matematica e Fisica, Via Musei 41. Ulteriori informazioni si possono trovare sul sito del docente: http://www2.unicatt.it/unicattolica/docenti/index.html o nella bacheca della Facoltà.