Nome insegnamento: Basi di dati e scoperta di conoscenza Articolazione in moduli: no Settore Scientifico Disciplinare: ING-INF/05 Docente responsabile: SERGIO GRECO Crediti formativi universitari: 9 Numero ore lezioni: 50 Numero ore riservate attività didattiche assistite: 75 Numero ore esercitazioni: 25 Numero ore attività di laboratorio: Tipologia di attività formativa (TAF): ATTIVITA’ CARATTERIZZANTE Lingua di insegnamento: Italiano Anno di corso e Periodo didattico di erogazione: II ANNO- I SEMESTRE Insegnamento/i Propedeutico/i: Risultati d’apprendimento previsti e competenze da acquisire: Il corso approfondisce le metodologie e le tecniche delle basi di dati ed introduce alle tecniche di analisi dei dati. Argomenti delle lezioni: Introduzione: Richiami sul modello relazionale ed i linguaggi di interrogazione (Algebra Relazionale e SQL). Gestione dei dati: Architettura del DBMS, memorizzazione dei dati, Indici, strutture hashing, valutazione del costo di accesso. Ottimizzazione delle interrogazioni: Ottimizzazione fisica e ottimizzazione algebrica, piano di esecuzione, algoritmi di esecuzione di join. Calcolo Relazionale: Sintassi e semantica, espressività, complessità di valutazione. Linguaggi logici: Sintassi, semantica, valutazione bottom-up, algoritmo naive, ruolo della negazione, negazione stratificata, negazione non stratificata, espressività, complessità, ottimizzazione delle interrogazioni, basi di dati deduttive ed attive. Vincoli e normalizzazione: vincoli, vincoli di chiave (interna ed esterna), dipendenze funzionali, dipendenze multi-valore, dipendenze di congiunzione (Join Dependencies), forme normali (2NF, 3NF, BCNF, 4NF, 5NF), decomposizione senza perdita di dipendenze funzionali e di informazione, uso dell’algoritmo chase per la verifica di possibile perdita di informazioni, algoritmi di normalizzazione. Transazioni: Concetto di transazione, correttezza, consistenza ed atomicità, serializzabilità, conflictserizlizability, view-serializability, two-phase-locking, time stamps, atomicità, recupero dello stato consistente, operazioni di commit e check point, strict-two-phase-commit. Basi di Dati Distribuite: Architettura, problemi, deadlock, locking distribuito, commit distribuito. Dati incompleti ed inconsistenti: valori nulli, inconsistenza ed incompletezza dei dati, vincoli TGD e EGD, riparazioni, calcolo delle risposte consistenti, uso dell’algoritmo chase per la riparazione di basi di dati. Data Mining e Knowledge Discovery: motivazioni e principi, apprendimento induttivo vs. inferenziale, caratterizzazione e relazioni con altre discipline (statistica, machine learning, pattern recognition, information retrieval, etc.); Tecniche e metodi di Clustering, Classificazione/Predizione, Association Mining; Text Mining: modelli di rappresentazione del testo, misure di prossimità, basi di conoscenza lessicali, misure di correlazione semantica; Metodologie e misure per la validazione di pattern di conoscenza estratti; Panoramica su aspetti avanzati di Data Mining e problematiche recenti: uncertain data mining, clustering ensemble, subspace clustering, ranking e mining su reti informative omogenee ed eterogenee (es. social networks, bibliographical networks). Argomenti delle esercitazioni: - Interrogazione di basi di dati in Algebra Relazionale ed SQL - Interrogazione di basi di dati mediante il Calcolo Relazionale - Interrogazione di basi di dati in Datalog positivo - Interrogazione di basi di dati in Datalog con negazione - Normalizzazione di basi di dati - Verifica delle serializzabilità di scheduling - Knowledge discovery and data/text mining tools, knowledge bases (Weka, Cluto, WordNet) Modalità di erogazione della didattica: Modalità di svolgimento delle lezioni: In aula, con metodologie tradizionali e con l’eventuale uso del proiettore collegato al PC. Modalità di svolgimento delle esercitazioni: In aula, con metodologie tradizionali e con l’eventuale uso del proiettore collegato al PC. Metodi di valutazione: Prova scritta, Prova Orale, Progetto Criteri di valutazione dell’apprendimento: Criteri di misurazione dell’apprendimento: Criteri di attribuzione del voto finale: Testi di riferimento e materiale didattico utilizzato e consigliato: P. Atzeni, S. Ceri, S. Paraboschi, R. Torlone, Basi di dati – architetture e linee di evoluzione, McGraw Hill. - A. Silberschatz, H. F. Korth, S. Sudarshan, Database System concepts, McGraw Hill. - S. Greco, C. Molinaro, F. Spezzano, Incomplete Data and Data Dependencies in Relational Databases, Morgan&Claypool Publisher. - J. Han, M. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann. - M. Steinbach, P.-N. Tan, V. Kumar, Introduction to Data Mining. Addison Wesley Orario e aule lezioni: Calendario prove valutazione: http://www.dimes.unical.it/index.php/didattica