Dipartimento: DIMES Corso di Laurea: INGEGNERIA Indirizzo Internet Corso di Laurea: www.dimes.unical.it Nome insegnamento: Basi di dati e scoperta di conoscenza Condivisione: Articolazione in moduli: NO Settore Scientifico Disciplinare: ING-INF/05 Docente responsabile: SERGIO GRECO Posizione docente responsabile: Professore Ordinario Crediti formativi universitari: 9 Numero ore riservate attività didattiche assistite: 84 Numero ore lezioni: 50 Numero ore esercitazioni: 25 Numero ore attività di laboratorio: Numero ore riservate studio individuale: 142 Tipologia: ATTIVITA’ CARATTERIZZANTE – INGEGNERIA INFORMATICA Lingua di insegnamento: ITALIANO Collocazione: II Anno, I Semestre Prerequisiti: Obiettivi formativi (risultati d’apprendimento previsti e competenze da acquisire – Descrittori di Dublino): Il corso approfondisce le metodologie e le tecniche delle basi di dati ed introduce alle tecniche di analisi dei dati. Argomenti delle lezioni: Introduzione: Richiami sul modello relazionale ed i linguaggi di interrogazione (Algebra Relazionale e SQL). Gestione dei dati: Architettura del DBMS, memorizzazione dei dati, Indici, strutture hashing, valutazione del costo di accesso. Ottimizzazione delle interrogazioni: Ottimizzazione fisica e ottimizzazione algebrica, piano di esecuzione, algoritmi di esecuzione di join. Calcolo Relazionale: Sintassi e semantica, espressività, complessità di valutazione. Linguaggi logici: Sintassi, semantica, valutazione bottom-up, algoritmo naive, ruolo della negazione, negazione stratificata, negazione non stratificata, espressività, complessità, ottimizzazione delle interrogazioni, basi di dati deduttive ed attive. Vincoli e normalizzazione: vincoli, vincoli di chiave (interna ed esterna), dipendenze funzionali, dipendenze multivalore, dipendenze di congiunzione (Join Dependencies), forme normali (2NF, 3NF, BCNF, 4NF, 5NF), decomposizione senza perdita di dipendenze funzionali e di informazione, uso dell’algoritmo chase per la verifica di possibile perdita di informazioni, algoritmi di normalizzazione. Transazioni: Concetto di transazione, correttezza, consistenza ed atomicità, serializzabilità, conflict-serizlizability, view-serializability, two-phase-locking, time stamps, atomicità, recupero dello stato consistente, operazioni di commit e check point, strict-two-phase-commit. Basi di Dati Distribuite: Architettura, problemi, deadlock, locking distribuito, commit distribuito. Dati incompleti ed inconsistenti: valori nulli, inconsistenza ed incompletezza dei dati, vincoli TGD e EGD, riparazioni, calcolo delle risposte consistenti, uso dell’algoritmo chase per la riparazione di basi di dati. Data Mining e Knowledge Discovery: motivazioni e principi, apprendimento induttivo vs. inferenziale, caratterizzazione e relazioni con altre discipline (statistica, machine learning, pattern recognition, information retrieval, etc.); Tecniche e metodi di Clustering, Classificazione/Predizione, Association Mining; Text Mining: modelli di rappresentazione del testo, misure di prossimità, basi di conoscenza lessicali, misure di correlazione semantica; Metodologie e misure per la validazione di pattern di conoscenza estratti; Panoramica su aspetti avanzati di Data Mining e problematiche recenti: uncertain data mining, clustering ensemble, subspace clustering, ranking e mining su reti informative omogenee ed eterogenee (es. social networks, bibliographical networks). Argomenti delle esercitazioni: - Interrogazione di basi di dati in Algebra Relazionale ed SQL Interrogazione di basi di dati mediante il Calcolo Relazionale Interrogazione di basi di dati in Datalog positivo Interrogazione di basi di dati in Datalog con negazione Normalizzazione di basi di dati Verifica delle serializzabilità di scheduling Knowledge discovery and data/text mining tools, knowledge bases (Weka, Cluto, WordNet) Argomenti delle attività di laboratorio: Modalità di frequenza: OBBLIGATORIA Modalità di erogazione: Modalità di svolgimento delle lezioni: In aula, con metodologie tradizionali e con l’eventuale uso del proiettore collegato al PC. Modalità di svolgimento delle esercitazioni: In aula, con metodologie tradizionali e con l’eventuale uso del proiettore collegato al PC. Metodi di valutazione: Prova scritta, Prova Orale, Progetto Testi di riferimento: - P. Atzeni, S. Ceri, S. Paraboschi, R. Torlone, Basi di dati – architetture e linee di evoluzione, McGraw Hill. - A. Silberschatz, H. F. Korth, S. Sudarshan, Database System concepts, McGraw Hill. - S. Greco, C. Molinaro, F. Spezzano, Incomplete Data and Data Dependencies in Relational Databases, Morgan&Claypool Publisher. - J. Han, M. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann. - M. Steinbach, P.-N. Tan, V. Kumar, Introduction to Data Mining. Addison Wesley. Orario e aule lezioni: Calendario prove valutazione: www.dimes.unical.it