Dipartimento: DIMES
Corso di Laurea: INGEGNERIA
Indirizzo Internet Corso di Laurea: www.dimes.unical.it
Nome insegnamento: Basi di dati e scoperta di conoscenza
Condivisione:
Articolazione in moduli: NO
Settore Scientifico Disciplinare: ING-INF/05
Docente responsabile: SERGIO GRECO
Posizione docente responsabile:
Professore Ordinario
Crediti formativi universitari: 9
Numero ore riservate attività didattiche assistite: 84
Numero ore lezioni: 50
Numero ore esercitazioni: 25
Numero ore attività di laboratorio:
Numero ore riservate studio individuale: 142
Tipologia: ATTIVITA’ CARATTERIZZANTE – INGEGNERIA INFORMATICA
Lingua di insegnamento: ITALIANO
Collocazione: II Anno, I Semestre
Prerequisiti:
Obiettivi formativi (risultati d’apprendimento previsti e competenze da acquisire – Descrittori di Dublino):
Il corso approfondisce le metodologie e le tecniche delle basi di dati ed introduce alle tecniche di analisi dei dati.
Argomenti delle lezioni:
Introduzione: Richiami sul modello relazionale ed i linguaggi di interrogazione (Algebra Relazionale e SQL).
Gestione dei dati: Architettura del DBMS, memorizzazione dei dati, Indici, strutture hashing, valutazione del costo di
accesso.
Ottimizzazione delle interrogazioni: Ottimizzazione fisica e ottimizzazione algebrica, piano di esecuzione, algoritmi di
esecuzione di join.
Calcolo Relazionale: Sintassi e semantica, espressività, complessità di valutazione.
Linguaggi logici: Sintassi, semantica, valutazione bottom-up, algoritmo naive, ruolo della negazione, negazione
stratificata, negazione non stratificata, espressività, complessità, ottimizzazione delle interrogazioni, basi di dati
deduttive ed attive.
Vincoli e normalizzazione: vincoli, vincoli di chiave (interna ed esterna), dipendenze funzionali, dipendenze multivalore, dipendenze di congiunzione (Join Dependencies), forme normali (2NF, 3NF, BCNF, 4NF, 5NF),
decomposizione senza perdita di dipendenze funzionali e di informazione, uso dell’algoritmo chase per la verifica di
possibile perdita di informazioni, algoritmi di normalizzazione.
Transazioni: Concetto di transazione, correttezza, consistenza ed atomicità, serializzabilità, conflict-serizlizability,
view-serializability, two-phase-locking, time stamps, atomicità, recupero dello stato consistente, operazioni di
commit e check point, strict-two-phase-commit.
Basi di Dati Distribuite: Architettura, problemi, deadlock, locking distribuito, commit distribuito.
Dati incompleti ed inconsistenti: valori nulli, inconsistenza ed incompletezza dei dati, vincoli TGD e EGD, riparazioni,
calcolo delle risposte consistenti, uso dell’algoritmo chase per la riparazione di basi di dati.
Data Mining e Knowledge Discovery: motivazioni e principi, apprendimento induttivo vs. inferenziale,
caratterizzazione e relazioni con altre discipline (statistica, machine learning, pattern recognition, information
retrieval, etc.); Tecniche e metodi di Clustering, Classificazione/Predizione, Association Mining; Text Mining: modelli
di rappresentazione del testo, misure di prossimità, basi di conoscenza lessicali, misure di correlazione semantica;
Metodologie e misure per la validazione di pattern di conoscenza estratti; Panoramica su aspetti avanzati di Data
Mining e problematiche recenti: uncertain data mining, clustering ensemble, subspace clustering, ranking e mining
su reti informative omogenee ed eterogenee (es. social networks, bibliographical networks).
Argomenti delle esercitazioni:
-
Interrogazione di basi di dati in Algebra Relazionale ed SQL
Interrogazione di basi di dati mediante il Calcolo Relazionale
Interrogazione di basi di dati in Datalog positivo
Interrogazione di basi di dati in Datalog con negazione
Normalizzazione di basi di dati
Verifica delle serializzabilità di scheduling
Knowledge discovery and data/text mining tools, knowledge bases (Weka, Cluto, WordNet)
Argomenti delle attività di laboratorio:
Modalità di frequenza: OBBLIGATORIA
Modalità di erogazione:
Modalità di svolgimento delle lezioni:
In aula, con metodologie tradizionali e con l’eventuale uso del proiettore collegato al PC.
Modalità di svolgimento delle esercitazioni:
In aula, con metodologie tradizionali e con l’eventuale uso del proiettore collegato al PC.
Metodi di valutazione: Prova scritta, Prova Orale, Progetto
Testi di riferimento:
- P. Atzeni, S. Ceri, S. Paraboschi, R. Torlone, Basi di dati – architetture e linee di evoluzione, McGraw Hill.
- A. Silberschatz, H. F. Korth, S. Sudarshan, Database System concepts, McGraw Hill.
- S. Greco, C. Molinaro, F. Spezzano, Incomplete Data and Data Dependencies in Relational Databases,
Morgan&Claypool Publisher.
- J. Han, M. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann.
- M. Steinbach, P.-N. Tan, V. Kumar, Introduction to Data Mining. Addison Wesley.
Orario e aule lezioni:
Calendario prove valutazione:
www.dimes.unical.it