Nome insegnamento: Basi di dati e scoperta di conoscenza
Articolazione in moduli: no
Settore Scientifico Disciplinare: ING-INF/05
Docente responsabile:
SERGIO GRECO
Crediti formativi universitari: 9
Numero ore lezioni: 50
Numero ore riservate attività didattiche assistite: 75 Numero ore esercitazioni: 25
Numero ore attività di laboratorio:
Tipologia di attività formativa (TAF): ATTIVITA’ CARATTERIZZANTE
Lingua di insegnamento: Italiano
Anno di corso e Periodo didattico di erogazione: II ANNO- I SEMESTRE
Insegnamento/i Propedeutico/i:
Risultati d’apprendimento previsti e competenze da acquisire:
Il corso approfondisce le metodologie e le tecniche delle basi di dati ed introduce alle tecniche di analisi
dei dati.
Argomenti delle lezioni:
Introduzione: Richiami sul modello relazionale ed i linguaggi di interrogazione (Algebra Relazionale e
SQL).
Gestione dei dati: Architettura del DBMS, memorizzazione dei dati, Indici, strutture hashing, valutazione
del costo di accesso.
Ottimizzazione delle interrogazioni: Ottimizzazione fisica e ottimizzazione algebrica, piano di esecuzione,
algoritmi di esecuzione di join.
Calcolo Relazionale: Sintassi e semantica, espressività, complessità di valutazione.
Linguaggi logici: Sintassi, semantica, valutazione bottom-up, algoritmo naive, ruolo della negazione,
negazione stratificata, negazione non stratificata, espressività, complessità, ottimizzazione delle
interrogazioni, basi di dati deduttive ed attive.
Vincoli e normalizzazione: vincoli, vincoli di chiave (interna ed esterna), dipendenze funzionali,
dipendenze multi-valore, dipendenze di congiunzione (Join Dependencies), forme normali (2NF, 3NF,
BCNF, 4NF, 5NF), decomposizione senza perdita di dipendenze funzionali e di informazione, uso
dell’algoritmo chase per la verifica di possibile perdita di informazioni, algoritmi di normalizzazione.
Transazioni: Concetto di transazione, correttezza, consistenza ed atomicità, serializzabilità, conflictserizlizability, view-serializability, two-phase-locking, time stamps, atomicità, recupero dello stato
consistente, operazioni di commit e check point, strict-two-phase-commit.
Basi di Dati Distribuite: Architettura, problemi, deadlock, locking distribuito, commit distribuito.
Dati incompleti ed inconsistenti: valori nulli, inconsistenza ed incompletezza dei dati, vincoli TGD e EGD,
riparazioni, calcolo delle risposte consistenti, uso dell’algoritmo chase per la riparazione di basi di dati.
Data Mining e Knowledge Discovery: motivazioni e principi, apprendimento induttivo vs. inferenziale,
caratterizzazione e relazioni con altre discipline (statistica, machine learning, pattern recognition,
information retrieval, etc.); Tecniche e metodi di Clustering, Classificazione/Predizione, Association
Mining; Text Mining: modelli di rappresentazione del testo, misure di prossimità, basi di conoscenza
lessicali, misure di correlazione semantica; Metodologie e misure per la validazione di pattern di
conoscenza estratti; Panoramica su aspetti avanzati di Data Mining e problematiche recenti: uncertain
data mining, clustering ensemble, subspace clustering, ranking e mining su reti informative omogenee ed
eterogenee (es. social networks, bibliographical networks).
Argomenti delle esercitazioni:
- Interrogazione di basi di dati in Algebra Relazionale ed SQL
- Interrogazione di basi di dati mediante il Calcolo Relazionale
- Interrogazione di basi di dati in Datalog positivo
- Interrogazione di basi di dati in Datalog con negazione
- Normalizzazione di basi di dati
- Verifica delle serializzabilità di scheduling
- Knowledge discovery and data/text mining tools, knowledge bases (Weka, Cluto, WordNet)
Modalità di erogazione della didattica:
Modalità di svolgimento delle lezioni:
In aula, con metodologie tradizionali e con l’eventuale uso del proiettore collegato al PC.
Modalità di svolgimento delle esercitazioni:
In aula, con metodologie tradizionali e con l’eventuale uso del proiettore collegato al PC.
Metodi di valutazione:
Prova scritta, Prova Orale, Progetto
Criteri di valutazione dell’apprendimento:
Criteri di misurazione dell’apprendimento:
Criteri di attribuzione del voto finale:
Testi di riferimento e materiale didattico utilizzato e consigliato:
P. Atzeni, S. Ceri, S. Paraboschi, R. Torlone, Basi di dati – architetture e linee di evoluzione, McGraw Hill.
- A. Silberschatz, H. F. Korth, S. Sudarshan, Database System concepts, McGraw Hill.
- S. Greco, C. Molinaro, F. Spezzano, Incomplete Data and Data Dependencies in Relational Databases, Morgan&Claypool
Publisher.
- J. Han, M. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann.
- M. Steinbach, P.-N. Tan, V. Kumar, Introduction to Data Mining. Addison Wesley
Orario e aule lezioni:
Calendario prove valutazione:
http://www.dimes.unical.it/index.php/didattica