Titolo: "Tecniche, Algoritmi e Tool per la Qualità dei Dati"

Titolo: "Tecniche, Algoritmi e Tool per la Qualità dei Dati"
Docente: Angela Bonifati, Consiglio Nazionale delle Ricerche
Obiettivi formativi
Obiettivo del corso è di mettere a conoscenza degli studenti alcune delle tecniche, algoritmi e
strumenti usati nelle basi di dati per garantire la qualità dei dati stessi. Molto spesso le istanze delle
basi di dati sono soggette a errori, dovuti a informazione incompleta o a inesattezze di
trasposizione.
Un aspetto importante nei sistemi informativi è quello di integrare diverse sorgenti di dati
eterogenee tra di loro, ma tale integrazione non può avere luogo se il formato dei dati è
disomogeneo oppure se i dati stessi contengono errori e inconsistenze.
Descrizione degli argomenti del corso
I dati cosiddetti ‘grezzi’ possono avere molte disomogeneità, che rendono difficile il processo di
integrazione e quello di estrazione della conoscenza. In sostanza, la qualità dell’integrazione è
fortemente influenzata dalla qualità delle istanze sottoposte ad integrazione e la stessa osservazione
vale per l’analisi dei dati finalizzata all’estrazione di conoscenza. Il corso verterà (tra gli altri) sui
seguenti argomenti:
•
•
•
•
•
•
•
Definizione della qualita’ dei dati e problemi correlati ( tra cui duplicate detection, record
identification, lineage tracing, duplicate elimination)
Tecniche di trasformazione, estrazione e caricamento dei dati (Processi ETL)
Tecniche di matching e join approssimati (metriche di similarità basate su caratteri, su
token, sulla fonetica etc.)
Algoritmi per il rilevamento di duplicati (duplicate detection)
Ottimizzazione delle tecniche di duplicate detection
Strumenti per il data cleaning
Analisi della letteratura (e.g. [Cong07, Galhardas01, Raman01, Labrinidis01,
Hernàndez98]) per comprendere i problemi aperti e le direzioni di ricerca.
Modalità d’insegnamento
Il corso si svolgera’ nella prima parte con la modalità tradizionale, ovvero con una serie di lezioni
frontali tenute dalla docente. Per quanto quanto riguarda la seconda parte, si prevedono una serie di
seminari e presentazioni tenute dagli studenti. Potrebbe anche essere possibile svolgere un progetto
software comune.
Prerequisiti
Il corso è rivolto agli studenti di Dottorato e non prevede particolari requisiti, se non le conoscenze
al livello avanzato dei corsi di Basi di Dati, Tecniche Avanzate di Programmazione, Sistemi
Semantici e Sistemi di Elaborazione.
Alcuni Riferimenti
[Cong07] Gao Cong, Wenfei Fan, Floris Geerts, Xibei Jia, Shuai Ma. Improving Data Quality:
Consistency and Accuracy, In Proc. of VLDB Conference 2007.
[Galhardas01] Helena Galhardas, Daniela Florescu, Dennis Shasha, Eric Simon, and CristianAugustin Saita “Declarative data cleaning: language, model, and algorithms”, In Proc. of VLDB
Conference 2001.
[Hernàndez98] M.A. Hernàndez and S.J. Stolfo, “Real-World Data Is Dirty: Data Cleansing and the
Merge/Purge Problem,” Data Mining and Knowledge Discovery, vol. 2, no. 1, pp. 9-37, Jan. 1998.
[Labrinidis01] A.Labrinidis and N.Roussopoulos “Update propagation strategies for improving the
quality of data on the Web”. In Proc. of VLDB Conference 2001.
[Raman01] V. Raman and J. M. Hellerstein “Potter's Wheel: an Interactive Data Cleaning System”,
In Proc. of VLDB Conference 2001.
Alcuni Testi di Riferimento
[RonCody99] R. Cody. Cody's Data Cleaning Techniques Using SAS® Software, O’Really ed.,
http://safari.oreilly.com/9781580256001
[Kimball04] R. Kimball, J. Caserta. The Data Warehouse ETL Toolkit, J.Wiley&Sons.
[Dasu03] Tamraparni Dasu, Theodore Johnson. Exploratory Data Mining and Data Cleaning,
Wiley-InterScience.
[Batini06] Carlo Batini, Monica Scannapieco. Data Quality: Concepts, Methodologies and
Techniques, Sprinter.