Titolo: "Tecniche, Algoritmi e Tool per la Qualità dei Dati" Docente: Angela Bonifati, Consiglio Nazionale delle Ricerche Obiettivi formativi Obiettivo del corso è di mettere a conoscenza degli studenti alcune delle tecniche, algoritmi e strumenti usati nelle basi di dati per garantire la qualità dei dati stessi. Molto spesso le istanze delle basi di dati sono soggette a errori, dovuti a informazione incompleta o a inesattezze di trasposizione. Un aspetto importante nei sistemi informativi è quello di integrare diverse sorgenti di dati eterogenee tra di loro, ma tale integrazione non può avere luogo se il formato dei dati è disomogeneo oppure se i dati stessi contengono errori e inconsistenze. Descrizione degli argomenti del corso I dati cosiddetti ‘grezzi’ possono avere molte disomogeneità, che rendono difficile il processo di integrazione e quello di estrazione della conoscenza. In sostanza, la qualità dell’integrazione è fortemente influenzata dalla qualità delle istanze sottoposte ad integrazione e la stessa osservazione vale per l’analisi dei dati finalizzata all’estrazione di conoscenza. Il corso verterà (tra gli altri) sui seguenti argomenti: • • • • • • • Definizione della qualita’ dei dati e problemi correlati ( tra cui duplicate detection, record identification, lineage tracing, duplicate elimination) Tecniche di trasformazione, estrazione e caricamento dei dati (Processi ETL) Tecniche di matching e join approssimati (metriche di similarità basate su caratteri, su token, sulla fonetica etc.) Algoritmi per il rilevamento di duplicati (duplicate detection) Ottimizzazione delle tecniche di duplicate detection Strumenti per il data cleaning Analisi della letteratura (e.g. [Cong07, Galhardas01, Raman01, Labrinidis01, Hernàndez98]) per comprendere i problemi aperti e le direzioni di ricerca. Modalità d’insegnamento Il corso si svolgera’ nella prima parte con la modalità tradizionale, ovvero con una serie di lezioni frontali tenute dalla docente. Per quanto quanto riguarda la seconda parte, si prevedono una serie di seminari e presentazioni tenute dagli studenti. Potrebbe anche essere possibile svolgere un progetto software comune. Prerequisiti Il corso è rivolto agli studenti di Dottorato e non prevede particolari requisiti, se non le conoscenze al livello avanzato dei corsi di Basi di Dati, Tecniche Avanzate di Programmazione, Sistemi Semantici e Sistemi di Elaborazione. Alcuni Riferimenti [Cong07] Gao Cong, Wenfei Fan, Floris Geerts, Xibei Jia, Shuai Ma. Improving Data Quality: Consistency and Accuracy, In Proc. of VLDB Conference 2007. [Galhardas01] Helena Galhardas, Daniela Florescu, Dennis Shasha, Eric Simon, and CristianAugustin Saita “Declarative data cleaning: language, model, and algorithms”, In Proc. of VLDB Conference 2001. [Hernàndez98] M.A. Hernàndez and S.J. Stolfo, “Real-World Data Is Dirty: Data Cleansing and the Merge/Purge Problem,” Data Mining and Knowledge Discovery, vol. 2, no. 1, pp. 9-37, Jan. 1998. [Labrinidis01] A.Labrinidis and N.Roussopoulos “Update propagation strategies for improving the quality of data on the Web”. In Proc. of VLDB Conference 2001. [Raman01] V. Raman and J. M. Hellerstein “Potter's Wheel: an Interactive Data Cleaning System”, In Proc. of VLDB Conference 2001. Alcuni Testi di Riferimento [RonCody99] R. Cody. Cody's Data Cleaning Techniques Using SAS® Software, O’Really ed., http://safari.oreilly.com/9781580256001 [Kimball04] R. Kimball, J. Caserta. The Data Warehouse ETL Toolkit, J.Wiley&Sons. [Dasu03] Tamraparni Dasu, Theodore Johnson. Exploratory Data Mining and Data Cleaning, Wiley-InterScience. [Batini06] Carlo Batini, Monica Scannapieco. Data Quality: Concepts, Methodologies and Techniques, Sprinter.