CSI-Piemonte Consorzio per il Sistema Informativo Metodi e applicazioni di tecniche per il miglioramento della qualità dei dati Silvana Raffa CSI-Piemonte Paolo Missier School of Computer Science University of Manchester Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 11 Sommario • Esigenze progettuali ed azioni intraprese • Dai requisiti di qualità sui dati alle metodologie per implementarli nel contesto CSI • Un corso interno su qualità dell’informazione: perché e come • Metodi, tecniche e strumenti per la Qualità dei Dati: esempi di applicazioni in CSI Piemonte • Certificazione di qualità per data marketing Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 22 Esigenze progettuali ed azioni intraprese Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 33 Esigenze Progettuali • Nel corso del 2003 abbiamo rilevato esigenze progettuali di analisi della qualità dei dati e di bonifica dei dati, non solo nella costruzione di Data Warehouse, ma anche in relazione ad ODS e a Basi Dati operazionali. • Per rispondere a queste esigenze siamo intervenuti su due fronti: Tecniche e strumenti Aspetti metodologici Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 44 Azioni Intraprese Tecniche e strumenti: nell’ambito del laboratorio Business Intelligence della Regione Piemonte, è stato testato un tool di Data Quality compatibile con l’architettura decisionale già disponibile e sono state sperimentate tecniche di intervento per l’analisi della qualità dei dati e la bonifica dei dati. Metodi: sono state proposte azioni metodologiche sulla qualità dei dati nel progetto regionale Valorizzazione dati del SIRe Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 55 Tipologia di azioni previste A z io n i s u i D A T I A z io n i d i b r e v e t e rm in e A z io n i d i m e d io t e r m in e A z i o n i m i g li o r a t i v e s u l C e n s i m e n t o b a s i d a t i ( v e r s i o n i n g e s e r v i z i a p p l i c a t i v i) M a p p a t u r a o r ie n t a ta a i d a ti T a v o l e T r a s v e r s a li R a c c o r d o d e l " T e o r i c o " c o n " l 'E s i s t e n t e http://intranet.csi.it/prog/banchedati/datitrasv. htm L a Q u a lità d e i D a ti Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 66 Dai requisiti di qualità sui dati alle metodologie per implementarli nel contesto CSI Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 77 Il “ciclo virtuoso” delle metodologie esperienza pregressa 4. • Generalizzazione • Caratterizzazione del contesto • Differenziazione • Criteri di scelta per la validazione 1. Ipotesi di metodo 2. Applicazione e validazione 3. Analisi e revisione Top-down Bottom-up Case studies locali Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 88 Requisiti sui dati Requisiti sui dati Requisiti di qualità sui dati struttura comportamento modellazione Modello dei dati Vincoli sui dati Regole di accesso e uso Logica di alimentazione … ?? Progettazione e realizzazione Schemi e vincoli processi, workflows flussi dati Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 99 Esempi di requisiti sui dati • I dati relativi all’inquinamento dell’aria a livello comunale devono fluire dai sistemi di rilevazione ai sistemi di analisi entro un tempo predefinito – Questo tempo e’ determinato ad es. dalla necessità di prendere decisioni tempestive; • affinche’ questi dati siano utilizzabili da parte dei sistemi di decisione, e’ necessario che una certa percentuale minima dei valori rilevati sia significativa – i valori devono essere credibili centraline garanzia di funzionamento delle cosa faccio dei miei dati se il 20% delle centraline non funziona? e se non funziona il 50%? cosa accade ai miei modelli decisionali? Direzione Banche Dati, Sistemi Decisionali, Atenei Sono requisiti di • correttezza • completezza • tempestività Seminario Dati - 14/04/2005 10 10 Altri requisiti sui dati – Analisi dell’obbligo formativo • L’obbligo formativo è competenza della Regione, del MIUR e delle Province – – – • Problema: stima dei dispersi (uno dei nostri case studies) – • Regione: costituzione dell’anagrafe (fornire gli strumenti per ottemperare all’obbligo di legge) MIUR: coordinamento delle attività delle scuole nella fornitura dati ad AOF Province: fornire i dati di Formazione Professionale ed Apprendistato ad AOF e coordinare attività di monitoraggio, orientamento e controllo dispersione “dispersi”: coloro che, pur essendo in età di obbligo formativo non “frequentano”, ovvero sono “fuori dal sistema scolastico e formativo” Soluzione: costruisco un’anagrafe centralizzata per il monitoraggio dei ragazzi rispetto al loro inserimento in un percorso formativo Requisito dati di più alto livello: accuratezza – tramite l’anagrafe è possibile individuare tutti i dispersi “se uno studente non frequenta, l’anagrafe lo sa, e se l’anagrafe indica uno studente come disperso, e’ vero” Anche questi sono requisiti di - correttezza - completezza - tempestività Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 11 11 Contestualizzare i requisiti 1) BD Scuole Requisiti simili, due diversi contesti: Cosa cambia? BD Formazione Professionale BD Apprendistato BPR (CIA) Caricamento –PL/SQL – giornaliero Province Centri Impiego -Monitoraggio -Orientamento -Controllo dispersione BD Obbligo Formativo Inserimento / Aggiornamento puntuale Centri Per l’impiego 2) dati Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 12 12 Metodologie Metodologia: insieme di passi necessari per - esplicitare gli obiettivi - esplicitare i vincoli tecnologici - esplicitare i vincoli business ... e garantire che il sistema realizzi gli obiettivi, dati i vincoli Non esiste una metodologia unica: il contesto del sistema e’ la discriminante Obiettivi Progetto del sistema vincoli tecnologici (tecniche) vincoli business (org, budget…) metodi Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 13 13 Le domande chiave 1 - Definizione dei requisiti: • Quanta tempestivita’, correttezza, completezza sono necessarie? • Quanto mi costano questi requisiti? • Quanto rendono? • Chi e’ in grado di rispondere? • Chi e’ responsabile di questi requisiti? • A che punto del ciclo di vita del sistema? • Un sistema fornisce un servizio: che relazione c’e’ tra qualita’ del servizio e qualita’ dei dati? 2- Elaborazione dei requisiti: Come possiamo trasferire questi requisiti verso il sistema? Questi requisiti non sono comunemente presi in considerazione Non ci sono modelli formali maturi Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 14 14 Definizione del contesto Definiamo un insieme di coordinate utili per caratterizzare lo spazio dei progetti di sistema informativo rispetto ai quali definiamo i nostri passi metodologici 1. Distribuzione, eterogeneita’, autonomia • il sistema e’ isolato, cooperativo, integrato…? 2. Dipendenze dovute a dati altrui -- complessita’ delle interazioni • Indicano quanto controllo un sistema ha sui propri dati: Quali requisiti di qualita’ sono implementabili? Quanti sono al di fuori del controllo del sistema? AOF 3. Fase del progetto e uso dell’informazione • Evoluzione di un sistema in esercizio • Migrazione di un sistema esistente • Nuovo progetto / manut. evolutiva 4. Uso dell’informazione: • OLAP :analitico (DW) • OLTP: gestionale Direzione Banche Dati, Sistemi Decisionali, Atenei GMS Seminario Dati - 14/04/2005 15 15 Esempio: dipendenze dati e controllo Consumo dati a monte e vincoli di gestione Distribuzione dati a valle e vincoli di gestione Sistema indipendent e […] Sistema indipendent e […] Sistema molto vincolato Zona DW Sistema molto vincolante Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 16 16 Metodologie diverse per scenari diversi Dipendenze dati e controllo (consumer/producer) alta bassa Fase del progetto nuovo Esercizio / Manut. Ev. migrazione Caso AOF Caso ATC GMS Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 17 17 AOF: Analisi Obbligo Formativo BD Formazione Professionale BD Scuole BD Apprendistato BPR (CIA) Caricamento – PL/SQL giornaliero Province Centri Impiego BD Obbligo Formativo -Monitoraggio -Orientamento -Controllo dispersione Inserimento / Aggiornamento puntuale Centri Per l’impiego Dettagli Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 18 18 DQ-CFM(*) /1 1.Mappatura dati e processi 1.1 Matrice fornitori / fruitori / organizzazioni / servizi 1.2 Grafo di dipendenza processi / dati 1.3 Matrice stakeholders, utenti / servizi (es responsabili di progetti che fruiscono dell’anagrafica) 2.Esplicitazione qualitativa obiettivi di qualità 2.1 Identificazione degli Information Groups critici (IG) e loro aspettative di qualità 2.2 Identificazione shortcomings dei servizi rispetto agli IG (punto di vista utente/stakeholders) (*) Adattato da materiale del Prof. Batini Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 19 19 DQ-CFM /2 3 (a) Analisi delle cause: flussi e processi 3 (b) Assessment sperimentale stato della qualità: dati 3a.1 Analisi cause della scarsa qualita’ (basato sull’analisi dei flussi e dei dati – vedi passo 1) 3b.1 Identificazione delle tecniche di misurazione e obiettivi dell’assessment sperimentale 3b.2 Esecuzione dell’esercizio di assessment 3b.3 Analisi dei risultati sperimentali Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 20 20 DQ-CFM /3 4. Gap analysis e individuazione degli interventi per la qualità: • basati sui dati • basati sui processi 4.1 Gap analysis, ipotesi di interventi di miglioramento e analisi delle loro priorità relative. 4.2 Formalizzazione di metriche e requisiti 4.3 Definizione delle tecniche di intervento e degli indicatori di successo 4.4 Analisi predittiva di impatto interventi / dati / processi (analisi dello spazio delle soluzioni) 4.5 Analisi predittiva costi / benefici 5. Implementazione progressiva e monitoraggio dell’efficacia 5.1 Verifica sperimentale, progressiva e periodica degli indicatori di successo (Ritorna al passo 3…) Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 21 21 Studio di caso 2- ATC FdR GMS SF NAO GMS GMR Toponomastica BPR AAEP SITAD Integrazione con FdR RAS Integrazione con SF Database Servizi Applicativi Funzioni Online Erogazione Servizi Aggiornamenti Gestionali Tributi Commercio Open Agenzia Entrate dettagli Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 22 22 Fase del progetto Una metodologia adatta per ATC GMS • • • Dipendenze dati e controllo (consumer/producer) alta bassa Nuovo Esercizio/ Manut.evol. migrazione Caso AOF Caso ATC GMS Migrazione: riprogettazione del data layer ed eventualmente di funzionalità dei layer superiori. Risponde a nuovi requisiti funzionali e architetturali sui dati che sono impliciti in fasi diverse durante lo sviluppo La migrazione del data layer in GMS e’ accompagnata da un processo di integrazione di fonti prima non disponibili Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 23 23 Distinzione tra tipi di requisiti 1: Requisiti iniziali Condizioni necessarie per realizzare la migrazione dati Requisiti core Analisi & esercizio Requisiti utente Requisiti normativi Dal sistema Esistente in esercizio Dal nuovo sistema L’esercizio rivela carenze che vengono tradotte in nuovi requisiti di qualità 2: Analisi carenze Di qualità Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 24 24 Es. Fasi del processo di migrazione Architettura iniziale Schemi di partenza (fisici, logici, concettuali) Dati di partenza Analisi e pianificazone della migrazione Analisi architettura target Specifiche architetturali - Schemi target e relativi vincoli - funzionalita’ di gestione dati Revisione modello in fase di migrazione - affronta eccezioni non pianificate Modello di migrazione: - Regole di mapping tra schemi - Specifica delle funzioni di trasformazione dati - Definizione strategia di migrazione (one-off, incrementale…) Realizzazione modello di migrazione Nel caso GMS, si tratta di architettura di integrazione Sviluppo Architettura target Migrazione dati Schemi Una o piu’ iterazioni, in caso di migrazione per componenti in fasi successive Direzione Banche Dati, Sistemi Decisionali, Atenei Dati migrati Esercizio Seminario Dati - 14/04/2005 25 25 Esempio: Fasi di migrazione e requisiti core 1. Requisiti “core” Architettura iniziale Schemi di partenza (fisici, logici, concettuali) Dati di partenza Identificazione obiettivi e tecniche di assessment dati (pulizia, riconciliazione) Analisi e pianificazone della migrazione Definizione obiettivi di qualita’ minimi Report analisi qualita’ Esecuzione degli interventi di assessment Modello di migrazione: - Regole di mapping tra schemi - Specifica delle funzioni di trasformazione dati - Definizione strategia di migrazione (one-off, incrementale…) • Criteri di successo effettivi • Limiti del modello • Specifiche per la gestione delle eccezioni durante la migrazione dati Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 26 26 Un corso interno su qualità dell’informazione: perché e come Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 27 27 Il corso interno sulla qualità dei dati Rispetto allo schema visto prima: Il nostro corso ha inteso Ciclo • fornire un vocabolario per esprimere gli obiettivi metodologie • descrivere delle tecniche • fornire un punto di partenza per lo sviluppo di metodologie Uno degli obiettivi del workshop finale del corso e’ di innescare il processo iterativo • la fase bottom-up va supportata tramite altri progetti pilota sufficientemente significativi Quello che occorre e’ un “incubatore” Un centro di responsabilita’ per lo sviluppo di queste linee guida Simile a quanto avviene per le metodologie di sviluppo di sistemi SW Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 28 28 Metodi, tecniche e strumenti per la Qualità dei Dati: esempi di applicazioni in CSI Piemonte Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 29 29 Anagrafe Obbligo Formativo • Centralizza le anagrafiche degli allievi provenienti da diverse fonti (canali formativi e anagrafi): SCUOLA CIA ANAGRAFE DELL’OBBLIGO FORMATIVO APPRENDISTATO FORMAZIONE PROFESSIONALE • L’alimentazione è giornaliera • Ogni fonte contiene una sua anagrafica degli allievi • Ogni allievo dovrebbe comparire una sola volta e viene identificato tramite Codice Fiscale Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 30 30 Anagrafe Obbligo Formativo: gli obiettivi ed i problemi Obiettivo principale: contenere la dispersione aiutando e orientando il soggetto insolvente agli obblighi di legge, a maturare una scelta formativa (scuola, formazione professionale, apprendistato). Metodo: estrazione periodica di allievi in età di obbligo formativo che risultano non frequentare corsi scolastici, di formazione professionale o di apprendistato. E’ poi compito dei Centri per l’Impiego individuare e contattare i soggetti a rischio ed effettuare tutte le azioni di orientamento previste dalla legge Problemi emersi: numerosi casi di “falsi dispersi”! Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 31 31 Bonifica Dati Obbligo Formativo: Analisi dei problemi • Completezza: le banche dati dei canali formativi contengono tutti i dati di frequenza? – Se un allievo è iscritto a scuola, viene registrato nella Banca Dati Scuole? • Tempestività: i dati di frequenza sono inseriti in tempo utile per la rilevazione dei dispersi? • Correttezza: un allievo nell’Anagrafe Obbligo Formativo viene identificato correttamente? • lo stesso allievo viene registrato più volte con CF diverso se frequenta non lo riesco a rilevare! • non vengono registrati gli eventi “deceduto” o “trasferito fuori regione” risulta disperso mancata identificazione dell’allievo! Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 32 32 Bonifica Dati Obbligo Formativo: Attività 1. Applicazione di metodologie di miglioramento basate sui dati • Controlli formali sui campi correttezza formale del codice fiscale, coerenza del codice fiscale con i dati anagrafici, coerenza del sesso con il nome, ecc.. COD_FISC • Individuazione delle anagrafiche ripetute Applicazione di tecniche di “record matching” individuazione gruppi di record simili (cluster group) Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 33 33 Bonifica Dati Obbligo Formativo: Attività 2. Applicazione di metodologie di miglioramento basate sui processi • Riprogettazione della base dati Anagrafe Centrale dell'Obbligo Formativo per includere metadati di controllo qualità dei dati BD Obbligo Formativo Metadati di Qualità Nuova Anagrafe ObbligoFormativo • Riprogettazione dei flussi di alimentazione provenienti dalle varie fonti introducendo tecniche di controllo dati ed applicando le stesse funzionalità di "data quality" utilizzate nella fasi di bonifica dati BD Scuole BD Formazione Professionale BD Apprendistato CIA Procedure di alimentazione + controllo qualità dei dati Nuova Anagrafe Obbligo Formativo Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 34 34 Bonifica Dati Obbligo Formativo: Attività Risoluzione dei record simili • Definizione dei criteri per l’individuazione di un soggetto valido all’interno di un cluster group – Applicazione di un sistema di pesi e misure che determinano un ranking dei record di un cluster group • Confronto con la realtà – Creazione di output contenenti anomalie sui dati da inviare alle scuole per consentirne il controllo/correzione – Creazione di output contenenti anagrafiche ripetute da verificare in collaborazione con le scuole e agenzie formative per ottenere un controllo sui dati e la validazione dei criteri di individuazione record valido. Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 35 35 Dati Anagrafici Persone Fisiche AOF: il matching DATA_ SESSO NASCITA LUOGO_NASCITA M 07/0X/19XX AOSTA M 07/0X/19XX AOSTA RES_INDIRIZZO STRADA DEL FORTINO, 25 STR. DEL FORTINO, 25 RES_DESCOM TORINO TORINO CARPANO MAGLIOLI FRANCESCA CARPANO MAGLIOLO FRANCESCA F F 02/0X/19XX TORINO 02/0X/19XX BIELLA VIA CASTELLAZZO, 17/B VIA CASTELLAZZO 17/B OCCHIEPPO SUPERIORE XXX/2593722 OCCHIEPPO SUPERIORE XXX-2593722 TRRJCPXXX09A182H TRGJCPXXX09A182O TRGJCPXXX09D969A TORRIGGIA TORIGGIA TORIGGIA JACOPO JACOPO JACOPO M M M 09/1X/19XX ALESSANDRIA 09/1X/19XX ALESSANDRIA 09/1X/19XX GENOVA VIA A. GRAMSCI, 31/1 VIA GRAMSCI VIAGRAMSCI PREDOSA PREDOSA PREDOSA TRNGLMXXX20A638K TRNGLMXXX20A638W TRNGLMXXX25A638W TRAINA TRAINA TRAINA GIROLAMO GIROLAMO GIROLAMO M M M 20/0X/19XX BARCELLONA POZZO DI GOTTO (ME) VIA BRANDIZZO 80 0 20/0X/19XX BARCELLONA POZZO DI GOTTO VIA BRANDIZZO, 80 20/0X/19XX BARCELLONA POZZO DI GOTTO VIA BRANDIZZO 20 TORINO TORINO TORINO XXX5909687 GLLFRCXXXX7B019S GLLFRRXXXX7D216H GALLOTTO GALLOTTO FEDERICO FEDERRICO M M 07/1X/19XX BORGOMANERO 07/1X/19XX CUREGGIO VICOLO VOLTA, 8 VIVOLO VOLTA, 8 CUREGGIO CUREGGIO XXXX-839766 XXXX839766 SMNSTEXXXX1A590I STESMNXXXX1A590R SIMONE SETI SETI SIMONE M M 01/0X/19XX BALDISSERO CANAVESE 01/0X/19XX BALDISSERO CANAVESE VIA SANDRO PERTINI, 4 VIA SANDRO PERTINI, 4 VISTRORIO VISTRORIO XXX-7042939 XXXX/789543 BBTNHLXXX14A479I BTANHLXXX14A479N ABBATE ABATE NICHOLAS NICHOLAS M M 14/0X/19XX ASTI 14/0X/19XX ASTI BALUARDO MONTEBELLO, 11 SAN DAMIANO D'ASTI VIA B. MONTEBELLO, 11 SAN DAMIANO D'ASTI MRDMRMXXX44E379D MUREDDU MRDMYMXXX44A859Z MUREDDU MIRIAM MYRIAM F F 04/0X/19XX IVREA 04/0X/19XX BIELLA PIAZZA BALLARIO 3 PIAZZA BALLARIO, 3 ALICE CASTELLO ALICE CASTELLO BRBLSNXXX18A662P BRBLNDXXX18A662N BRBLSNXXX18L219B BARBERIO BARBERIO BARBERIO ALESSANDRO M ALESANDRO M ALESSANDRO M 18/0X/19XX BARI (BA) 18/0X/19XX BARI 18/0X/19XX TORINO VIA C.D. PRIOCCA 20 0 VIA PRIOCCA, 20 VIA PRIOCCA, 20 TORINO TORINO TORINO XXX5212119 TMNLRNXXX66A182O TMMLRNXXX26A182I TUMINELLI TUMMINELLI LORENA LORENA 26/0X/19XX ALESSANDRIA 26/0X/19XX ALESSANDRIA CASALE 10 VIA CASALE, 19 MONTEMAGNO MONTEMAGNO XXXX63507 XXXX/63507 COD_FISCALE HLYMTTXXX07A326R HUXLMTXXX07A326E COGNOME HU LIYI HU CRPFNCXXX42L219N CRPFNCXXX42A859U NOME MATTEO LI YI MATTEO F M Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 RES_ TELEFONO XXXX/71393 XXXX71393 XXXX-971560 36 36 Normalizzazione indirizzi: alcuni esempi Prototipo georeferenziazione AAEP Obiettivo: localizzare puntualmente le sedi delle aziende di 20 comuni campione su un supporto cartografico, determinandone la posizione geografica mediante le informazioni relative all’indirizzo associato. Attività: – Normalizzazione indirizzi aziende – “Match” con Stradario Unico Regionale Risultati: sono stati normalizzati e associati ai dati dello stradario regionale il 98.3% degli indirizzi sul totale dei record appartenenti al campione (30.000 ca.). Normalizzazione indirizzi Bollo Auto Obiettivo: comporre un indirizzo che rispetti le regole postali Attività: – Bonifica dati di Provincia, Comune, CAP: verifica coerenza, correzione anomalie, completamento informazioni mancanti (tramite “match” con la tavola trasversale Limiti Amministrativi) – Normalizzazione indirizzi (separazione del numero civico dall’indirizzo) Risultati: sono stati bonificati il 99,5% dei record anomali e sono stati normalizzati il 96,4% degli indirizzi (3.000.000 ca.). Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 37 37 Indirizzi AAEP: il match con lo Stradario Unico Regionale AAEP INDIRIZ Z O CIVICO CIVICO_N INDIRIZ Z O_ST RADARIO IST AT _ ST RAD ARIO 001090 C/ O MARTELLA S.-VIA DE AMICIS 46 46 VIA DE AMICIS EDMONDO 001090 001219 C/ O IDRO STOP - VIA ALBENGA 94 94 VIA ALBENGA 001219 CODICE_IST AT T OPONIMO 001120 CORSO ALLAMANO CANONICO GIUSEPPE 001120 DE AMICIS 18 ANG.CORSO ANTONY 18 VIA DE AMICIS EDMONDO 001090 001265 KM.0,500 AUTOSTRADA TO-MI KM.0,500 AUTOSTRADA TORINO MILANO 001265 001265 KM.0,500 AUT.TORINO MILANO KM.0,500 AUTOSTRADA TORINO MILANO 001265 VIA ARNO 001219 001090 C/ O COMAU - CORSO ALLAMANO VIA 001219 VIA ARNO 14 ANGOLO VIA PISA 4 14 001135 STS 460 KM. 21+300 KM. 21+300 STRADA STATALE 460 DI CERESOLE 001135 001265 VIA F.LLI ROSSELLI ANG.V.AMENDOLA VIA ROSSELLI FRATELLI 001265 001265 VIA CAV.TEDESCHI 6 ANG.VIA CATANIA 6 VIA TEDESCHI VIRGILIO CAVALIERE 001265 TANG. SUD KM. 20.5 KM. 20.5 TANGENZIALE SUD 001219 001219 STRADARIO REGIONALE Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 38 38 Bollo Auto: Indirizzi normalizzati IN D IR IZZO 7A V S DA BRIA S STATALE 231 3/C S.S.31 DEL MONFERRATO 11 KM 29.923, SS SAVONA 1 S.P.88 PER GIARDINETTO SNC S.S.10 PADANA OVEST 1BIS,STR.STATALE 26 17 C.SO FLLI BANDIERA 4 PZZA FLLI BANDIERA BIS 21 FNE VILLATA 9 F NE LORETO SNC CDA FORMICA 44 CDA LA VILLA 1 PZZA S C DA SIENA 12 CNA OTTINI CNA QUAGLIETTA SN 8 V L DA VINCI 72BIS STR. SETTIMO IN D IR IZZO_N STRADA BRIA STRADA STATALE 231 STRADA STATALE 31 DEL MONFERRATO STRADA STATALE SAVONA STRADA PROVINCIALE 88 PER GIARDINETTO STRADA STATALE 10 PADANA OVEST STRADA STATALE 26 CORSO FRATELLI BANDIERA PIAZZA FRATELLI BANDIERA FRAZIONE VILLATA FRAZIONE LORETO CONTRADA FORMICA CONTRADA LA VILLA PIAZZA SANTA CATERINA DA SIENA CASCINA OTTINI CASCINA QUAGLIETTA VIA LEONARDO DA VINCI STRADA SETTIMO Direzione Banche Dati, Sistemi Decisionali, Atenei CIVICO_ N 7 3 11 CIVICO_ AD D _N A C KM KM 29,923 1 SNC 1 17 4 21 9 SNC 44 1 12 SN 8 72 BIS BIS BIS Seminario Dati - 14/04/2005 39 39 Anagrafe Tributaria Comunale - situazione attuale Centralizza le anagrafiche dei contribuenti, persone fisiche e giuridiche, per i diversi sistemi informativi tributari (ICI, TARSU, ICIAP,CIMP, COSAP) e per la divisione commercio (SIAP) Anagrafe Tributaria Comunale – dati anagrafici DEMOGRAFIA ANAGRAFE INTEGRATIVA Anagrafica Contribuente Residenti Persona Fisica Indirizzo di Residenza Anagrafica Contribuente Persona Fisica Domicilio Fiscale Anagrafica Contribuente Persona Giuridica Direzione Banche Dati, Sistemi Decisionali, Atenei Indirizzo di Residenza (soggetti non residenti in Torino) Seminario Dati - 14/04/2005 40 40 Anagrafe Tributaria Comunale: problematiche sui dati • I dati di Demografia sono garantiti, di elevata qualità e aggiornati in tempo reale sulla base della movimentazione interna alla città esclusivamente dalla Divisione Servizi Demografici • I dati di Anagrafe integrativa invece non sono dotati di elevata qualità, la provenienza dell’ informazione è poco qualificata e il ritardo dell’informazione è molto variabile Duplicazione dei soggetti Indirizzi non bonificati e codificati Problematiche legate alle Anagrafiche Provvisorie Codice fiscale non certificato Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 41 41 Anagrafe tributaria comunale - evoluzione Migrazione del sistema da Mainframe ad Open – Riprogettazione del Sistema: ATC Gestione Centralizzata Mondo Soggetti (GMS) FdR SF NAO GMS GMR Toponomastica BPR AAEP SITAD Integrazione con FdR RAS Integrazione con SF Database Servizi Applicativi Funzioni Online Erogazione Servizi Aggiornamenti Gestionali Tributi Commercio Open Agenzia Entrate Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 42 42 Anagrafe tributaria comunale – Attività Applicazione di metodologie di miglioramento basate sui dati • Assessment di qualità su ATC • registrazione delle anagrafiche simili nella base dati per consentire una successiva risoluzione on-line dei duplicati • normalizzazione degli indirizzi Introduzione delle funzionalità di Data Quality nel processo di ETL del porting Applicazione di metodologie di miglioramento basate sui processi Introduzione delle funzionalità di Data Quality • negli applicativi di data entry tramite API • nei processi massivi di acquisizione flussi esterni Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 43 43 Dati Anagrafici Persone Giuridiche ATC: il matching COD_FISC_ CONTRIB NATGIUR DES_INDIR_DOM_FISC COD_COMU _DOM_FISC 01869240018 ALESSANDRIA SNC DI MASSOBRIO & C. SOCIETA' IN NOME COLLETTIVO CORSO D'AZEGLIO MASSIMO 10 0020002 80129480010 ALESSANDRIA DI MASSOBRIO E C. SNC SOCIETA' IN NOME COLLETTIVO CORSO D'AZEGLIO MASSIMO 10 0020002 02541150013 S.T.A STUDIO TERMOTECNICO ASSOCIATO DI REVELLI E BASSO SOCIETA' IN NOME COLLETTIVO CORSO PESCHIERA 337 0020002 05208410018 S.T.A.STUDIO TERMOTECN.ASSOC.DI BASSO BETTI REVELLI & C. SOCIETA' IN ACCOMANDITA SEMPLICE CORSO PESCHIERA 337 0020002 05451420011 DANDY SAS DI CASTELLI SERGIO & C. SOCIETA' IN ACCOMANDITA SEMPLICE VIA MORETTA 30 0020002 05580980018 DANDY COMPANY SAS DI CASTELLI SERGIO & C. SOCIETA' IN ACCOMANDITA SEMPLICE VIA MORETTA 30 0020002 00580330041 GALLO ANTICHITA' DI GALLO ANTONIO & C. SNC SOCIETA' IN NOME COLLETTIVO VIA ASTI,4 0037224 01518500010 GALLO ANTICHITA' DI GALLO ANTONIO E C. SNC SOCIETA' IN NOME COLLETTIVO VIA ASTI,4 0037224 00733860159 GIANETTI SPA IN AMMINISTRAZIONE STRAORDINARIA SOCIETA' PER AZIONI CORSO RE UMBERTO 8 0020002 00934460619 GIANETTI SUD SPA IN AMMINISTRAZIONE STRAORDINARIA SOCIETA' PER AZIONI CORSO RE UMBERTO 8 0020002 07800930013 FITNESS SPORT GYM SAS DI NARDI MARCO & C. SOCIETA' IN ACCOMANDITA SEMPLICE VIA PORPORA NICOLA 39 0020002 06116570018 FITNESS SPORT SAS DI NARDI MARCO & C. SOCIETA' IN ACCOMANDITA SEMPLICE VIA PORPORA NICOLA 39 0020002 97500700014 ASSOCIAZIONE NAZIONALE COMUNITA' DI LAVORO SAZ. REGIONALE ASSOCIAZIONE RICONOSCIUTA VIA PRINCIPE TOMMASO 18 0020002 97500710013 ASSOCIAZIONE NAZIONALE COMUNITA'DI LAVORO SEZ.PROVINCIALE ASSOCIAZIONE RICONOSCIUTA VIA PRINCIPE TOMMASO 18 0020002 03757330018 ASSOCIAZIONE NAZIONALE COMUNITA'DI LAVORO SEZ.PROVINCIALE ASSOCIAZIONE RICONOSCIUTA VIA PRINCIPE TOMMASO 18 0020002 01917210013 ASSISERVICE SAS DI L. SEBASTIANELLI'P. SPESSA E C. SOCIETA' IN ACCOMANDITA SEMPLICE CORSO VITTORIO EMANUELE II 74 0020002 06275110010 ASSISERVICE SAS DI CUFFARO R.,SEBASTIANELLI L., SPESSA P., SOCIETA' IN ACCOMANDITA SEMPLICE CORSO VITTORIO EMANUELE II 74 0020002 02541150013 S.T.A STUDIO TERMOTECNICO ASSOCIATO DI REVELLI E BASSO SOCIETA' IN NOME COLLETTIVO CORSO PESCHIERA 337 0020002 05208410018 S.T.A.STUDIO TERMOTECN.ASSOC.DI BASSO BETTI REVELLI & C. SOCIETA' IN ACCOMANDITA SEMPLICE CORSO PESCHIERA 337 0020002 DES_DENOM_SOC Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 44 44 Certificazione di qualità per data marketing Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 45 45 Certificazione di qualita’ - Uno scenario emergente • • Il sistema informativo della PA sta evolvendo in senso cooperativo: – Definizione di flussi informativi tra sistemi diversi a supporto di workflow complessi e inter-amministrazione – Evoluzione tecnica dei SI a supporto della cooperazione (sistemi basati su servizi, accessibili tramite interfacce standard) Scambio sistematico di dati di importanza strategica per le amministrazioni Più importante è l’informazione ottenuta da terzi, più rilevante è il problema della sua qualità • Tuttavia: – Chi riceve dati, attualmente non ha nessuna informazione sulla loro qualità - Scenari analoghi si sviluppano nei data marketplaces - La qualità diventa una delle discriminanti importanti Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 46 46 Basi per la certificazione di qualita’ • Come può un fornitore di servizi informativi offire garanzie di qualità dei propri dati? • L’intero bagaglio di conoscenze sull’analisi della qualità dati si applica a questa problematica Qualche risposta dal mondo della ricerca: tecniche e standard per la certificazione di qualità • • • • Cos’è un certificato di qualità dei dati? Come viene generato? Quanto costa produrlo? Cosa occorre per raggiungere uno standard? • Chi garantisce? Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 47 47 Metadati – Dublin Core Un utile punto di partenza un insieme standard di metadati di riferimento Dublin Core (http://dublincore.org) Definisce un insieme minimale di metadati, piu’ delle estensioni Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 48 48 Metadati core Contributor An entity responsible for making contributions to the content of the resource. Coverage: The extent or scope of the content of the resource. Creator: An entity primarily responsible for making the content of the resource. Date: A date associated with an event in the life cycle of the resource. Description: An account of the content of the resource. Format: The physical or digital manifestation of the resource. Identifier: Resource Identifier Language: A language of the intellectual content of the resource. Publisher: An entity responsible for making the resource available Relation: A reference to a related resource. Rights: Information about rights held in and over the resource. Source: A reference to a resource from which the present resource is derived. Subject: The topic of the content of the resource. Type: The nature or genre of the content of the resource. Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 49 49 Verso una certificazione di qualità per i dati Implementazione dei servizi offerti Sistema A Interfaccia dei servizi Contratto livelli di servizio + Flusso dati + Contratto qualità dei dati S.I. utente delle risorse di A + Certificato di qualità Risorse dati Anagrafe Consistenza Tempestività Ci si attende che questo scenario fornisca motivazioni forti per nuovi investimenti in progetti di qualità dell’informazione Direzione Banche Dati, Sistemi Decisionali, Atenei Seminario Dati - 14/04/2005 50 50