Metodi e applicazioni di tecniche per il miglioramento della qualità

CSI-Piemonte
Consorzio per il Sistema Informativo
Metodi e applicazioni di tecniche per il
miglioramento della qualità dei dati
Silvana Raffa CSI-Piemonte
Paolo Missier School of Computer Science University of
Manchester
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
11
Sommario
• Esigenze progettuali ed azioni intraprese
• Dai requisiti di qualità sui dati alle metodologie per implementarli
nel contesto CSI
• Un corso interno su qualità dell’informazione: perché e come
• Metodi, tecniche e strumenti per la Qualità dei Dati: esempi di
applicazioni in CSI Piemonte
• Certificazione di qualità per data marketing
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
22
Esigenze progettuali ed azioni intraprese
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
33
Esigenze Progettuali
• Nel corso del 2003 abbiamo rilevato esigenze progettuali di analisi
della qualità dei dati e di bonifica dei dati, non solo nella
costruzione di Data Warehouse, ma anche in relazione ad ODS e a
Basi Dati operazionali.
• Per rispondere a queste esigenze siamo intervenuti su
due fronti:
Tecniche e strumenti
Aspetti metodologici
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
44
Azioni Intraprese
Tecniche e strumenti: nell’ambito del laboratorio
Business Intelligence della Regione Piemonte, è stato
testato un tool di Data Quality compatibile con
l’architettura decisionale già disponibile e sono state
sperimentate tecniche di intervento per l’analisi della
qualità dei dati e la bonifica dei dati.
Metodi: sono state proposte azioni metodologiche
sulla qualità dei dati nel progetto regionale
Valorizzazione dati del SIRe
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
55
Tipologia di azioni previste
A z io n i s u i D A T I
A z io n i d i b r e v e t e rm in e
A z io n i d i m e d io t e r m in e
A z i o n i m i g li o r a t i v e s u l C e n s i m e n t o b a s i d a t i
( v e r s i o n i n g e s e r v i z i a p p l i c a t i v i)
M a p p a t u r a o r ie n t a ta a i d a ti
T a v o l e T r a s v e r s a li
R a c c o r d o d e l " T e o r i c o " c o n " l 'E s i s t e n t e
http://intranet.csi.it/prog/banchedati/datitrasv.
htm
L a Q u a lità d e i D a ti
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
66
Dai requisiti di qualità sui dati alle metodologie
per implementarli nel contesto CSI
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
77
Il “ciclo virtuoso” delle metodologie
esperienza pregressa
4.
• Generalizzazione
• Caratterizzazione del contesto
• Differenziazione
• Criteri di scelta per la validazione
1. Ipotesi di metodo
2. Applicazione e
validazione
3. Analisi e revisione
Top-down
Bottom-up
Case studies
locali
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
88
Requisiti sui dati
Requisiti sui dati
Requisiti di qualità
sui dati
struttura
comportamento
modellazione
Modello dei dati
Vincoli sui dati
Regole di accesso e uso
Logica di alimentazione
…
??
Progettazione
e realizzazione
Schemi e vincoli
processi, workflows
flussi dati
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
99
Esempi di requisiti sui dati
• I dati relativi all’inquinamento dell’aria a livello comunale devono
fluire dai sistemi di rilevazione ai sistemi di analisi entro un tempo
predefinito
– Questo tempo e’ determinato ad es. dalla necessità di prendere
decisioni tempestive;
• affinche’ questi dati siano utilizzabili da parte dei sistemi di
decisione, e’ necessario che una certa percentuale minima dei
valori rilevati sia significativa
– i valori devono essere credibili
centraline
garanzia di funzionamento delle
cosa faccio dei miei dati se il 20% delle
centraline non funziona? e se non funziona il
50%? cosa accade ai miei modelli
decisionali?
Direzione Banche Dati, Sistemi Decisionali, Atenei
Sono requisiti di
• correttezza
• completezza
• tempestività
Seminario Dati - 14/04/2005
10
10
Altri requisiti sui dati – Analisi dell’obbligo
formativo
•
L’obbligo formativo è competenza della Regione, del MIUR e delle
Province
–
–
–
•
Problema: stima dei dispersi (uno dei nostri case studies)
–
•
Regione: costituzione dell’anagrafe (fornire gli strumenti per ottemperare all’obbligo di legge)
MIUR: coordinamento delle attività delle scuole nella fornitura dati ad AOF
Province: fornire i dati di Formazione Professionale ed Apprendistato ad AOF e coordinare attività di
monitoraggio, orientamento e controllo dispersione
“dispersi”: coloro che, pur essendo in età di obbligo formativo non “frequentano”, ovvero sono “fuori
dal sistema scolastico e formativo”
Soluzione: costruisco un’anagrafe centralizzata per il monitoraggio dei
ragazzi rispetto al loro inserimento in un percorso formativo
Requisito dati di più alto livello: accuratezza – tramite l’anagrafe è possibile
individuare tutti i dispersi
“se uno studente non frequenta, l’anagrafe lo sa, e
se l’anagrafe indica uno studente come disperso, e’ vero”
Anche questi sono requisiti di
- correttezza
- completezza
- tempestività
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
11
11
Contestualizzare i requisiti
1)
BD
Scuole
Requisiti simili,
due diversi contesti:
Cosa cambia?
BD
Formazione
Professionale
BD
Apprendistato
BPR
(CIA)
Caricamento –PL/SQL
–
giornaliero
Province
Centri Impiego
-Monitoraggio
-Orientamento
-Controllo dispersione
BD
Obbligo
Formativo
Inserimento /
Aggiornamento
puntuale
Centri
Per l’impiego
2)
dati
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
12
12
Metodologie
Metodologia: insieme di passi
necessari per
- esplicitare gli obiettivi
- esplicitare i vincoli tecnologici
- esplicitare i vincoli business
... e garantire che il sistema
realizzi gli obiettivi,
dati i vincoli
Non esiste una metodologia
unica:
il contesto del sistema e’ la
discriminante
Obiettivi
Progetto
del sistema
vincoli
tecnologici
(tecniche)
vincoli
business
(org, budget…)
metodi
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
13
13
Le domande chiave
1 - Definizione dei requisiti:
• Quanta tempestivita’, correttezza, completezza sono necessarie?
• Quanto mi costano questi requisiti?
• Quanto rendono?
• Chi e’ in grado di rispondere?
• Chi e’ responsabile di questi requisiti?
• A che punto del ciclo di vita del sistema?
• Un sistema fornisce un servizio: che relazione c’e’ tra qualita’ del
servizio e qualita’ dei dati?
2- Elaborazione dei requisiti:
Come possiamo trasferire questi requisiti verso il sistema?
Questi requisiti non sono comunemente presi in considerazione
Non ci sono modelli formali maturi
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
14
14
Definizione del contesto
Definiamo un insieme di coordinate utili per caratterizzare lo spazio dei progetti di
sistema informativo rispetto ai quali definiamo i nostri passi metodologici
1. Distribuzione, eterogeneita’, autonomia
• il sistema e’ isolato, cooperativo, integrato…?
2. Dipendenze dovute a dati altrui -- complessita’ delle interazioni
• Indicano quanto controllo un sistema ha sui propri dati:
Quali requisiti di qualita’ sono implementabili?
Quanti sono al di fuori del controllo del sistema?
AOF
3. Fase del progetto e uso dell’informazione
• Evoluzione di un sistema in esercizio
• Migrazione di un sistema esistente
• Nuovo progetto / manut. evolutiva
4. Uso dell’informazione:
• OLAP :analitico (DW)
• OLTP: gestionale
Direzione Banche Dati, Sistemi Decisionali, Atenei
GMS
Seminario Dati - 14/04/2005
15
15
Esempio: dipendenze dati e controllo
Consumo dati a monte e vincoli di gestione
Distribuzione dati a
valle
e vincoli di gestione
Sistema
indipendent
e
[…]
Sistema
indipendent
e
[…]
Sistema
molto
vincolato
Zona
DW
Sistema
molto
vincolante
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
16
16
Metodologie diverse per scenari diversi
Dipendenze dati e controllo (consumer/producer)
alta
bassa
Fase del progetto
nuovo
Esercizio /
Manut. Ev.
migrazione
Caso AOF
Caso ATC GMS
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
17
17
AOF: Analisi Obbligo Formativo
BD
Formazione
Professionale
BD
Scuole
BD
Apprendistato
BPR
(CIA)
Caricamento – PL/SQL giornaliero
Province
Centri Impiego
BD
Obbligo
Formativo
-Monitoraggio
-Orientamento
-Controllo dispersione
Inserimento /
Aggiornamento
puntuale
Centri
Per l’impiego
Dettagli
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
18
18
DQ-CFM(*) /1
1.Mappatura dati
e processi
1.1 Matrice fornitori / fruitori / organizzazioni /
servizi
1.2 Grafo di dipendenza processi / dati
1.3 Matrice stakeholders, utenti / servizi (es
responsabili di progetti che fruiscono
dell’anagrafica)
2.Esplicitazione qualitativa
obiettivi di qualità
2.1 Identificazione degli Information Groups
critici (IG) e loro aspettative di qualità
2.2 Identificazione shortcomings dei servizi
rispetto agli IG (punto di vista
utente/stakeholders)
(*) Adattato da materiale del Prof. Batini
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
19
19
DQ-CFM /2
3 (a) Analisi delle cause:
flussi e processi
3 (b) Assessment sperimentale
stato della qualità: dati
3a.1 Analisi cause della scarsa qualita’
(basato sull’analisi dei flussi e dei dati –
vedi passo 1)
3b.1 Identificazione delle tecniche di
misurazione e obiettivi dell’assessment
sperimentale
3b.2 Esecuzione dell’esercizio di
assessment
3b.3 Analisi dei risultati sperimentali
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
20
20
DQ-CFM /3
4. Gap analysis
e individuazione degli interventi
per la qualità:
• basati sui dati
• basati sui processi
4.1 Gap analysis, ipotesi di interventi di
miglioramento e analisi delle loro priorità
relative.
4.2 Formalizzazione di metriche e requisiti
4.3 Definizione delle tecniche di intervento e
degli indicatori di successo
4.4 Analisi predittiva di impatto interventi / dati
/ processi (analisi dello spazio delle soluzioni)
4.5 Analisi predittiva costi / benefici
5. Implementazione progressiva
e monitoraggio dell’efficacia
5.1 Verifica sperimentale, progressiva e
periodica degli indicatori di successo
(Ritorna al passo 3…)
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
21
21
Studio di caso 2- ATC
FdR
GMS
SF
NAO
GMS
GMR
Toponomastica
BPR
AAEP
SITAD
Integrazione con FdR
RAS
Integrazione con SF
Database
Servizi Applicativi
Funzioni
Online
Erogazione
Servizi
Aggiornamenti
Gestionali
Tributi
Commercio
Open
Agenzia
Entrate
dettagli
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
22
22
Fase del progetto
Una metodologia adatta per ATC GMS
•
•
•
Dipendenze dati e controllo (consumer/producer)
alta
bassa
Nuovo
Esercizio/
Manut.evol.
migrazione
Caso AOF
Caso ATC GMS
Migrazione: riprogettazione del data layer ed eventualmente di funzionalità dei
layer superiori.
Risponde a nuovi requisiti funzionali e architetturali sui dati che sono impliciti in fasi
diverse durante lo sviluppo
La migrazione del data layer in GMS e’ accompagnata da un processo di
integrazione di fonti prima non disponibili
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
23
23
Distinzione tra tipi di requisiti
1: Requisiti
iniziali
Condizioni necessarie per
realizzare la migrazione dati
Requisiti
core
Analisi
&
esercizio
Requisiti
utente
Requisiti
normativi
Dal sistema
Esistente
in esercizio
Dal nuovo
sistema
L’esercizio rivela
carenze che vengono
tradotte in nuovi requisiti
di qualità
2: Analisi carenze
Di qualità
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
24
24
Es. Fasi del processo di migrazione
Architettura iniziale
Schemi di partenza
(fisici, logici, concettuali)
Dati di
partenza
Analisi e
pianificazone
della
migrazione
Analisi
architettura
target
Specifiche architetturali
- Schemi target e relativi vincoli
- funzionalita’ di gestione dati
Revisione modello in fase di
migrazione
- affronta eccezioni non pianificate
Modello di migrazione:
- Regole di mapping tra schemi
- Specifica delle funzioni di trasformazione dati
- Definizione strategia di migrazione (one-off, incrementale…)
Realizzazione
modello di
migrazione
Nel caso GMS, si tratta
di architettura di
integrazione
Sviluppo
Architettura target
Migrazione dati
Schemi
Una o piu’ iterazioni, in caso di
migrazione per componenti in fasi
successive
Direzione Banche Dati, Sistemi Decisionali, Atenei
Dati
migrati
Esercizio
Seminario Dati - 14/04/2005
25
25
Esempio: Fasi di migrazione e requisiti core
1. Requisiti “core”
Architettura iniziale
Schemi di partenza
(fisici, logici, concettuali)
Dati di
partenza
Identificazione
obiettivi e tecniche di
assessment dati
(pulizia, riconciliazione)
Analisi e
pianificazone
della
migrazione
Definizione obiettivi
di qualita’ minimi
Report analisi
qualita’
Esecuzione degli
interventi di
assessment
Modello di migrazione:
- Regole di mapping tra schemi
- Specifica delle funzioni di trasformazione dati
- Definizione strategia di migrazione (one-off, incrementale…)
• Criteri di successo effettivi
• Limiti del modello
• Specifiche per la gestione
delle eccezioni durante la
migrazione dati
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
26
26
Un corso interno su qualità
dell’informazione: perché e come
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
27
27
Il corso interno sulla qualità dei dati
Rispetto allo schema visto prima:
Il nostro corso ha inteso
Ciclo
• fornire un vocabolario per esprimere gli obiettivi
metodologie
• descrivere delle tecniche
• fornire un punto di partenza per lo sviluppo di metodologie
Uno degli obiettivi del workshop finale del corso e’ di innescare il processo
iterativo
• la fase bottom-up va supportata tramite altri progetti pilota sufficientemente
significativi
Quello che occorre e’ un “incubatore”
Un centro di responsabilita’ per lo sviluppo di queste linee guida
Simile a quanto avviene per le metodologie di sviluppo di sistemi SW
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
28
28
Metodi, tecniche e strumenti per la
Qualità dei Dati: esempi di applicazioni in
CSI Piemonte
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
29
29
Anagrafe Obbligo Formativo
• Centralizza le anagrafiche degli allievi provenienti da diverse fonti
(canali formativi e anagrafi):
SCUOLA
CIA
ANAGRAFE
DELL’OBBLIGO
FORMATIVO
APPRENDISTATO
FORMAZIONE
PROFESSIONALE
•
L’alimentazione è giornaliera
•
Ogni fonte contiene una sua anagrafica degli allievi
•
Ogni allievo dovrebbe comparire una sola volta e viene identificato tramite Codice
Fiscale
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
30
30
Anagrafe Obbligo Formativo: gli obiettivi ed i problemi
Obiettivo principale: contenere la dispersione aiutando e orientando il
soggetto insolvente agli obblighi di legge, a maturare una scelta
formativa (scuola, formazione professionale, apprendistato).
Metodo: estrazione periodica di allievi in età di obbligo formativo che
risultano non frequentare corsi scolastici, di formazione
professionale o di apprendistato.
E’ poi compito dei Centri per l’Impiego individuare e contattare i
soggetti a rischio ed effettuare tutte le azioni di orientamento
previste dalla legge
Problemi emersi:
numerosi casi di “falsi dispersi”!
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
31
31
Bonifica Dati Obbligo Formativo: Analisi dei problemi
• Completezza: le banche dati dei canali formativi contengono tutti i
dati di frequenza?
– Se un allievo è iscritto a scuola, viene registrato nella Banca Dati
Scuole?
• Tempestività: i dati di frequenza sono inseriti in tempo utile per la
rilevazione dei dispersi?
• Correttezza: un allievo nell’Anagrafe Obbligo Formativo viene
identificato correttamente?
• lo stesso allievo viene registrato più volte con CF diverso se
frequenta non lo riesco a rilevare!
• non vengono registrati gli eventi “deceduto” o “trasferito fuori
regione” risulta disperso
mancata identificazione dell’allievo!
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
32
32
Bonifica Dati Obbligo Formativo: Attività
1. Applicazione di metodologie di miglioramento basate
sui dati
• Controlli formali sui campi
correttezza formale del codice fiscale, coerenza del codice fiscale con i
dati anagrafici, coerenza del sesso con il nome, ecc..
COD_FISC
• Individuazione delle anagrafiche ripetute
Applicazione di tecniche di “record matching”
individuazione gruppi di record simili (cluster group)
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
33
33
Bonifica Dati Obbligo Formativo: Attività
2. Applicazione di metodologie di miglioramento basate
sui processi
•
Riprogettazione della base dati Anagrafe Centrale dell'Obbligo
Formativo per includere metadati di controllo qualità dei dati
BD
Obbligo
Formativo
Metadati
di
Qualità
Nuova Anagrafe
ObbligoFormativo
• Riprogettazione dei flussi di alimentazione provenienti dalle varie fonti
introducendo tecniche di controllo dati ed applicando le stesse funzionalità
di "data quality" utilizzate nella fasi di bonifica dati
BD
Scuole
BD
Formazione
Professionale
BD
Apprendistato
CIA
Procedure di alimentazione + controllo qualità dei dati
Nuova Anagrafe
Obbligo
Formativo
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
34
34
Bonifica Dati Obbligo Formativo: Attività
Risoluzione dei record simili
• Definizione dei criteri per l’individuazione di un soggetto
valido all’interno di un cluster group
– Applicazione di un sistema di pesi e misure che determinano un ranking
dei record di un cluster group
• Confronto con la realtà
– Creazione di output contenenti anomalie sui dati da inviare alle scuole per
consentirne il controllo/correzione
– Creazione di output contenenti anagrafiche ripetute da verificare in
collaborazione con le scuole e agenzie formative per ottenere un controllo
sui dati e la validazione dei criteri di individuazione record valido.
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
35
35
Dati Anagrafici Persone Fisiche AOF: il matching
DATA_
SESSO NASCITA LUOGO_NASCITA
M
07/0X/19XX AOSTA
M
07/0X/19XX AOSTA
RES_INDIRIZZO
STRADA DEL FORTINO, 25
STR. DEL FORTINO, 25
RES_DESCOM
TORINO
TORINO
CARPANO MAGLIOLI FRANCESCA
CARPANO MAGLIOLO FRANCESCA
F
F
02/0X/19XX TORINO
02/0X/19XX BIELLA
VIA CASTELLAZZO, 17/B
VIA CASTELLAZZO 17/B
OCCHIEPPO SUPERIORE XXX/2593722
OCCHIEPPO SUPERIORE XXX-2593722
TRRJCPXXX09A182H
TRGJCPXXX09A182O
TRGJCPXXX09D969A
TORRIGGIA
TORIGGIA
TORIGGIA
JACOPO
JACOPO
JACOPO
M
M
M
09/1X/19XX ALESSANDRIA
09/1X/19XX ALESSANDRIA
09/1X/19XX GENOVA
VIA A. GRAMSCI, 31/1
VIA GRAMSCI
VIAGRAMSCI
PREDOSA
PREDOSA
PREDOSA
TRNGLMXXX20A638K
TRNGLMXXX20A638W
TRNGLMXXX25A638W
TRAINA
TRAINA
TRAINA
GIROLAMO
GIROLAMO
GIROLAMO
M
M
M
20/0X/19XX BARCELLONA POZZO DI GOTTO (ME) VIA BRANDIZZO 80 0
20/0X/19XX BARCELLONA POZZO DI GOTTO
VIA BRANDIZZO, 80
20/0X/19XX BARCELLONA POZZO DI GOTTO
VIA BRANDIZZO 20
TORINO
TORINO
TORINO
XXX5909687
GLLFRCXXXX7B019S
GLLFRRXXXX7D216H
GALLOTTO
GALLOTTO
FEDERICO
FEDERRICO
M
M
07/1X/19XX BORGOMANERO
07/1X/19XX CUREGGIO
VICOLO VOLTA, 8
VIVOLO VOLTA, 8
CUREGGIO
CUREGGIO
XXXX-839766
XXXX839766
SMNSTEXXXX1A590I
STESMNXXXX1A590R
SIMONE
SETI
SETI
SIMONE
M
M
01/0X/19XX BALDISSERO CANAVESE
01/0X/19XX BALDISSERO CANAVESE
VIA SANDRO PERTINI, 4
VIA SANDRO PERTINI, 4
VISTRORIO
VISTRORIO
XXX-7042939
XXXX/789543
BBTNHLXXX14A479I
BTANHLXXX14A479N
ABBATE
ABATE
NICHOLAS
NICHOLAS
M
M
14/0X/19XX ASTI
14/0X/19XX ASTI
BALUARDO MONTEBELLO, 11 SAN DAMIANO D'ASTI
VIA B. MONTEBELLO, 11
SAN DAMIANO D'ASTI
MRDMRMXXX44E379D MUREDDU
MRDMYMXXX44A859Z MUREDDU
MIRIAM
MYRIAM
F
F
04/0X/19XX IVREA
04/0X/19XX BIELLA
PIAZZA BALLARIO 3
PIAZZA BALLARIO, 3
ALICE CASTELLO
ALICE CASTELLO
BRBLSNXXX18A662P
BRBLNDXXX18A662N
BRBLSNXXX18L219B
BARBERIO
BARBERIO
BARBERIO
ALESSANDRO M
ALESANDRO M
ALESSANDRO M
18/0X/19XX BARI (BA)
18/0X/19XX BARI
18/0X/19XX TORINO
VIA C.D. PRIOCCA 20 0
VIA PRIOCCA, 20
VIA PRIOCCA, 20
TORINO
TORINO
TORINO
XXX5212119
TMNLRNXXX66A182O
TMMLRNXXX26A182I
TUMINELLI
TUMMINELLI
LORENA
LORENA
26/0X/19XX ALESSANDRIA
26/0X/19XX ALESSANDRIA
CASALE 10
VIA CASALE, 19
MONTEMAGNO
MONTEMAGNO
XXXX63507
XXXX/63507
COD_FISCALE
HLYMTTXXX07A326R
HUXLMTXXX07A326E
COGNOME
HU LIYI
HU
CRPFNCXXX42L219N
CRPFNCXXX42A859U
NOME
MATTEO
LI YI MATTEO
F
M
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
RES_
TELEFONO
XXXX/71393
XXXX71393
XXXX-971560
36
36
Normalizzazione indirizzi: alcuni esempi
Prototipo georeferenziazione AAEP
Obiettivo: localizzare puntualmente le sedi delle aziende di 20 comuni campione su un
supporto cartografico, determinandone la posizione geografica mediante le informazioni
relative all’indirizzo associato.
Attività:
– Normalizzazione indirizzi aziende
– “Match” con Stradario Unico Regionale
Risultati: sono stati normalizzati e associati ai dati dello stradario regionale il 98.3%
degli indirizzi sul totale dei record appartenenti al campione (30.000 ca.).
Normalizzazione indirizzi Bollo Auto
Obiettivo: comporre un indirizzo che rispetti le regole postali
Attività:
– Bonifica dati di Provincia, Comune, CAP: verifica coerenza, correzione anomalie,
completamento informazioni mancanti (tramite “match” con la tavola trasversale
Limiti Amministrativi)
– Normalizzazione indirizzi (separazione del numero civico dall’indirizzo)
Risultati: sono stati bonificati il 99,5% dei record anomali e sono stati normalizzati il
96,4% degli indirizzi (3.000.000 ca.).
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
37
37
Indirizzi AAEP: il match con lo Stradario Unico Regionale
AAEP
INDIRIZ Z O
CIVICO CIVICO_N
INDIRIZ Z O_ST RADARIO
IST AT _
ST RAD
ARIO
001090
C/ O MARTELLA S.-VIA DE AMICIS
46
46
VIA DE AMICIS EDMONDO
001090
001219
C/ O IDRO STOP - VIA ALBENGA
94
94
VIA ALBENGA
001219
CODICE_IST AT
T OPONIMO
001120
CORSO ALLAMANO CANONICO GIUSEPPE
001120
DE AMICIS 18 ANG.CORSO ANTONY
18
VIA DE AMICIS EDMONDO
001090
001265
KM.0,500 AUTOSTRADA TO-MI
KM.0,500
AUTOSTRADA TORINO MILANO
001265
001265
KM.0,500 AUT.TORINO MILANO
KM.0,500
AUTOSTRADA TORINO MILANO
001265
VIA ARNO
001219
001090
C/ O COMAU - CORSO ALLAMANO
VIA
001219
VIA
ARNO 14 ANGOLO VIA PISA 4
14
001135
STS
460 KM. 21+300
KM. 21+300 STRADA STATALE 460 DI CERESOLE
001135
001265
VIA
F.LLI ROSSELLI ANG.V.AMENDOLA
VIA ROSSELLI FRATELLI
001265
001265
VIA
CAV.TEDESCHI 6 ANG.VIA CATANIA
6
VIA TEDESCHI VIRGILIO CAVALIERE
001265
TANG. SUD KM. 20.5
KM. 20.5
TANGENZIALE SUD
001219
001219
STRADARIO
REGIONALE
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
38
38
Bollo Auto: Indirizzi normalizzati
IN D IR IZZO
7A V S DA BRIA
S STATALE 231 3/C
S.S.31 DEL MONFERRATO 11
KM 29.923, SS SAVONA
1 S.P.88 PER GIARDINETTO
SNC S.S.10 PADANA OVEST
1BIS,STR.STATALE 26
17 C.SO FLLI BANDIERA
4 PZZA FLLI BANDIERA BIS
21 FNE VILLATA
9 F NE LORETO
SNC CDA FORMICA
44 CDA LA VILLA
1 PZZA S C DA SIENA
12 CNA OTTINI
CNA QUAGLIETTA SN
8 V L DA VINCI
72BIS STR. SETTIMO
IN D IR IZZO_N
STRADA BRIA
STRADA STATALE 231
STRADA STATALE 31 DEL MONFERRATO
STRADA STATALE SAVONA
STRADA PROVINCIALE 88 PER GIARDINETTO
STRADA STATALE 10 PADANA OVEST
STRADA STATALE 26
CORSO FRATELLI BANDIERA
PIAZZA FRATELLI BANDIERA
FRAZIONE VILLATA
FRAZIONE LORETO
CONTRADA FORMICA
CONTRADA LA VILLA
PIAZZA SANTA CATERINA DA SIENA
CASCINA OTTINI
CASCINA QUAGLIETTA
VIA LEONARDO DA VINCI
STRADA SETTIMO
Direzione Banche Dati, Sistemi Decisionali, Atenei
CIVICO_
N
7
3
11
CIVICO_
AD D _N
A
C
KM
KM 29,923
1
SNC
1
17
4
21
9
SNC
44
1
12
SN
8
72
BIS
BIS
BIS
Seminario Dati - 14/04/2005
39
39
Anagrafe Tributaria Comunale - situazione attuale
Centralizza le anagrafiche dei contribuenti, persone fisiche e giuridiche,
per i diversi sistemi informativi tributari (ICI, TARSU, ICIAP,CIMP,
COSAP) e per la divisione commercio (SIAP)
Anagrafe Tributaria Comunale – dati anagrafici
DEMOGRAFIA
ANAGRAFE INTEGRATIVA
Anagrafica
Contribuente
Residenti
Persona Fisica
Indirizzo di
Residenza
Anagrafica
Contribuente
Persona Fisica
Domicilio
Fiscale
Anagrafica
Contribuente
Persona
Giuridica
Direzione Banche Dati, Sistemi Decisionali, Atenei
Indirizzo di
Residenza
(soggetti non
residenti in
Torino)
Seminario Dati - 14/04/2005
40
40
Anagrafe Tributaria Comunale: problematiche sui dati
• I dati di Demografia sono garantiti, di elevata qualità e
aggiornati in tempo reale sulla base della movimentazione
interna alla città esclusivamente dalla Divisione Servizi
Demografici
• I dati di Anagrafe integrativa invece non sono dotati di
elevata qualità, la provenienza dell’ informazione è poco
qualificata e il ritardo dell’informazione è molto variabile
Duplicazione dei soggetti
Indirizzi non bonificati e codificati
Problematiche legate alle Anagrafiche Provvisorie
Codice fiscale non certificato
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
41
41
Anagrafe tributaria comunale - evoluzione
Migrazione del sistema da Mainframe ad Open
– Riprogettazione del Sistema:
ATC Gestione Centralizzata Mondo Soggetti (GMS)
FdR
SF
NAO
GMS
GMR
Toponomastica
BPR
AAEP
SITAD
Integrazione con FdR
RAS
Integrazione con SF
Database
Servizi Applicativi
Funzioni
Online
Erogazione
Servizi
Aggiornamenti
Gestionali
Tributi
Commercio
Open
Agenzia
Entrate
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
42
42
Anagrafe tributaria comunale – Attività
Applicazione di metodologie di miglioramento basate sui dati
•
Assessment di qualità su ATC
•
registrazione delle anagrafiche simili nella base dati per consentire una
successiva risoluzione on-line dei duplicati
•
normalizzazione degli indirizzi
Introduzione delle funzionalità di Data Quality nel processo di ETL del porting
Applicazione di metodologie di miglioramento basate sui processi
Introduzione delle funzionalità di Data Quality
• negli applicativi di data entry tramite API
• nei processi massivi di acquisizione flussi esterni
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
43
43
Dati Anagrafici Persone Giuridiche ATC: il matching
COD_FISC_
CONTRIB
NATGIUR
DES_INDIR_DOM_FISC
COD_COMU
_DOM_FISC
01869240018 ALESSANDRIA SNC DI MASSOBRIO & C.
SOCIETA' IN NOME COLLETTIVO
CORSO D'AZEGLIO MASSIMO 10
0020002
80129480010 ALESSANDRIA DI MASSOBRIO E C. SNC
SOCIETA' IN NOME COLLETTIVO
CORSO D'AZEGLIO MASSIMO 10
0020002
02541150013 S.T.A STUDIO TERMOTECNICO ASSOCIATO DI REVELLI E BASSO
SOCIETA' IN NOME COLLETTIVO
CORSO PESCHIERA 337
0020002
05208410018 S.T.A.STUDIO TERMOTECN.ASSOC.DI BASSO BETTI REVELLI & C.
SOCIETA' IN ACCOMANDITA SEMPLICE
CORSO PESCHIERA 337
0020002
05451420011 DANDY SAS DI CASTELLI SERGIO & C.
SOCIETA' IN ACCOMANDITA SEMPLICE
VIA MORETTA 30
0020002
05580980018 DANDY COMPANY SAS DI CASTELLI SERGIO & C.
SOCIETA' IN ACCOMANDITA SEMPLICE
VIA MORETTA 30
0020002
00580330041 GALLO ANTICHITA' DI GALLO ANTONIO & C. SNC
SOCIETA' IN NOME COLLETTIVO
VIA ASTI,4
0037224
01518500010 GALLO ANTICHITA' DI GALLO ANTONIO E C. SNC
SOCIETA' IN NOME COLLETTIVO
VIA ASTI,4
0037224
00733860159 GIANETTI SPA IN AMMINISTRAZIONE STRAORDINARIA
SOCIETA' PER AZIONI
CORSO RE UMBERTO 8
0020002
00934460619 GIANETTI SUD SPA IN AMMINISTRAZIONE STRAORDINARIA
SOCIETA' PER AZIONI
CORSO RE UMBERTO 8
0020002
07800930013 FITNESS SPORT GYM SAS DI NARDI MARCO & C.
SOCIETA' IN ACCOMANDITA SEMPLICE
VIA PORPORA NICOLA 39
0020002
06116570018 FITNESS SPORT SAS DI NARDI MARCO & C.
SOCIETA' IN ACCOMANDITA SEMPLICE
VIA PORPORA NICOLA 39
0020002
97500700014 ASSOCIAZIONE NAZIONALE COMUNITA' DI LAVORO SAZ. REGIONALE
ASSOCIAZIONE RICONOSCIUTA
VIA PRINCIPE TOMMASO 18
0020002
97500710013 ASSOCIAZIONE NAZIONALE COMUNITA'DI LAVORO SEZ.PROVINCIALE
ASSOCIAZIONE RICONOSCIUTA
VIA PRINCIPE TOMMASO 18
0020002
03757330018 ASSOCIAZIONE NAZIONALE COMUNITA'DI LAVORO SEZ.PROVINCIALE
ASSOCIAZIONE RICONOSCIUTA
VIA PRINCIPE TOMMASO 18
0020002
01917210013 ASSISERVICE SAS DI L. SEBASTIANELLI'P. SPESSA E C.
SOCIETA' IN ACCOMANDITA SEMPLICE
CORSO VITTORIO EMANUELE II 74 0020002
06275110010 ASSISERVICE SAS DI CUFFARO R.,SEBASTIANELLI L., SPESSA P.,
SOCIETA' IN ACCOMANDITA SEMPLICE
CORSO VITTORIO EMANUELE II 74 0020002
02541150013 S.T.A STUDIO TERMOTECNICO ASSOCIATO DI REVELLI E BASSO
SOCIETA' IN NOME COLLETTIVO
CORSO PESCHIERA 337
0020002
05208410018 S.T.A.STUDIO TERMOTECN.ASSOC.DI BASSO BETTI REVELLI & C.
SOCIETA' IN ACCOMANDITA SEMPLICE
CORSO PESCHIERA 337
0020002
DES_DENOM_SOC
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
44
44
Certificazione di qualità per data
marketing
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
45
45
Certificazione di qualita’ - Uno scenario emergente
•
•
Il sistema informativo della PA sta evolvendo in senso cooperativo:
– Definizione di flussi informativi tra sistemi diversi a supporto di workflow
complessi e inter-amministrazione
– Evoluzione tecnica dei SI a supporto della cooperazione (sistemi basati
su servizi, accessibili tramite interfacce standard)
Scambio sistematico di dati di importanza strategica per le amministrazioni
Più importante è l’informazione ottenuta da terzi,
più rilevante è il problema della sua qualità
• Tuttavia:
– Chi riceve dati, attualmente non ha nessuna informazione sulla loro
qualità
- Scenari analoghi si sviluppano nei data marketplaces
- La qualità diventa una delle discriminanti importanti
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
46
46
Basi per la certificazione di qualita’
• Come può un fornitore di servizi informativi offire garanzie di
qualità dei propri dati?
• L’intero bagaglio di conoscenze sull’analisi della qualità dati si
applica a questa problematica
Qualche risposta dal mondo della ricerca:
tecniche e standard per la certificazione di qualità
•
•
•
•
Cos’è un certificato di qualità dei dati?
Come viene generato?
Quanto costa produrlo?
Cosa occorre per raggiungere uno
standard?
• Chi garantisce?
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
47
47
Metadati – Dublin Core
Un utile punto di partenza
un insieme standard di metadati di riferimento
Dublin Core (http://dublincore.org)
Definisce un insieme minimale di metadati, piu’ delle estensioni
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
48
48
Metadati core
Contributor
An entity responsible for making contributions to the content of the resource.
Coverage:
The extent or scope of the content of the resource.
Creator:
An entity primarily responsible for making the content of the resource.
Date:
A date associated with an event in the life cycle of the resource.
Description:
An account of the content of the resource.
Format:
The physical or digital manifestation of the resource.
Identifier:
Resource Identifier
Language:
A language of the intellectual content of the resource.
Publisher:
An entity responsible for making the resource available
Relation:
A reference to a related resource.
Rights:
Information about rights held in and over the resource.
Source:
A reference to a resource from which the present resource is derived.
Subject:
The topic of the content of the resource.
Type:
The nature or genre of the content of the resource.
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
49
49
Verso una certificazione di qualità per i dati
Implementazione
dei servizi offerti
Sistema A
Interfaccia
dei servizi
Contratto
livelli di servizio
+
Flusso dati
+
Contratto
qualità dei dati
S.I. utente delle
risorse di A
+
Certificato
di qualità
Risorse dati
Anagrafe
Consistenza
Tempestività
Ci si attende che questo scenario
fornisca motivazioni forti per nuovi
investimenti in progetti di qualità
dell’informazione
Direzione Banche Dati, Sistemi Decisionali, Atenei
Seminario Dati - 14/04/2005
50
50