DECIMA CONFERENZA NAZIONALE DI
STATISTICA
Un “diluvio di dati”: una nuova sfida per la
qualità delle statistiche
Carlo Filippucci
Dipartimento di Scienze Statistiche-Università di
Bologna
[email protected]
Il contesto
• Vicenda sociale connotata da: articolazione e
da interrelazioni crescenti; aumento
eterogeneità degli agenti sociali; turbolenza
delle dinamiche
• Le necessità conoscitive che la statistica
ufficiale deve soddisfare più ampie, articolate
perché riferite a fenomeni nuovi, più
complessi e diversificati.
• Difficoltà - del Sistan
- a cogliere esigenze e domanda
utilizzatori
il contesto
• Difficoltà del Sistan
1.Debolezza della funzione statistica e della
governance delle infrastrutture statistiche
2.Difficoltà ad affrontare le esigenze di uno stato
fondato su una articolazione regionale
3.Eterogeneità di soluzioni locali
Qualche novità nell’informazione : il diluvio
Sovrabbondanza di informazioni in larga
parte di origine amministrativa – gestionale
• Inimmaginabile e crescente disponibilità di
informazioni in formato elettronico
• Sempre maggiore numero di enti e soggetti
privati che raccolgono, conservano, elaborano
informazioni
pervasiva “industrial revolution of data”
Qualche novità nell’informazione : in principio oggi in futuro

Disponibilità e Utilizzo Fonti Amministrative e
della PA
- basi dati fiscali, previdenziali, assicurative,
- bilanci enti pubblici
- Basi dati sanità
- Basi dati ambientali……

Progressiva estensione a molti fenomeni

Utilizzo sempre più esteso da parte di Istat, di
molti enti ed ai livelli territoriali più piccoli
Qualche novità nell’informazione : oggi e in futuro
 Presenza di un numero sempre più ampio di
soggetti indipendenti che raccolgono dati:
Qualche esempio
• Distribuzione commerciale: Wall Mart: 1 mln di
transazioni al giorno = 2,5 petabytes (1 mln di GB)
• Basi dati clienti, banche /finanziarie
 …. costruiscono indicatori e fanno analisi,
producono trend macroeconomici, previsioni,
analisi dei rischi
• Oracle, IBM, Microsoft: 15 miliardi di $ acquisto
software per gestione di dati e database
Qualche novità nell’informazione : oggi e in futuro cnt.
La rivoluzione del web 2.0
• Il web diventa uno strumento per riunire i piccoli
contributi di milioni di persone e migliorarli.
• Piattaforma aperta che aumenta il libero flusso di
informazione, arricchisce gli strumenti per il
confronto politico e sociale ed amplia la diversità di
opinioni.
• Il Contenuto Creato dall’Utente cambia il modo in cui
gli utilizzatori producono, distribuiscono, accedono e
riusano l’informazione.
Qualche novità nell’informazione: i vantaggi
Sul piano sostanziale:
• Individuare, esplorare nuove problematiche arricchendo
il quadro macro
• Svelare nuovi punti di vista, approfondire e ampliare
conoscenze specie sui comportamenti individuali e
locali
• Favorire analisi e politiche microeconomiche
Per la statistica : nuovi agguerriti competitors
Annotazione in margine: le rivoluzioni
scientifiche sono state spesso precedute da
quelle nei metodi di misura e
osservazione
Qualche novità nell’informazione: i problemi
Ma anche …
Numerose e crescenti disponibilità ed utilizzazioni di
basi di dati da parte di svariati soggetti
• scoordinate,
• occasionali,
• metodologie differenziate,
• scarsa attenzione alla qualità fonti
Condizionamento
rischio di appiattirsi sulle informazioni disponibili
Qualche novità nell’informazione : Che fare ?
Distinguiamo:
– Fonti di origine burocratica e
amministrativa - tipicamente (PA ed enti
collegati)
– Altre fonti gestionali
Altre fonti gestionali : Che fare cnt.
Queste “fonti” avranno -e già hanno- un impatto
rilevante nel Paese e su come le statistiche sono
percepite e usate
• Le Statistiche ufficiali possono utilizzare queste
“fonti”?
E’ una grande sfida, ma anche una grande
opportunita‘ che richiede nuove strategie per il
sistema statistico (che cosa, come, chi, con quali
strumenti, quali tecniche)
• La statistica ufficiale può/deve interagire e come?
Altre fonti gestionali : un commento
Le statistiche ufficiali sono beni pubblici
irrinunciabili e i sistemi statistici
nazionali devono costituire il nucleo
fondamentale della conoscenza
statistica
ma
oggi bisogna affrontare la sfida
posta dalla nuova dimensione della
informazione
Altre fonti gestionali : Che fare cnt.
• Vigilanza e denuncia: un’Autority anche per
la “statistica” privata
• Codice etico per la “statistica” privata
• Guidelines per l’utilizzo a fini statistici dei
dati (tecniche, metodi, best practices)
• Accreditamento delle fonti “bollino qualità”
Altre fonti gestionali : Che fare cnt.
Ma anche:
• Nuove dimensioni qualità fonti:
Legittimità, Autorevolezza, Credibilità,
Trasparenza
dimensioni qualità
indicatori
• Criteri per definirle e misurarle
Altre fonti gestionali : nuove dimensioni della qualità
• Legittimità: conformità della fonte ad un
“codice etico” relativo alle modalità di
raccolta delle informazioni
• Autorevolezza: prestigio del produttore
della fonte da valutare secondo vari
parametri
• Credibilità-attendibilità: esistenza di
requisiti che assicurino il rispetto di metodi
e prassi della rilevazione di dati
• Trasparenza: disponibilità metadati
Fonti amministrative
Utilizzo a fini statistici - richiede ancora
lavoro e metodi (Nordbotten, 2008)
l’Istat e il sistema statistico nazionale hanno
un ruolo primario da svolgere in particolare
per orientare gli utilizzatori e su come
validare una fonte statistica
Fonti amministrative - Le Sfide
• Contribuire al disegno-architettura delle FA
• Delineare protocolli normativi e procedurali
per accesso e condivisione delle fonti
• Introdurre la valutazione dei costi uso FA e
analisi ciclo di vita FA - modelli
• Framework e metodi di integrazione indagini
e FA - dettaglio territoriale, settoriale
Fonti amministrative – un quadro normativo
Esistono serie barriere all’uso FA- da identificare e
superare
• Accesso e utilizzo FA – modelli di accordo e norme
generali
• Politiche in supporto ad accesso –informatico- e
uso FA
• Sicurezza
- privacy– consenso informato, vincoli
- confidentiality– accesso solo a chi è
autorizzato (chi, come)
- responsabilità- penalità per la violazione
Fonti
amministrative
- Lalasfida
Fonti
amministrative:
sfidadella
dellaqualità
qualitàcnt.
• Definire criteri e metodi per assicurare e
controllare la qualità delle fonti e un loro corretto
utilizzo a fini statistici
Qualche avvertenza:
• Non si può affidare ai soli detentori FA il controllo
di qualità
• il CQ non deve essere solo interno alla fonte ma
basato anche su verifiche esterne
attenzione a strategie empiriche che non sono
conclusive e limitate alle occasioni considerate
(p.e.:dati fiscali e da indagine possono combaciare
per somma algebrica di errori diversi)
Fonti amministrative: sulla qualità in particolare
Quali categorie della qualità?Letteratura scarsa
(Grünewald Körner, 2005, Statistics Finland, 2004; Wallgren
Wallgren, 2007; ESS, 2009)
• Qualità ente: legittimità, autorevolezza,
credibilità, trasparenza – vedi sopra
• Qualità processo
• Qualità informazione: pertinenza, affidabilità,
accessibilità, tempestività-puntualità, coerenza,
continuità-stabilità
Modelli per la qualità dei dati
Riferimenti utili: European Foundation for Quality
Management exellence model; European statistical
code of practice
Qualità del processo
• Ambiente in cui il processo ha luogo:
indipendenza, professionalità, risorse,
imparzialità, obbiettività
• Conduzione delle fasi di raccolta
informazione: adeguatezza metodi e
procedure di raccolta e controllo
Metodi di gestione del controllo del processo
e miglioramento continuo
Qualità informazione
• Pertinenza: corrispondenza tra i bisogni
informativi e definizioni statistiche e FA
• Affidabilità: esistenza e mantenimento di
standard secondo linee stabilite - aderenza
alla realtà
• Accuratezza: correttezza dell’informazioneerrori non campionari
• Tempestività : distanza tra disponibilità ed
eventi
• Puntualità: lag tra rilascio e riferimento
eventi
Qualità informazione cnt.
• Accessibilità: condizioni e modalità di
utilizzo (disseminazione adeguata, accesso,
documentazione – metadati).
• Coerenza: informazioni mutualmente
consistenti e integrabili
• Comparabilità: consistenza temporale,
spaziale, per i domini rilevanti
Errori
Quali errori considerare?
Errori misura e errori rappresentazione
• Documentare, calcolare, trattare gli errori e …
rimuoverli
• Linee guida e metodologie
• Modelli dell’errore totale – Census Bureau USA
Errori di misura
i) Dovuti allo strumento di misura, ai
soggetti coinvolti
ii) Dovuti al processo derivanti da:
- trattamento dei dati in seguito ai controlli
in fase di acquisizione informazione,
- trasformazione delle variabili FA in
variabili statistiche e codifiche
- applicazione di specifiche regole di
correzione e trattamento in sede di utilizzo
statistico
Errori di misura cnt.
iii) Dovuti alla diversa “qualità” e modalità di
registrazione eventi raccolti in una fonte
Diversa qualità delle variabili a causa della
maggiore attenzione produttore alle variabili
rilevanti per ente stesso - insorge per l’utilizzo di
strategie e metodi diversi per controllare le
variabili
iv) Dovuti al riferimento temporale delle
registrazioni
Gli eventi sono registrati in tempi diversi al loro
verificarsi - si genera un problema è simile a quello
delle risposte proxy
Errori di rappresentazione
Errori di copertura (né censimenti né campioni)
cutt-off, autoselezione: stima model-based
(Filippucci Drudi, 2000; Filippucci Bernardini, 2000;
Thomsen Chang, 2008)
Errori di Linking:
link mancanti (quale è il processo generatore della MRT);
link errati (Fellegi & Sunter, 1969; Arts, Bakker & Van Lith,
2000)
Errori di correzione
Se non si può ottenere un link completo tra archivi e si
ricorre a riponderazioni dei registri abbinati questo può
portare ad errori se i modelli di riponderazione non sono
adeguati
Dalla misura a posteriori al controllo del processo
• Essenziale riconoscere gli errori, documentarli,
ma soprattutto esserne avvertiti e trattarli,
chiarendo le conseguenze del trattamento
• In pratica è difficile documentare e misurare gli
errori, dipende dalla sensibilità e attenzione dei
gestori degli archivi – da sviluppare
• Il trattamento dell’errore è complesso perché è
un’attività a posteriori e non assicura contro nuovi
errori in una successiva occasione.
• Occorre passare dalla misura a posteriori
dell’errore al controllo e al miglioramento
continuo del processo di produzione
Per concludere
• L’uso delle FA e una loro integrazione nei
sistemi statistici non è una scappatoia semplice
nella produzione di una informazione
statistica moderna, articolata e diffusa sul
territorio
• L’uso statistico delle FA non è a costo zero
Analisi costi benefici
Ricerca teorica ed applicata
Criteri Metodologie e standard condivisi
Collaborazione tra enti
Ruolo più efficace del Sistan