La qualità dell`informazione statistica nell`era digitale

ISTITUTO NAZIONALE
DI STATISTICA
La qualità
dell’informazione
statistica nell’era digitale
Luigi Fabbris
Università di Padova
Comstat
1
Schema della presentazione
1.
2.
3.
4.
5.
Premesse: big data; censimenti continui e anagrafi
Qualità dei dati statistici e qualità dei processi di formazione
dei dati
Le competenze necessarie e la competenza da riconoscere
agli statistici
Big data vs. big brother: riservatezza vs. democrazia nell’uso
dei dati
Alcune conclusioni
2
Big data




Tanti dati, grazie all’informatizzazione dei servizi sociali e degli
scambi economici: dati amministrativi utilizzati a fini statistici
(es: comunicazioni obbligatorie del Ministero del Lavoro)
Collegamento tra archivi per relazionare informazioni (es:
censimento istituzioni non-profit: unite quasi 30 fonti
amministrative o statistiche) o per fare archivi più grandi (es:
anagrafe nazionale della popolazione)
Sistemi informativi invece di indagini statistiche (es: censimento
continuo della popolazione)
 Cambio epocale nella gestione dei dati statistici  Nuovi
rapporti tra cittadino/impresa/istituzione e informazione
pubblica  sistemi informativi e SISTAN
3
Qualità dei dati statistici
Dimensioni:
Validità del processo produttivo delle statistiche:


◦
◦





Tempestività
Economicità
Affidabilità del processo: fornire informazioni attendibili
Utilità: i dati prodotti devono essere coerenti con le attese
degli stakeholder (es: CNUIS)
Oppure, semplificando,
Efficienza tecnico-economica del processo produttivo
(tempestività, economicità, affidabilità)
Efficacia dei dati prodotti (utilità)
4
Attendibilità dei dati
Copertura dell’insieme atteso

◦
◦
◦
Completezza unitaria: tutti i record devono essere presenti
Copertura informativa: tutte le variabili inerenti ad un record devono
essere presenti
Copertura del fenomeno atteso: i dati registrati corrispondono agli
obiettivi conoscitivi
Corrispondenza al vero delle informazioni riportate:

◦
◦
◦
Precisione campionaria: il campione deve essere selezionato secondo
metodologia e sufficientemente ampio (si applica alle indagini statistiche)
Accuratezza del microdato: i singoli dati registrati devono
corrispondere al vero
Accuratezza del macrodato: le statistiche pubblicate devono
corrispondere al valore atteso (verosimili)
5
Completezza
Affermazione: se i dati sono contenuti in una base di dati
informatica, sono perfetti. Niente di più sbagliato.
 Esempio: nel 1981 si confrontarono i risultati del censimento
della popolazione con i dati anagrafici: circa 1.500.000 italiani
erano sfuggiti al censimento e all’anagrafe ne mancavano circa
930.000; dopo gli aggiustamenti, 2,7% mancava al censimento
e un altro 2,7% mancava all’anagrafe.
 Da 1991, l’Istat non ha più pubblicato i dati sul confronto
anagrafe-censimento
  Ogni statistica è affetta da errore, si può solo
cercare di padroneggiare l’errore.

6
Il Sistan: sistema glocal
Tanti produttori di dati: se i dati derivano dall’ambito locale,
devono transitare dall’Ufficio di statistica per una
“certificazione” (validation)
Rete di utilizzatori, ad ogni livello, locale e nazionale, inserita in
reti internazionali (UE, OECD, ….)
Ruolo fondamentale dell’Istat:



◦
◦
◦
Codifica dei processi di produzione: passare da record di eventi a record
di unità statistiche (es: occupati nelle CO)
Metadati, definizioni per analizzare e confrontare
Formazione dei certificatori di dati che passano attraverso il Sistan
Ruolo nuovo anche per l’accademia

◦
Rimodellare le competenze degli statistici per i nuovi processi di
produzione dei dati, cultura della qualità del dato
7
Progetto PLUG_IN




PLUG_IN: Professional Life of University Graduates INformation system
OBIETTIVO
Creare un prototipo di sistema informativo-statistico
che descrive carriera universitaria, storia lavorativa
(CO) ed economica (UNIEMENS-INPS) dei laureati
Sistema informativo = sistema di indicatori
statistici

OBIETTIVI

Informare, ogni anno, sull’efficacia della formazione
acquisita dai laureati (valutazione corsi di studio)
Misurare il valore sociale restituito dai laureati al
mondo del lavoro e della produzione (”quanto vale
una laurea?”: orientamento “strategico”)

8
Come è stato creato Plug_In
1.
2.
3.
Convenzioni tra Università di Padova e Veneto Lavoro,
tra UdP e Ministero del Lavoro, tra MinLavoro e INPS
(problema di privacy nell’abbinamento dei record:
record anonimizzati)
Estrazione dagli archivi universitari dell’annata 2008
di laureati dell’Università di Padova (N=11.770).
Collegamento di archivi mediante il Codice Fiscale. È
possibile che i laureati siano solo nell’archivio
universitario, in questo archivio e in UNIEMENS-INPS,
in questi due archivi e tra le CO.
Collegamento tra il campione di laureati dell’indagine
Agorà dell’Università di Padova (n=4.500) e gli archivi
delle CO e dell’INPS, al fine di stimare (per campione)
l’attendibilità degli archivi amministrativi (CO e INPS)
9
Plug_In è formato da archivi
amministrativi
Dati universitari, 2008
 CO – MinLavoro, 2008  Versamenti INPS, 2008
CO – MinLavoro, 2009
10 anni
di linkage
tra archivi
per ogni
laureato
 Versamenti INPS, 2009
 Versamenti INPS, 2010
CO – MinLavoro, 2010  Versamenti INPS, 2011
CO – MinLavoro, 2010
:
:
CO – MinLavoro, 2017
 Versamenti INPS, 2017
Alcune verifiche di copertura






Gli 11.770 laureati sono stati identificati negli archivi delle CO, di
UNIEMENS-INPS e Università:
CO+INPS:
6.823
(58,0%)
Lavoratori dipendenti
Solo CO
555
Tirocinanti /stagiaires
Solo INPS
1.539
Né CO né INPS 2.853
(4,7%) Lavorava prima
della laurea
Nessun archivio
832
(17,1%)
Re-iscritti Università di Padova
Cercano lavoro
(7,1%) Studenti iscritti a altra università
Lavorano in nero, all’estero per l’estero
Morti, usciti dal mercato, suore, ecc.
Errori di sistema, rifiuto a collaborare
(13,1%)
Dipendenti INPS e altro
Lavoratori autonomi
Collaboratori agricoli
Collab. parasubordinati
11
Commenti all’esperimento
1. Nella migliore delle ipotesi, utilizzando tutte le basi
informative elementari, anche private, manca 7-9% dei
laureati. È un angolo buio degli archivi da spiegare.
2. I database nascono come archivi amministrativi: ogni archivio
ha proprie terminologie e classificazioni. L’unità statistica non
è la persona, ma un atto amministrativo (es.: Come si definisce
un occupato? Notevole differenza tra rilevazioni delle forze di
lavoro e CO). È necessario trovare nuove definizioni.
3. All’università interessa sapere se i lavori sono “da laureati”.
Non ce lo dicono le CO (a meno che….), si può saperlo dallo
stipendio INPS (tuttavia……). Non è ancora possibile
sostituire del tutto i dati statistici con quelli amministrativi.
12
Le statistiche private
La produzione di statistiche private si sta orientando in
modo simile a quello pubblico. Princìpi:




Utilizzare in modo efficiente le informazioni interne (sistemi
informativi);
Procurarsi le informazioni sul mercato attraverso la rete di
vendita e della distribuzione (osservazione indiretta);
Va svolto solo un numero limitato di interventi mirati per
acquisire conoscenza diretta.
Imperano, quindi, i princìpi che:



le informazioni devono costare tra poco e niente;
Bisogna bilanciare osservazione diretta ed indiretta della
realtà che interessa.
13
Quindi….
Professionalità dello statistico
Il Sistan ha bisogno di disporre di produttori qualificati di dati
(statistici) i quali devono essere in grado di garantire il
sistema delle statistiche pubbliche:
 Devono saper riconoscere la qualità dei dati (abitudine ad
elaborare dati anche a livello periferico)
 Devono aver interiorizzato la razionalità dei metadati.
 Una statistica è di qualità se è stata prodotta da un sistema
“in qualità”
 La formazione dei componenti gli Uffici di statistica può
essere la forma di certificazione della qualità del processo di
produzione a livello locale
 Per le statistiche “private” e per quelle “terze”, necessità di
certificare i produttori: statistici certificati?

15
Il rischio dell’autoreferenzialità




L’Istat ha saldamente in mano l’informazione statistica
italiana e, giustamente, reclama l’indipendenza
dell’informazione dall’uso.
Per questo, è necessario il contatto continuo con gli
utenti (CNUIS) e con l’ente di vigilanza (COGIS)
La formazione universitaria degli statistici non si è
riformata tenendo in conto il cambiamento epocale.
Nelle università non s’insegna il metodo dell’indagine e
quello dell’utilizzazione statistica di grandi basi di dati.
Non si insegna ad utilizzare sia l’informazione diretta che
quella indiretta.
Bisogno di riflettere, dialogando, con la società che
utilizza i dati statistici.
16
Grazie
per l’attenzione