DECIMA CONFERENZA NAZIONALE DI STATISTICA Un “diluvio di dati”: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze Statistiche-Università di Bologna [email protected] Il contesto • Vicenda sociale connotata da: articolazione e da interrelazioni crescenti; aumento eterogeneità degli agenti sociali; turbolenza delle dinamiche • Le necessità conoscitive che la statistica ufficiale deve soddisfare più ampie, articolate perché riferite a fenomeni nuovi, più complessi e diversificati. • Difficoltà - del Sistan - a cogliere esigenze e domanda utilizzatori il contesto • Difficoltà del Sistan 1.Debolezza della funzione statistica e della governance delle infrastrutture statistiche 2.Difficoltà ad affrontare le esigenze di uno stato fondato su una articolazione regionale 3.Eterogeneità di soluzioni locali Qualche novità nell’informazione : il diluvio Sovrabbondanza di informazioni in larga parte di origine amministrativa – gestionale • Inimmaginabile e crescente disponibilità di informazioni in formato elettronico • Sempre maggiore numero di enti e soggetti privati che raccolgono, conservano, elaborano informazioni pervasiva “industrial revolution of data” Qualche novità nell’informazione : in principio oggi in futuro Disponibilità e Utilizzo Fonti Amministrative e della PA - basi dati fiscali, previdenziali, assicurative, - bilanci enti pubblici - Basi dati sanità - Basi dati ambientali…… Progressiva estensione a molti fenomeni Utilizzo sempre più esteso da parte di Istat, di molti enti ed ai livelli territoriali più piccoli Qualche novità nell’informazione : oggi e in futuro Presenza di un numero sempre più ampio di soggetti indipendenti che raccolgono dati: Qualche esempio • Distribuzione commerciale: Wall Mart: 1 mln di transazioni al giorno = 2,5 petabytes (1 mln di GB) • Basi dati clienti, banche /finanziarie …. costruiscono indicatori e fanno analisi, producono trend macroeconomici, previsioni, analisi dei rischi • Oracle, IBM, Microsoft: 15 miliardi di $ acquisto software per gestione di dati e database Qualche novità nell’informazione : oggi e in futuro cnt. La rivoluzione del web 2.0 • Il web diventa uno strumento per riunire i piccoli contributi di milioni di persone e migliorarli. • Piattaforma aperta che aumenta il libero flusso di informazione, arricchisce gli strumenti per il confronto politico e sociale ed amplia la diversità di opinioni. • Il Contenuto Creato dall’Utente cambia il modo in cui gli utilizzatori producono, distribuiscono, accedono e riusano l’informazione. Qualche novità nell’informazione: i vantaggi Sul piano sostanziale: • Individuare, esplorare nuove problematiche arricchendo il quadro macro • Svelare nuovi punti di vista, approfondire e ampliare conoscenze specie sui comportamenti individuali e locali • Favorire analisi e politiche microeconomiche Per la statistica : nuovi agguerriti competitors Annotazione in margine: le rivoluzioni scientifiche sono state spesso precedute da quelle nei metodi di misura e osservazione Qualche novità nell’informazione: i problemi Ma anche … Numerose e crescenti disponibilità ed utilizzazioni di basi di dati da parte di svariati soggetti • scoordinate, • occasionali, • metodologie differenziate, • scarsa attenzione alla qualità fonti Condizionamento rischio di appiattirsi sulle informazioni disponibili Qualche novità nell’informazione : Che fare ? Distinguiamo: – Fonti di origine burocratica e amministrativa - tipicamente (PA ed enti collegati) – Altre fonti gestionali Altre fonti gestionali : Che fare cnt. Queste “fonti” avranno -e già hanno- un impatto rilevante nel Paese e su come le statistiche sono percepite e usate • Le Statistiche ufficiali possono utilizzare queste “fonti”? E’ una grande sfida, ma anche una grande opportunita‘ che richiede nuove strategie per il sistema statistico (che cosa, come, chi, con quali strumenti, quali tecniche) • La statistica ufficiale può/deve interagire e come? Altre fonti gestionali : un commento Le statistiche ufficiali sono beni pubblici irrinunciabili e i sistemi statistici nazionali devono costituire il nucleo fondamentale della conoscenza statistica ma oggi bisogna affrontare la sfida posta dalla nuova dimensione della informazione Altre fonti gestionali : Che fare cnt. • Vigilanza e denuncia: un’Autority anche per la “statistica” privata • Codice etico per la “statistica” privata • Guidelines per l’utilizzo a fini statistici dei dati (tecniche, metodi, best practices) • Accreditamento delle fonti “bollino qualità” Altre fonti gestionali : Che fare cnt. Ma anche: • Nuove dimensioni qualità fonti: Legittimità, Autorevolezza, Credibilità, Trasparenza dimensioni qualità indicatori • Criteri per definirle e misurarle Altre fonti gestionali : nuove dimensioni della qualità • Legittimità: conformità della fonte ad un “codice etico” relativo alle modalità di raccolta delle informazioni • Autorevolezza: prestigio del produttore della fonte da valutare secondo vari parametri • Credibilità-attendibilità: esistenza di requisiti che assicurino il rispetto di metodi e prassi della rilevazione di dati • Trasparenza: disponibilità metadati Fonti amministrative Utilizzo a fini statistici - richiede ancora lavoro e metodi (Nordbotten, 2008) l’Istat e il sistema statistico nazionale hanno un ruolo primario da svolgere in particolare per orientare gli utilizzatori e su come validare una fonte statistica Fonti amministrative - Le Sfide • Contribuire al disegno-architettura delle FA • Delineare protocolli normativi e procedurali per accesso e condivisione delle fonti • Introdurre la valutazione dei costi uso FA e analisi ciclo di vita FA - modelli • Framework e metodi di integrazione indagini e FA - dettaglio territoriale, settoriale Fonti amministrative – un quadro normativo Esistono serie barriere all’uso FA- da identificare e superare • Accesso e utilizzo FA – modelli di accordo e norme generali • Politiche in supporto ad accesso –informatico- e uso FA • Sicurezza - privacy– consenso informato, vincoli - confidentiality– accesso solo a chi è autorizzato (chi, come) - responsabilità- penalità per la violazione Fonti amministrative - Lalasfida Fonti amministrative: sfidadella dellaqualità qualitàcnt. • Definire criteri e metodi per assicurare e controllare la qualità delle fonti e un loro corretto utilizzo a fini statistici Qualche avvertenza: • Non si può affidare ai soli detentori FA il controllo di qualità • il CQ non deve essere solo interno alla fonte ma basato anche su verifiche esterne attenzione a strategie empiriche che non sono conclusive e limitate alle occasioni considerate (p.e.:dati fiscali e da indagine possono combaciare per somma algebrica di errori diversi) Fonti amministrative: sulla qualità in particolare Quali categorie della qualità?Letteratura scarsa (Grünewald Körner, 2005, Statistics Finland, 2004; Wallgren Wallgren, 2007; ESS, 2009) • Qualità ente: legittimità, autorevolezza, credibilità, trasparenza – vedi sopra • Qualità processo • Qualità informazione: pertinenza, affidabilità, accessibilità, tempestività-puntualità, coerenza, continuità-stabilità Modelli per la qualità dei dati Riferimenti utili: European Foundation for Quality Management exellence model; European statistical code of practice Qualità del processo • Ambiente in cui il processo ha luogo: indipendenza, professionalità, risorse, imparzialità, obbiettività • Conduzione delle fasi di raccolta informazione: adeguatezza metodi e procedure di raccolta e controllo Metodi di gestione del controllo del processo e miglioramento continuo Qualità informazione • Pertinenza: corrispondenza tra i bisogni informativi e definizioni statistiche e FA • Affidabilità: esistenza e mantenimento di standard secondo linee stabilite - aderenza alla realtà • Accuratezza: correttezza dell’informazioneerrori non campionari • Tempestività : distanza tra disponibilità ed eventi • Puntualità: lag tra rilascio e riferimento eventi Qualità informazione cnt. • Accessibilità: condizioni e modalità di utilizzo (disseminazione adeguata, accesso, documentazione – metadati). • Coerenza: informazioni mutualmente consistenti e integrabili • Comparabilità: consistenza temporale, spaziale, per i domini rilevanti Errori Quali errori considerare? Errori misura e errori rappresentazione • Documentare, calcolare, trattare gli errori e … rimuoverli • Linee guida e metodologie • Modelli dell’errore totale – Census Bureau USA Errori di misura i) Dovuti allo strumento di misura, ai soggetti coinvolti ii) Dovuti al processo derivanti da: - trattamento dei dati in seguito ai controlli in fase di acquisizione informazione, - trasformazione delle variabili FA in variabili statistiche e codifiche - applicazione di specifiche regole di correzione e trattamento in sede di utilizzo statistico Errori di misura cnt. iii) Dovuti alla diversa “qualità” e modalità di registrazione eventi raccolti in una fonte Diversa qualità delle variabili a causa della maggiore attenzione produttore alle variabili rilevanti per ente stesso - insorge per l’utilizzo di strategie e metodi diversi per controllare le variabili iv) Dovuti al riferimento temporale delle registrazioni Gli eventi sono registrati in tempi diversi al loro verificarsi - si genera un problema è simile a quello delle risposte proxy Errori di rappresentazione Errori di copertura (né censimenti né campioni) cutt-off, autoselezione: stima model-based (Filippucci Drudi, 2000; Filippucci Bernardini, 2000; Thomsen Chang, 2008) Errori di Linking: link mancanti (quale è il processo generatore della MRT); link errati (Fellegi & Sunter, 1969; Arts, Bakker & Van Lith, 2000) Errori di correzione Se non si può ottenere un link completo tra archivi e si ricorre a riponderazioni dei registri abbinati questo può portare ad errori se i modelli di riponderazione non sono adeguati Dalla misura a posteriori al controllo del processo • Essenziale riconoscere gli errori, documentarli, ma soprattutto esserne avvertiti e trattarli, chiarendo le conseguenze del trattamento • In pratica è difficile documentare e misurare gli errori, dipende dalla sensibilità e attenzione dei gestori degli archivi – da sviluppare • Il trattamento dell’errore è complesso perché è un’attività a posteriori e non assicura contro nuovi errori in una successiva occasione. • Occorre passare dalla misura a posteriori dell’errore al controllo e al miglioramento continuo del processo di produzione Per concludere • L’uso delle FA e una loro integrazione nei sistemi statistici non è una scappatoia semplice nella produzione di una informazione statistica moderna, articolata e diffusa sul territorio • L’uso statistico delle FA non è a costo zero Analisi costi benefici Ricerca teorica ed applicata Criteri Metodologie e standard condivisi Collaborazione tra enti Ruolo più efficace del Sistan