Big Data e Statistica Ufficiale: i progetti internazionali Carlo Vaccari UNECE Task Team on Big Data Università di Camerino - Istat http://vaccaricarlo.wordpress.com Big Data Analytics Conference 2013 - C. Vaccari Big Data nella Statistica Ufficiale Sfide dei Big Data alla statistica ufficiale: i Big Data sono accessibili agli Istituti di Statistica (NSI) e a quali condizioni? quali garanzie esistono sulla tutela della riservatezza nell'accesso ed elaborazione dei Big Data? l'accesso ai Big Data spesso ha un costo, magari inferiore rispetto ai dati statistici, ma a volte considerevole qual è l'impatto sull'organizzazione di un NSI quando i Big Data diventano una importante fonte di dati? quale cambiamento di paradigma è necessario nell'IT degli NSI per utilizzare i Big Data? qual è l'impatto dell'uso dei Big Data (in combinazione o in sostituzione di dati statistici) sui metodi statistici consolidati di raccolta dei dati, l'elaborazione e la diffusione? Big Data Analytics Conference 2013 - C. Vaccari Le prime esperienze internazionali Olanda: dati dai sensori del traffico per rilevare i movimenti delle persone Olanda: dati da Twitter per valutare con “sentiment analysis” il clima di fiducia dei consumatori Australia: dati da satellite per stimare la crescita dei raccolti e l'utilizzo del suolo agricolo Slovenia: migliorare le statistiche sulla popolazione e la mobilità utilizzando dati dei cellulari Nuova Zelanda: monitorare i movimenti della popolazione a breve termine durante e dopo un disastro naturale Eurostat: prezzi dal Web per migliorare l'indice dei prezzi (progetto simile a Billion Prices Project, nato dal controllo dei prezzi in Argentina) ... Big Data Analytics Conference 2013 - C. Vaccari L'inflazione argentina calcolata dai Big Data Big Data Analytics Conference 2013 - C. Vaccari le azioni di coordinamento Primo documento dell'High Level Group: What does BigData mean for official statistics? 2013: formazione di un gruppo di lavoro con tre organizzazioni internazionali (UNECE, Eurostat, OECD) e dieci nazioni (Australia, Canada, Italia, Mexico, Nuova Zelanda, Olanda, Polonia, Regno Unito, Slovenia, Turchia) con il compito di individuare le priorità per la cooperazione internazionale e di sviluppare una proposta di progetto per un progetto su Big Data e statistica ufficiale Perché la cooperazione internazionale? Molti fenomeni internazionali per natura (es. traffico web) Molti dati gestiti da operatori multinazionali (eg provider telefonici) Più potere contrattuale (es verso Google o provider) Necessità di comparabilità internazionale (es prezzi) Big Data Analytics Conference 2013 - C. Vaccari il progetto proposto Il progetto, in via di completamento, sarà proposto in novembre all' High Level Group Composto da tre work-package principali: 1 - come rispondere alle sfide: legislativa, privacy, costi, management, metodologia, tecnologia 2 - sviluppare una sandbox, un ambiente condiviso per dimostrare la fattibilità della produzione di statistiche ufficiali partendo da Big Data, con la possibilità di replicare l'approccio in diverse nazioni 3 - facilitare lo scambio di conoscenza, strumenti e metodi per la produzione di statistiche partendo da Big Data, sviluppare un sito di documentazione, demo, video, manuali, organizzare workshop e corsi Big Data Analytics Conference 2013 - C. Vaccari la “sandbox” Un ambiente (sandbox) con qualche applicazione pratica per dimostrare che: si possono manipolare Big Data in modo semplice ed efficiente sulla piattaforma scelta la piattaforma rispetta i vincoli tecnologici e di costo degli NSIs i dati scelti possono garantire output statistici con determinati criteri di qualità i risultati sono comparabili con prodotti statistici standard le nazioni partecipanti possono condividere metodi, tool, dataset e risultati nel quadro della Common Statistical Production Architecture Big Data Analytics Conference 2013 - C. Vaccari “sandbox” ad oggi In via di definizione l'ambiente a vari livelli: cluster e cloud: valutando piattaforme di cluster, ambienti cloud, strumenti che integrano Hadoop e altri ambienti di base strumenti di analisi: analisi statistica, ambienti integrati di visualizzazione avanzata, suite di business intelligence, suite per l'analisi di Big Data, tool di data mining, strumenti di ETL (Extraction Transformation & Loading), generatori di report e di grafici a partire da Big Data, … dataset: dati di test (come il dump di Wikipedia, One million songs,..), acquisti con carte di credito, social network, chiamate da cellulari, transazioni sul web, tracce GPS, … Obiettivo: creare un ambiente di test, ma in seguito generare anche virtual machine pronte all'uso Big Data Analytics Conference 2013 - C. Vaccari