Big Data e Statistica Ufficiale: i progetti internazionali

Big Data e Statistica Ufficiale:
i progetti internazionali
Carlo Vaccari
UNECE Task Team on Big Data
Università di Camerino - Istat
http://vaccaricarlo.wordpress.com
Big Data Analytics Conference 2013 - C. Vaccari
Big Data nella Statistica Ufficiale
Sfide dei Big Data alla statistica ufficiale:
i Big Data sono accessibili agli Istituti di Statistica (NSI) e a quali
condizioni?
quali garanzie esistono sulla tutela della riservatezza
nell'accesso ed elaborazione dei Big Data?
l'accesso ai Big Data spesso ha un costo, magari inferiore
rispetto ai dati statistici, ma a volte considerevole
qual è l'impatto sull'organizzazione di un NSI quando i Big Data
diventano una importante fonte di dati?
quale cambiamento di paradigma è necessario nell'IT degli NSI
per utilizzare i Big Data?
qual è l'impatto dell'uso dei Big Data (in combinazione o in
sostituzione di dati statistici) sui metodi statistici consolidati di
raccolta dei dati, l'elaborazione e la diffusione?
Big Data Analytics Conference 2013 - C. Vaccari
Le prime esperienze internazionali
Olanda: dati dai sensori del traffico per rilevare i movimenti delle
persone
Olanda: dati da Twitter per valutare con “sentiment analysis” il
clima di fiducia dei consumatori
Australia: dati da satellite per stimare la crescita dei raccolti e
l'utilizzo del suolo agricolo
Slovenia: migliorare le statistiche sulla popolazione e la mobilità
utilizzando dati dei cellulari
Nuova Zelanda: monitorare i movimenti della popolazione a
breve termine durante e dopo un disastro naturale
Eurostat: prezzi dal Web per migliorare l'indice dei prezzi
(progetto simile a Billion Prices Project, nato dal controllo dei
prezzi in Argentina)
...
Big Data Analytics Conference 2013 - C. Vaccari
L'inflazione argentina calcolata dai Big Data
Big Data Analytics Conference 2013 - C. Vaccari
le azioni di coordinamento
Primo documento dell'High Level Group:
What does BigData mean for official statistics?
2013: formazione di un gruppo di lavoro con tre organizzazioni
internazionali (UNECE, Eurostat, OECD) e dieci nazioni (Australia,
Canada, Italia, Mexico, Nuova Zelanda, Olanda, Polonia, Regno
Unito, Slovenia, Turchia) con il compito di individuare le priorità
per la cooperazione internazionale e di sviluppare una proposta di
progetto per un progetto su Big Data e statistica ufficiale
Perché la cooperazione internazionale?
Molti fenomeni internazionali per natura (es. traffico web)
Molti dati gestiti da operatori multinazionali (eg provider
telefonici)
Più potere contrattuale (es verso Google o provider)
Necessità di comparabilità internazionale (es prezzi)
Big Data Analytics Conference 2013 - C. Vaccari
il progetto proposto
Il progetto, in via di completamento, sarà proposto in novembre all'
High Level Group
Composto da tre work-package principali:
1 - come rispondere alle sfide: legislativa, privacy, costi,
management, metodologia, tecnologia
2 - sviluppare una sandbox, un ambiente condiviso per
dimostrare la fattibilità della produzione di statistiche ufficiali
partendo da Big Data, con la possibilità di replicare l'approccio in
diverse nazioni
3 - facilitare lo scambio di conoscenza, strumenti e metodi per la
produzione di statistiche partendo da Big Data, sviluppare un
sito di documentazione, demo, video, manuali, organizzare
workshop e corsi
Big Data Analytics Conference 2013 - C. Vaccari
la “sandbox”
Un ambiente (sandbox) con qualche applicazione pratica per
dimostrare che:
si possono manipolare Big Data in modo semplice ed efficiente
sulla piattaforma scelta
la piattaforma rispetta i vincoli tecnologici e di costo degli NSIs
i dati scelti possono garantire output statistici con determinati
criteri di qualità
i risultati sono comparabili con prodotti statistici standard
le nazioni partecipanti possono condividere metodi, tool, dataset
e
risultati
nel
quadro
della
Common Statistical Production Architecture
Big Data Analytics Conference 2013 - C. Vaccari
“sandbox” ad oggi
In via di definizione l'ambiente a vari livelli:
cluster e cloud: valutando piattaforme di cluster, ambienti cloud,
strumenti che integrano Hadoop e altri ambienti di base
strumenti di analisi: analisi statistica, ambienti integrati di
visualizzazione avanzata, suite di business intelligence, suite
per l'analisi di Big Data, tool di data mining, strumenti di ETL
(Extraction Transformation & Loading), generatori di report e di
grafici a partire da Big Data, …
dataset: dati di test (come il dump di Wikipedia, One million
songs,..), acquisti con carte di credito, social network, chiamate
da cellulari, transazioni sul web, tracce GPS, …
Obiettivo: creare un ambiente di test, ma in seguito generare
anche virtual machine pronte all'uso
Big Data Analytics Conference 2013 - C. Vaccari