Big Data - Forges - Gestionale ForumPA

Big Data e Analytics: modelli, analisi e previsioni, per
valorizzare l’enorme patrimonio informativo pubblico
L’uso dei Big Data per
la Produzione Statistica
Giulio Barcaroli
Metodi, strumenti e supporto metodologico (MSS)
Dipartimento per l’integrazione, la qualità e lo sviluppo
delle reti di produzione e ricerca (DIQR)
Istituto Nazionale di Statistica (Istat)
Roma, 28 Maggio 2013
I Big Data nel processo di modernizzazione dell’Istat
ƒ Service-Oriented Architecture (SOA)
basata su una tecnologia Plug-and-Play per
assicurare l’interoperabilità tra sistemi
diversi
ƒ Strumenti IT e Metodi standard condivisi
Giulio Barcaroli. Roma, 28 Maggio 2013
ƒ Favorire il data sharing e
l’Open data
ƒ Introduzione di digital/big data
L’impatto dei Big Data
Big data collection
(web scraping, using
new data sets)
Giulio Barcaroli. Roma, 28 Maggio 2013
Estimation (nowcast, model and
small area estimates)
Also using auxiliary
administrative variables
Il quadro di riferimento
Big
BigData,
Data,
Internet
InternetasasData
Data
Source
Source
Passive
(sensors,
tracking)
Target
population
Data
generation
Administrative
procedure
Active
(use of
ICT)
Admin.ve
data
Linkage
Statistical
information
Survey
population
(= frame)
Sample
design and
selection
Giulio Barcaroli. Roma, 28 Maggio 2013
Data
Collection
Data
(micro
and meta)
Processing,
modelling
and
estimation
Scenario 1 : Tecniche alternative per la Raccolta dei Dati
Big
BigData,
Data,
Internet
InternetasasData
Data
Source
Source
Passive
(sensors,
tracking)
Target
population
Data
generation
Active
(use of
ICT)
Advanced
tools for Data
Collection
Statistical
information
Survey
population
(= frame)
Sample
design
and
selection
Giulio Barcaroli. Roma, 28 Maggio 2013
Data
Collection
Data
(micro
and meta)
Processing,
modelling
and
estimation
Scenario 2: Uso integrato di dati di indagine e
Big Data
Big
BigData,
Data,
Internet
InternetasasData
Data
Source
Source
Passive
(sensors,
tracking)
Target
population
Data
generation
Active
(use of
ICT)
Linkage
Statistical
information
Survey
population
(= frame)
Sample
design and
selection
Giulio Barcaroli. Roma, 28 Maggio 2013
Data
Collection
Data
(micro
and meta)
Processing,
modelling
and
estimation
Scenario 2: un primo esempio
Utilizzando le footprint generate dai tracking device (cellulari,
GPS) è possibile individuare i bacini di movimento che possono
essere utilizzati, ad esempio, per ridefinire i Sistemi Locali del
Lavoro.
Adottando un approccio basato su stime da modello (Small Area
Estimation) sarà quindi possibile utilizzare congiuntamente:
1.dati di indagine campionarie (Forze Lavoro);
2.dati di censimento;
3.dati amministrativi (Inps);
4.Big Data originati da:
a) tracking devices e sensori;
b) interrogazioni su Internet;
c) …
Roma, 28 Maggio 2013
Scenario 2: un secondo esempio
Roma, 28 Maggio 2013
Scenario 3: uso in sostituzione di dati di indagine
Big
BigData,
Data,
Internet
InternetasasData
Data
Source
Source
Passive
(sensors,
tracking)
Target
population
Data
generation
Active
(use of
ICT)
Statistical
information
Data
(micro
and meta)
Roma, 28 Maggio 2013
Processing,
modelling
and
estimation
Scenario 3: indagine sul turismo
Uso dei Big Data in sostituzione dei dati di indagine.
L’esperienza dell’Estonia:
•Popolazione di interesse: turisti stranieri in visita in Estonia
•Uso dei dati generati dai cellulari in roaming
Roma, 28 Maggio 2013
Scenario 3: indagine sul traffico
Uso di dati dai sensori disponibili per stimare il traffico stradale:
il caso dei Paesi Bassi
ƒPopolazione oggetto di studio: veicoli sulle strade nazionali
ƒEntità e Tipo di Dati:
9 80 milioni di record al giorno
9 Numero e grandezza dei veicoli in transito
Giulio Barcaroli. Roma, 28 Maggio 2013
Big Data: le sfide più importanti per l’Istat
ƒ Legislazione per l’accesso e l’uso dei dati
ƒ Privacy e protezione dei dati, rispetto al riuso delle
informazioni, al link e all’integrazione con altre fonti
ƒ Rapporto costi/benefici
ƒ Metodologie, riguardo alla qualità di dati generati da eventi
non pianificati e alla conseguente adattabilità dei metodi
statistici
ƒ Information Technology
Giulio Barcaroli. Roma, 28 Maggio 2013
Le aree di interesse per l’Istat
1.Statistiche su traffico e trasporti: informazioni in tempo reale da numerosi siti web
in aggiunta o in sostituzione alle statistiche ufficiali già in produzione.
2.Statistiche sulle vendite al dettaglio: dati da siti e-commerce e da Google Trends
(anche per la previsione delle vendite di veicoli e appartamenti).
3. Statistiche sui prezzi: per migliorare l’Indice dei prezzi al Consumo, attraverso
l’uso di software dedicati alla raccolta dei dati da Internet (Cfr. Massachusetts Institute
of Technology – MIT, “Billion Prices Project”).
4.Statistiche su Social media: possibilità di analisi dei messaggi disponibili attraverso
Internet, per migliorare indicatori statistici su lavoro, attività del tempo libero, etc..
5.Indicatori di benessere: attraverso l’analisi dei messaggi dai social network (quelli
di Facebook sono più difficili da reperire, mentre quelli di Twitter sono disponibili a
tutti).
6.Misura e monitoraggio del fenomeno Smart City: una tematica multidimensionale che
richiede la disponibilità di dati tempestivi e a livello locale, che possono essere prodotti
attraverso l’integrazione di Statistiche ufficiali, Archivi amministrativi,
Big Data.
Giulio Barcaroli. Roma, 28 Maggio 2013
Grazie per l’attenzione
Contatti:
[email protected]
www.istat.it
Giulio Barcaroli. Roma, 28 Maggio 2013