Big Data e Analytics: modelli, analisi e previsioni, per valorizzare l’enorme patrimonio informativo pubblico L’uso dei Big Data per la Produzione Statistica Giulio Barcaroli Metodi, strumenti e supporto metodologico (MSS) Dipartimento per l’integrazione, la qualità e lo sviluppo delle reti di produzione e ricerca (DIQR) Istituto Nazionale di Statistica (Istat) Roma, 28 Maggio 2013 I Big Data nel processo di modernizzazione dell’Istat Service-Oriented Architecture (SOA) basata su una tecnologia Plug-and-Play per assicurare l’interoperabilità tra sistemi diversi Strumenti IT e Metodi standard condivisi Giulio Barcaroli. Roma, 28 Maggio 2013 Favorire il data sharing e l’Open data Introduzione di digital/big data L’impatto dei Big Data Big data collection (web scraping, using new data sets) Giulio Barcaroli. Roma, 28 Maggio 2013 Estimation (nowcast, model and small area estimates) Also using auxiliary administrative variables Il quadro di riferimento Big BigData, Data, Internet InternetasasData Data Source Source Passive (sensors, tracking) Target population Data generation Administrative procedure Active (use of ICT) Admin.ve data Linkage Statistical information Survey population (= frame) Sample design and selection Giulio Barcaroli. Roma, 28 Maggio 2013 Data Collection Data (micro and meta) Processing, modelling and estimation Scenario 1 : Tecniche alternative per la Raccolta dei Dati Big BigData, Data, Internet InternetasasData Data Source Source Passive (sensors, tracking) Target population Data generation Active (use of ICT) Advanced tools for Data Collection Statistical information Survey population (= frame) Sample design and selection Giulio Barcaroli. Roma, 28 Maggio 2013 Data Collection Data (micro and meta) Processing, modelling and estimation Scenario 2: Uso integrato di dati di indagine e Big Data Big BigData, Data, Internet InternetasasData Data Source Source Passive (sensors, tracking) Target population Data generation Active (use of ICT) Linkage Statistical information Survey population (= frame) Sample design and selection Giulio Barcaroli. Roma, 28 Maggio 2013 Data Collection Data (micro and meta) Processing, modelling and estimation Scenario 2: un primo esempio Utilizzando le footprint generate dai tracking device (cellulari, GPS) è possibile individuare i bacini di movimento che possono essere utilizzati, ad esempio, per ridefinire i Sistemi Locali del Lavoro. Adottando un approccio basato su stime da modello (Small Area Estimation) sarà quindi possibile utilizzare congiuntamente: 1.dati di indagine campionarie (Forze Lavoro); 2.dati di censimento; 3.dati amministrativi (Inps); 4.Big Data originati da: a) tracking devices e sensori; b) interrogazioni su Internet; c) … Roma, 28 Maggio 2013 Scenario 2: un secondo esempio Roma, 28 Maggio 2013 Scenario 3: uso in sostituzione di dati di indagine Big BigData, Data, Internet InternetasasData Data Source Source Passive (sensors, tracking) Target population Data generation Active (use of ICT) Statistical information Data (micro and meta) Roma, 28 Maggio 2013 Processing, modelling and estimation Scenario 3: indagine sul turismo Uso dei Big Data in sostituzione dei dati di indagine. L’esperienza dell’Estonia: •Popolazione di interesse: turisti stranieri in visita in Estonia •Uso dei dati generati dai cellulari in roaming Roma, 28 Maggio 2013 Scenario 3: indagine sul traffico Uso di dati dai sensori disponibili per stimare il traffico stradale: il caso dei Paesi Bassi Popolazione oggetto di studio: veicoli sulle strade nazionali Entità e Tipo di Dati: 9 80 milioni di record al giorno 9 Numero e grandezza dei veicoli in transito Giulio Barcaroli. Roma, 28 Maggio 2013 Big Data: le sfide più importanti per l’Istat Legislazione per l’accesso e l’uso dei dati Privacy e protezione dei dati, rispetto al riuso delle informazioni, al link e all’integrazione con altre fonti Rapporto costi/benefici Metodologie, riguardo alla qualità di dati generati da eventi non pianificati e alla conseguente adattabilità dei metodi statistici Information Technology Giulio Barcaroli. Roma, 28 Maggio 2013 Le aree di interesse per l’Istat 1.Statistiche su traffico e trasporti: informazioni in tempo reale da numerosi siti web in aggiunta o in sostituzione alle statistiche ufficiali già in produzione. 2.Statistiche sulle vendite al dettaglio: dati da siti e-commerce e da Google Trends (anche per la previsione delle vendite di veicoli e appartamenti). 3. Statistiche sui prezzi: per migliorare l’Indice dei prezzi al Consumo, attraverso l’uso di software dedicati alla raccolta dei dati da Internet (Cfr. Massachusetts Institute of Technology – MIT, “Billion Prices Project”). 4.Statistiche su Social media: possibilità di analisi dei messaggi disponibili attraverso Internet, per migliorare indicatori statistici su lavoro, attività del tempo libero, etc.. 5.Indicatori di benessere: attraverso l’analisi dei messaggi dai social network (quelli di Facebook sono più difficili da reperire, mentre quelli di Twitter sono disponibili a tutti). 6.Misura e monitoraggio del fenomeno Smart City: una tematica multidimensionale che richiede la disponibilità di dati tempestivi e a livello locale, che possono essere prodotti attraverso l’integrazione di Statistiche ufficiali, Archivi amministrativi, Big Data. Giulio Barcaroli. Roma, 28 Maggio 2013 Grazie per l’attenzione Contatti: [email protected] www.istat.it Giulio Barcaroli. Roma, 28 Maggio 2013