Big Data: Nuove sfide e opportunità nella gestione delle informazioni Riccardo Torlone Università Roma Tre 1 Sommario Cosa sono? Dove sono? A che servono? Come usarli? Con che cosa usarli? BD & PA 2 "Big Data"?? Esistono diverse definizioni “Big data exceeds the reach of commonly used hardware environments and software tools to capture, manage, and process it with in a tolerable elapsed time for its user population.” -Teradata Magazine article, 2011 “Big data refers to data sets whose size is beyond the ability of typical database software tools to capture, store, manage and analyze.” -The McKinsey Global Institute, 2012 “Big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools.” - Wikipedia, 2012 3 Quando i dati diventano “Big”? IOPS Normali Capacità di Elaborazione BIG DATA Volume dei dati IOPS: Input/Output Operations Per Second 4 Qualche numero Quanti dati ci sono nel mondo? 800 Terabytes, 2000 160 Exabytes, 2006 500 Exabytes, 2009 2.7 Zettabytes, 2012 35 Zettabytes by 2020 Quanti dati sono generati in un giorno? 7 TB, Twitter 10 TB, Facebook 5 Velocità di crescita 6 Distribuzione nei vari settori 7 Tipologia di dati 8 Le tre "V" di Big Data Non si tratta solo di volume.. 9 Big Data: V3+VALUE Volume:Gigabyte(109), Terabyte(1012), Petabyte(1015), Exabyte(1018), Zettabyte (1021) Varietà: Structured, semi-structured, unstructured; Text, image, audio, video, record Velocità: Periodic, Near Real Time, Real Time Valore: Può generare grossi vantaggi competitivi! 10 Dati McKinsey 600$ per un disco nel quale memorizzare tutta la musica del mondo 5 miliardi di cellulari nel 2010 30 miliardi di contenuti al mese su Facebook 40% di crescita di dati all’anno 5% di crescita di investimenti nell’IT 235 TB di dati raccolti dalla US Library of Congress 15 settori su 17 con aziende che hanno più dati della US LoC 11 Valore potenziale in alcuni settori 12 Prospettive di guadagni 13 Facilità di sfruttamento in termini di valore 14 Il ciclo delle aspettative [Gartner 2012] 15 E’ più importante il “big” o il “data”? Il “Big” Il “Data” Entrambi Nessuno dei due 16 E’ più importante il “big” o il “data”? Il “Big” Il “Data” Entrambi Nessuno dei due Cosa fanno le organizzazioni con i big data "Data is not information, information is not knowledge, knowledge is not understanding, understanding is not wisdom" Cliff Stoll 17 Casi di uso (1) Data Source Capital markets 18 High-frequency operations Write/index all trades, store tick data Lower-frequency operations Show consolidated risk across traders Call initiation request Real-time authorization Fraud detection/analysis Inbound HTTP requests Visitor logging, analysis, alerting Traffic pattern analytics Online game Rank scores: • Defined intervals • Player “bests” Leaderboard lookups Real-time ad trading systems Match form factor, placement criteria, bid/ask Report ad performance from exhaust stream Mobile device location sensor Location updates, QoS, transactions Analytics on transactions Casi di uso (2) 19 Today’s Challenge New Data What’s Possible Healthcare Expensive office visits Remote patient monitoring Preventive care, reduced hospitalization Manufacturing In-person support Product sensors Automated diagnosis, support Location-Based Services Based on position Real time location data Geo-advertising, traffic, local search Public Sector Standardized services Citizen surveys Tailored services, cost reductions Retail One size fits all marketing Social media Sentiment analysis segmentation Open data Iniziativa volta a rendere liberamente accessibili i dati privi di brevetti e non coperti da copyright Open government Dato come bene comune Formato aperto Adatti alla elaborazione 20 Open data in Italia Siamo in ritardo (dati.gov.it) Prevalentemente regionale I primi 10 enti coprono il 75% dei dati disponibili 21 I rischi dei Big Data Ingestibilità dei dati a disposizione Non scalabilità Inefficacia delle analisi Costi Privacy 22 Spiacevoli inconvenienti AOL search data leak (NYT, 8/9/2006) Anonymous Netflix vs IMDb database (Wired, 12/13/2007) Why Johnny Can’t Browse The Internet In Peace (Forbes, 8/1/2012) How Companies Learn Your Secrets (NYT, 16/2/2012) 23 Big Data in action Acquisizione Decisione Estrazione Interpretazione Integrazione Analisi 24 Obiettivo: saper prendere decisioni strategiche efficaci sfruttando la grande disponibilità di dati Big Data in action Acquisizione Decisione Estrazione Interpretazione Integrazione Analisi 25 Richiede: Selezione Filtraggio Generazione di metadati Gestione provenienza Big Data in action Acquisizione Decisione Estrazione Interpretazione Integrazione Analisi 26 Richiede: Trasformazione Normalizzazione Cleaning Aggregazione Gestione errori Big Data in action Acquisizione Decisione Estrazione Interpretazione Integrazione Analisi 27 Richiede: Standardizzazione Gestione conflitti Riconciliazione Definizione di mapping Big Data in action Acquisizione Decisione Estrazione Interpretazione Integrazione Analisi 28 Richiede: Esplorazione Mining Apprendimento automatico Visualizzazione Big Data in action Acquisizione Decisione Estrazione Interpretazione Integrazione Analisi 29 Richiede: Conoscenza del dominio Conoscenza della provenienza Identificazione pattern di interesse Flessibilità del processo Big Data in action Acquisizione Decisione Estrazione Interpretazione Integrazione Analisi 30 Richiede: Capacità manageriali Miglioramento continuo del processo Sfide Performance, performance, performance! Scalabilità Eterogeneità e incompletezza Flessibiltà Usabilità Efficacia Privatezza Proprietà Collaborazione umana 31 Tecniche per l'analisi dei big data Data mining Association rule learning Classification Cluster analysis Regression Crowdsourcing Data fusion and data integration Genetic algorithms Machine learning Supervised learning Unsupervised learning. 32 Tecniche per l'analisi dei big data Natural language processing Neural networks Network analysis Pattern recognition Predictive modeling Sentiment analysis Signal processing Spatial analysis Simulation Time series analysis Visualization. 33 Tecnologie per i big data Business intelligence (BI) Cloud computing Distributed system Hadoop Relational database NoSQL systems 34 Cassandra Dynamo HBase Big Table Extract, transform, and load (ETL) Mashup Semi-structured/Unstructured data Stream processing Visualization Il flusso dei Big Data Real Time Streams Real-Time Processing Near Real-Time Processing OLAP ETL NoSQL Big SQL Analytics (HBase, Cassandra, MongoDB) (Oracle, InfoSphere, Teradata) (Vertica, Penthao, Greenplum) File system distribuito (HDFS) 35 The Big Data Landscape 36 La visualizzazione è fondamentale 37 Distribuzione di risorse e servizi Architettura distribuita Computer autonomi che interagiscono per un obiettivo comune Scalabilità orizzontale Fault-tolerant Replicazione di risorse Eventual-consistency Elaborazione distribuita Paradigma Map-Reduce Modello Shared-nothing 38 I requisiti per sfruttare i big data Politiche Tecnologie e tecniche Riorganizzazioni Ricerca del talento Accesso ai dati Struttura aziendale 39 Un caso di uso: agenzia delle entrate 40 Un caso di uso: agenzia delle entrate Elaborazione dati sui redditi Analisi di mercato Monitoraggio utenti Confronto dati Fraud detection … 41 Opportunità Creare trasparenza Scoprire i bisogni e individuare variabilità Personalizzare le azioni Supporto alle decisioni Innovare prodotti e servizi 42 Come agire Spesso i dati sono già disponibili! Adottare opportune tecnologie Reclutare e addestrare personale di talento Gestire il cambiamento nell’organizzazione Condividere i dati tra agenzie diverse Introdurre la cultura del rinnovamento e miglioramento Serve un supporto politico 43 Conclusioni I Big Data sono già qui Ampia disponibilità in diversi settori La tecnologia per i Big Data esiste Il problema è nell'uso che se ne fa I Big Data possono creare valore Gli aspetti metodologici sono importanti Un'area in rapida evoluzione 44 Fonti "Big Data: The next frontier for innovation, competition, and productivity". Rapporto McKinsey&Company, 2012. "Challenges and Opportunities with Big Data". A community white paper developed by leading researchers across the United States, 2012. "Taming The Big Data Tidal Wave: Finding Opportunities in Huge Data Streams with Advanced Analytics". Bill Franks, John Wiley & Sons, 2012. 45