BIG DATA: UN'OPPORTUNITÀ DA NON SOTTOVALUTARE Dario Robatto Comitato Italiano Ingegneria dell'Informazione Ordine degli Ingegneri di Savona AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] INDICE Che cosa sono i Big Data Big Data nell’automazione industriale Soluzioni hw/sw Sicurezza e privacy AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 2 CHE COSA SONO I BIG DATA BIG DATA – DEFINIZIONI 1 Anything that Won’t Fit in Excel AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 3 CHE COSA SONO I BIG DATA BIG DATA – DEFINIZIONE 2 Una generazione di tecnologie e architetture disegnate per estrarre Valore da un grande Volume e da una grande Varietà di dati abilitandone la cattura, la scoperta e l’analisi ad alta Velocità. La definizione è basata sul concetto di “V” di cui 3 fondamentali ed altre aggiunte successivamente a corollario Volume Velocità Varietà Valore Veridicità o Validazione Visualizzazione AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 4 CHE COSA SONO I BIG DATA LE «V» - DEFINIZIONI 12 15 18 21 Volume: terabyte 10 𝑏𝑦𝑡𝑒/ petabyte 10 𝑏𝑦𝑡𝑒 / exabyte 10 𝑏𝑦𝑡𝑒 / zettabyte 10 𝑏𝑦𝑡𝑒 / 24 27 30 yottabyte 10 𝑏𝑦𝑡𝑒 / brontobyte 10 𝑏𝑦𝑡𝑒 / geopbyte 10 𝑏𝑦𝑡𝑒 In un giorno si produce informazione pari a 2.5 milioni di terabyte Velocità: rapidità nella generazione, lavorazione, reperibilità dei dati (in brevissimo tempo il dato può diventare obsoleto) Varietà: numerose e differenti sorgenti e differenti formati Un minuto nel Web: 204 milioni di e-mail, 1,3 milioni di video visualizzati su YouTube, 100mila tweet, 6 milioni di pagine Facebook, 47mila app scaricate Valore: ricavi derivati dall’utilizzo dei Big Data Veridicità o Validazione: attendibilità e oggettività dell’informazione dopo l’analisi e congruenza tra i dati stessi Visualizzazione: modalità di presentazione dei risultati dell’analisi all’utente AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 5 CHE COSA SONO I BIG DATA LE SORGENTI Vengono dai social media Vengono dalla quantità di dispositivi mobili di cui smartphone e tablet Tra wearable technology e installazioni smart (tavoli, vetrine, totem, …) si moltiplicano gli oggetti generatori e vettori di informazioni. “Ogni 14 mesi i dati italiani raddoppiano” Digitalizzazione di molte attività una volta cartacee (ordini, bollettazioni, fatture, ad esempio, ma anche cartelle cliniche o i carteggi notarili). Sistemi di pagamento on line e off line. Sensori, Telecamere, rilevatori Un motore di un aeromobile genera circa 10 TB di dati ogni trenta minuti di volo. 2 Motori Genova - Catania = 60 TB Milano - New York = 640 TB Dal 2005 al 2011 gli RFID (Radio Frequency ID tags) sono cresciuti da 1.3 a 30 mililardi e la crescita prevista sarà ancora più rilevante nei prossimi anni. AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 6 CHE COSA SONO I BIG DATA LE TIPOLOGIE DI SORGENTE Dati strutturati in tabelle (relazionali) Dati semistrutturati (XML e standard simili) Dati di eventi e macchinari (messaggi, batch o real time, sensori, RFID e periferiche) (tipici dati definibili Big Data) Dati non strutturati (linguaggio umano, audio, video) Dati non strutturati da social media (social network, blog, tweet) Dati dalla navigazione web (Clickstream) Dati di tipo geografico - GIS (Geospatial, GPS) Dati scientifici (astronomici, genetica, fisica) AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 7 CHE COSA SONO I BIG DATA BUSINESS INTELLIGENCE - BUSINESS ANALYTICS Per Business Intelligence e Analytics si intende l’insieme degli strumenti e delle applicazioni software di accesso, di analisi e di visualizzazione dei dati che aiutano il management a controllare le prestazioni dell’azienda e a prendere decisioni migliori. Le tecnologie Big Data si affiancano e vanno ad integrare gli strumenti di Business Intelligence tradizionale Cambia l’approccio al dato: dai processi «standard» ETL e di data quality (costruzione di un data warehouse) si passa a dati salvati nel loro formato originale Gli strumenti analitici «Big Data» recuperano «quello che serve quando serve» AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 8 CHE COSA SONO I BIG DATA DATA ANALYST – DATA SCIENTIST Da un processo standardizzato si passa ad uno iterativo dove il contributo dell’analista è molto importante Nel mondo dei big data la correlazione si libera dalle ipotesi iniziali: l’analista decide la direzione in cui vorrebbe che l’algoritmo esegua la sua ricerca, e i risultati parlano da se. Molto spesso è il programma in se che procede a formulare (anche milioni) di modelli matematici e testarli sulla mole dei dati disponibili. «Data Scientist: The Sexiest Job of the 21st Century» AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 9 CHE COSA SONO I BIG DATA ESEMPIO DI FLUSSO Big Data: Architettura, tecnologie e metodi per l’utilizzo di grandi basi di dati Alessandro Rezzani AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 10 BIG DATA IN AUTOMAZIONE INDUSTRIALE Siamo in una situazione di Big Data? Forse, per ora, non sono rispettate tutte le “V” - Volume Velocità Varietà MA «Datalogic, leader mondiale nei settori dell’acquisizione automatica dei dati e dell’automazione industriale e produttore di lettori di codici a barre, mobile computer, sensori, sistemi di visione e marcatura laser, prevede la diffusione sempre più consistente di dispositivi di raccolta dati di nuova generazione, che saranno in grado di elaborare e comunicare in modo intelligente, svolgendo un ruolo fondamentale nell’ambito della Business Analytics (‘Big Data’).» AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 11 BIG DATA IN AUTOMAZIONE INDUSTRIALE VERSO I BIG DATA «Analizzare un’enorme quantità di dati, di diverso tipo, permette di individuare correlazioni e modelli in grado di accelerare il processo decisionale e migliorare i risultati aziendali. La Business Analytics consente di capire perché gli eventi accadono, quali conseguenze avranno e come l’azienda può ottimizzare le azioni future» Quindi posso utilizzare la “filosofia” Big Data su tutte le informazioni che ho a disposizione AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 12 BIG DATA IN AUTOMAZIONE INDUSTRIALE SPUNTI APPLICATIVI Compagnia telefonica: dalle informazioni geografiche che arrivano dal dispositivo mobile invio pubblicità mirata Andamento delle vendite «correlato» con il numero di volte in cui i prodotti sono menzionati sui social network valutandone anche il «sentiment» Reclami sulla qualità dei prodotti «correlati» ai dati raccolti da sensori posizionati lungo la linea di produzione Monitoraggio dei ponti: un gran numero di sensori installati sulla struttura identifica gli schemi che portano a un cedimento. Controllo dell’usura nelle vetture: i sensori installati su componenti chiave, come il motore o gli assi, permette di capire quando è più probabile che un guasto avvenga Si rende quindi possibile agire anzitempo, prevenendo il problema. Tutto solo sapendo che se A allora probabilmente B. AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 13 BIG DATA IN AUTOMAZIONE INDUSTRIALE ESTRARRE VALORE - ESEMPIO Sedili delle auto che facciano anche da antifurto o che si accorgano, dai cambiamenti nella postura del guidatore, del suo stato di allerta o sonnolenza. Prendere qualcosa fino ad ora mai considerato come ‘dati’ ed estrarne valore analizzandolo. AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 14 GLI STRUMENTI Hadoop è un framework software concepito per scrivere facilmente applicazioni che elaborano grandi quantità di dati in parallelo, su cluster di grandi dimensioni (costituiti da migliaia di nodi) assicurando un’elevata affidabilità e disponibilità (fault-tolerant) I principali vantaggi di Hadoop risiedono nelle sue caratteristiche di agilità e di flessibilità AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 15 GLI STRUMENTI HADOOP - HDFS File system distribuito che fornisce un’efficace modalità di accesso ai dati. Garantisce che i dati siano ridondanti nel cluster rendendo le operazioni sui dati stessi immuni dall’eventuale guasto di un nodo. Accetta dati in qualsiasi formato, strutturati e non strutturati. AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 16 GLI STRUMENTI HADOOP - HDFS AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 17 GLI STRUMENTI HADOOP MAP-REDUCE Un pattern che implementato permette di realizzare sistemi di computazione parallela e distribuita di grandi quantità di dati AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 18 GLI STRUMENTI ESEMPIO Google Ngram Viewer: permette di analizzare la frequenza con cui i termini cercati dall’utente appaiono nei libri e tracciare un grafico AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 19 SICUREZZA Esigenze principali dei Big Data: autenticazione, autorizzazione, controllo dell'accesso basato sui ruoli, auditing, monitoraggio, backup e ripristino. Le performance rappresentano un fattore chiave da considerare nel proteggere sia i dati raccolti sia le reti. Firewall Crittografia Policy più critiche a causa del maggiore volume di dati e del numero di utenti che dovranno accedervi Poiché i Big Data coinvolgono/includono informazioni che provengono da più fonti e che risiedono in una vasta area, le aziende devono anche essere in grado di proteggere i dati ovunque si trovino AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 20 SICUREZZA INTERNET OF THINGS I Big Data sono direttamente correlati alle tecnologie IoT L’IoT ha una propria vulnerabilità Samsung smart fridge leaves Gmail logins open to attack http://www.theregister.co.uk/2015/08/24/smart_fridge_security_fubar/ Cyber attack launched through fridge as internet-of-things vulnerabilities become apparent http://www.computing.co.uk/ctg/news/2323661/cyber-attack-launched-throughfridge-as-internet-of-things-vulnerabilities-become-apparent AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 21 PRIVACY Dati personali estremamente sensibili saranno sempre più esposti e condivisi. E’ necessario definire regole chiare e il cittadino deve essere consapevole. Assicurazioni e prestiti: tramite i Big Data è possibile anche analizzare la possibilità che una persona sia un buon debitore o che sia particolarmente a rischio di malattie come il diabete. Tutto questo tramite l’analisi della storia finanziaria e medica e grazie a modelli dedotti dall’analisi Big Data. Analisi di tutta la serie di tracce digitali che ogni utente si lascia alle spalle su Internet Molte aziende di consulenza si sono già specializzate in questo campo, fornendo ad agenzie assicurative e banche probabili profili dei propri clienti. AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 22 GRAZIE AI Award 2015 - Milano, 15/12/2015 Dario Robatto – [email protected] 23