big data: un`opportunità da non sottovalutare

BIG DATA: UN'OPPORTUNITÀ DA NON
SOTTOVALUTARE
Dario Robatto
Comitato Italiano Ingegneria dell'Informazione
Ordine degli Ingegneri di Savona
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
INDICE
 Che cosa sono i Big Data
 Big Data nell’automazione industriale
 Soluzioni hw/sw
 Sicurezza e privacy
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
2
 CHE COSA SONO I BIG DATA
BIG DATA – DEFINIZIONI 1
Anything
that Won’t Fit
in Excel
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
3
 CHE COSA SONO I BIG DATA
BIG DATA – DEFINIZIONE 2
 Una generazione di tecnologie e architetture disegnate per estrarre Valore da
un grande Volume e da una grande Varietà di dati abilitandone la cattura, la
scoperta e l’analisi ad alta Velocità.
 La definizione è basata sul concetto di “V” di cui 3 fondamentali ed altre
aggiunte successivamente a corollario
 Volume Velocità Varietà
 Valore Veridicità o Validazione Visualizzazione
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
4
 CHE COSA SONO I BIG DATA
LE «V» - DEFINIZIONI
12
15
18
21
 Volume: terabyte
10
𝑏𝑦𝑡𝑒/
petabyte
10
𝑏𝑦𝑡𝑒
/
exabyte
10
𝑏𝑦𝑡𝑒
/
zettabyte
10
𝑏𝑦𝑡𝑒 /
24
27
30
yottabyte 10 𝑏𝑦𝑡𝑒 / brontobyte 10 𝑏𝑦𝑡𝑒 / geopbyte 10 𝑏𝑦𝑡𝑒
In un giorno si produce informazione pari a 2.5 milioni di terabyte
 Velocità: rapidità nella generazione, lavorazione, reperibilità dei dati (in brevissimo tempo
il dato può diventare obsoleto)
 Varietà: numerose e differenti sorgenti e differenti formati
Un minuto nel Web: 204 milioni di e-mail, 1,3 milioni di video visualizzati su YouTube, 100mila
tweet, 6 milioni di pagine Facebook, 47mila app scaricate
 Valore: ricavi derivati dall’utilizzo dei Big Data
 Veridicità o Validazione: attendibilità e oggettività dell’informazione dopo l’analisi e
congruenza tra i dati stessi
 Visualizzazione: modalità di presentazione dei risultati dell’analisi all’utente
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
5
 CHE COSA SONO I BIG DATA
LE SORGENTI
 Vengono dai social media
 Vengono dalla quantità di dispositivi mobili di cui smartphone e tablet
Tra wearable technology e installazioni smart (tavoli, vetrine, totem, …) si moltiplicano gli oggetti
generatori e vettori di informazioni.
“Ogni 14 mesi i dati italiani raddoppiano”
 Digitalizzazione di molte attività una volta cartacee
(ordini, bollettazioni, fatture, ad esempio, ma anche cartelle cliniche o i carteggi notarili).
 Sistemi di pagamento on line e off line.
 Sensori, Telecamere, rilevatori
Un motore di un aeromobile genera circa 10 TB di dati ogni trenta minuti di volo.
2 Motori Genova - Catania = 60 TB
Milano - New York = 640 TB
Dal 2005 al 2011 gli RFID (Radio Frequency ID tags) sono cresciuti da 1.3 a 30 mililardi e la crescita prevista
sarà ancora più rilevante nei prossimi anni.
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
6
 CHE COSA SONO I BIG DATA
LE TIPOLOGIE DI SORGENTE
 Dati strutturati in tabelle (relazionali)
 Dati semistrutturati (XML e standard simili)
 Dati di eventi e macchinari (messaggi, batch o real time, sensori, RFID e
periferiche) (tipici dati definibili Big Data)
 Dati non strutturati (linguaggio umano, audio, video)
 Dati non strutturati da social media (social network, blog, tweet)
 Dati dalla navigazione web (Clickstream)
 Dati di tipo geografico - GIS (Geospatial, GPS)
 Dati scientifici (astronomici, genetica, fisica)
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
7
 CHE COSA SONO I BIG DATA
BUSINESS INTELLIGENCE - BUSINESS ANALYTICS
 Per Business Intelligence e Analytics si intende l’insieme degli strumenti e
delle applicazioni software di accesso, di analisi e di visualizzazione dei dati
che aiutano il management a controllare le prestazioni dell’azienda e a
prendere decisioni migliori.
 Le tecnologie Big Data si affiancano e vanno ad integrare gli strumenti di
Business Intelligence tradizionale
 Cambia l’approccio al dato: dai processi «standard» ETL e di data quality
(costruzione di un data warehouse) si passa a dati salvati nel loro formato
originale
 Gli strumenti analitici «Big Data» recuperano «quello che serve quando serve»
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
8
 CHE COSA SONO I BIG DATA
DATA ANALYST – DATA SCIENTIST
 Da un processo standardizzato si passa ad uno iterativo dove il contributo
dell’analista è molto importante
 Nel mondo dei big data la correlazione si libera dalle ipotesi iniziali: l’analista
decide la direzione in cui vorrebbe che l’algoritmo esegua la sua ricerca, e i
risultati parlano da se. Molto spesso è il programma in se che procede a
formulare (anche milioni) di modelli matematici e testarli sulla mole dei dati
disponibili.
«Data Scientist: The Sexiest Job of the 21st Century»
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
9
 CHE COSA SONO I BIG DATA
ESEMPIO DI FLUSSO
Big Data: Architettura, tecnologie e metodi per l’utilizzo di grandi basi di dati
Alessandro Rezzani
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
10
BIG DATA IN AUTOMAZIONE INDUSTRIALE
 Siamo in una situazione di Big Data?
Forse, per ora, non sono rispettate tutte le “V” - Volume Velocità Varietà
MA
«Datalogic, leader mondiale nei settori dell’acquisizione automatica dei dati e
dell’automazione industriale e produttore di lettori di codici a barre, mobile
computer, sensori, sistemi di visione e marcatura laser, prevede la diffusione
sempre più consistente di dispositivi di raccolta dati di nuova generazione, che
saranno in grado di elaborare e comunicare in modo intelligente, svolgendo un
ruolo fondamentale nell’ambito della Business Analytics (‘Big Data’).»
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
11
 BIG DATA IN AUTOMAZIONE INDUSTRIALE
VERSO I BIG DATA
 «Analizzare un’enorme quantità di dati, di diverso tipo, permette di
individuare correlazioni e modelli in grado di accelerare il processo decisionale
e migliorare i risultati aziendali. La Business Analytics consente di capire
perché gli eventi accadono, quali conseguenze avranno e come l’azienda può
ottimizzare le azioni future»
 Quindi posso utilizzare la “filosofia” Big Data su tutte le informazioni che ho a
disposizione
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
12
 BIG DATA IN AUTOMAZIONE INDUSTRIALE
SPUNTI APPLICATIVI
 Compagnia telefonica: dalle informazioni geografiche che arrivano dal dispositivo
mobile invio pubblicità mirata
 Andamento delle vendite «correlato» con il numero di volte in cui i prodotti sono
menzionati sui social network valutandone anche il «sentiment»
 Reclami sulla qualità dei prodotti «correlati» ai dati raccolti da sensori posizionati
lungo la linea di produzione
 Monitoraggio dei ponti: un gran numero di sensori installati sulla struttura identifica
gli schemi che portano a un cedimento.
 Controllo dell’usura nelle vetture: i sensori installati su componenti chiave, come il
motore o gli assi, permette di capire quando è più probabile che un guasto avvenga
Si rende quindi possibile agire anzitempo, prevenendo il problema. Tutto solo sapendo che
se A allora probabilmente B.
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
13
 BIG DATA IN AUTOMAZIONE INDUSTRIALE
ESTRARRE VALORE - ESEMPIO
 Sedili delle auto che facciano anche da antifurto o che si accorgano, dai
cambiamenti nella postura del guidatore, del suo stato di allerta o sonnolenza.
 Prendere qualcosa fino ad ora mai considerato come ‘dati’ ed estrarne valore
analizzandolo.
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
14
GLI STRUMENTI
 Hadoop è un framework software concepito per scrivere facilmente applicazioni
che elaborano grandi quantità di dati in parallelo, su cluster di grandi dimensioni
(costituiti da migliaia di nodi) assicurando un’elevata affidabilità e disponibilità
(fault-tolerant)
 I principali vantaggi di Hadoop risiedono nelle sue caratteristiche di agilità e di
flessibilità
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
15
 GLI STRUMENTI
HADOOP - HDFS
 File system distribuito che fornisce un’efficace modalità di accesso ai dati.
Garantisce che i dati siano ridondanti nel cluster rendendo le operazioni sui
dati stessi immuni dall’eventuale guasto di un nodo.
 Accetta dati in qualsiasi formato, strutturati e non strutturati.
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
16
 GLI STRUMENTI
HADOOP - HDFS
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
17
 GLI STRUMENTI
HADOOP MAP-REDUCE
 Un pattern che implementato permette di realizzare sistemi di computazione
parallela e distribuita di grandi quantità di dati
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
18
 GLI STRUMENTI
ESEMPIO
 Google Ngram Viewer: permette di analizzare la frequenza con cui i termini
cercati dall’utente appaiono nei libri e tracciare un grafico
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
19
SICUREZZA
 Esigenze principali dei Big Data: autenticazione, autorizzazione, controllo
dell'accesso basato sui ruoli, auditing, monitoraggio, backup e ripristino.
 Le performance rappresentano un fattore chiave da considerare nel proteggere
sia i dati raccolti sia le reti.
 Firewall
 Crittografia
 Policy più critiche a causa del maggiore volume di dati e del numero di utenti che
dovranno accedervi
 Poiché i Big Data coinvolgono/includono informazioni che provengono da più
fonti e che risiedono in una vasta area, le aziende devono anche essere in grado di
proteggere i dati ovunque si trovino
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
20
 SICUREZZA
INTERNET OF THINGS
 I Big Data sono direttamente correlati alle tecnologie IoT
 L’IoT ha una propria vulnerabilità
Samsung smart fridge leaves Gmail logins open to attack
http://www.theregister.co.uk/2015/08/24/smart_fridge_security_fubar/
Cyber attack launched through fridge as internet-of-things vulnerabilities become
apparent
http://www.computing.co.uk/ctg/news/2323661/cyber-attack-launched-throughfridge-as-internet-of-things-vulnerabilities-become-apparent
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
21
PRIVACY
 Dati personali estremamente sensibili saranno sempre più esposti e condivisi. E’
necessario definire regole chiare e il cittadino deve essere consapevole.
 Assicurazioni e prestiti: tramite i Big Data è possibile anche analizzare la
possibilità che una persona sia un buon debitore o che sia particolarmente a
rischio di malattie come il diabete. Tutto questo tramite l’analisi della storia
finanziaria e medica e grazie a modelli dedotti dall’analisi Big Data.
 Analisi di tutta la serie di tracce digitali che ogni utente si lascia alle spalle su
Internet
 Molte aziende di consulenza si sono già specializzate in questo campo, fornendo
ad agenzie assicurative e banche probabili profili dei propri clienti.
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
22
GRAZIE
AI Award 2015 - Milano, 15/12/2015
Dario Robatto – [email protected]
23