Big Data: Nuove sfide e opportunità nella gestione delle informazioni

Big Data:
Nuove sfide e opportunità nella
gestione delle informazioni
Riccardo Torlone
Università Roma Tre
1
Sommario
 Cosa sono?
 Dove sono?
 A che servono?
 Come usarli?
 Con che cosa usarli?
 BD & PA
2
"Big Data"??
 Esistono diverse definizioni
“Big data exceeds the reach of commonly used hardware environments and software
tools to capture, manage, and process it with in a tolerable elapsed time for its user
population.” -Teradata Magazine article, 2011
“Big data refers to data sets whose size is beyond the ability of typical database software
tools to capture, store, manage and analyze.” -The McKinsey Global Institute, 2012
“Big data is a collection of data sets so large and complex that it becomes difficult to
process using on-hand database management tools.” - Wikipedia, 2012
3
Quando i dati diventano “Big”?
IOPS
Normali
Capacità di
Elaborazione
BIG
DATA
Volume dei dati
IOPS: Input/Output Operations Per Second
4
Qualche numero
 Quanti dati ci sono nel mondo?
 800 Terabytes, 2000
 160 Exabytes, 2006
 500 Exabytes, 2009
 2.7 Zettabytes, 2012
 35 Zettabytes by 2020
 Quanti dati sono generati in un giorno?
 7 TB, Twitter
 10 TB, Facebook
5
Velocità di crescita
6
Distribuzione nei vari settori
7
Tipologia di dati
8
Le tre "V" di Big Data
 Non si tratta solo di volume..
9
Big Data: V3+VALUE
 Volume:Gigabyte(109), Terabyte(1012), Petabyte(1015),
Exabyte(1018), Zettabyte (1021)
 Varietà: Structured, semi-structured, unstructured; Text,
image, audio, video, record
 Velocità: Periodic, Near Real Time, Real Time
 Valore: Può generare grossi vantaggi competitivi!
10
Dati McKinsey
 600$ per un disco nel quale memorizzare tutta la musica del
mondo
 5 miliardi di cellulari nel 2010
 30 miliardi di contenuti al mese su Facebook
 40% di crescita di dati all’anno
 5% di crescita di investimenti nell’IT
 235 TB di dati raccolti dalla US Library of Congress
 15 settori su 17 con aziende che hanno più dati della US LoC
11
Valore potenziale in alcuni settori
12
Prospettive di guadagni
13
Facilità di sfruttamento in termini di
valore
14
Il ciclo delle aspettative [Gartner 2012]
15
E’ più importante il “big” o il “data”?
 Il “Big”
 Il “Data”
 Entrambi
 Nessuno dei due
16
E’ più importante il “big” o il “data”?
 Il “Big”
 Il “Data”
 Entrambi
 Nessuno dei due
Cosa fanno le organizzazioni con i big data
"Data is not information, information is not knowledge,
knowledge is not understanding, understanding is not wisdom"
Cliff Stoll
17
Casi di uso (1)
Data
Source
Capital markets
18
High-frequency
operations
Write/index all trades,
store tick data
Lower-frequency
operations
Show consolidated risk
across traders
Call initiation request Real-time authorization
Fraud detection/analysis
Inbound HTTP
requests
Visitor logging, analysis,
alerting
Traffic pattern analytics
Online game
Rank scores:
• Defined intervals
• Player “bests”
Leaderboard lookups
Real-time ad trading
systems
Match form factor,
placement criteria,
bid/ask
Report ad performance
from exhaust stream
Mobile device
location sensor
Location updates, QoS,
transactions
Analytics on transactions
Casi di uso (2)
19
Today’s Challenge
New Data
What’s Possible
Healthcare
Expensive office visits
Remote patient
monitoring
Preventive care, reduced
hospitalization
Manufacturing
In-person support
Product sensors
Automated diagnosis,
support
Location-Based Services
Based on position
Real time location data
Geo-advertising, traffic,
local search
Public Sector
Standardized services
Citizen surveys
Tailored services,
cost reductions
Retail
One size fits all
marketing
Social media
Sentiment analysis
segmentation
Open data
 Iniziativa volta a rendere liberamente accessibili i dati
 privi di brevetti e non coperti da copyright
 Open government
 Dato come bene comune
 Formato aperto
 Adatti alla elaborazione
20
Open data in Italia
 Siamo in ritardo (dati.gov.it)
 Prevalentemente regionale
 I primi 10 enti coprono il 75% dei dati disponibili
21
I rischi dei Big Data
 Ingestibilità dei dati a disposizione
 Non scalabilità
 Inefficacia delle analisi
 Costi
 Privacy
22
Spiacevoli inconvenienti
 AOL search data leak (NYT, 8/9/2006)
 Anonymous Netflix vs IMDb database (Wired, 12/13/2007)
 Why Johnny Can’t Browse The Internet In Peace (Forbes,
8/1/2012)
 How Companies Learn Your Secrets (NYT, 16/2/2012)
23
Big Data in action
Acquisizione
Decisione
Estrazione
Interpretazione
Integrazione
Analisi
24
Obiettivo:
saper prendere
decisioni strategiche
efficaci sfruttando la
grande disponibilità
di dati
Big Data in action
Acquisizione
Decisione
Estrazione
Interpretazione
Integrazione
Analisi
25
Richiede:
 Selezione
 Filtraggio
 Generazione di
metadati
 Gestione
provenienza
Big Data in action
Acquisizione
Decisione
Estrazione
Interpretazione
Integrazione
Analisi
26
Richiede:
 Trasformazione
 Normalizzazione
 Cleaning
 Aggregazione
 Gestione errori
Big Data in action
Acquisizione
Decisione
Estrazione
Interpretazione
Integrazione
Analisi
27
Richiede:
 Standardizzazione
 Gestione conflitti
 Riconciliazione
 Definizione di
mapping
Big Data in action
Acquisizione
Decisione
Estrazione
Interpretazione
Integrazione
Analisi
28
Richiede:
 Esplorazione
 Mining
 Apprendimento
automatico
 Visualizzazione
Big Data in action
Acquisizione
Decisione
Estrazione
Interpretazione
Integrazione
Analisi
29
Richiede:
 Conoscenza del
dominio
 Conoscenza della
provenienza
 Identificazione
pattern di interesse
 Flessibilità del
processo
Big Data in action
Acquisizione
Decisione
Estrazione
Interpretazione
Integrazione
Analisi
30
Richiede:
 Capacità
manageriali
 Miglioramento
continuo del
processo
Sfide
 Performance, performance, performance!
 Scalabilità
 Eterogeneità e incompletezza
 Flessibiltà
 Usabilità
 Efficacia
 Privatezza
 Proprietà
 Collaborazione umana
31
Tecniche per l'analisi dei big data
 Data mining




Association rule learning
Classification
Cluster analysis
Regression
 Crowdsourcing
 Data fusion and data integration
 Genetic algorithms
 Machine learning
 Supervised learning
 Unsupervised learning.
32
Tecniche per l'analisi dei big data
 Natural language processing
 Neural networks
 Network analysis
 Pattern recognition
 Predictive modeling
 Sentiment analysis
 Signal processing
 Spatial analysis
 Simulation
 Time series analysis
 Visualization.
33
Tecnologie per i big data
 Business intelligence (BI)
 Cloud computing
 Distributed system
 Hadoop
 Relational database
 NoSQL systems









34
Cassandra
Dynamo
HBase
Big Table
Extract, transform, and load (ETL)
Mashup
Semi-structured/Unstructured data
Stream processing
Visualization
Il flusso dei Big Data
Real Time
Streams
Real-Time
Processing
Near
Real-Time
Processing
OLAP
ETL
NoSQL
Big SQL
Analytics
(HBase,
Cassandra,
MongoDB)
(Oracle,
InfoSphere,
Teradata)
(Vertica,
Penthao,
Greenplum)
File system distribuito (HDFS)
35
The Big Data Landscape
36
La visualizzazione è fondamentale
37
Distribuzione di risorse e servizi
 Architettura distribuita
 Computer autonomi che interagiscono per un obiettivo comune
 Scalabilità orizzontale
 Fault-tolerant
 Replicazione di risorse
 Eventual-consistency
 Elaborazione distribuita
 Paradigma Map-Reduce
 Modello Shared-nothing
38
I requisiti per sfruttare i big data
 Politiche
 Tecnologie e tecniche
 Riorganizzazioni
 Ricerca del talento
 Accesso ai dati
 Struttura aziendale
39
Un caso di uso: agenzia delle entrate
40
Un caso di uso: agenzia delle entrate
 Elaborazione dati sui redditi
 Analisi di mercato
 Monitoraggio utenti
 Confronto dati
 Fraud detection
 …
41
Opportunità
 Creare trasparenza
 Scoprire i bisogni e individuare variabilità
 Personalizzare le azioni
 Supporto alle decisioni
 Innovare prodotti e servizi
42
Come agire
 Spesso i dati sono già disponibili!
 Adottare opportune tecnologie
 Reclutare e addestrare personale di talento
 Gestire il cambiamento nell’organizzazione
 Condividere i dati tra agenzie diverse
 Introdurre la cultura del rinnovamento e miglioramento
 Serve un supporto politico
43
Conclusioni
 I Big Data sono già qui
 Ampia disponibilità in diversi settori
 La tecnologia per i Big Data esiste
 Il problema è nell'uso che se ne fa
 I Big Data possono creare valore
 Gli aspetti metodologici sono importanti
 Un'area in rapida evoluzione
44
Fonti
 "Big Data: The next frontier for innovation, competition, and
productivity". Rapporto McKinsey&Company, 2012.
 "Challenges and Opportunities with Big Data". A community
white paper developed by leading researchers across the
United States, 2012.
 "Taming The Big Data Tidal Wave: Finding Opportunities in
Huge Data Streams with Advanced Analytics". Bill Franks,
John Wiley & Sons, 2012.
45