Creare valore con architetture Big Data

Big Data
Alessandro Rezzani
[email protected]
www.dataskills.it
Chi sono?
Agenda
• I big data
• Caratteristiche
• Fonti
• Creare valore con i big data
• Aspetto del business
• Aspetto finanziario
• Aspetto tecnologico
• Criticità
• Skills
• Qualità dei dati
I BIG DATA
Cosa sono?
Dati non analizzabili su una sola macchina o che non conviene analizzare con
tecnologie tradizionali.
Dati non strutturati difficili da analizzare co un DB relazionale
Tre caratteristiche
• Volume
• Grandi quantità di dati
• Variety
• Varietà di strutture, tipi dato, fonti
• Complessità delle strutture
• Dati destrutturati o semi-strutturati
• Velocity
• Velocità con cui sono prodotti
www.dataskills.it
Fonti dati
• Sistemi tradizionali (gestionali, CRM, …)
• DCS (Distributed Control System)
• Apparecchiature Scientifiche /Mediche
• Sistemi di High Frequency trading
• Web 2.0
• IOT
www.dataskills.it
IOT
www.dataskills.it
Le fonti per Volume/complessità
www.dataskills.it
CREARE VALORE DAI BIG DATA
Opportunità/Criticità
• Le opportunità (e criticità) che i big data offrono
possono essere viste sotto i seguenti aspetti:
Business
Finanziario
Tecnologico
Piattaforme sw
Nuovi modelli di
business
Incremento ricavi
Riduzione costi
Vantaggi competitivi
Hardware
Skills
Qualità dati
Creare valore con i Big Data
Cross selling
Dati demografici
storia degli acquisti
location / dati social
Proposte mirate
es: «you might also
want» di Amazon
Campagne mirate
Location Based
Mkt
CRM
Dati geografici
Dati social
Differenziazione
offerte
Messaggi pubblicitari
in base alla location
Dati geografici
Dati social
Dati anagrafici
Foto, Documenti
Profilazione
Churn Analysis
Gestion integrata dei
dati
www.dataskills.it
Creare valore con i Big Data
Frau Detection
Anomaly
Detection
Dati geografici
Dati social
Dati anagrafici
location
Dati di impianti
industriali
Individuazione di
utilizzi fraudolento di
carte di credito
Frodi assicurative
Individuazione guasti o
malfunzionamenti
Dati dell'ambiente
Analisi dati IOT
Sensori
Dati geografici
Dati social
Dati anagrafici
Servizio post vendita
Individuazione guasti
www.dataskills.it
Processo di analisi
Data lake
Generate
data
Ingestion
Store
Analyze
Get Insights
www.dataskills.it
Aspetto finanziario
• La quantificazione dell’impatto economico derivante
dall’utilizzo dei big data è un’informazione importante
e serve a decidere se realizzare oppure accantonare il
progetto stesso.
• Valutiamo l'investimento in termini di ROI:
Fattori di costo
Benefici
Tecnologie
• Tecnologie Software
• L'ecosistema Hadoop
• Tecnologie Hardware
• DB Appliances
• Architetture MPP
15
www.dataskills.it
Hadoop
• Hadoop è un sistema di calcolo distribuito basato
su:
• Il file system HDFS (Hadoop Distributed File System)
• Distribuito
• Ridondato
• Il framework di calcolo distribuito MapReduce
• Principio "divide et impera"
• Caratteristiche:
• Open source
• Fault tolerant
• Scalabile
www.dataskills.it
L'ecosistema Hadoop
ANALYTICS
MAHOUT
OPERATIONAL
SERVICES
R
GIRAPH
…
DATA SERVICES
AMBARI
ZOOKEEPER
FLUME
OOZIE
SQOOP
HBASE
HIVE
HCATALOG
MAP
REDUCE
CORE SERVICES
PIG
TEZ
…
YARN
HDFS
www.dataskills.it
Data Ingestion
Tecnologie Software
Data storing
Computation/Analysis
Data organization
Integration/Enrichment
www.dataskills.it
Criticità
• Qualità dei dati
• Coerenza
• Veridicità
• Rilevanza e attinenza
• Privacy
• Protezione dei dati
• Acquisizione degli skills
• Il Data Scientist
www.dataskills.it
DATA LAKE ARCHITECTURE
Architettura tradizionale (BI)
Applicazioni
Business
Analytics
Reporting
DWH
Master data
Gestione
dati
Fonti
Data quality
engine
ETL process
Fonti dati tradizionali
(CRM, ERP,…)
www.dataskills.it
Nuova architettura dati
Analisi
Gestione dati
Reporting
Business
Analytics
Advanced
Analytics
DWH
Master data
Data lake
On premises
o
Cloud based
Data quality
engine
RDBMS - MPP
ETL
&
Data Ingestion
Fonti
Fonti esistenti
(CRM, ERP,…)
Fonti emergenti
(sensori, web, geo,
non strutturati,…)
www.dataskills.it
Data Lake
• Utilizzo di Hadoop accanto alle tecnologie
tradizionali:
• Repository a costi ridotti
• Staging area permanente per ogni tipologia di dato.
• Creazione di un unico storage accessibile a varie applicazioni
• Eventuale utilizzo del cloud.
• Dati non strutturati
• Dati con struttura variabile
• "Schema on read"
• Il data lake diventa fonte per l'EDW
www.dataskills.it
Repository a costi ridotti
Fonte: Hortonworks
www.dataskills.it
GRAZIE!