Big Data Alessandro Rezzani [email protected] www.dataskills.it Chi sono? Agenda • I big data • Caratteristiche • Fonti • Creare valore con i big data • Aspetto del business • Aspetto finanziario • Aspetto tecnologico • Criticità • Skills • Qualità dei dati I BIG DATA Cosa sono? Dati non analizzabili su una sola macchina o che non conviene analizzare con tecnologie tradizionali. Dati non strutturati difficili da analizzare co un DB relazionale Tre caratteristiche • Volume • Grandi quantità di dati • Variety • Varietà di strutture, tipi dato, fonti • Complessità delle strutture • Dati destrutturati o semi-strutturati • Velocity • Velocità con cui sono prodotti www.dataskills.it Fonti dati • Sistemi tradizionali (gestionali, CRM, …) • DCS (Distributed Control System) • Apparecchiature Scientifiche /Mediche • Sistemi di High Frequency trading • Web 2.0 • IOT www.dataskills.it IOT www.dataskills.it Le fonti per Volume/complessità www.dataskills.it CREARE VALORE DAI BIG DATA Opportunità/Criticità • Le opportunità (e criticità) che i big data offrono possono essere viste sotto i seguenti aspetti: Business Finanziario Tecnologico Piattaforme sw Nuovi modelli di business Incremento ricavi Riduzione costi Vantaggi competitivi Hardware Skills Qualità dati Creare valore con i Big Data Cross selling Dati demografici storia degli acquisti location / dati social Proposte mirate es: «you might also want» di Amazon Campagne mirate Location Based Mkt CRM Dati geografici Dati social Differenziazione offerte Messaggi pubblicitari in base alla location Dati geografici Dati social Dati anagrafici Foto, Documenti Profilazione Churn Analysis Gestion integrata dei dati www.dataskills.it Creare valore con i Big Data Frau Detection Anomaly Detection Dati geografici Dati social Dati anagrafici location Dati di impianti industriali Individuazione di utilizzi fraudolento di carte di credito Frodi assicurative Individuazione guasti o malfunzionamenti Dati dell'ambiente Analisi dati IOT Sensori Dati geografici Dati social Dati anagrafici Servizio post vendita Individuazione guasti www.dataskills.it Processo di analisi Data lake Generate data Ingestion Store Analyze Get Insights www.dataskills.it Aspetto finanziario • La quantificazione dell’impatto economico derivante dall’utilizzo dei big data è un’informazione importante e serve a decidere se realizzare oppure accantonare il progetto stesso. • Valutiamo l'investimento in termini di ROI: Fattori di costo Benefici Tecnologie • Tecnologie Software • L'ecosistema Hadoop • Tecnologie Hardware • DB Appliances • Architetture MPP 15 www.dataskills.it Hadoop • Hadoop è un sistema di calcolo distribuito basato su: • Il file system HDFS (Hadoop Distributed File System) • Distribuito • Ridondato • Il framework di calcolo distribuito MapReduce • Principio "divide et impera" • Caratteristiche: • Open source • Fault tolerant • Scalabile www.dataskills.it L'ecosistema Hadoop ANALYTICS MAHOUT OPERATIONAL SERVICES R GIRAPH … DATA SERVICES AMBARI ZOOKEEPER FLUME OOZIE SQOOP HBASE HIVE HCATALOG MAP REDUCE CORE SERVICES PIG TEZ … YARN HDFS www.dataskills.it Data Ingestion Tecnologie Software Data storing Computation/Analysis Data organization Integration/Enrichment www.dataskills.it Criticità • Qualità dei dati • Coerenza • Veridicità • Rilevanza e attinenza • Privacy • Protezione dei dati • Acquisizione degli skills • Il Data Scientist www.dataskills.it DATA LAKE ARCHITECTURE Architettura tradizionale (BI) Applicazioni Business Analytics Reporting DWH Master data Gestione dati Fonti Data quality engine ETL process Fonti dati tradizionali (CRM, ERP,…) www.dataskills.it Nuova architettura dati Analisi Gestione dati Reporting Business Analytics Advanced Analytics DWH Master data Data lake On premises o Cloud based Data quality engine RDBMS - MPP ETL & Data Ingestion Fonti Fonti esistenti (CRM, ERP,…) Fonti emergenti (sensori, web, geo, non strutturati,…) www.dataskills.it Data Lake • Utilizzo di Hadoop accanto alle tecnologie tradizionali: • Repository a costi ridotti • Staging area permanente per ogni tipologia di dato. • Creazione di un unico storage accessibile a varie applicazioni • Eventuale utilizzo del cloud. • Dati non strutturati • Dati con struttura variabile • "Schema on read" • Il data lake diventa fonte per l'EDW www.dataskills.it Repository a costi ridotti Fonte: Hortonworks www.dataskills.it GRAZIE!