SAS BIG DATA ANALYTICS FORUM PA 28 MAGGIO 2013 Copyright © 2012, SAS Institute Inc. All rights reserved. FORUM PA Cosa sono I big data ? • Differenti Prospettive DB Appliance Data Management Analytics Copyright © 2012, SAS Institute Inc. All rights reserved. COSA SONO I BIG IMPATTO SI FARÀ SENTIRE IN TUTTA L'ORGANIZZAZIONE, DATA ? OVUNQUE LE DECISIONI SONO PRESE SULLA BASE DEI DATI ! un’organizzazione che di superano l’archiviazione DatiI dati che di impediscono la capacità un'organizzazione di fare tradizionale di un database decisioni o la capacità di elaborarli azioni di alta qualità prendendo in modo tempestivo Copyright © 2012, SAS Institute Inc. All rights reserved. BIG DATA Big Data è un fenomeno definito attraverso la rapida accelerazione nell’espansione del Volume, Velocità e della Varietà dei tipi di dati. In aggiunta, nei Big Data secondo SAS, i flussi di dati possono essere altamente inconsistenti con la presenza di picchi periodici (Variability) ed dove inoltre, è necessario collegare e correlare le relazioni, le gerarchie, tra i diversi dati con la possibilità e la necessità di eseguire collegamenti multipli tra di loro sfuggendo rapidamente al vostro controllo (Complexity). Questo fenomeno è sia una sfida per dare un senso ai dati disponibili, per raggiungere risultati, e la possibilità di sfruttarli per aumentare il Business delle organizzazioni. Definizione Copyright © 2012, SAS Institute Inc. All rights reserved. BIG DATA Quali tipi di dati? Copyright © 2012, SAS Institute Inc. All rights reserved. BIG DATA • I dati aperti, comunemente chiamati con il termine inglese open data (OD), sono alcune tipologie di dati liberamente accessibili a tutti, privi di brevetti o altre forme di controllo che ne limitino la riproduzione e le cui restrizioni di copyright eventualmente si limitano ad obbligare di citare la fonte o al rilascio delle modifiche allo stesso modo. • I Linked Open Data (LOD) si basano su formalismi per la rappresentazione standardizzata dei dati e dei meccanismi condivisi per l’accesso e l’interrogazione di tali dati attraverso l’utilizzo di metadati, strutturati in modo tale da richiamare il concetto di reti ontologiche. • I LOD come gli Open Data hanno l’obiettivo di abbattere le barriere sociali, culturali, legali ed economiche che ostacolano la libera condivisione dei dati tra persone e agenti software. Quali tipi di dati? Copyright © 2012, SAS Institute Inc. All rights reserved. OPEN DATA GLI OPEN DATA IN ITALIA 611 Chi rilascia più dataset 5634 1987 Ripartizione del numero di dataset rilasciati rispetto al livello amministrativo degli enti Copyright © 2012, SAS Institute Inc. All rights reserved. Fonte: http://www.dati.gov.it Dati aggiornati al 26/03/2013 OPEN DATA LOD I LOD vengono, per definizione, espressi tramite il formato RDF (Resource Description Framework), un data model che definisce un “formalismo” per rappresentare i dati nel web semantico. Grazie al concetto di “tripla” in cui è possibile descrivere una informazione nella forma “soggettopredicato-oggetto”, si viene a creare un grafo, i cui nodi (o risorse) sono identificate in cui i collegamentilink tra i nodi indicano le relazioni. I significati delle risorse e dei link sono descritti in ontologie, che definiscono la conoscenza che abbiamo di un dominio particolare tramite classi, relazioni tra classi e individui appartenenti alle classi. Copyright © 2012, SAS Institute Inc. All rights reserved. OPEN DATA LOD DATASET L’interconnessione tra dataset diversi, nate da iniziative di carattere governativo ma anche indipendente, porterà nel giro di pochissimo tempo alla creazione di una grande “nuvola” di collegamenti tra sorgenti dati differenti. Copyright © 2012, SAS Institute Inc. All rights reserved. BIG DATA PSICOSTORIA Copyright © 2012, SAS Institute Inc. All rights reserved. • La psicostoria (o psicostoriografia) è una scienza inventata da Hari Seldon. Il concetto si basa su una presunta ciclicità della storia, che può essere predetta, appunto, attraverso equazioni matematiche se applicate ad un numero abbastanza elevato di persone: «Le leggi della storia sono assolute come quelle della fisica, e se in essa le probabilità di errore sono maggiori, è solo perché la storia ha a che fare con gli esseri umani che sono assai meno numerosi degli atomi, ed è per questa ragione che le variazioni individuali hanno un maggior valore.». BIG DATA PSICOSTORIA • Le predizioni psicostoriografiche, sia pure a livello probabilistico, sono in grado di prevedere l’evoluzione futura di una determinata società,a condizione che: 1. essa comprenda un numero particolarmente elevato di intelligenze umane; 2. almeno il 99% di questa collettività non deve essere al corrente della psicostoria; 3. non esistano all’interno di tale raggruppamento significative intelligenze non umane (non solo in senso quantitativo, ma anche qualitativo), come alieni, robot o individui mutanti. 4. non avvenga, fra il momento in cui la previsione viene stipulata e il momento in cui dovrebbe avverarsi, una sostanziale e imprevedibile modifica nella società umana (grandi progressi tecnologici non considerati poco probabili) Copyright © 2012, SAS Institute Inc. All rights reserved. prevedibili o previsti, ma BIG DATA PSICOSTORIA Copyright © 2012, SAS Institute Inc. All rights reserved. BIG DATA ANALYTICS Sbloccare il valore economico degli Open Data attraverso l'adozione di Big Data Analytics. Guidare al miglior margine di profitto Business Value Definizione del Valore Efficienza Operazionale Nuove strategie e modelli di business Il valore nei Big Data Analytics è nell’estrazione di trends, intuizioni, e conoscenze utilizzabili per analizzare enormi quantità di diversi tipi di dati (gran parte di essa non strutturati) spesso quasi "near-real time", per abilitare ad un migliore processo decisionale. Copyright © 2012, SAS Institute Inc. All rights reserved. BIG DATA SAS APPROACH Copyright © 2012, SAS Institute Inc. All rights reserved. Alerts Alerts OLAP OLAP Ad Ad Hoc Hoc Reports Reports Standard Standard Reports Reports PROACTIVE PROACTIVE Optimization Optimization Predictive Predictive Modeling Modeling Forecasting Forecasting Statistical Statistical Analysis Analysis PROACTIVE REACTIVE REACTIVE REACTIVE ANALYTICS ANALYTICS PATH TO ADVANTAGE ANALYTIC CAPABILITY BIG DATA ANALYTICS ggee a a nntt a a vv AAdd ttoo h h tt PPaa LARGE Copyright © 2012, SAS Institute Inc. All rights reserved. DATA SIZE BIG DATA BIG DATA DATA WAREHOUSE ARCHITECTURE ANALYTICS Obiettivi DWH : •Visione integrata dei dati operativi (qualità (qualità e correttezza) •Dati organizzati per il reporting e analisi (non operativo) di business finalizzate a prendere decisioni Problemi DWH: •Tempi lunghi di attuazione per i requisiti di business •Livelli di qualità qualità dei dati bassa •Crescente numero di variabili e informazioni da analizzare •Cattive prestazioni per l'analisi dei dati Copyright © 2012, SAS Institute Inc. All rights reserved. BIG DATA BUILDING BLOCKS BIG DATA ANALYTICS ARCHITECTURE Obiettivi Big Data Architecture: •Apportare miglioramenti nella tecnologia e nel processo di analisi diminuendo il Time to Value •Avere un'infrastruttura integrata per la gestione e l'analisi di un numero crescente ed eterogeneo di fonti di dati. dati. Caratteristiche Big Data Architecture: •Memorizzare ed analizzare elevate moli di dati utilizzando hardware di commodity •Sfruttare le caratteristiche di scalabilità scalabilità degli Appliance RDBMS per la storicizzazione dei dati di valore •Avere a disposizione sistemi di analisi flessibili, veloci e integrati nell’ nell’architettura •Analizzare e processare i cosiddetti Dati in Motion laddove vengono generati. Copyright © 2012, SAS Institute Inc. All rights reserved. SAS APPROACH Copyright © 2012, SAS Institute Inc. All rights reserved. BIG DATA BUILDING BLOCKS OF A BIG DATA ANALYTICS PROCESS ANALYTICS FLOW BIG DATA BIG VALUE Collection Copyright © 2012, SAS Institute Inc. All rights reserved. Integration Storage Exploitation BIG DATA ANALYTICS COLLECT APPROACH Data acquisition from any sources (Strutturati, Semi‐strutturati e No‐Strutturati) ¾ Accesso ai dati in modo “Nativo”, trasferimento dei file Transfer e federazione di dati strutturati ¾ Message & Queuing per acqusizione dati in modalità Sync/Asynch. Per dati semi‐strutturati ¾ Acquisizione dati no‐strutturati mediante Web Crawling e Web clickstream ¾ Data Governance ed esecuzione di task in pre‐processing ¾ Processi di ETL & EL‐T secondo metodologie e tecniche tradizionali Collection Replication/Synchronization Real-time Acquisition Event Stream Processing Integrazione con Enterprise Service Bus, Web Service & Architetture SOA Technical ¾ Creazione di metadati per tabelle, colonne, sorgenti dati, flussi dati e processi. Control ¾ Copyright © 2012, SAS Institute Inc. All rights reserved. Metadata definition and Management Processi distribuiti e in esecuzione (Grid Computing) BIG DATA ANALYTICS INTEGRATE APPROACH Enterprise Metadata Management ¾ ¾ ¾ ¾ Integratio n Enterprise Data Quality ¾ ¾ ¾ ¾ ¾ Applicazione di regole di business "condivise" sui soggetti di analisi (ad esempio, modelli di classificazione) Deployment di modelli analitici descrittivi, predittivi and prescrttivi Apprendimento automatico di modelli aziendali sensibili e di modelli in real time Control and Management execution processes ¾ Copyright © 2012, SAS Institute Inc. All rights reserved. Gestione ed esecuzione di processi di trasformazione ETL, EL‐T su dati per definire «Viste Soggetto di Analisi» Processi di deployment per caricare le «Viste Soggetto di Analisi» su layer “Storage” e/o “In‐Memory”. Enterprise Enrichment and Deployment Services ¾ Processo di qualità sull’intero ciclo dei dati. Messaggi e avvisi di eventuali anomalie sui flussi di dati così come su ben definiti indicatori atomici di business Enterprise Data Preparation ¾ Definizione di metadati di business e integrazione con i relativi metadati tecnici Creazione di metadati per gli indicatori di business Security Hub su metadati tecnici e di business Data lineage per eseguire un impact analysis dei dati Monitorare e controllare i processi distribuiti in esecuzione (Grid Computing) BIG DATA ANALYTICS STORE APPROACH DWH Appliance ¾ ¾ ¾ ¾ ¾ Storage Data Virtualization ¾ ¾ ¾ ¾ ¾ Unificazione di fonti eterogenee di dati per fornire un singolo strato di federato (Federated View) Supporto per eseguire join su tutti i dati federati Gestione centralizzata, configurazione e monitoraggio di tutte le Virtual Views. Sicurezza dei dati e controllo centralizzato Prestazioni elevate con accesso ai dati con view Caching In-Memory Analytics Storage ¾ ¾ Copyright © 2012, SAS Institute Inc. All rights reserved. Piattaforma DWH e SQL RDBMS per i dati strutturati (Teradata, Netezza, Greenplum, Exadata) Dati no-strutturati memorizzati su file system Hadoop Distributed (HDFS) Dati eventualmente memorizzati in formato nativo (datasets SAS) Data modeling flessibile a seconda della fonte, dall’uso e dell'analisi che deve essere eseguita In Database Analytics accelerator per distribuire ad eseguire modelli di scoring su Appliance DWH Ambiente multi-utente In-Memory per accesso concorrente ai dati (big or small) in memoria per analizzare una o più viste soggetto di analisi, attraverso strumenti di Visual Data Discovery (SAS LASR Analytics Server™) In-Memory Analytics distributed storage per sviluppare e deployare modelli analitici mediante High Performance Business Solutions BIG DATA ANALYTICS EXPLOIT APPROACH Application Enrichment & Insights ¾ Visual Data Exploration integrata con modelli analitici ¾ Reporting on-line e mobile Operationalizing Analytics ¾ ¾ Exploitation ¾ ¾ ¾ ¾ Analytics incorporati per prendere decisioni in near real time e di individuare comportamenti Proliferazione di Modelli che migliorano i processi come il tipo di campionamento, la selezione dei migliori variabili, la scelta dei modelli ... Modelli di previsione per intervalli temporali più brevi (ossia 15 minuti trascorsi) Exploit dei processi di business con più dati (es. social media, social network) Analisi più complesse, più frequenti e con una maggiore comprensione su come ottenere un «full-picture» Necessità di continua evoluzione dei processi decisionali data-driven ACTIONS to change business outcomes ¾ Human (e.g. reports e analisi sui quali le persone eseguono azioni) ¾ Machine (più comune con i Big Data) ¾ Business Process Management (real-time decisioning). Copyright © 2012, SAS Institute Inc. All rights reserved. MULTI POINT DATA HUB Copyright © 2012, SAS Institute Inc. All rights reserved. BUILDING BLOCKS OF A BIG DATA ANALYTICS PROCESS SAS BIG DATA FRAMEWORK Copyright © 2012, SAS Institute Inc. All rights reserved. SAS BIG DATA BIG DATA ARCHITECTURE - E2E VIEW FRAMEWORK Data Data Management Management Data Data Analysis Analysis Enterprise Data Enrichment Analytics Analytics -- Forecast Forecast Analytics Analytics -- Mining Mining Visual Visual Analytics Analytics Business & Technical Metadata Copyright © 2012, SAS Institute Inc. All rights reserved. SAS BIG DATA BIG DATA ARCHITECTURE - E2E VIEW FRAMEWORK Data Data Management Management Data Data Analysis Analysis Enterprise Data Enrichment Analytics Analytics -- Forecast Forecast Analytics Analytics -- Mining Mining Visual Visual Analytics Analytics Business & Technical Metadata Copyright © 2012, SAS Institute Inc. All rights reserved. SAS BIG DATA BIG DATA ARCHITECTURE - E2E VIEW FRAMEWORK Data Data Management Management Data Data Analysis Analysis Enterprise Data Enrichment Analytics Analytics -- Forecast Forecast Analytics Analytics -- Mining Mining Visual Visual Analytics Analytics Business & Technical Metadata Copyright © 2012, SAS Institute Inc. All rights reserved. SAS BIG DATA BIG DATA ARCHITECTURE - E2E VIEW FRAMEWORK Data Data Management Management Data Data Analysis Analysis Enterprise Data Enrichment Analytics Analytics -- Forecast Forecast Analytics Analytics -- Mining Mining Visual Visual Analytics Analytics Business & Technical Metadata Copyright © 2012, SAS Institute Inc. All rights reserved. Collaboration & Governance SAS BIG DATA BIG DATA CAPABILITIES FRAMEWORK Copyright © 2012, SAS Institute Inc. All rights reserved. QUALITY SERVICES SAS VISUAL ANALYTICS Copyright © 2012, SAS Institute Inc. All rights reserved. Copyright © 2012, SAS Institute Inc. All rights reserved. SAS® VISUAL IN UN’UNICA SOLUZIONE ANALYTICS EXPLORE DISCOVER REPORT DELIVER Copyright © 2012, SAS Institute Inc. All rights reserved. REPORT WHAT? VISUAL ANALYTICS DISCOVER WHY? SAS® VISUAL ANALYTICS CARATTERISTICHE PRINCIPALI Massime prestazioni su tutti i dati aziendali Accesso ai dati, grezzi o aggregati, utilizzabili per l’analisi esplorativa ed il reporting Ridotti i tempi di realizzazione delle analisi e dei report grazie alla nuova tecnologia dell’ In-Memory Esplorazione visuale del dato e visualizzazione di insight di Business Auto Charting & differenti tipologie di analitiche Funzionalità di reporting e dashboarding disponibili via web o su dispositivi mobile Filtri visuali & highlighting Drill-down / Drill-across e gerarchie dinamiche Analitiche complesse disponibili tramite semplici funzionalità di Drag-n-Drop Analytics alla portata di tutti Presentazione dei risultati Analytics potenti fruibili in forma chiara e semplice Distribuzione ed analisi dei risultati via web e mobile Funzionalità di reporting disponibili direttamente su dispositivi iPad & Android Copyright © 2012, SAS Institute Inc. All rights reserved. SAS® VISUAL UNICA SOLUZIONE PER DECISIONI VELOCI ED INTELLIGENTI ANALYTICS Central Entry Point Integration DATA BUILDER ADMINISTRATOR • Incroci tra dati provenienti da diverse sorgenti • Creazione di colonne calcolate • Caricamento dei dati • Monitoraggio SAS® LASR™ Analytic server • Carico/Scarico dati • Gestione della sicurezza Role-based Views EXPLORER DESIGNER MOBILE BI • Esplorazione libera e visuale dei dati provenienti da diverse sorgenti • Applicazione di analitiche complesse • Creazione della rappresentazione più intuitiva per distribuire gli insight scoperti nell’Explorer, come dashboard di sintesi • Distribuzione dei report interattivi su canali tradizionali come il Web o su dispositivi mobile come Android e iPad SAS® LASR™ ANALYTIC SERVER Copyright © 2012, SAS Institute Inc. All rights reserved. BUSINESS USER ESPLORAZIONE DIRETTA VISUALE DEL DATO ED ANALYTICS PRONTI ALL’USO EXPLORER BUSINESS USER HUB REPORTS DATA BUILDER ADMINISTRATOR Copyright © 2012, SAS Institute Inc. All rights reserved. MOBILE VIEWER DESIGNER WEB VIEWER ANALYST TRASFORMAZIONE VELOCE DEL DATO IN INSIGHT SIGNIFICATIVI EXPLORER HUB REPORTS DATA BUILDER ADMINISTRATOR Copyright © 2012, SAS Institute Inc. All rights reserved. MOBILE VIEWER DESIGNER ANALYST WEB VIEWER DATA MANAGER VELOCE ACCESSO AL DATO, TRASFORMAZIONI INTUITIVE, COSTRUZIONE IMMEDIATA DI VARIABILI CALCOLATE EXPLORER DATA MANAGER HUB REPORTS DATA BUILDER ADMINISTRATOR Copyright © 2012, SAS Institute Inc. All rights reserved. MOBILE VIEWER DESIGNER WEB VIEWER IT MANAGER GESTIONE E GOVERNO DELL’INTERO AMBIENTE EXPLORER HUB REPORTS DATA BUILDER ADMINISTRATOR Copyright © 2012, SAS Institute Inc. All rights reserved. MOBILE VIEWER DESIGNER IT MANAGER WEB VIEWER SAS® VISUAL ANALYTICS DEMO Copyright © 2012, SAS Institute Inc. All rights reserved. Perchè SAS® Visual Analytics? Copyright © 2012, SAS Institute Inc. All rights reserved. • Il primo end-to-end che influenza radicalmente il modo di lavorare con tutti i vostri dati • Unico motore analitico in-memory che supera le limitazioni dei tradizionali database relazionali • Il modo più conveniente per scalare l'infrastruttura IT utilizzando commodity hardware SAS DATA QUALITY Copyright © 2012, SAS Institute Inc. All rights reserved. GARTNER: MAGIC QUADRANT FOR DATA QUALITY TOOLS Source: Magic Quadrant for Data Quality Tools, 8 August 2012, Ted Friedman This graphic was published by Gartner, Inc. as part of a larger research document and should be evaluated in the context of the document. Gartner does not endorse any vendor, product or service depicted in its research publications, and does not advise technology users to select only those vendors with the highest ratings. Gartner research publications consist of the opinions of Gartner's research organization and should not be construed as statements of fact. Gartner disclaims all warranties, expressed or implied, with respect to this research, including any warranties of merchantability or fitness for a particular purpose. Copyright © 2012, SAS Institute Inc. All rights reserved. SAS DATA QUALITY PRINCIPALI CARATTERISTICHE • Bonifica di Database/Data Warehouse/Data Mart mediante una varietà di tecniche e metodologie, fra cui la standardizzazione, la trasformazione e la razionalizzazione dei dati. • Profilazione dei dati per identificare dati incompleti, inaccurati o ambigui. • Accrescimento della qualità ed arricchimento dei dati. • Creazione di regole di business per la bonifica e qualità dei dati riutilizzabili invocabili da programmi già esistenti, code dei messaggi e Web Services. • Pulizia in tempo reale dei dati transazionali utilizzando regole di business di tipo standard. • Approccio basato su una metodologia specifica (Data Management Lifecycle Methodology) Copyright © 2012, SAS Institute Inc. All rights reserved. DATA MANAGEMENT LIFECYCLE METHODOLOGY Copyright © 2012, SAS Institute Inc. All rights reserved. DATA MANAGEMENT LIFECYCLE PLAN Profiling Copyright © 2012, SAS Institute Inc. All rights reserved. • Analisi dei dati (valori) per ottenere statistiche (metadati) che forniscono una valutazione della qualità dei dati nei sistemi ed aiutano a identificare cricità • Struttura e qualità dei dati • Miglior conoscenza dell’asset dei dati aziendali DATA MANAGEMENT LIFECYCLE PLAN Explore • • Relazioni all’interno e tra differenti sistemi Identifica il contenuto dei campi Dai risultati di profiling ed explore è possibile definire azioni di correzione, fasi progettuali e identificazione delle regole di controllo da implementare. Copyright © 2012, SAS Institute Inc. All rights reserved. DATA MANAGEMENT LIFECYCLE ACT Copyright © 2012, SAS Institute Inc. All rights reserved. • Definizione delle business rules per misurare la consistenza, l’accuratezza e l’affidabilità di nuovi dati in ingresso ai sistemi • Attivazione delle business rules nella infrastruttura IT • Utilizzo del miglior metodo di integrazione (real-time o batch) • Riutilizzo e ridistribuzione delle stesse business rules in differenti applicazioni, migliorando il governo dei dati a livello enterprise DATA MANAGEMENT LIFECYCLE MONITOR Copyright © 2012, SAS Institute Inc. All rights reserved. • Creazione di report e dashboard con le metriche e le soglie per misurare la criticità dei dati di business e IT • Utilizzare informazioni dai dati di monitoring per ridefinire e disegnare nuove regole di business e determinare piani di azione TO REALIZE BIG AMBITIONS YOU NEED TO BELIEVE YOU CAN DO IT AND HAVE THE RIGHT TECHNOLOGY... Copyright © 2012, SAS Institute Inc. All rights reserved. THANK YOU Copyright © 2012, SAS Institute Inc. All rights reserved. www.SAS.com