SAS BIG DATA ANALYTICS
FORUM PA 28 MAGGIO 2013
Copyright © 2012, SAS Institute Inc. All rights reserved.
FORUM PA
Cosa sono I big
data ?
• Differenti Prospettive
‰ DB Appliance
‰ Data Management
‰ Analytics
Copyright © 2012, SAS Institute Inc. All rights reserved.
COSA SONO I BIG IMPATTO SI FARÀ SENTIRE IN TUTTA L'ORGANIZZAZIONE,
DATA ? OVUNQUE LE DECISIONI SONO PRESE SULLA BASE DEI DATI !
un’organizzazione
che di
superano
l’archiviazione
DatiI dati
che di
impediscono
la capacità
un'organizzazione
di fare
tradizionale
di un
database decisioni
o la capacità
di elaborarli
azioni
di alta qualità
prendendo
in modo
tempestivo
Copyright © 2012, SAS Institute Inc. All rights reserved.
BIG DATA
‰ Big Data è un fenomeno definito attraverso la rapida accelerazione
nell’espansione del Volume, Velocità e della Varietà dei tipi di dati.
‰ In aggiunta, nei Big Data secondo SAS, i flussi di dati possono essere
altamente inconsistenti con la presenza di picchi periodici (Variability) ed
dove inoltre, è necessario collegare e correlare le relazioni, le gerarchie,
tra i diversi dati con la possibilità e la necessità di eseguire collegamenti
multipli tra di loro sfuggendo rapidamente al vostro controllo (Complexity).
‰ Questo fenomeno è sia una sfida per dare un senso ai dati disponibili, per
raggiungere risultati, e la possibilità di sfruttarli per aumentare il Business
delle organizzazioni.
Definizione
Copyright © 2012, SAS Institute Inc. All rights reserved.
BIG DATA
Quali tipi di dati?
Copyright © 2012, SAS Institute Inc. All rights reserved.
BIG DATA
•
I dati aperti, comunemente chiamati con il termine inglese open data
(OD), sono alcune tipologie di dati liberamente accessibili a tutti,
privi di brevetti o altre forme di controllo che ne limitino la
riproduzione e le cui restrizioni di copyright eventualmente si limitano
ad obbligare di citare la fonte o al rilascio delle modifiche allo stesso
modo.
•
I Linked Open Data (LOD) si basano su formalismi per la
rappresentazione standardizzata dei dati e dei meccanismi condivisi
per l’accesso e l’interrogazione di tali dati attraverso l’utilizzo di
metadati, strutturati in modo tale da richiamare il concetto di reti
ontologiche.
•
I LOD come gli Open Data hanno l’obiettivo di abbattere le barriere
sociali, culturali, legali ed economiche che ostacolano la libera
condivisione dei dati tra persone e agenti software.
Quali tipi di dati?
Copyright © 2012, SAS Institute Inc. All rights reserved.
OPEN DATA GLI OPEN DATA IN ITALIA
611
Chi rilascia più dataset
5634
1987
Ripartizione del numero di
dataset rilasciati rispetto al
livello amministrativo degli enti
Copyright © 2012, SAS Institute Inc. All rights reserved.
Fonte: http://www.dati.gov.it
Dati aggiornati al 26/03/2013
OPEN DATA LOD
I LOD vengono, per definizione, espressi tramite il formato RDF (Resource Description Framework), un
data model che definisce un “formalismo” per rappresentare i dati nel web semantico.
Grazie al concetto di “tripla” in cui è possibile descrivere una informazione nella forma “soggettopredicato-oggetto”, si viene a creare un grafo, i cui nodi (o risorse) sono identificate in cui i collegamentilink tra i nodi indicano le relazioni.
I significati delle risorse e dei link sono descritti in ontologie, che definiscono la conoscenza che abbiamo
di un dominio particolare tramite classi, relazioni tra classi e individui appartenenti alle classi.
Copyright © 2012, SAS Institute Inc. All rights reserved.
OPEN DATA LOD DATASET
L’interconnessione tra dataset diversi, nate da iniziative di carattere governativo ma anche
indipendente, porterà nel giro di pochissimo tempo alla creazione di una grande “nuvola” di
collegamenti tra sorgenti dati differenti.
Copyright © 2012, SAS Institute Inc. All rights reserved.
BIG DATA
PSICOSTORIA
Copyright © 2012, SAS Institute Inc. All rights reserved.
•
La psicostoria (o psicostoriografia) è una scienza inventata da Hari
Seldon. Il concetto si basa su una presunta ciclicità della storia, che
può essere predetta, appunto, attraverso equazioni matematiche se
applicate ad un numero abbastanza elevato di persone: «Le leggi
della storia sono assolute come quelle della fisica, e se in essa le
probabilità di errore sono maggiori, è solo perché la storia ha a che
fare con gli esseri umani che sono assai meno numerosi degli atomi,
ed è per questa ragione che le variazioni individuali hanno un maggior
valore.».
BIG DATA
PSICOSTORIA
•
Le predizioni psicostoriografiche, sia pure a livello probabilistico,
sono in grado di prevedere l’evoluzione futura di una determinata
società,a condizione che:
1. essa comprenda un numero particolarmente elevato di
intelligenze umane;
2. almeno il 99% di questa collettività non deve essere al corrente
della psicostoria;
3. non esistano all’interno di tale raggruppamento significative
intelligenze non umane (non solo in senso quantitativo, ma anche
qualitativo), come alieni, robot o individui mutanti.
4. non avvenga, fra il momento in cui la previsione viene stipulata e
il momento in cui dovrebbe avverarsi, una sostanziale e
imprevedibile
modifica nella società umana (grandi
progressi tecnologici non
considerati poco probabili)
Copyright © 2012, SAS Institute Inc. All rights reserved.
prevedibili o previsti, ma
BIG DATA
PSICOSTORIA
Copyright © 2012, SAS Institute Inc. All rights reserved.
BIG DATA
ANALYTICS
‰
Sbloccare il valore economico degli Open Data attraverso
l'adozione di Big Data Analytics.
Guidare al miglior
margine di profitto
Business
Value
Definizione del
Valore
Efficienza
Operazionale
Nuove strategie e
modelli di business
Il valore nei Big Data Analytics è nell’estrazione di trends,
intuizioni, e conoscenze utilizzabili per analizzare enormi
quantità di diversi tipi di dati (gran parte di essa non
strutturati) spesso quasi "near-real time", per abilitare ad
un migliore processo decisionale.
Copyright © 2012, SAS Institute Inc. All rights reserved.
BIG DATA SAS APPROACH
Copyright © 2012, SAS Institute Inc. All rights reserved.
Alerts
Alerts
OLAP
OLAP
Ad
Ad Hoc
Hoc Reports
Reports
Standard
Standard Reports
Reports
PROACTIVE
PROACTIVE
Optimization
Optimization
Predictive
Predictive Modeling
Modeling
Forecasting
Forecasting
Statistical
Statistical Analysis
Analysis
PROACTIVE
REACTIVE
REACTIVE
REACTIVE
ANALYTICS
ANALYTICS
PATH TO ADVANTAGE
ANALYTIC CAPABILITY
BIG DATA
ANALYTICS
ggee
a
a
nntt
a
a
vv
AAdd
ttoo
h
h
tt
PPaa
LARGE
Copyright © 2012, SAS Institute Inc. All rights reserved.
DATA SIZE
BIG DATA
BIG DATA
DATA WAREHOUSE ARCHITECTURE
ANALYTICS
Obiettivi DWH :
•Visione
integrata
dei
dati
operativi (qualità
(qualità e correttezza)
•Dati organizzati per il reporting e
analisi
(non
operativo)
di
business finalizzate a prendere
decisioni
Problemi DWH:
•Tempi lunghi di attuazione per i
requisiti di business
•Livelli di qualità
qualità dei dati bassa
•Crescente numero di variabili e
informazioni da analizzare
•Cattive prestazioni per l'analisi
dei dati
Copyright © 2012, SAS Institute Inc. All rights reserved.
BIG DATA BUILDING BLOCKS BIG DATA
ANALYTICS ARCHITECTURE
Obiettivi Big Data Architecture:
•Apportare miglioramenti nella
tecnologia e nel processo di analisi
diminuendo il Time to Value
•Avere un'infrastruttura integrata per la
gestione e l'analisi di un numero
crescente ed eterogeneo di fonti di
dati.
dati.
Caratteristiche Big Data
Architecture:
•Memorizzare ed analizzare elevate
moli di dati utilizzando hardware di
commodity
•Sfruttare le caratteristiche di
scalabilità
scalabilità degli Appliance RDBMS per
la storicizzazione dei dati di valore
•Avere a disposizione sistemi di analisi
flessibili, veloci e integrati
nell’
nell’architettura
•Analizzare e processare i cosiddetti
Dati in Motion laddove vengono
generati.
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS APPROACH
Copyright © 2012, SAS Institute Inc. All rights reserved.
BIG DATA
BUILDING BLOCKS OF A BIG DATA ANALYTICS PROCESS
ANALYTICS FLOW
BIG DATA
BIG VALUE
Collection
Copyright © 2012, SAS Institute Inc. All rights reserved.
Integration
Storage
Exploitation
BIG DATA
ANALYTICS COLLECT
APPROACH
‰
Data acquisition from any sources (Strutturati, Semi‐strutturati e No‐Strutturati)
¾ Accesso ai dati in modo “Nativo”, trasferimento dei file Transfer e federazione di dati strutturati
¾ Message & Queuing per acqusizione dati in modalità Sync/Asynch. Per dati semi‐strutturati
¾ Acquisizione dati no‐strutturati mediante Web Crawling e Web clickstream
¾ Data Governance ed esecuzione di task in pre‐processing
¾ Processi di ETL & EL‐T secondo metodologie e tecniche tradizionali
Collection
‰
Replication/Synchronization
‰ Real-time Acquisition
‰
‰
Event Stream Processing
Integrazione con Enterprise Service Bus, Web Service & Architetture SOA
‰ Technical
¾
Creazione di metadati per tabelle, colonne, sorgenti dati, flussi dati e processi.
‰ Control
¾
Copyright © 2012, SAS Institute Inc. All rights reserved.
Metadata definition
and Management
Processi distribuiti e in esecuzione (Grid Computing)
BIG DATA ANALYTICS
INTEGRATE
APPROACH
‰
Enterprise Metadata Management
¾
¾
¾
¾
‰
Integratio
n
Enterprise Data Quality
¾
¾
‰
¾
¾
¾
Applicazione di regole di business "condivise" sui soggetti di analisi (ad esempio, modelli di classificazione)
Deployment di modelli analitici descrittivi, predittivi and prescrttivi
Apprendimento automatico di modelli aziendali sensibili e di modelli in real time
Control and Management execution processes
¾
Copyright © 2012, SAS Institute Inc. All rights reserved.
Gestione ed esecuzione di processi di trasformazione ETL, EL‐T su dati per definire «Viste Soggetto di Analisi»
Processi di deployment per caricare le «Viste Soggetto di Analisi» su layer “Storage” e/o “In‐Memory”.
Enterprise Enrichment and Deployment Services
¾
‰
Processo di qualità sull’intero ciclo dei dati.
Messaggi e avvisi di eventuali anomalie sui flussi di dati così come su ben definiti indicatori atomici di business
Enterprise Data Preparation
¾
‰
Definizione di metadati di business e integrazione con i relativi metadati tecnici
Creazione di metadati per gli indicatori di business
Security Hub su metadati tecnici e di business Data lineage per eseguire un impact analysis dei dati
Monitorare e controllare i processi distribuiti in esecuzione (Grid Computing)
BIG DATA ANALYTICS
STORE
APPROACH
‰
DWH Appliance
¾
¾
¾
¾
¾
‰
Storage
Data Virtualization
¾
¾
¾
¾
¾
‰
Unificazione di fonti eterogenee di dati per fornire un singolo strato di federato (Federated View)
Supporto per eseguire join su tutti i dati federati
Gestione centralizzata, configurazione e monitoraggio di tutte le Virtual Views.
Sicurezza dei dati e controllo centralizzato
Prestazioni elevate con accesso ai dati con view Caching
In-Memory Analytics Storage
¾
¾
Copyright © 2012, SAS Institute Inc. All rights reserved.
Piattaforma DWH e SQL RDBMS per i dati strutturati (Teradata, Netezza, Greenplum, Exadata)
Dati no-strutturati memorizzati su file system Hadoop Distributed (HDFS)
Dati eventualmente memorizzati in formato nativo (datasets SAS)
Data modeling flessibile a seconda della fonte, dall’uso e dell'analisi che deve essere eseguita
In Database Analytics accelerator per distribuire ad eseguire modelli di scoring su Appliance DWH
Ambiente multi-utente In-Memory per accesso concorrente ai dati (big or small) in memoria per analizzare
una o più viste soggetto di analisi, attraverso strumenti di Visual Data Discovery (SAS LASR Analytics
Server™)
In-Memory Analytics distributed storage per sviluppare e deployare modelli analitici mediante High
Performance Business Solutions
BIG DATA ANALYTICS
EXPLOIT
APPROACH
‰
Application Enrichment & Insights
¾ Visual Data Exploration integrata con modelli analitici
¾ Reporting on-line e mobile
‰
Operationalizing Analytics
¾
¾
Exploitation
¾
¾
¾
¾
‰
Analytics incorporati per prendere decisioni in near real time e di individuare comportamenti
Proliferazione di Modelli che migliorano i processi come il tipo di campionamento, la selezione
dei migliori variabili, la scelta dei modelli ...
Modelli di previsione per intervalli temporali più brevi (ossia 15 minuti trascorsi)
Exploit dei processi di business con più dati (es. social media, social network)
Analisi più complesse, più frequenti e con una maggiore comprensione su come ottenere un
«full-picture»
Necessità di continua evoluzione dei processi decisionali data-driven
ACTIONS to change business outcomes
¾ Human (e.g. reports e analisi sui quali le persone eseguono azioni)
¾ Machine (più comune con i Big Data)
¾ Business Process Management (real-time decisioning).
Copyright © 2012, SAS Institute Inc. All rights reserved.
MULTI POINT DATA
HUB
Copyright © 2012, SAS Institute Inc. All rights reserved.
BUILDING BLOCKS OF A BIG DATA ANALYTICS PROCESS
SAS BIG DATA FRAMEWORK
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS BIG DATA BIG DATA ARCHITECTURE - E2E VIEW
FRAMEWORK
Data
Data Management
Management
Data
Data Analysis
Analysis
Enterprise Data
Enrichment
Analytics
Analytics -- Forecast
Forecast
Analytics
Analytics -- Mining
Mining
Visual
Visual Analytics
Analytics
Business & Technical Metadata
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS BIG DATA BIG DATA ARCHITECTURE - E2E VIEW
FRAMEWORK
Data
Data Management
Management
Data
Data Analysis
Analysis
Enterprise Data
Enrichment
Analytics
Analytics -- Forecast
Forecast
Analytics
Analytics -- Mining
Mining
Visual
Visual Analytics
Analytics
Business & Technical Metadata
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS BIG DATA BIG DATA ARCHITECTURE - E2E VIEW
FRAMEWORK
Data
Data Management
Management
Data
Data Analysis
Analysis
Enterprise Data
Enrichment
Analytics
Analytics -- Forecast
Forecast
Analytics
Analytics -- Mining
Mining
Visual
Visual Analytics
Analytics
Business & Technical Metadata
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS BIG DATA BIG DATA ARCHITECTURE - E2E VIEW
FRAMEWORK
Data
Data Management
Management
Data
Data Analysis
Analysis
Enterprise Data
Enrichment
Analytics
Analytics -- Forecast
Forecast
Analytics
Analytics -- Mining
Mining
Visual
Visual Analytics
Analytics
Business & Technical Metadata
Copyright © 2012, SAS Institute Inc. All rights reserved.
Collaboration & Governance
SAS BIG DATA
BIG DATA CAPABILITIES
FRAMEWORK
Copyright © 2012, SAS Institute Inc. All rights reserved.
QUALITY SERVICES
SAS VISUAL ANALYTICS
Copyright © 2012, SAS Institute Inc. All rights reserved.
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® VISUAL
IN UN’UNICA SOLUZIONE
ANALYTICS
EXPLORE
DISCOVER
REPORT
DELIVER
Copyright © 2012, SAS Institute Inc. All rights reserved.
REPORT
WHAT?
VISUAL
ANALYTICS
DISCOVER
WHY?
SAS® VISUAL
ANALYTICS
CARATTERISTICHE PRINCIPALI
Massime prestazioni su tutti i dati aziendali
ƒ Accesso ai dati, grezzi o aggregati, utilizzabili
per l’analisi esplorativa ed il reporting
ƒ Ridotti i tempi di realizzazione delle analisi e dei
report grazie alla nuova tecnologia dell’ In-Memory
Esplorazione visuale del dato e visualizzazione di
insight di Business
ƒ Auto Charting & differenti tipologie di analitiche
ƒ Funzionalità di reporting e dashboarding disponibili
via web o su dispositivi mobile
ƒ Filtri visuali & highlighting
ƒ Drill-down / Drill-across e gerarchie dinamiche
ƒ Analitiche complesse disponibili tramite semplici funzionalità
di Drag-n-Drop
Analytics alla portata di tutti
Presentazione dei risultati
ƒ Analytics potenti fruibili in forma chiara e semplice
ƒ Distribuzione ed analisi dei risultati via web e mobile
ƒ Funzionalità di reporting disponibili direttamente su dispositivi
iPad & Android
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® VISUAL
UNICA SOLUZIONE PER DECISIONI VELOCI ED INTELLIGENTI
ANALYTICS
Central Entry Point
Integration
DATA BUILDER
ADMINISTRATOR
• Incroci tra dati
provenienti da diverse
sorgenti
• Creazione di colonne
calcolate
• Caricamento dei dati
• Monitoraggio SAS®
LASR™ Analytic
server
• Carico/Scarico dati
• Gestione della
sicurezza
Role-based Views
EXPLORER
DESIGNER
MOBILE BI
• Esplorazione libera e
visuale dei dati
provenienti da diverse
sorgenti
• Applicazione di
analitiche complesse
• Creazione della
rappresentazione più
intuitiva per distribuire
gli insight scoperti
nell’Explorer, come
dashboard di sintesi
• Distribuzione dei
report interattivi su
canali tradizionali
come il Web o su
dispositivi mobile
come Android e iPad
SAS® LASR™ ANALYTIC SERVER
Copyright © 2012, SAS Institute Inc. All rights reserved.
BUSINESS USER
ESPLORAZIONE DIRETTA VISUALE DEL DATO ED ANALYTICS PRONTI ALL’USO
EXPLORER
BUSINESS
USER
HUB
REPORTS
DATA BUILDER
ADMINISTRATOR
Copyright © 2012, SAS Institute Inc. All rights reserved.
MOBILE
VIEWER
DESIGNER
WEB
VIEWER
ANALYST
TRASFORMAZIONE VELOCE DEL DATO IN INSIGHT SIGNIFICATIVI
EXPLORER
HUB
REPORTS
DATA BUILDER
ADMINISTRATOR
Copyright © 2012, SAS Institute Inc. All rights reserved.
MOBILE
VIEWER
DESIGNER
ANALYST
WEB
VIEWER
DATA MANAGER
VELOCE ACCESSO AL DATO, TRASFORMAZIONI INTUITIVE, COSTRUZIONE
IMMEDIATA DI VARIABILI CALCOLATE
EXPLORER
DATA
MANAGER
HUB
REPORTS
DATA BUILDER
ADMINISTRATOR
Copyright © 2012, SAS Institute Inc. All rights reserved.
MOBILE
VIEWER
DESIGNER
WEB
VIEWER
IT MANAGER
GESTIONE E GOVERNO DELL’INTERO AMBIENTE
EXPLORER
HUB
REPORTS
DATA BUILDER
ADMINISTRATOR
Copyright © 2012, SAS Institute Inc. All rights reserved.
MOBILE
VIEWER
DESIGNER
IT MANAGER
WEB
VIEWER
SAS® VISUAL
ANALYTICS
DEMO
Copyright © 2012, SAS Institute Inc. All rights reserved.
Perchè SAS®
Visual Analytics?
Copyright © 2012, SAS Institute Inc. All rights reserved.
•
Il primo end-to-end che influenza
radicalmente il modo di lavorare con tutti i
vostri dati
•
Unico motore analitico in-memory che supera
le limitazioni dei tradizionali database
relazionali
•
Il modo più conveniente per scalare
l'infrastruttura IT utilizzando commodity
hardware
SAS DATA QUALITY
Copyright © 2012, SAS Institute Inc. All rights reserved.
GARTNER: MAGIC QUADRANT FOR DATA QUALITY TOOLS
Source: Magic Quadrant for Data Quality Tools, 8 August 2012, Ted Friedman
This graphic was published by Gartner, Inc. as part of a larger research document and should be evaluated in the context of the document.
Gartner does not endorse any vendor, product or service depicted in its research publications, and does not advise technology users to select only those vendors with the highest ratings.
Gartner research publications consist of the opinions of Gartner's research organization and should not be construed as statements of fact. Gartner disclaims all warranties, expressed
or implied, with respect to this research, including any warranties of merchantability or fitness for a particular purpose.
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS DATA QUALITY PRINCIPALI CARATTERISTICHE
•
Bonifica di Database/Data Warehouse/Data Mart mediante una varietà di tecniche e metodologie,
fra cui la standardizzazione, la trasformazione e la razionalizzazione dei dati.
•
Profilazione dei dati per identificare dati incompleti, inaccurati o ambigui.
•
Accrescimento della qualità ed arricchimento dei dati.
•
Creazione di regole di business per la bonifica e qualità dei dati riutilizzabili invocabili da
programmi già esistenti, code dei messaggi e Web Services.
•
Pulizia in tempo reale dei dati transazionali utilizzando regole di business di tipo standard.
•
Approccio basato su una metodologia specifica (Data Management Lifecycle Methodology)
Copyright © 2012, SAS Institute Inc. All rights reserved.
DATA MANAGEMENT
LIFECYCLE
METHODOLOGY
Copyright © 2012, SAS Institute Inc. All rights reserved.
DATA MANAGEMENT LIFECYCLE
PLAN
Profiling
Copyright © 2012, SAS Institute Inc. All rights reserved.
•
Analisi dei dati (valori) per ottenere
statistiche (metadati) che forniscono una
valutazione della qualità dei dati nei
sistemi ed aiutano a identificare cricità
•
Struttura e qualità dei dati
•
Miglior conoscenza dell’asset dei dati
aziendali
DATA MANAGEMENT LIFECYCLE
PLAN
Explore
•
•
Relazioni all’interno e tra differenti sistemi
Identifica il contenuto dei campi
Dai risultati di profiling ed explore è possibile
definire azioni di correzione, fasi
progettuali e identificazione delle regole di
controllo da implementare.
Copyright © 2012, SAS Institute Inc. All rights reserved.
DATA MANAGEMENT LIFECYCLE
ACT
Copyright © 2012, SAS Institute Inc. All rights reserved.
•
Definizione delle business rules per
misurare la consistenza, l’accuratezza e
l’affidabilità di nuovi dati in ingresso ai sistemi
•
Attivazione delle business rules nella
infrastruttura IT
•
Utilizzo del miglior metodo di integrazione
(real-time o batch)
•
Riutilizzo e ridistribuzione delle stesse
business rules in differenti applicazioni,
migliorando il governo dei dati a livello
enterprise
DATA MANAGEMENT LIFECYCLE
MONITOR
Copyright © 2012, SAS Institute Inc. All rights reserved.
•
Creazione di report e dashboard con le
metriche e le soglie per misurare la criticità dei
dati di business e IT
•
Utilizzare informazioni dai dati di monitoring
per ridefinire e disegnare nuove regole di
business e determinare piani di azione
TO REALIZE BIG AMBITIONS YOU NEED TO BELIEVE YOU
CAN DO IT AND HAVE THE RIGHT TECHNOLOGY...
Copyright © 2012, SAS Institute Inc. All rights reserved.
THANK YOU
Copyright © 2012, SAS Institute Inc. All rights reserved.
www.SAS.com