L’uso della Statistica nelle
aziende internazionali
Massimo D’Angelo
Il nostro viaggio…
• Come si utilizzano le informazioni
• Case study 1: la gestione del Backlog aziendale
• Case study 2: la valorizzazione dei profili
professionali
Come si utilizzano le informazioni
AGENDA: come si utilizzano le informazioni
• Contesto di riferimento
• Business intelligence & Analytics nelle aziende
• Distribuzione delle informazioni
Contesto di riferimento
•
•
•
Contesto di riferimento
Business intelligence & Analytics nelle
aziende
Distribuzione delle informazioni
I sistemi transazionali producono una mole di
informazioni che gli operatori hanno bisogno di
sintetizzare
Molte informazioni sono accessibili, altre devono
essere aggregate, trasformate, ripulite di elementi
ridondanti e/o inutili
5
Soluzioni
Soluzione Quick & Dirty
Interrogazioni massive
Si fanno query
massive on line
su sistemi
transazionali
nati per altri fini
Degrado delle
performance
Per ogni nuova
richiesta sullo
stesso set di dati
deve essere
implementato un
nuovo report
Si producono
report statici
Sistema transazionale
Impatto
6
Soluzioni
Soluzione Data Warehouse
Sistema
transazionale
Dashbord
Repository
base dati diversa
da quella transazionale
OLAP
KPI
Nessun
impatto sul
sistema
sorgente
Velocità di
risposta (query
ad hoc,
architettura
progettata per le
statistiche e non
per le transazioni
Dati
multidimensionali,
navigabili, ecc.
Analisi su serie
storiche,
accesso da PC,
tablet, mobile.
Impatto
7
Soluzioni
Soluzione Big Data (1/2)
Premessa: esistenza dei big data!
Big data è un’esigenza non una moda
Three “Vs” of Big Data – Volume, Velocity, Variety – defined by Doug Laney
Volume
•
•
•
Dati strutturati: DB transazionali, legacy,…
Dati non strutturati (social media, doc di testo, email, video, audio, ..)
Dati machine-to-machine (sensori, RFID, …)
Velocità
• Sfida per gestire velocemente la grande mole di dati
Varietà
• Dati aziendali (interni)
• Dati non aziendali
• open data: data.gov, CIA World Factbook o European Union Open Data Portal
• banche dati
8
Nel 2005 Apache sviluppa Hadoop – Big Data framework open source
Soluzioni
Soluzione Big Data (2/2)
Eric Schmidt, presidente esecutivo di Google, dice a una conferenza
nel 2010 che vengono creati ogni due giorni la stessa quantità di dati
creati dall'inizio della civiltà umana fino all'anno 2003
La tendenza
•
•
•
•
•
•
9
nel 1986 i dati erano 281 PetaBytes
nel 1993 i dati erano 471 PetaBytes;
nel 2000 i dati erano 2,2 ExaBytes;
nel 2007 i dati erano 65 ExaBytes;
nel 2014 si prevede uno scambio di oltre 650 ExaByte
Fonte: Wikipedia
UPS quotidianamente tiene traccia dei dati riguardanti 16,3 milioni di
colli per 8,8 milioni di consumatori, con una media giornaliera di 39,5
milioni di richieste di monitoraggio da parte dei clienti. UPS
immagazzina più di 16 petabytes di dati.
•
•
•
Contesto di riferimento
Business intelligence & Analytics nelle
aziende
Distribuzione delle informazioni
Business Intellingence & Analytics nelle aziende
Gli attori nell’azienda
Executive ManagerS
Human resources
IT Manager
Finance
Sales managerS
Planning &
Control
R&D
Delivery
managerS
Knowledge management
La gestione dell’informazione nelle aziende
OLAP
& Reporting
Analytics
(Data Mining & Statistic)
DSS
Olap
&
Reporting
Analytics
Data Management and Preparation
DSS
DB
transazionali
File
(xls, txt, csv, ecc.)
Sistemi
legacy
OLTP e Gestionali
Flussi
giornalieri
DB di
presentation
13
Dati tecnici
(ITC, Infrastruttura, ecc)
Flussi
settimanali, mensili, una tantum
OLAP
KPI
Altri sistemi
esterni
Integrated Data Warehouse
La metodologia per normalizzare i dati in un Data Warehouse Integrato si basa su un approccio
multilivello. Le informazioni sono classificate in 4 livelli (o stadi), a seconda del trattamento e l'obiettivo
di utilizzabilità:
14
Integrated Data Warehouse
Il Data Warehouse: Collezione di dati che soddisfa le seguenti proprietà:
usata per il supporto alle decisioni
orientata ai soggetti
integrata: livello aziendale e non dipartimentale
correlata alla variabile tempo: ampio orizzonte temporale
con dati tipicamente aggregati, per effettuare stime
15
fuori linea: dati aggiornati periodicamente
Integrated Data Warehouse
Livello 0 ODS: il caricamento dati nel livello ODS (Operational Data Store) ha lo
scopo di salvare ogni possibile fonte di dati in una serie completa di tabelle di input
validati e verificati, respingendo tutti i dati non aderenti ai requisiti minimi
16
Integrated Data Warehouse
ETL è l'abbreviazione di estrazione, trasformazione, caricamento, tre funzioni
di database che vengono combinate in un unico strumento per estrarre i dati
da un database e metterlo in un altro database.
Extract è il processo di lettura dei dati da
un database.
Transform è il processo di conversione dei dati estratti dalla
sua forma precedente nella forma che deve essere in modo
che possa essere collocato in un altro database. La
trasformazione avviene utilizzando le regole o tabelle di ricerca
o combinando i dati con altri dati.
Il caricamento è il processo di scrittura dei dati nel database di destinazione.
ETL è utilizzato per migrare i dati da un database a un altro, per formare data
mart e data warehouse e anche per convertire i database da un formato o un
tipo ad un altro.
17
Integrated Data Warehouse
Livello 1 Central DWH: è basato su una struttura normalizzata. L'obiettivo primario
del caricamento dei dati nel DWH è quello di mantenere un archivio completo di tutte
le informazioni di interesse, fornendo ai potenziali utenti tecnici un database
normalizzato da cui estrarre le informazioni con la giusta profondità storica e il giusto
dettaglio.
19
Integrated Data Warehouse
Livello 2 Data Mart Area (DM). L'obiettivo primario del caricamento dei dati nel
livello DM è quello di preparare le strutture di dati aggregati orientati alle esigenze degli
utenti «business / ricerca» e organizzarlo secondo schemi semplificati (tipicamente
Star-schema), dove gli indicatori di valore chiave di interesse per gli analisti sono precalcolati.
20
Integrated Data Warehouse
Star Schema
• Un fatto è un evento di interesse per l’impresa (vendite, spedizioni, acquisti)
• Le misure sono attributi che descrivono quantitativamente il fatto da diversi punti di
vista (num di unità vendute, prezzo unitario)
• Una dimensione determina la granularità minima di rappresentazione dei fatti (il
prodotto,il negozio, la data)
• Una gerarchia determina come le istanze di un fatto possono essere aggregate e
selezionate - descrive una dimensione.
Dimensioni
Misure
21
Integrated Data Warehouse
LivLivello 3. Software Area specific Data Mart. Questo livello è opzionale, a
seconda del software e gli strumenti da gestire. Contiene l’OLAP e qualsiasi
altra struttura per fare reporting e analisi. L'obiettivo primario del
caricamento dei dati nel terzo livello è quello di preparare le strutture dati
su misura per specifici strumenti di reporting, analisi o di ricerca e / o
programmi di esportazione.
22
Sistemi di presentation
Olap
& Reporting
Analytics
DSS
Reportistica statica
• Report
• Grafici
• Tabelle
Cruscotti
• Elenco statistiche e indicatori (KPI)
• Tachimetri
OLAP
Sistemi GIS (geografici)
23
Sistemi di presentation
Olap
& Reporting
OLAP
ON LINE ANALYTICAL PROCESSING
• Una visione multidimensionale, LOGICA, dei dati
• Analisi interattiva dei dati
• Modellazione analitica: derivazione delle proporzioni, delle
varianze, etc
• Aggregazioni per ogni intersezione di ogni dimensione.
• Previsione, trend analysis e analisi statistiche descrittive.
• Calcola e visualizza i dati incrociati con semplici operazioni di
pivoting degli assi
24
Analytics
DSS
Sistemi di presentation
Esempio Dati navigabili (OLAP)
Utente: business analyst (ad es. controller): OLAP
A partire da dati aggregati e con il minimo livello di dettaglio, l’analista può
navigare le informazioni con le seguenti possibilità:
1. sceglie misure e dimensioni da combinare tra loro (aggiungendo con il
semplice drag& drop una o più dimensione)
2. passa da un livello di dettaglio alto ad uno basso e viceversa (roll up, roll down,
drill down, drill accross)
3. Pivot: riorganizza il cubo
Produce report, grafici, dashboard fino ad esportare i dati nel formato desiderato
(PDF, EXCEL, txt, ecc.) rende facilmente raggiungibile la ricerca dell’informazione
desiderata.
Slide
&
dice
OLAP &
Reporting
Analisi delle informazioni: gli Analytics
Analytics
DSS
Gli Analytics sono utilizzati per cercare «pattern» significativi nei
dati.
•
•
•
•
•
•
•
•
•
Statistics
26
•
•
•
•
•
•
•
•
•
Statistiche descrittive
Percentili
Correlazione e covarianza
Test di ipotesi
Analisi della varianza
Regressione lineare
Campionamento
Analisi discriminante
….
Data
Mining
Analisi predittive
Clustering
Decision Tree
Reti neurali
Machine Learning
Analisi Fattoriale
Data Fusion
Balance Scorecard
….
Analisi delle informazioni: gli Analytics
OLAP &
Reporting
Analytics
Le imprese possono applicare strumenti di analisi per i dati per descrivere,
prevedere e migliorare le prestazioni aziendali. In particolare, le aree di
analisi includono:
analisi predittiva
la gestione del decision making
analisi di vendita al dettaglio
modelli di ottimizzazione di marketing e di modellazione marketing mix
web analytics
dimensionamento e ottimizzazione del headcount (n. occupati in azienda)
prezzi e promozioni
analisi dei rischi di credito
27
analisi delle frodi
DSS
Data Mining
OLAP &
Reporting
Analytics
DATA MINING è il processo di scoperta della correlazione, di
modelli e di trend ottenuti spulciando tra grandi quantità di dati
memorizzati nei repository e utilizzando tecnologie di pattern
recognition, nonché tecniche statistiche e matematiche (Gartner)
28
DSS
Decision Support System
I DSS sono i sistemi che supportano il management nel prendere decisoni
tattico-strategiche, nel modo migliore e più veloce.
Tipiche operazioni:
1. Quali sono stati i volumi di vendita dello scorso anno per una certa categoria di prodotto?
2. Quali ordini dovremmo soddisfare per massimizzare le entrate?
3. Quale la differenza tra ordinato e incassato per dipartimento?
30
OLAP &
Reporting
Analytics
DSS
Tool & Vendor
IBM
Oracle
SAP
31
• APPLIX BPM: planning, budgeting,
forecasting, reporting and what-if analysys
• COGNOS CPM: reporting, analysis, planning,
budgeting, scorecards, dashboards. Current
leader in the quadrant
• SPSS: data mngt & preparation, reporting, data
analysis,
• Hyperion: BPM Reporting, planning &
modeling, consolidations, dashboards,
scorecarding, analysis, master data
• Oracle BI: DW platform, reporting, plannign
& budgeting,analytic applications
• Siebel Business Analytics
• Business Objects: Reporting, query and analysis,
performance management, data integration
• SAP Reporting and analytics integrated with SAP Business
suite
• Arcplan Reporting and analysis, analytic applications for
vertical business segments
• Information Builders mostly traditional host-based
reporting (Focus), some analysis capabilities
OPEN
SOURCE
MICROSOFT
• DW platform, reporting, analysis, data
mining
Microstrategy
BPM
• Monitor (dashboards, scorecards,
portals), Report (statements, business
reports, operational reports), Analyze
(statistical, financial, predictive analysis)
QlikView
• Analysis, fast prototyping, reporting,
analytic applications
SAS
• Reporting, analytics, data integration,
industry solutions
• KNIME data analytics, reporting and integration. Integra vari componenti
per machine learning e data mining utilizzando una Graphic user interface
basata sul concetto pipelining.
• Pentaho (HITACHI): integrazione dati, OLAP, reportistica,
cruscottistica, data mining e ETL
• R statistics: analisi statistica
•
•
•
Distribuzione delle informazioni
Contesto di riferimento
Business intelligence & Analytics nelle
aziende
Distribuzione delle informazioni
Distribuzione delle informazioni: gli strumenti
OLAP
Strumento
33
KPI
Funzione
Utenti e canale
PC
(workstation, Portatili,
ecc)
Business analyst
Per utenti che effettuano
analisi di dato e d
processo
Webapp o client
distribution
Smartphone e tablet
Direttori, executive
manager, sales force,
account manager,
delivery manager
Utenti mobili, che sono
spesso dal cliente, in
viaggio ed in riunioni.
App distribution
Content management
Utenti web (intranet,
internet, ecc)
Tutti gli utenti su web
autorizzati
Giornale multimediale
Broadcasting
Gli utenti che accedono
ad un sito fisico dove si
trasmettonole
informazioni
Distribuzione delle informazioni:
Ad ogni attore il proprio dato e il proprio canale
Vendite
Budget per UO
Indice di rotazione Magazzino
Executive ManagerS
Fatturato vs incassato
Human resources
Costi del personale
IT Manager
Finance
Planning &
Control
R&D
Gestione fondi
Accessi PS
(per priorità, disciplina)
Headcount
Presenze assenze
per reparto
Tempi di attesa PS
(ingresso e accettazione)
Sales managerS
RFID data
Social network
collection
analysis
Delivery
managerS
Audio/video
Streaming analysis
Statistiche mercati
Knowledge management
Finalcial data
Market/
Stock exchange
Tipo di presentazioni
Modalità di
presentazione
Descrizione
KPI
Key performance indicator
Indici sintetici per i quali solitamente si imposta un valore di soglia
superato il quale scatta un’azione
Report statici
Tabelle, grafici, statistiche anche complesse dove i dati sono presentati in
maniera «piatta» ovvero non navigabile. Alcuni strumenti forniscono la
possibilità di impostare filtri (ad esempio 1 o più anni) e questo NON
deve essere confuso con l’OLAP
Dashboard
Include KPI e report, ai quali aggiunge una sorta di organizzazione e
spesso una rappresentazione più immediata (ad esempio il tachimetro fa
vedere immediatamente se ho sforato il budget)
Strumenti di
collaboration
Multi videoconference, virtual classroom, Content Management System
Export (XLS, txt, ecc.)
Report e/o fogli excel messi a disposizione di utenti business per
successive analisi
Bursting
Invio periodico di mail di dati, report, grafici, dashboard, ecc a utenti
chiave (executive, direzionie, board, CEO, ecc.)
Notification (SMS,
multicanalità, ecc.)
Avviso via SMS, mail, ecc dell’avvenuta creazione di nuovi dati da
visualizzare al link: www.xxx.com
Olap
Esempio Esempio: approvazione di un progetto ad alto budget
Offerta
approvata
da un
cliente
Importo
3M$
(>500K$)
Marginalità
28%
(< 30%)
Durata del
progetto: 3
anni
Il progetto riceve un GO solo se è convincente con ognuno dei
membri dello steering commettee
Finance
Solution architect
Legale
Resource Mngr
• Il margine sarà
impattato dal
cambio della
valuta
• Il flusso di cassa è
alla fine del
progetto?
• Grado di
innovatività del
progetto (ranking
tecnologico)
• Grado di
riusabilità di
componenti
esistenti e di
componenti
prodotte dal
progetto (ranking
riusabbilità)
• Database sulla
«aree critiche»
per l’azienda
(solitamente NO
GO in aree a
rischio)
• Disponibilità
risorse con giusti
skill nel momento
giusto
BID Mngr
Ogni membro è dotato di propri DB che forniscono le giuste informazioni per fare il ranking, per
valutare il rischio del progetto, per fare correlazioni tra progetti esistenti e da approvare
Esempio KPI di azienda sanitaria
KPI Sala d’attesa
Durata media di attesa
Statistiche per giorno della settimana
Statistiche per patologia
KPI Sanitari
Nuovi ricoveri nel periodo
Presenti inizio periodo
Usciti nel periodo
Degenti nel periodo
Presenza Media giornaliera
Occupazione % PL
Indice di rotazione PL
Indice di turnover
PL operativi nel periodo
Media giornaliera PL
Giornate di degenza nel periodo
Degenza Media nel periodo
Per la degenza day hospital;
N. Accessi nel periodo
PL operativi nel periodo
Media giornaliera PL
Occupazione % PL
Presenti fine periodo
Durata delle degenze per reparto, per
patologia, per intervento
Analisi delle durate delle degenze e dei
relativi DRG
Scostamenti temporali tra la dimissione e
la compilazione delle SDO
Bibliografia
Bill Inmon Building the Datawarehouse e Datawarehouse performance
Ralph Kimball The Data Warehouse Toolkit e The Data Warehouse Lifecycle Toolkit
FONTI INTERNET
http://www.olap.it/Definitions.htm
http://www.olap.it/Books.htm
Data Management Review
http://www.spss.it/
Computer desktop Enciclopedia
www.open.cineca.it
The Data Warehousing Institute
DataWarehouse.com
The OLAP Report
The Database Journal
DATAMATION.com - Data Warehousing
DataWarehousing.com
Businessintelligence.com