L’uso della Statistica nelle aziende internazionali Massimo D’Angelo Il nostro viaggio… • Come si utilizzano le informazioni • Case study 1: la gestione del Backlog aziendale • Case study 2: la valorizzazione dei profili professionali Come si utilizzano le informazioni AGENDA: come si utilizzano le informazioni • Contesto di riferimento • Business intelligence & Analytics nelle aziende • Distribuzione delle informazioni Contesto di riferimento • • • Contesto di riferimento Business intelligence & Analytics nelle aziende Distribuzione delle informazioni I sistemi transazionali producono una mole di informazioni che gli operatori hanno bisogno di sintetizzare Molte informazioni sono accessibili, altre devono essere aggregate, trasformate, ripulite di elementi ridondanti e/o inutili 5 Soluzioni Soluzione Quick & Dirty Interrogazioni massive Si fanno query massive on line su sistemi transazionali nati per altri fini Degrado delle performance Per ogni nuova richiesta sullo stesso set di dati deve essere implementato un nuovo report Si producono report statici Sistema transazionale Impatto 6 Soluzioni Soluzione Data Warehouse Sistema transazionale Dashbord Repository base dati diversa da quella transazionale OLAP KPI Nessun impatto sul sistema sorgente Velocità di risposta (query ad hoc, architettura progettata per le statistiche e non per le transazioni Dati multidimensionali, navigabili, ecc. Analisi su serie storiche, accesso da PC, tablet, mobile. Impatto 7 Soluzioni Soluzione Big Data (1/2) Premessa: esistenza dei big data! Big data è un’esigenza non una moda Three “Vs” of Big Data – Volume, Velocity, Variety – defined by Doug Laney Volume • • • Dati strutturati: DB transazionali, legacy,… Dati non strutturati (social media, doc di testo, email, video, audio, ..) Dati machine-to-machine (sensori, RFID, …) Velocità • Sfida per gestire velocemente la grande mole di dati Varietà • Dati aziendali (interni) • Dati non aziendali • open data: data.gov, CIA World Factbook o European Union Open Data Portal • banche dati 8 Nel 2005 Apache sviluppa Hadoop – Big Data framework open source Soluzioni Soluzione Big Data (2/2) Eric Schmidt, presidente esecutivo di Google, dice a una conferenza nel 2010 che vengono creati ogni due giorni la stessa quantità di dati creati dall'inizio della civiltà umana fino all'anno 2003 La tendenza • • • • • • 9 nel 1986 i dati erano 281 PetaBytes nel 1993 i dati erano 471 PetaBytes; nel 2000 i dati erano 2,2 ExaBytes; nel 2007 i dati erano 65 ExaBytes; nel 2014 si prevede uno scambio di oltre 650 ExaByte Fonte: Wikipedia UPS quotidianamente tiene traccia dei dati riguardanti 16,3 milioni di colli per 8,8 milioni di consumatori, con una media giornaliera di 39,5 milioni di richieste di monitoraggio da parte dei clienti. UPS immagazzina più di 16 petabytes di dati. • • • Contesto di riferimento Business intelligence & Analytics nelle aziende Distribuzione delle informazioni Business Intellingence & Analytics nelle aziende Gli attori nell’azienda Executive ManagerS Human resources IT Manager Finance Sales managerS Planning & Control R&D Delivery managerS Knowledge management La gestione dell’informazione nelle aziende OLAP & Reporting Analytics (Data Mining & Statistic) DSS Olap & Reporting Analytics Data Management and Preparation DSS DB transazionali File (xls, txt, csv, ecc.) Sistemi legacy OLTP e Gestionali Flussi giornalieri DB di presentation 13 Dati tecnici (ITC, Infrastruttura, ecc) Flussi settimanali, mensili, una tantum OLAP KPI Altri sistemi esterni Integrated Data Warehouse La metodologia per normalizzare i dati in un Data Warehouse Integrato si basa su un approccio multilivello. Le informazioni sono classificate in 4 livelli (o stadi), a seconda del trattamento e l'obiettivo di utilizzabilità: 14 Integrated Data Warehouse Il Data Warehouse: Collezione di dati che soddisfa le seguenti proprietà: usata per il supporto alle decisioni orientata ai soggetti integrata: livello aziendale e non dipartimentale correlata alla variabile tempo: ampio orizzonte temporale con dati tipicamente aggregati, per effettuare stime 15 fuori linea: dati aggiornati periodicamente Integrated Data Warehouse Livello 0 ODS: il caricamento dati nel livello ODS (Operational Data Store) ha lo scopo di salvare ogni possibile fonte di dati in una serie completa di tabelle di input validati e verificati, respingendo tutti i dati non aderenti ai requisiti minimi 16 Integrated Data Warehouse ETL è l'abbreviazione di estrazione, trasformazione, caricamento, tre funzioni di database che vengono combinate in un unico strumento per estrarre i dati da un database e metterlo in un altro database. Extract è il processo di lettura dei dati da un database. Transform è il processo di conversione dei dati estratti dalla sua forma precedente nella forma che deve essere in modo che possa essere collocato in un altro database. La trasformazione avviene utilizzando le regole o tabelle di ricerca o combinando i dati con altri dati. Il caricamento è il processo di scrittura dei dati nel database di destinazione. ETL è utilizzato per migrare i dati da un database a un altro, per formare data mart e data warehouse e anche per convertire i database da un formato o un tipo ad un altro. 17 Integrated Data Warehouse Livello 1 Central DWH: è basato su una struttura normalizzata. L'obiettivo primario del caricamento dei dati nel DWH è quello di mantenere un archivio completo di tutte le informazioni di interesse, fornendo ai potenziali utenti tecnici un database normalizzato da cui estrarre le informazioni con la giusta profondità storica e il giusto dettaglio. 19 Integrated Data Warehouse Livello 2 Data Mart Area (DM). L'obiettivo primario del caricamento dei dati nel livello DM è quello di preparare le strutture di dati aggregati orientati alle esigenze degli utenti «business / ricerca» e organizzarlo secondo schemi semplificati (tipicamente Star-schema), dove gli indicatori di valore chiave di interesse per gli analisti sono precalcolati. 20 Integrated Data Warehouse Star Schema • Un fatto è un evento di interesse per l’impresa (vendite, spedizioni, acquisti) • Le misure sono attributi che descrivono quantitativamente il fatto da diversi punti di vista (num di unità vendute, prezzo unitario) • Una dimensione determina la granularità minima di rappresentazione dei fatti (il prodotto,il negozio, la data) • Una gerarchia determina come le istanze di un fatto possono essere aggregate e selezionate - descrive una dimensione. Dimensioni Misure 21 Integrated Data Warehouse LivLivello 3. Software Area specific Data Mart. Questo livello è opzionale, a seconda del software e gli strumenti da gestire. Contiene l’OLAP e qualsiasi altra struttura per fare reporting e analisi. L'obiettivo primario del caricamento dei dati nel terzo livello è quello di preparare le strutture dati su misura per specifici strumenti di reporting, analisi o di ricerca e / o programmi di esportazione. 22 Sistemi di presentation Olap & Reporting Analytics DSS Reportistica statica • Report • Grafici • Tabelle Cruscotti • Elenco statistiche e indicatori (KPI) • Tachimetri OLAP Sistemi GIS (geografici) 23 Sistemi di presentation Olap & Reporting OLAP ON LINE ANALYTICAL PROCESSING • Una visione multidimensionale, LOGICA, dei dati • Analisi interattiva dei dati • Modellazione analitica: derivazione delle proporzioni, delle varianze, etc • Aggregazioni per ogni intersezione di ogni dimensione. • Previsione, trend analysis e analisi statistiche descrittive. • Calcola e visualizza i dati incrociati con semplici operazioni di pivoting degli assi 24 Analytics DSS Sistemi di presentation Esempio Dati navigabili (OLAP) Utente: business analyst (ad es. controller): OLAP A partire da dati aggregati e con il minimo livello di dettaglio, l’analista può navigare le informazioni con le seguenti possibilità: 1. sceglie misure e dimensioni da combinare tra loro (aggiungendo con il semplice drag& drop una o più dimensione) 2. passa da un livello di dettaglio alto ad uno basso e viceversa (roll up, roll down, drill down, drill accross) 3. Pivot: riorganizza il cubo Produce report, grafici, dashboard fino ad esportare i dati nel formato desiderato (PDF, EXCEL, txt, ecc.) rende facilmente raggiungibile la ricerca dell’informazione desiderata. Slide & dice OLAP & Reporting Analisi delle informazioni: gli Analytics Analytics DSS Gli Analytics sono utilizzati per cercare «pattern» significativi nei dati. • • • • • • • • • Statistics 26 • • • • • • • • • Statistiche descrittive Percentili Correlazione e covarianza Test di ipotesi Analisi della varianza Regressione lineare Campionamento Analisi discriminante …. Data Mining Analisi predittive Clustering Decision Tree Reti neurali Machine Learning Analisi Fattoriale Data Fusion Balance Scorecard …. Analisi delle informazioni: gli Analytics OLAP & Reporting Analytics Le imprese possono applicare strumenti di analisi per i dati per descrivere, prevedere e migliorare le prestazioni aziendali. In particolare, le aree di analisi includono: analisi predittiva la gestione del decision making analisi di vendita al dettaglio modelli di ottimizzazione di marketing e di modellazione marketing mix web analytics dimensionamento e ottimizzazione del headcount (n. occupati in azienda) prezzi e promozioni analisi dei rischi di credito 27 analisi delle frodi DSS Data Mining OLAP & Reporting Analytics DATA MINING è il processo di scoperta della correlazione, di modelli e di trend ottenuti spulciando tra grandi quantità di dati memorizzati nei repository e utilizzando tecnologie di pattern recognition, nonché tecniche statistiche e matematiche (Gartner) 28 DSS Decision Support System I DSS sono i sistemi che supportano il management nel prendere decisoni tattico-strategiche, nel modo migliore e più veloce. Tipiche operazioni: 1. Quali sono stati i volumi di vendita dello scorso anno per una certa categoria di prodotto? 2. Quali ordini dovremmo soddisfare per massimizzare le entrate? 3. Quale la differenza tra ordinato e incassato per dipartimento? 30 OLAP & Reporting Analytics DSS Tool & Vendor IBM Oracle SAP 31 • APPLIX BPM: planning, budgeting, forecasting, reporting and what-if analysys • COGNOS CPM: reporting, analysis, planning, budgeting, scorecards, dashboards. Current leader in the quadrant • SPSS: data mngt & preparation, reporting, data analysis, • Hyperion: BPM Reporting, planning & modeling, consolidations, dashboards, scorecarding, analysis, master data • Oracle BI: DW platform, reporting, plannign & budgeting,analytic applications • Siebel Business Analytics • Business Objects: Reporting, query and analysis, performance management, data integration • SAP Reporting and analytics integrated with SAP Business suite • Arcplan Reporting and analysis, analytic applications for vertical business segments • Information Builders mostly traditional host-based reporting (Focus), some analysis capabilities OPEN SOURCE MICROSOFT • DW platform, reporting, analysis, data mining Microstrategy BPM • Monitor (dashboards, scorecards, portals), Report (statements, business reports, operational reports), Analyze (statistical, financial, predictive analysis) QlikView • Analysis, fast prototyping, reporting, analytic applications SAS • Reporting, analytics, data integration, industry solutions • KNIME data analytics, reporting and integration. Integra vari componenti per machine learning e data mining utilizzando una Graphic user interface basata sul concetto pipelining. • Pentaho (HITACHI): integrazione dati, OLAP, reportistica, cruscottistica, data mining e ETL • R statistics: analisi statistica • • • Distribuzione delle informazioni Contesto di riferimento Business intelligence & Analytics nelle aziende Distribuzione delle informazioni Distribuzione delle informazioni: gli strumenti OLAP Strumento 33 KPI Funzione Utenti e canale PC (workstation, Portatili, ecc) Business analyst Per utenti che effettuano analisi di dato e d processo Webapp o client distribution Smartphone e tablet Direttori, executive manager, sales force, account manager, delivery manager Utenti mobili, che sono spesso dal cliente, in viaggio ed in riunioni. App distribution Content management Utenti web (intranet, internet, ecc) Tutti gli utenti su web autorizzati Giornale multimediale Broadcasting Gli utenti che accedono ad un sito fisico dove si trasmettonole informazioni Distribuzione delle informazioni: Ad ogni attore il proprio dato e il proprio canale Vendite Budget per UO Indice di rotazione Magazzino Executive ManagerS Fatturato vs incassato Human resources Costi del personale IT Manager Finance Planning & Control R&D Gestione fondi Accessi PS (per priorità, disciplina) Headcount Presenze assenze per reparto Tempi di attesa PS (ingresso e accettazione) Sales managerS RFID data Social network collection analysis Delivery managerS Audio/video Streaming analysis Statistiche mercati Knowledge management Finalcial data Market/ Stock exchange Tipo di presentazioni Modalità di presentazione Descrizione KPI Key performance indicator Indici sintetici per i quali solitamente si imposta un valore di soglia superato il quale scatta un’azione Report statici Tabelle, grafici, statistiche anche complesse dove i dati sono presentati in maniera «piatta» ovvero non navigabile. Alcuni strumenti forniscono la possibilità di impostare filtri (ad esempio 1 o più anni) e questo NON deve essere confuso con l’OLAP Dashboard Include KPI e report, ai quali aggiunge una sorta di organizzazione e spesso una rappresentazione più immediata (ad esempio il tachimetro fa vedere immediatamente se ho sforato il budget) Strumenti di collaboration Multi videoconference, virtual classroom, Content Management System Export (XLS, txt, ecc.) Report e/o fogli excel messi a disposizione di utenti business per successive analisi Bursting Invio periodico di mail di dati, report, grafici, dashboard, ecc a utenti chiave (executive, direzionie, board, CEO, ecc.) Notification (SMS, multicanalità, ecc.) Avviso via SMS, mail, ecc dell’avvenuta creazione di nuovi dati da visualizzare al link: www.xxx.com Olap Esempio Esempio: approvazione di un progetto ad alto budget Offerta approvata da un cliente Importo 3M$ (>500K$) Marginalità 28% (< 30%) Durata del progetto: 3 anni Il progetto riceve un GO solo se è convincente con ognuno dei membri dello steering commettee Finance Solution architect Legale Resource Mngr • Il margine sarà impattato dal cambio della valuta • Il flusso di cassa è alla fine del progetto? • Grado di innovatività del progetto (ranking tecnologico) • Grado di riusabilità di componenti esistenti e di componenti prodotte dal progetto (ranking riusabbilità) • Database sulla «aree critiche» per l’azienda (solitamente NO GO in aree a rischio) • Disponibilità risorse con giusti skill nel momento giusto BID Mngr Ogni membro è dotato di propri DB che forniscono le giuste informazioni per fare il ranking, per valutare il rischio del progetto, per fare correlazioni tra progetti esistenti e da approvare Esempio KPI di azienda sanitaria KPI Sala d’attesa Durata media di attesa Statistiche per giorno della settimana Statistiche per patologia KPI Sanitari Nuovi ricoveri nel periodo Presenti inizio periodo Usciti nel periodo Degenti nel periodo Presenza Media giornaliera Occupazione % PL Indice di rotazione PL Indice di turnover PL operativi nel periodo Media giornaliera PL Giornate di degenza nel periodo Degenza Media nel periodo Per la degenza day hospital; N. Accessi nel periodo PL operativi nel periodo Media giornaliera PL Occupazione % PL Presenti fine periodo Durata delle degenze per reparto, per patologia, per intervento Analisi delle durate delle degenze e dei relativi DRG Scostamenti temporali tra la dimissione e la compilazione delle SDO Bibliografia Bill Inmon Building the Datawarehouse e Datawarehouse performance Ralph Kimball The Data Warehouse Toolkit e The Data Warehouse Lifecycle Toolkit FONTI INTERNET http://www.olap.it/Definitions.htm http://www.olap.it/Books.htm Data Management Review http://www.spss.it/ Computer desktop Enciclopedia www.open.cineca.it The Data Warehousing Institute DataWarehouse.com The OLAP Report The Database Journal DATAMATION.com - Data Warehousing DataWarehousing.com Businessintelligence.com