DPTS - DCMT/1 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse Mariano Crea 06/11/2008 ISTAT – Istituto Nazionale di Statistica DPTS | DCMT / 1 Agenda Data Warehouse Overview La Suite Pentaho Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale La classificazione dei dipendenti ISTAT (studio di caso) 2 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Agenda Data Warehouse Overview La Suite Pentaho Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale La classificazione dei dipendenti ISTAT (studio di caso) 3 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Data Warehouse Overview Cosa è un Data Warehouse? Il flusso dei dati Data base OLAP (On-Line Analytical Processing) ETL (Extract Transform and Load) Data Mining Sistema di Reportistica Progettazione del Data Warehouse 4 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Cosa è un Data Warehouse? (1/2) Un data warehouse è una base di dati contenente dati storici integrata gestita fuori linea usata per il supporto alle decisioni direzionali Obiettivi di un data warehouse rendere l’informazione accessibile consistente affidabile sicura usabile per il supporto alle decisioni Corporate data (active) BI Systems Informational Applications Off-line data (archived) External data 5 Data Warehouse Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Cosa è un Data Warehouse? (2/2) Tre possibili tipi Data Source Management Information System “Virtual” Data Warehouse Data Source One-tier Data Warehouse Data Marts or departmental solutions Central DW Data Marts Data Source Two-tier DW Corporate Data Warehousing Data Warehouse Enviroment 6 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Il Flusso dei Dati Sorgenti Esterne Basi di dati Operazionali Gli ETL1 estraggono i dati dalle sorgenti esterne (OLTP, file etc), quindi trasformano tali dati integrandoli, consolidandoli e pulendoli da informazioni spurie. Nell’ultimo step gli ETL1 caricano i dati appena trasformati nel Central Data Warehouse database. Gli ETL2 estraggono i dati dal Central Data Warehouse. Tali dati sono successivamente trasformati e caricati nei Data Mart database. ETL1 I Reports sono i sorgenti delle informazioni per le applicazione di supporto alle decisioni. Questi prendono i dati on-demand dai Data Mart. Central Data Warehouse 7 ETL2 Data Mart Data Mart Data Mart Data Mart Data Mart D a t a Reports Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Data base (1/2) Il DW è formato, generalmente, da tre Tipi di Database Stage – ricalca la struttura delle sorgenti esterne, contiene strutture e metadati per il controllo delle estrazioni dei dati CDW – contiene la completezza dei dati storici, metadati e strutture di controllo; è in terza forma normale Mart – contiene un sottoinsieme dei dati del CDW, la sua architettura è a Star Schema con modellazione dimensionale 8 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Data base (2/2) 9 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 OLAP (On-Line Analytical Processing) OLAP (On-Line Analytical Processing) è l’attività di interrogazione presentazione dei dati di un Data Warehouse in uno stile dimensionale. e Esistono tre tipologie di sistemi OLAP: Multidimensionale MOLAP: Multidimensional OLAP Relazionale ROLAP: Relational OLAP Ibrido HOLAP: Hybrid OLAP 10 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 ETL (Extract Transform and Load) ETL1 FASE 1 F FA 1 ASE E FAS SE 2 1 ETL2 11 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Data Mining Estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile; Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire schemi, detti pattern, significativi. Tra le tecniche maggiormente utilizzate in questo ambito vi sono: Clustering; Reti neurali; Alberi di decisione; Analisi delle associazioni 12 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Sistema di Reportistica L'obiettivo di un Sistema di Reportistica è quello di fornire documentazione analitica e “sistemi per il supporto alle decisioni" (Decision Support Systems o DSS). Funzionalità in aggiunta ai report “standard”: Report con tecnologia OLAP Analisi di tipo tradizionale statistico Rappresentazione con GIS Balanced scorecard (BSC) Dashboard 13 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Progettazione del Data Warehouse La progettazione del data warehouse avviene su tre step paralleli A. progettazione dei dati progettazione logica (data base e cubi) del data warehouse progettazione fisica dei data base Progettazione procedure di ETL A. progettazione tecnologica progettazione dell’architettura del data warehouse scelta e installazione di prodotti A. progettazione delle applicazioni di business intelligence specifica delle applicazioni sviluppo delle applicazioni 14 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Agenda Data Warehouse Overview La Suite Pentaho Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale La classificazione dei dipendenti ISTAT (studio di caso) 15 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La Suite Pentaho Business Intelligence Platform Strumenti di Analisi Report e Cruscotti Strumenti di Integrazione dei Dati Strumenti per il Data Mining Link 16 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Pentaho Business Intelligence Platform 17 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Strumenti di Analisi Mondrian è un OLAP server (ROLAP) scritto in Java. Prodotti disponibili: Aggregation Designer 1.0 RC1 Mondrian 3.0.4 Mondrian è usato per: Esplorazione dei dati di tipo "Dimensionale“ Parsing di espressioni nel linguaggio Multi-Dimensional eXpression (MDX) e conversione in Structured Query Language (SQL) per recuperare i risultati delle queries dimensionali Espressioni calcolate in MDX Api 18 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Report e Cruscotti Pentaho Reporting è una collezione di progetti open focalizzati alla creazione, generazione e distribuzione di report Prodotti disponibili: Pentaho Design Studio 2.0 RC1 Pentaho Classic-Reporting Engine 0.8.9.9 19 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Strumenti di Integrazione dei Dati Kettle Pentaho Data Integration è un tool per sviluppare ETL La versione disponibile è: Data Integration 3.1.0 GA. Maggiori Caratteristiche: Si connette ad una vasta varietà di DB, flat file, file in formato xml, excel e web services. GUI e toolbar facili da apprendere e da usare per progettare sia processi sia flussi di dati. Debugger integrato. 20 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 ETL Tools Comparison (Jonathan Levin) 21 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Strumenti per il Data Mining Pentaho Data Mining, è basato su Weka project. La versione attualmente utilizzabile è: Weka 3.5.8 È un insieme di tool per “machine learning” e data mining, di algoritmi di clustering, classificazione, regressione e regole di associazione. 22 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Link http://www.pentaho.com/ http://wiki.pentaho.com/ http://community.pentaho.com/faq/ http://forums.pentaho.org/ http://sourceforge.net/ 23 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Agenda Data Warehouse Overview La Suite Pentaho Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale La classificazione dei dipendenti ISTAT (studio di caso) 24 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale Eclipse Librerie di Mondrian / JPivot web.xml Codice java Cubi report 25 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Eclipse 26 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Librerie di Mondrian / JPivot 27 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Librerie di Mondrian / JPivot 28 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 web.xml 29 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Codice java 30 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Codice java 31 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Cubi 32 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Cubi 33 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Report 34 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Agenda Data Warehouse Overview La Suite Pentaho Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale La classificazione dei dipendenti ISTAT (studio di caso) 35 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Home Page dell’applicazione 36 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Applicazione di Analisi Multidimensionale mediante Pentaho 37 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Applicazione di Analisi Multidimensionale mediante Pentaho 38 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Applicazione di Analisi Multidimensionale mediante Pentaho 39 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Applicazione di Analisi Multidimensionale mediante Pentaho 40 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Applicazione di Analisi Multidimensionale mediante Pentaho 41 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Applicazione di Analisi Multidimensionale mediante Pentaho 42 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Applicazione di Analisi Multidimensionale mediante Pentaho 43 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Applicazione di Analisi Multidimensionale mediante Pentaho 44 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Applicazione di Analisi Multidimensionale mediante Pentaho 45 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Applicazione di Analisi Multidimensionale mediante Pentaho 46 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Applicazione di Analisi Multidimensionale mediante Pentaho 47 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Applicazione di Analisi Multidimensionale mediante Pentaho 48 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Applicazione di Analisi Multidimensionale mediante Pentaho 49 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Applicazione di Analisi Multidimensionale mediante Pentaho 50 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Applicazione di Analisi Multidimensionale mediante Pentaho 51 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 La classificazione dei dipendenti ISTAT (studio di caso) Applicazione di Analisi Multidimensionale mediante Pentaho 52 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 References: Data Warehouse Ralph Kimball, Laura Reeves, Margy Ross, Warren Thornthwaite, The Data Warehouse Lifecycle Toolkit, John Wiley & Sons, 1998 Ralph Kimball, Margy Ross, The Data Warehouse Toolkit: The Complete Guide To Dimensional Modeling (second edition), John Wiley & Sons, 2002 - in italiano, Data Warehouse: La guida completa, Hoepli, 2002 Pentaho http://www.pentaho.com/ Applicazione Demo http://austria2:8095/ISTAT20081106 53 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT DPTS | DCMT / 1 Contacts: email: [email protected] telefono: 06 4674.2722 Il presente materiale è distribuito con la licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo - 2.5 Italia”, reperibile presso il seguente sito Internet: http://creativecommons.org/licenses/by-nc-sa/2.5/it/. Q/A 54 Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse 06/11/2008 ISTAT