Pentaho: una soluzione Open per la progettazione e sviluppo di

annuncio pubblicitario
DPTS - DCMT/1
Pentaho: una soluzione
Open
per la progettazione e
sviluppo di
Data Warehouse
Mariano Crea
06/11/2008
ISTAT – Istituto Nazionale di Statistica
DPTS | DCMT / 1
Agenda
 Data Warehouse Overview
 La Suite Pentaho
 Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale
 La classificazione dei dipendenti ISTAT (studio di caso)
2
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Agenda
 Data Warehouse Overview
 La Suite Pentaho
 Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale
 La classificazione dei dipendenti ISTAT (studio di caso)
3
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Data Warehouse Overview
 Cosa è un Data Warehouse?
 Il flusso dei dati
 Data base
 OLAP (On-Line Analytical Processing)
 ETL (Extract Transform and Load)
 Data Mining
 Sistema di Reportistica
 Progettazione del Data Warehouse
4
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Cosa è un Data Warehouse? (1/2)
Un data warehouse è una base di dati
 contenente dati storici
 integrata
 gestita fuori linea
 usata per il supporto alle decisioni direzionali
Obiettivi di un data warehouse
rendere l’informazione
 accessibile
 consistente
 affidabile
 sicura
 usabile per il supporto alle decisioni
Corporate data (active)
BI Systems
Informational Applications
Off-line data (archived)
External data
5
Data Warehouse
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Cosa è un Data Warehouse? (2/2)
Tre possibili tipi
Data Source
Management Information System
“Virtual” Data Warehouse
Data Source
One-tier Data Warehouse
Data Marts or departmental solutions
Central
DW
Data Marts
Data Source
Two-tier DW
Corporate Data
Warehousing
Data Warehouse Enviroment
6
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Il Flusso dei Dati
Sorgenti Esterne
Basi di dati Operazionali
Gli ETL1 estraggono i dati dalle sorgenti esterne (OLTP, file etc), quindi
trasformano tali dati integrandoli, consolidandoli e pulendoli da informazioni
spurie. Nell’ultimo step gli ETL1 caricano i dati appena trasformati nel
Central Data Warehouse database.
Gli ETL2 estraggono i dati dal Central Data Warehouse. Tali dati sono
successivamente trasformati e caricati nei Data Mart database.
ETL1
I Reports sono i sorgenti delle informazioni per le applicazione di
supporto alle decisioni.
Questi prendono i dati on-demand dai Data Mart.
Central Data
Warehouse
7
ETL2
Data Mart
Data Mart
Data Mart
Data Mart
Data Mart
D
a
t
a
Reports
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Data base (1/2)
Il DW è formato, generalmente, da tre Tipi di Database
Stage – ricalca la struttura delle sorgenti esterne,
contiene strutture e metadati per il controllo delle
estrazioni dei dati
CDW – contiene la completezza dei dati storici,
metadati e strutture di controllo; è in terza forma
normale
Mart – contiene un sottoinsieme dei dati del CDW, la
sua architettura è a Star Schema con modellazione
dimensionale
8
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Data base (2/2)
9
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
OLAP (On-Line Analytical Processing)
OLAP (On-Line Analytical Processing) è l’attività di interrogazione
presentazione dei dati di un Data Warehouse in uno stile dimensionale.
e
Esistono tre tipologie di sistemi OLAP:
Multidimensionale MOLAP: Multidimensional OLAP
Relazionale ROLAP: Relational OLAP
Ibrido HOLAP: Hybrid OLAP
10
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
ETL (Extract Transform and Load)
ETL1
FASE 1
F
FA
1
ASE
E
FAS
SE
2
1
ETL2
11
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Data Mining
Estrazione, con tecniche analitiche
all'avanguardia,
di
informazione
implicita, nascosta, da dati già
strutturati, per renderla disponibile e
direttamente utilizzabile;
Esplorazione ed analisi, eseguita in
modo automatico o semiautomatico, su
grandi quantità di dati allo scopo di
scoprire
schemi,
detti
pattern,
significativi.
Tra le tecniche maggiormente utilizzate
in questo ambito vi sono:
Clustering;
Reti neurali;
Alberi di decisione;
Analisi delle associazioni
12
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Sistema di Reportistica
L'obiettivo di un Sistema di
Reportistica è quello di fornire
documentazione
analitica
e
“sistemi per il supporto alle
decisioni"
(Decision
Support
Systems o DSS).
Funzionalità in aggiunta ai report
“standard”:
Report con tecnologia OLAP
Analisi di tipo tradizionale
statistico
Rappresentazione con GIS
Balanced scorecard (BSC)
Dashboard
13
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Progettazione del Data Warehouse
La progettazione del data warehouse avviene su tre step paralleli
A.



progettazione dei dati
progettazione logica (data base e cubi) del data warehouse
progettazione fisica dei data base
Progettazione procedure di ETL
A. progettazione tecnologica
 progettazione dell’architettura del data warehouse
 scelta e installazione di prodotti
A. progettazione delle applicazioni di business intelligence
 specifica delle applicazioni
 sviluppo delle applicazioni
14
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Agenda
 Data Warehouse Overview
 La Suite Pentaho
 Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale
 La classificazione dei dipendenti ISTAT (studio di caso)
15
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La Suite
 Pentaho Business Intelligence Platform
 Strumenti di Analisi
 Report e Cruscotti
 Strumenti di Integrazione dei Dati
 Strumenti per il Data Mining
 Link
16
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Pentaho Business Intelligence Platform
17
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Strumenti di Analisi
Mondrian è un OLAP server (ROLAP) scritto in Java.
Prodotti disponibili:
 Aggregation Designer 1.0 RC1
 Mondrian 3.0.4
Mondrian è usato per:
 Esplorazione dei dati di tipo "Dimensionale“
 Parsing di espressioni nel linguaggio Multi-Dimensional eXpression
(MDX) e conversione in Structured Query Language (SQL) per
recuperare i risultati delle queries dimensionali
 Espressioni calcolate in MDX
 Api
18
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Report e Cruscotti
Pentaho Reporting è una collezione di progetti open focalizzati alla creazione,
generazione e distribuzione di report
Prodotti disponibili:
Pentaho Design Studio 2.0 RC1
Pentaho Classic-Reporting Engine 0.8.9.9
19
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Strumenti di Integrazione dei Dati
Kettle Pentaho Data Integration è un tool per sviluppare ETL
La versione disponibile è:
Data Integration 3.1.0 GA.
Maggiori Caratteristiche:
 Si connette ad una vasta varietà di DB, flat file, file in formato xml, excel e web
services.
 GUI e toolbar facili da apprendere e da usare per progettare sia processi sia flussi di
dati.
 Debugger integrato.
20
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
ETL Tools Comparison (Jonathan Levin)
21
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Strumenti per il Data Mining
Pentaho Data Mining, è basato su Weka project.
La versione attualmente utilizzabile è:
Weka 3.5.8
È un insieme di tool per “machine learning” e data mining,
di algoritmi di clustering, classificazione, regressione e regole di associazione.
22
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Link
http://www.pentaho.com/
http://wiki.pentaho.com/
http://community.pentaho.com/faq/
http://forums.pentaho.org/
http://sourceforge.net/
23
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Agenda
 Data Warehouse Overview
 La Suite Pentaho
 Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale
 La classificazione dei dipendenti ISTAT (studio di caso)
24
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Mondrian & JPivot: la soluzione Pentaho per l’analisi
multidimensionale
 Eclipse
 Librerie di Mondrian / JPivot
 web.xml
 Codice java
 Cubi
 report
25
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Eclipse
26
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Librerie di Mondrian / JPivot
27
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Librerie di Mondrian / JPivot
28
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
web.xml
29
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Codice java
30
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Codice java
31
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Cubi
32
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Cubi
33
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Report
34
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Agenda
 Data Warehouse Overview
 La Suite Pentaho
 Mondrian & JPivot: la soluzione Pentaho per l’analisi multidimensionale
 La classificazione dei dipendenti ISTAT (studio di caso)
35
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Home Page dell’applicazione
36
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Applicazione di Analisi Multidimensionale mediante Pentaho
37
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Applicazione di Analisi Multidimensionale mediante Pentaho
38
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Applicazione di Analisi Multidimensionale mediante Pentaho
39
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Applicazione di Analisi Multidimensionale mediante Pentaho
40
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Applicazione di Analisi Multidimensionale mediante Pentaho
41
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Applicazione di Analisi Multidimensionale mediante Pentaho
42
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Applicazione di Analisi Multidimensionale mediante Pentaho
43
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Applicazione di Analisi Multidimensionale mediante Pentaho
44
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Applicazione di Analisi Multidimensionale mediante Pentaho
45
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Applicazione di Analisi Multidimensionale mediante Pentaho
46
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Applicazione di Analisi Multidimensionale mediante Pentaho
47
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Applicazione di Analisi Multidimensionale mediante Pentaho
48
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Applicazione di Analisi Multidimensionale mediante Pentaho
49
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Applicazione di Analisi Multidimensionale mediante Pentaho
50
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Applicazione di Analisi Multidimensionale mediante Pentaho
51
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
La classificazione dei dipendenti ISTAT (studio di caso)
Applicazione di Analisi Multidimensionale mediante Pentaho
52
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
References:
Data Warehouse
 Ralph Kimball, Laura Reeves, Margy Ross, Warren Thornthwaite, The Data
Warehouse Lifecycle Toolkit, John Wiley & Sons, 1998
 Ralph Kimball, Margy Ross, The Data Warehouse Toolkit: The Complete Guide
To Dimensional Modeling (second edition), John Wiley & Sons, 2002 - in
italiano, Data Warehouse: La guida completa, Hoepli, 2002
Pentaho
 http://www.pentaho.com/
Applicazione Demo
 http://austria2:8095/ISTAT20081106
53
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
DPTS | DCMT / 1
Contacts:
email: [email protected]
telefono: 06 4674.2722
Il presente materiale è distribuito con la licenza Creative
Commons “Attribuzione - Non commerciale - Condividi allo
stesso modo - 2.5 Italia”, reperibile presso il seguente sito
Internet: http://creativecommons.org/licenses/by-nc-sa/2.5/it/.
Q/A
54
Pentaho: una soluzione Open per la progettazione e sviluppo di Data Warehouse
06/11/2008
ISTAT
Scarica