Sistemi Informativi La Modellazione Dimensionale dei Fatti

Sistemi Informativi
La Modellazione Dimensionale dei Fatti
Obiettivi
Concetti Base
Operazioni OLAP
DFM
Casi
Modellazione Logica
Esercizi
Obiettivi
• Nelle lezioni precedenti abbiamo
modellato i processi e i requisiti
funzionali
• L’obiettivo di oggi é:
– Cosa vuol dire la modellazione
multidimensionale
– Acquisire gli strumenti (i.e.
imparare un linguaggio) per
disegnare i requisiti informativi
direzionali.
2
SI-2011
Sistemi Informativi
La Modellazione Dimensionale dei Fatti
Obiettivi
Concetti Base
Operazioni OLAP
DFM
Casi
Modellazione Logica
Esercizi
SI-2011
Data Mart e Data Warehouse come livelli di
memorizzazione delle informazioni
Motori di
presentazione
Motori di calcolo
Altri motori
DATA MART
DATA WAREHOUSE
CARICAMENTO
TRASFORMAZIONE
DATA ENTRY
ESTRAZIONE
• I dati sono memorizzati in Data
Warehouse e Data Mart
• Warehouse : base dati tematica
estesa, che può arrivare a coprire
tutte le esigenze di una impresa
• Mart : base dati più ridotta, in
genere un sottoinsieme della
Warehouse
• Warehouse e Mart adottano distinti
schemi di memorizzazione
• Caratteristica è la
MEMORIZZAZIONE
MULTIDIMENSIONALE
BASI DATI TRANSAZIONALI
4
SI-2011
IL MODELLO MULTIDIMENSIONALE
FATTI – EVENTI - DIMENSIONI
Fatto
•
Vendite
Negozio
•
•
Prodotto
•
•
•
•
Data
–
Evento
Dimensione
In termini intuitivi un modello
multidimensionale è una matrice di tabelle
Gli oggetti descritti sono fatti (Es: vendite,
spedizioni,…) le cui occorrenze sono legate
ad eventi (vettore tempo)
La individuazione di un evento si ottiene
attraverso uno spazio n-dimensionale i cui
assi sono detti dimensioni di analisi
Un evento è identificato univocamente dalle
dimensioni scelte
Ogni fatto è descritto attraverso da misure
I fatti sono essere strutturati in cubi ndimensionali
Possibilità di interrogazioni complesse. Es:
Che incassi si sono registrati l’anno scorso per
ciascuna regione e ciascuna categoria di prodotto?
Quantità = 20
Incasso = 100
5
SI-2011
Il Modello Multidimensionale
Gerarchie di Aggregazione
Dimensione
Prodotto
Gerarchia
Tipo
Categoria
Svelto
….
Detersivo
Ajax
Pulizia della
casa
Dove
…
Sapone
Palmolive
Latticini
Farinacei
Alimentari
Tutti
i prodotti
• Per eseguire l’analisi
multidimensionale le dimensioni
sono strutturate in gerarchie di
livelli di aggregazione (o di roll-up)
• I livelli che compongono una
gerarchia sono chiamati attributi
dimensionali
• L’analisi multidimensionale si
esegue navigando attraverso i
livelli di aggregazione delle
dimensioni del fatto
Bevande
Attrezzi
Ferramenta
Materiale
di consumo
SI-2011
6
Il Modello Multidimensionale
Struttura di un Cubo
Vendita (Data, Prodotto, Negozio, Quantità, Incasso)
Data
Prodotto
Negozio
Importo
13-mar
423
24
101,52
8
13-mar
434
24
104,16
8
13-mar
434
22
95,48
6
13-mar
445
22
97,90
8
…
…
…
…
…
14-mar
423
24
101,52
• Un cubo è formato a partire da un
insieme di n-uple composte da:
– Dimensioni
– Misure
Quantità
• Le dimensioni equivalgono a chiavi
per identificare gli eventi
(funzionano come un indice
analitico)
• Le misure (almeno 1) descrivono
l’evento
8
7
SI-2011
Sistemi Informativi
La Modellazione Dimensionale dei Fatti
Obiettivi
Concetti Base
Operazioni OLAP
DFM
Casi
Modellazione Logica
Esercizi
Operazioni Analitiche
On-Line Analytical Processing (OLAP)
Misura
Fatto
• Si possono costruire sessioni di
analisi in cui ciascun passo è
conseguenza dei risultati dei passi
precedenti
• I dati sono presentati in forma
tabellare che evidenzia le dimensioni
di analisi
• Queste strutture vengono chiamate
Tabelle Pivot
• Supermercato.xls
Dimensione
9
SI-2011
Operazioni Analitiche
OLAP – Operazioni Elementari 1
• Problema: Sparsità dei dati/
Eccessivo livello di dettaglio
• Soluzione: Operazione di roll-up
Aggregazione delle informazioni
tramite l’eliminazione di un livello
nella gerarchia oppure di una intera
dimensione di analisi
• Supermercato.xls
10
SI-2011
Operazioni Analitiche
OLAP – Operazioni Elementari 2
• Operazione di drill-down (Trivellare)
• Duale all’operazione di roll-up
• Esplosione delle informazioni tramite
l’introduzione di un nuovo livello
nella gerarchia oppure di una intera
dimensione di analisi
• Supermercato.xls
11
SI-2011
Operazioni Analitiche
OLAP – Operazioni Elementari 3
• Operazione di Slicing (Affettare)
• Riduce le dimensioni del cubo
fissando un valore per una
dimensione
• Supermercato.xls
12
SI-2011
Operazioni Analitiche
OLAP – Operazioni Elementari 4
• Operazione di Dicing (Fare a cubetti)
o di Selezione-Filtraggio
• Riduce l’insieme dei dati tramite la
formulazione di un criterio di
selezione
• Supermercato.xls
13
SI-2011
Operazioni Analitiche
OLAP – Operazioni Elementari 5
• Operazione di Pivoting
• Cambia la modalità di presentazione
delle informazioni attraverso lo
scambio fra due dimensioni si analisi
• Il pivoting “ruota” il cubo
riorganizzandolo in una prospettiva
diversa
• Porta in primo piano una differente
combinazione di dimensioni
• Supermercato.xls
14
SI-2011
Sistemi Informativi
La Modellazione Dimensionale dei Fatti
Obiettivi
Concetti Base
Operazioni OLAP
DFM
Casi
Modellazione Logica
Esercizi
SI-2011
La Modellazione Dimensionale dei Fatti (DFM)
• La Modellazione Dimensionale dei Fatti
– è utilizzata per la progettazione di cruscotti
– è complementare e non sostituisce
• Class Diagrams
• Entity Relationship
• Per approfondimenti
– Matteo Golfarelli - Stefano Rizzi, Data Warehouse, McGrawHill, 20022006
16
SI-2011
Il Dimensional Fact Model (DFM)
Introduzione
•
I modelli Entity/Relationship non possono
essere navigati efficacemente dal software
dei DBMS [per ricercare informazioni]. I
modelli Entity/Relationship non possono
essere adottati come fondamento per i
data warehouse (Kimball 1996)
• I modelli ER modellano la struttura
del dominio applicativo e le
associazioni fra le informazioni
tipicamente granulari
• Gli schemi ER non modellano la
multidimensionalità né la gerarchia
dei livelli di aggregazione e quindi
non sono orientati alla analisi
17
SI-2011
Il Dimensional Fact Model (DFM)
Concetti Base
• Il Dimensional Fact Model (DFM) è
un modello concettuale grafico
concepito per supportare la
progettazione di data mart
• La rappresentazione generata dal
DFM è detta Dimensional Scheme
(DS) e consiste di un insieme di Fact
Scheme (FS)
• Il DFM è indipendente dal modello
logico target (multidimensionale o
relazionale) cioè anche dalla
implementazione
18
SI-2011
Il Dimensional Fact Model (DFM)
Concetti Base
•
I componenti di base dei FS sono fatti,
misure, dimensioni e gerarchie:
– Un fatto è un concetto di interesse per
l’impresa ed è descritto da un insieme di
misure.
– Una misura è una proprietà numerica di un
fatto e descrive un aspetto quantitativo di
interesse per l’analisi (valori continui)
– Una dimensione determina la granularità di
rappresentazione dei fatti. (valori discreti)
•
Un fatto esprime una associazione molti-amolti tra le dimensioni. Questo legame è
espresso (a livello estensionale) da un
Evento Primario ovvero da un’occorrenza
del fatto
19
SI-2011
Il Dimensional Fact Model (DFM)
Concetti Base
• Una gerarchia determina come le
istanze di fatto possono essere
aggregate e selezionate in modo
significativo per il processo
decisionale.
• Una gerarchia è un albero direzionato
in cui
– I nodi sono attributi dimensionali
– Gli archi rappresentano le
associazioni molti-a-uno tra coppie
di attributi dimensionali
• Una gerarchia racchiude una
dimensione, posta alla radice
dell’albero e tutti gli attributi
dimensionali che la descrivono
20
SI-2011
Il Dimensional Fact Model (DFM)
Modello di un indicatore
Scheda Indicatore
Name
Contenuto
Slot
Nome
Identificazione
Riporta il modo in cui l’indicatore è stato ottenuto
Descrizione
Riporta una descrizione testuale dello scopo dell’indicatore e spiega le
variabili utilizzate
Descrizione dettagliate
Metrica
Riporta la formula di calcolo attraverso cui è ottenuto l’indicatore
Formula di calcolo
Variabili elementari
Riporta le variabili elementari usate dall’indicatore
Importanza
Nome della variabile
elementare
Commenti
Unità di misura
Riporta le unità di misura con cui viene rappresentato un indicatore
Nome
misura
Valori
Riporta per ogni valore il tipo che usa l’indicatore (valori effettivi,
obiettivi o di riferimento)
Tipo di valore
Dimensione
Dominio
È lo spazio logico e temporale cui si riferiscono i valori di un dato
indicatore. Il dominio è definito specificandone le dimensioni e le
eventuali gerarchie
Aggregazione
Specifica le formule di aggregazione sulle dimensioni
Formule
Fonte
Indica quali sono i sistemi IT o altre fonti dove sono presenti le
informazioni elementari
SI-2011
dell’unità
Valore
Descrizione
Nome delle fonti
21
di
Il Dimensional Fact Model (DFM)
Key Performance Indicators (KPI) e Fatti
• Una volta definiti i Key
Performance Indicators di interesse
possiamo monitorarli attraverso
un sistema di warehousing
• La struttura dei KPI permette un
mapping intuitivo con gli schemi di
fatto
22
SI-2011
Il Dimensional Fact Model (DFM)
Esempio di generazione di un fatto a partire dai KPI
Produttività Personale Impianto Scalo sulla Composizione dei Treno Merce
Name
Contenuto
Identificazione
0048-MAN-COST-PROD-02
Descrizione
Calcolare il Tasso di Produttività degli addetti in Ore lavorate
Metrica
Count ( Treni Composti ) / Ore di MO diretta
Variabili elementari
1.
2.
Unità di misura
[Treno/Ora]
Valori
•Valore effettivo
•Valore soglia: da definire
•Valore obiettivo: da definire
Dominio
•Data
•Cliente Finale
•Scalo
Aggregazione
Non applicabile
Fonte
Sistema Informativo dei Rotabili SIR, Sistema Gestione del Personale
Numero dei Treni composti
Ore di MO diretta
23
SI-2011
Il Dimensional Fact Model (DFM)
Esempio di generazione di un fatto a partire dai KPI
24
SI-2011
Sistemi Informativi
La Modellazione Dimensionale dei Fatti
Obiettivi
Concetti Base
Operazioni OLAP
DFM
Casi
Modellazione Logica
Esercizi
SI-2011
Casi VOLAFACILE + GRANDI ALBERGHI
•
Giulio Sangiuliani, amministratore
delegato di VOLAFACILE chiese un
report che sulle prenotazioni e sui voli a
quantità (numero di prenotazioni, numero
passeggeri) e valore (ammontare in euro),
rispetto alla tipologia del cliente, alla
destinazione dei voli, al canal di vendita
dei biglietti (web, agenzia, call center).
Inoltre Sangiuliani chiese un secondo
report per i clienti registrati, che indicasse
il tasso di loyalty, calcolato con la
formula Valore dei biglietti venduti /
Acquisti medi statistici di biglietti per la
fascia di cliente. A questo scopo ad ogni
cliente registrato era assegnato un codice
statistico, che designava la classe di
reddito del cliente stesso.
•
Alessandro Orta, parlando con il
consulente che lo intervistava, osservò:
“Il processo operativo è soddisfacente.
Sono contento del personale e degli
alberghi. Purtroppo so poco
dell’andamento operativo. Non so quante
prenotazioni rifiutiamo, qual è la
distribuzione delle prenotazioni; non so
nemmeno se diamo ai clienti le camere
che hanno chiesto. Per calcolare
settimanalmente il tasso di occupazione
delle camere, occorre estrarre i dati dal
CRM e trasportarli su Excel…vorrei un
cruscotto gestionale che misuri efficienza
ed efficacia del processo di prenotazione /
soggiorno.”
26
SI-2011
Sistemi Informativi
La Modellazione Dimensionale dei Fatti
Obiettivi
Concetti Base
Operazioni OLAP
DFM
Casi
Modellazione Logica
Esercizi
SI-2011
MODELLAZIONE LOGICA
RELATIONAL OLAP – SCHEMA A STELLA
•
Star Schema
Dimension Table
PRODOTTO
PK
DATA
PK
ChiaveD
ChiaveP
Prodotto
Tipo
Categoria
Reparto
Gruppo Marketing
Marca
Città Marca
Data
Mese
Trimestre
Anno
Giorno
Settimana
Vacanza
•
•
NEGOZIO
PK
ChiaveN
Negozio
Città Negozio
Regione Negozio
Stato negozio
Responsabile
Distretto
•
VENDITE
PK,FK1
PK,FK2
PK,FK3
ChiaveN
ChiaveD
ChiaveP
Quantità venduta
Incasso
Prezzo unitario
Numero clienti
•
Fact Table
Il modello relazionale è lo standard de
facto del settore dei database pertanto è
conosciuto da tutti i professionisti del
settore
Risolve in maniera efficiente il
problema della sparsità
La modellazione multidimensionale è
basata sugli Star Schema (Schemi a
stella) costituiti da
Un insieme di relazioni dette
Dimension Table corrispondenti ad
una dimensione e che contiene gli
attributi dimensionali
Una relazione detta Fact Table che
contiene le chiavi di tutte le dimension
table ed un attributo per ogni misura
28
SI-2011
MODELLAZIONE LOGICA
RELATIONAL OLAP – SCHEMA A FIOCCO DI NEVE
•
•
•
•
•
•
•
Lo schema a stella non è in terza forma
normale perché esistono dipendenze
funzionali transitive nelle Dimension table
Risolvendo alcune dipendenze funzionali si
ottiene lo SnowFlake Schema (Schema a
fiocco di neve)
Per ogni DT dello star schema si ricavano n
DT caratterizzate da
Una chiave primaria (tipicamente
surrogata)
Un sottoinsieme di attributi della DT di
partenza che dipendono funzionalmente
dalla chiave primaria
Zero o più chiavi esterne alle altre DT
ricavate al fine di mantenere l’integrità del
contenuto informativo
Se la chiave primaria di una DT è importata
direttamente nella fact table essa si dice
Primaria altrimenti si dice Secondaria
29
SI-2011
www.dilbert.com
30
SI-2011
Sistemi Informativi
La Modellazione Dimensionale dei Fatti
Obiettivi
Concetti Base
Operazioni OLAP
DFM
Casi
Modellazione Logica
Esercizi