Sistemi Informativi La Modellazione Dimensionale dei Fatti Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi Obiettivi • Nelle lezioni precedenti abbiamo modellato i processi e i requisiti funzionali • L’obiettivo di oggi é: – Cosa vuol dire la modellazione multidimensionale – Acquisire gli strumenti (i.e. imparare un linguaggio) per disegnare i requisiti informativi direzionali. 2 SI-2011 Sistemi Informativi La Modellazione Dimensionale dei Fatti Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi SI-2011 Data Mart e Data Warehouse come livelli di memorizzazione delle informazioni Motori di presentazione Motori di calcolo Altri motori DATA MART DATA WAREHOUSE CARICAMENTO TRASFORMAZIONE DATA ENTRY ESTRAZIONE • I dati sono memorizzati in Data Warehouse e Data Mart • Warehouse : base dati tematica estesa, che può arrivare a coprire tutte le esigenze di una impresa • Mart : base dati più ridotta, in genere un sottoinsieme della Warehouse • Warehouse e Mart adottano distinti schemi di memorizzazione • Caratteristica è la MEMORIZZAZIONE MULTIDIMENSIONALE BASI DATI TRANSAZIONALI 4 SI-2011 IL MODELLO MULTIDIMENSIONALE FATTI – EVENTI - DIMENSIONI Fatto • Vendite Negozio • • Prodotto • • • • Data – Evento Dimensione In termini intuitivi un modello multidimensionale è una matrice di tabelle Gli oggetti descritti sono fatti (Es: vendite, spedizioni,…) le cui occorrenze sono legate ad eventi (vettore tempo) La individuazione di un evento si ottiene attraverso uno spazio n-dimensionale i cui assi sono detti dimensioni di analisi Un evento è identificato univocamente dalle dimensioni scelte Ogni fatto è descritto attraverso da misure I fatti sono essere strutturati in cubi ndimensionali Possibilità di interrogazioni complesse. Es: Che incassi si sono registrati l’anno scorso per ciascuna regione e ciascuna categoria di prodotto? Quantità = 20 Incasso = 100 5 SI-2011 Il Modello Multidimensionale Gerarchie di Aggregazione Dimensione Prodotto Gerarchia Tipo Categoria Svelto …. Detersivo Ajax Pulizia della casa Dove … Sapone Palmolive Latticini Farinacei Alimentari Tutti i prodotti • Per eseguire l’analisi multidimensionale le dimensioni sono strutturate in gerarchie di livelli di aggregazione (o di roll-up) • I livelli che compongono una gerarchia sono chiamati attributi dimensionali • L’analisi multidimensionale si esegue navigando attraverso i livelli di aggregazione delle dimensioni del fatto Bevande Attrezzi Ferramenta Materiale di consumo SI-2011 6 Il Modello Multidimensionale Struttura di un Cubo Vendita (Data, Prodotto, Negozio, Quantità, Incasso) Data Prodotto Negozio Importo 13-mar 423 24 101,52 8 13-mar 434 24 104,16 8 13-mar 434 22 95,48 6 13-mar 445 22 97,90 8 … … … … … 14-mar 423 24 101,52 • Un cubo è formato a partire da un insieme di n-uple composte da: – Dimensioni – Misure Quantità • Le dimensioni equivalgono a chiavi per identificare gli eventi (funzionano come un indice analitico) • Le misure (almeno 1) descrivono l’evento 8 7 SI-2011 Sistemi Informativi La Modellazione Dimensionale dei Fatti Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi Operazioni Analitiche On-Line Analytical Processing (OLAP) Misura Fatto • Si possono costruire sessioni di analisi in cui ciascun passo è conseguenza dei risultati dei passi precedenti • I dati sono presentati in forma tabellare che evidenzia le dimensioni di analisi • Queste strutture vengono chiamate Tabelle Pivot • Supermercato.xls Dimensione 9 SI-2011 Operazioni Analitiche OLAP – Operazioni Elementari 1 • Problema: Sparsità dei dati/ Eccessivo livello di dettaglio • Soluzione: Operazione di roll-up Aggregazione delle informazioni tramite l’eliminazione di un livello nella gerarchia oppure di una intera dimensione di analisi • Supermercato.xls 10 SI-2011 Operazioni Analitiche OLAP – Operazioni Elementari 2 • Operazione di drill-down (Trivellare) • Duale all’operazione di roll-up • Esplosione delle informazioni tramite l’introduzione di un nuovo livello nella gerarchia oppure di una intera dimensione di analisi • Supermercato.xls 11 SI-2011 Operazioni Analitiche OLAP – Operazioni Elementari 3 • Operazione di Slicing (Affettare) • Riduce le dimensioni del cubo fissando un valore per una dimensione • Supermercato.xls 12 SI-2011 Operazioni Analitiche OLAP – Operazioni Elementari 4 • Operazione di Dicing (Fare a cubetti) o di Selezione-Filtraggio • Riduce l’insieme dei dati tramite la formulazione di un criterio di selezione • Supermercato.xls 13 SI-2011 Operazioni Analitiche OLAP – Operazioni Elementari 5 • Operazione di Pivoting • Cambia la modalità di presentazione delle informazioni attraverso lo scambio fra due dimensioni si analisi • Il pivoting “ruota” il cubo riorganizzandolo in una prospettiva diversa • Porta in primo piano una differente combinazione di dimensioni • Supermercato.xls 14 SI-2011 Sistemi Informativi La Modellazione Dimensionale dei Fatti Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi SI-2011 La Modellazione Dimensionale dei Fatti (DFM) • La Modellazione Dimensionale dei Fatti – è utilizzata per la progettazione di cruscotti – è complementare e non sostituisce • Class Diagrams • Entity Relationship • Per approfondimenti – Matteo Golfarelli - Stefano Rizzi, Data Warehouse, McGrawHill, 20022006 16 SI-2011 Il Dimensional Fact Model (DFM) Introduzione • I modelli Entity/Relationship non possono essere navigati efficacemente dal software dei DBMS [per ricercare informazioni]. I modelli Entity/Relationship non possono essere adottati come fondamento per i data warehouse (Kimball 1996) • I modelli ER modellano la struttura del dominio applicativo e le associazioni fra le informazioni tipicamente granulari • Gli schemi ER non modellano la multidimensionalità né la gerarchia dei livelli di aggregazione e quindi non sono orientati alla analisi 17 SI-2011 Il Dimensional Fact Model (DFM) Concetti Base • Il Dimensional Fact Model (DFM) è un modello concettuale grafico concepito per supportare la progettazione di data mart • La rappresentazione generata dal DFM è detta Dimensional Scheme (DS) e consiste di un insieme di Fact Scheme (FS) • Il DFM è indipendente dal modello logico target (multidimensionale o relazionale) cioè anche dalla implementazione 18 SI-2011 Il Dimensional Fact Model (DFM) Concetti Base • I componenti di base dei FS sono fatti, misure, dimensioni e gerarchie: – Un fatto è un concetto di interesse per l’impresa ed è descritto da un insieme di misure. – Una misura è una proprietà numerica di un fatto e descrive un aspetto quantitativo di interesse per l’analisi (valori continui) – Una dimensione determina la granularità di rappresentazione dei fatti. (valori discreti) • Un fatto esprime una associazione molti-amolti tra le dimensioni. Questo legame è espresso (a livello estensionale) da un Evento Primario ovvero da un’occorrenza del fatto 19 SI-2011 Il Dimensional Fact Model (DFM) Concetti Base • Una gerarchia determina come le istanze di fatto possono essere aggregate e selezionate in modo significativo per il processo decisionale. • Una gerarchia è un albero direzionato in cui – I nodi sono attributi dimensionali – Gli archi rappresentano le associazioni molti-a-uno tra coppie di attributi dimensionali • Una gerarchia racchiude una dimensione, posta alla radice dell’albero e tutti gli attributi dimensionali che la descrivono 20 SI-2011 Il Dimensional Fact Model (DFM) Modello di un indicatore Scheda Indicatore Name Contenuto Slot Nome Identificazione Riporta il modo in cui l’indicatore è stato ottenuto Descrizione Riporta una descrizione testuale dello scopo dell’indicatore e spiega le variabili utilizzate Descrizione dettagliate Metrica Riporta la formula di calcolo attraverso cui è ottenuto l’indicatore Formula di calcolo Variabili elementari Riporta le variabili elementari usate dall’indicatore Importanza Nome della variabile elementare Commenti Unità di misura Riporta le unità di misura con cui viene rappresentato un indicatore Nome misura Valori Riporta per ogni valore il tipo che usa l’indicatore (valori effettivi, obiettivi o di riferimento) Tipo di valore Dimensione Dominio È lo spazio logico e temporale cui si riferiscono i valori di un dato indicatore. Il dominio è definito specificandone le dimensioni e le eventuali gerarchie Aggregazione Specifica le formule di aggregazione sulle dimensioni Formule Fonte Indica quali sono i sistemi IT o altre fonti dove sono presenti le informazioni elementari SI-2011 dell’unità Valore Descrizione Nome delle fonti 21 di Il Dimensional Fact Model (DFM) Key Performance Indicators (KPI) e Fatti • Una volta definiti i Key Performance Indicators di interesse possiamo monitorarli attraverso un sistema di warehousing • La struttura dei KPI permette un mapping intuitivo con gli schemi di fatto 22 SI-2011 Il Dimensional Fact Model (DFM) Esempio di generazione di un fatto a partire dai KPI Produttività Personale Impianto Scalo sulla Composizione dei Treno Merce Name Contenuto Identificazione 0048-MAN-COST-PROD-02 Descrizione Calcolare il Tasso di Produttività degli addetti in Ore lavorate Metrica Count ( Treni Composti ) / Ore di MO diretta Variabili elementari 1. 2. Unità di misura [Treno/Ora] Valori •Valore effettivo •Valore soglia: da definire •Valore obiettivo: da definire Dominio •Data •Cliente Finale •Scalo Aggregazione Non applicabile Fonte Sistema Informativo dei Rotabili SIR, Sistema Gestione del Personale Numero dei Treni composti Ore di MO diretta 23 SI-2011 Il Dimensional Fact Model (DFM) Esempio di generazione di un fatto a partire dai KPI 24 SI-2011 Sistemi Informativi La Modellazione Dimensionale dei Fatti Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi SI-2011 Casi VOLAFACILE + GRANDI ALBERGHI • Giulio Sangiuliani, amministratore delegato di VOLAFACILE chiese un report che sulle prenotazioni e sui voli a quantità (numero di prenotazioni, numero passeggeri) e valore (ammontare in euro), rispetto alla tipologia del cliente, alla destinazione dei voli, al canal di vendita dei biglietti (web, agenzia, call center). Inoltre Sangiuliani chiese un secondo report per i clienti registrati, che indicasse il tasso di loyalty, calcolato con la formula Valore dei biglietti venduti / Acquisti medi statistici di biglietti per la fascia di cliente. A questo scopo ad ogni cliente registrato era assegnato un codice statistico, che designava la classe di reddito del cliente stesso. • Alessandro Orta, parlando con il consulente che lo intervistava, osservò: “Il processo operativo è soddisfacente. Sono contento del personale e degli alberghi. Purtroppo so poco dell’andamento operativo. Non so quante prenotazioni rifiutiamo, qual è la distribuzione delle prenotazioni; non so nemmeno se diamo ai clienti le camere che hanno chiesto. Per calcolare settimanalmente il tasso di occupazione delle camere, occorre estrarre i dati dal CRM e trasportarli su Excel…vorrei un cruscotto gestionale che misuri efficienza ed efficacia del processo di prenotazione / soggiorno.” 26 SI-2011 Sistemi Informativi La Modellazione Dimensionale dei Fatti Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi SI-2011 MODELLAZIONE LOGICA RELATIONAL OLAP – SCHEMA A STELLA • Star Schema Dimension Table PRODOTTO PK DATA PK ChiaveD ChiaveP Prodotto Tipo Categoria Reparto Gruppo Marketing Marca Città Marca Data Mese Trimestre Anno Giorno Settimana Vacanza • • NEGOZIO PK ChiaveN Negozio Città Negozio Regione Negozio Stato negozio Responsabile Distretto • VENDITE PK,FK1 PK,FK2 PK,FK3 ChiaveN ChiaveD ChiaveP Quantità venduta Incasso Prezzo unitario Numero clienti • Fact Table Il modello relazionale è lo standard de facto del settore dei database pertanto è conosciuto da tutti i professionisti del settore Risolve in maniera efficiente il problema della sparsità La modellazione multidimensionale è basata sugli Star Schema (Schemi a stella) costituiti da Un insieme di relazioni dette Dimension Table corrispondenti ad una dimensione e che contiene gli attributi dimensionali Una relazione detta Fact Table che contiene le chiavi di tutte le dimension table ed un attributo per ogni misura 28 SI-2011 MODELLAZIONE LOGICA RELATIONAL OLAP – SCHEMA A FIOCCO DI NEVE • • • • • • • Lo schema a stella non è in terza forma normale perché esistono dipendenze funzionali transitive nelle Dimension table Risolvendo alcune dipendenze funzionali si ottiene lo SnowFlake Schema (Schema a fiocco di neve) Per ogni DT dello star schema si ricavano n DT caratterizzate da Una chiave primaria (tipicamente surrogata) Un sottoinsieme di attributi della DT di partenza che dipendono funzionalmente dalla chiave primaria Zero o più chiavi esterne alle altre DT ricavate al fine di mantenere l’integrità del contenuto informativo Se la chiave primaria di una DT è importata direttamente nella fact table essa si dice Primaria altrimenti si dice Secondaria 29 SI-2011 www.dilbert.com 30 SI-2011 Sistemi Informativi La Modellazione Dimensionale dei Fatti Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi