Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Introduzione A partire dalla metà degli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa lezione vedremo le caratteristiche dei data warehouse e dei data mart, analizzando le differenze rispetto ai sistemi operazionali. Analizzeremo gli aspetti funzionali dei data warehouse, dando alcuni dettagli relativamente agli aspetti implementativi. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Definizione di data warehouse Magazzino per i dati Data Warehouse + = Procedure di acquisizione, organizzazione e elaborazione Data warehousing = l’insieme delle attività per la progettazione, realizzazione ed uso dei data warehouse. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Architettura di data warehouse Sistemi Operazionali Strumenti Applicazioni di Analisi DSS Enterprise Data Warehouse Tool OLAP Fonti Esterne e dati personali ACQUISIZIONE Mario Guarracino Tools per Interogazioni e Report RISULTATO INTERROGAZIONI Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Motivazione Molteplici ragioni inducono a realizzare data warehouse separati dai database OLTP: ¾ Integrazione: i data warehouse necessitano di dati provenienti da fonti diverse ¾ Qualità: i dati influenzano i risultati ¾ Efficienza: le analisi devono essere rapide ¾ Estensione temporale: i dati devono avere sufficiente profondità storica. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Caratteristiche Collezione di dati che soddisfa le seguenti proprietà: ¾ Orientata ai soggetti: considera i dati di interesse ai soggetti dell’organizzazione e non quelli rilevanti ai processi organizzativi ¾ Integrata: a livello aziendale e non dipartimentale ¾ Storicizzata: con ampio orizzonte temporale ¾ Consolidata (aggregata): non interessa “chi” ma “quanti” ¾ Denormalizzata: le ridondanze permettono tempi di risposta più rapidi. ¾ Fuori linea: dati aggiornati periodicamente Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Differenze OLTP-OLAP funzione progettazione frequenza dati OLTP OLAP gestione giornaliera orientata alle applicazioni giornaliera recenti, dettagliati supporto alle decisioni orientata al soggetto sorgente uso accesso flessibilità accesso singola DB ripetitivo read/write uso di programmi precompilati # record acceduti tipo utenti # utenti tipo DB performance dimensione DB decine operatori migliaia singola alta 100 MB - GB Mario Guarracino sporadica storici, riassuntivi, multidimensionali DB multiple ad hoc read generatori di query migliaia manager centinaia multiple, eterogenee bassa 100 GB - TB Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Data mart Data warehouse dipartimentale che raccoglie i dati di una specifica funzione aziendale. Sistema specializzato che mette insieme i dati necessari ad un dipartimento. Implementato creando viste specifiche alle applicazioni. ¾ Un data mart di marketing contiene informazioni relative ai clienti e alle transazioni di vendita, risultati di campagne,… Sottoinsiemi materializzati di viste dipartimentali che focalizzano su soggetti determinati. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Qualità dei dati Verificare, preservare e incrementare la qualità dei dati rappresenta una preoccupazione costante per i responsabili della progettazione e manutenzione. Principali inconvenienti: ¾ Dati non corretti ¾ Dati non aggiornati ¾ Dati inesistenti I principali fattori che influenzano le analisi di BI riguardano l’accuratezza, completezza, consistenza, attualità, non ridondanza, rilevanza, interpretabilità e accessibilità dei dati. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Architettura del data warehouse OLAP Server other sources Operational DBs Extract Transform Load Refresh Serve Data Warehouse Analysis Query Reports Data mining Tools Data Marts Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Strumenti ETL Extract, Transform, Load: insieme degli strumenti che permettono di estrarre, trasformare e caricare i dati Nella prima fase i dati vengono estratti dai database operazionali. ¾ Estrazione iniziale e incrementale Nella fase di trasformazione vengono eliminate le inconsistenze, le duplicazioni, i valori inammissibili. I dati corretti e trasformati vengono caricati nel data warehouse. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Realizzazione Top-Down: Si parte dalle analisi per determinare I dati necessari. ¾ Pro: maggiore probabilità di successo, ¾ Contro: tempi lunghi. Bottom-down: Si parte dai dati e si arriva alle analisi ¾ Pro: tempi brevi ¾ Contro: maggiore probabilità di errore. Ibrida: Si procede in entrambe le direzioni, realizzando prototipi successivi delle varie parti del sistema ¾ Pro: risultati immediati ¾ Contro: integrazione incerta. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Cubi e analisi multidimensionali La modellazione concettuale di un data warehouse utilizza: Schema a stella: Un singolo oggetto (tabella dei fatti) in mezzo connessa ad un numero di oggetti (tabella delle dimensioni). Schema a fiocco di neve: Un raffinamento dello schema a stella in cui la gerarchia dimensionale è rappresentata esplicitamente (normalizzando le tabelle delle dimensioni). Galassie: tabelle dei fatti multiple condividono la tabelle delle dimensioni. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Schema a stella Un fatto è un evento di interesse per l’impresa ¾ vendite, spedizioni, acquisti,… Le misure sono attributi che descrivono quantitativamente il fatto da diversi punti di vista ¾ numero di unità vendute, prezzo unitario, sconto,… Una dimensione determina la granularità minima di rappresentazione dei fatti ¾ il prodotto,il punto vendita, la data Una gerarchia determina come le istanze di un fatto possono essere aggregate e selezionate - descrive una dimensione. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Esempio di schema a stella Dimensioni cliente Chiavi esterne nome indirizzo Vendite località cliente prodotto punto vendita articolo prodotto genere fornitore reparto tempo fornitore quantità nome prezzo località sconto indirizzo Mario Guarracino Misure punto vendita località tempo ora giorno settimana mese trimestre anno Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 cliente nome Esempio di schema a fiocco indirizzo Vendite località cliente prodotto punto vendita articolo prodotto genere fornitore reparto tempo fornitore quantità nome prezzo località sconto Misure tempo ora giorno settimana mese trimestre anno punto vendita località indirizzo località comune provincia Mario Guarracino regione Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Progettazione dei data mart Schemi delle sorgenti operazionali Requisiti Utente Progettazione Concettuale Carico di lavoro Volume dati Schema riconciliato Riconciliazione Carico di lavoro Volume dati Modello logico Progettazione Logica Schema di fatto Dbms Progettazione Fisica Progettazione alimentazione Schema logico Schema alimentazione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Schema fisico Cubi di dati Una tabella dei fatti collegata a n tabelle delle dimensioni può essere rappresentata mediante un cubo di dati a n dimensioni. Ogni dimensione contiene una gerarchia di valori e una cella del cubo contiene i valori aggregati ¾ count, sum, max, … Essi rappresentano una naturale evoluzione dei fogli elettronici. Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Esempio Tabella dei fatti: Vendita Dimensioni: {tempo, prodotto, negozio} Misura: numero di unità vendute Tutti i prodotti Latte Pane Succo … ... sum Gennaio 07, Pisa. Prodotto Pisa Roma Firenze Negozio somma Jan 07 Feb 07 … ... Tempo somma Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Esempio Il manager regionale esamina la vendita dei prodotti in tutti i periodi relativamente ai propri mercati o tempo g ne i z o Il manager finanziario esamina la vendita dei prodotti in tutti i mercati relativamente al periodo corrente e quello precedente prodotto Il manager di prodotto esamina la vendita di un prodotto in tutti i periodo e in tutti i mercati Mario Guarracino Il manager strategico si concentra su una categoria di prodotti, un’area regionale e un orizzonte temporale medio Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Operazioni sui cubi Roll up: riassumi i dati ¾ il volume totale di vendite per categoria di prodotto e per regione Roll down, drill down, drill through: passa da un livello di dettaglio basso ad un livello di dettaglio alto ¾ per un particolare prodotto, trova le vendite dettagliate per ogni venditore e per ogni data Slice and dice: select & project ¾ Vendite delle bevande nel sud negli ultimi 6 mesi Pivot: riorganizza il cubo Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Sommario Abbiamo visto: ¾ Cosa siano i data warehouse; ¾ Cosa siano i data mart; ¾ Quali siano le architetture dei data warehouse; ¾ Cosa siano le tabelle dei fatti, le dimensioni e gli indici; ¾ Cosa siano gli schemi a stella e a fiocco; ¾ Come si usino i cubi ed analisi multidimensionali; Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Nella prossima lezione Modelli matematici per le decisioni: ¾ Struttura dei modelli matematici ¾ Fasi di sviluppo ¾ Classi principali di modelli Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007