Data warehousing
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Introduzione
ƒ A partire dalla metà degli anni novanta è risultato chiaro
che i database per i DSS e le analisi di business
intelligence vanno separati da quelli operazionali.
ƒ In questa lezione vedremo le caratteristiche dei data
warehouse e dei data mart, analizzando le differenze
rispetto ai sistemi operazionali.
ƒ Analizzeremo gli aspetti funzionali dei data warehouse,
dando alcuni dettagli relativamente agli aspetti
implementativi.
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Definizione di data warehouse
Magazzino per i dati
Data Warehouse
+
=
Procedure di acquisizione,
organizzazione e elaborazione
ƒ Data warehousing = l’insieme delle attività per la
progettazione, realizzazione ed uso dei data warehouse.
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Architettura di data warehouse
Sistemi Operazionali
Strumenti
Applicazioni
di Analisi
DSS
Enterprise Data Warehouse
Tool OLAP
Fonti Esterne e dati personali
ACQUISIZIONE
Mario Guarracino
Tools per Interogazioni
e Report
RISULTATO INTERROGAZIONI
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Motivazione
ƒ Molteplici ragioni inducono a realizzare data warehouse
separati dai database OLTP:
¾ Integrazione: i data warehouse necessitano di dati
provenienti da fonti diverse
¾ Qualità: i dati influenzano i risultati
¾ Efficienza: le analisi devono essere rapide
¾ Estensione temporale: i dati devono avere sufficiente
profondità storica.
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Caratteristiche
ƒ Collezione di dati che soddisfa le seguenti proprietà:
¾ Orientata ai soggetti: considera i dati di interesse ai
soggetti dell’organizzazione e non quelli rilevanti ai
processi organizzativi
¾ Integrata: a livello aziendale e non dipartimentale
¾ Storicizzata: con ampio orizzonte temporale
¾ Consolidata (aggregata): non interessa “chi” ma “quanti”
¾ Denormalizzata: le ridondanze permettono tempi di
risposta più rapidi.
¾ Fuori linea: dati aggiornati periodicamente
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Differenze OLTP-OLAP
funzione
progettazione
frequenza
dati
OLTP
OLAP
gestione
giornaliera
orientata alle
applicazioni
giornaliera
recenti, dettagliati
supporto alle
decisioni
orientata al soggetto
sorgente
uso
accesso
flessibilità accesso
singola DB
ripetitivo
read/write
uso di programmi
precompilati
# record acceduti
tipo utenti
# utenti
tipo DB
performance
dimensione DB
decine
operatori
migliaia
singola
alta
100 MB - GB
Mario Guarracino
sporadica
storici, riassuntivi,
multidimensionali
DB multiple
ad hoc
read
generatori di query
migliaia
manager
centinaia
multiple, eterogenee
bassa
100 GB - TB
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Data mart
ƒ Data warehouse dipartimentale che raccoglie i dati di
una specifica funzione aziendale.
ƒ Sistema specializzato che mette insieme i dati necessari
ad un dipartimento.
ƒ Implementato creando viste specifiche alle applicazioni.
¾ Un data mart di marketing contiene informazioni relative ai
clienti e alle transazioni di vendita, risultati di campagne,…
ƒ Sottoinsiemi materializzati di viste dipartimentali che
focalizzano su soggetti determinati.
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Qualità dei dati
ƒ Verificare, preservare e incrementare la qualità dei dati
rappresenta una preoccupazione costante per i
responsabili della progettazione e manutenzione.
ƒ Principali inconvenienti:
¾ Dati non corretti
¾ Dati non aggiornati
¾ Dati inesistenti
ƒ I principali fattori che influenzano le analisi di BI
riguardano l’accuratezza, completezza, consistenza,
attualità, non ridondanza, rilevanza, interpretabilità e
accessibilità dei dati.
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Architettura del data warehouse
OLAP
Server
other
sources
Operational
DBs
Extract
Transform
Load
Refresh
Serve
Data
Warehouse
Analysis
Query
Reports
Data mining
Tools
Data Marts
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Strumenti ETL
ƒ Extract, Transform, Load: insieme degli strumenti che
permettono di estrarre, trasformare e caricare i dati
ƒ Nella prima fase i dati vengono estratti dai database
operazionali.
¾ Estrazione iniziale e incrementale
ƒ Nella fase di trasformazione vengono eliminate le
inconsistenze, le duplicazioni, i valori inammissibili.
ƒ I dati corretti e trasformati vengono caricati nel data
warehouse.
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Realizzazione
ƒ Top-Down: Si parte dalle analisi per determinare I dati
necessari.
¾ Pro: maggiore probabilità di successo,
¾ Contro: tempi lunghi.
ƒ Bottom-down: Si parte dai dati e si arriva alle analisi
¾ Pro: tempi brevi
¾ Contro: maggiore probabilità di errore.
ƒ Ibrida: Si procede in entrambe le direzioni, realizzando
prototipi successivi delle varie parti del sistema
¾ Pro: risultati immediati
¾ Contro: integrazione incerta.
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Cubi e analisi multidimensionali
ƒ La modellazione concettuale di un data warehouse
utilizza:
ƒ Schema a stella: Un singolo oggetto (tabella dei fatti) in
mezzo connessa ad un numero di oggetti (tabella delle
dimensioni).
ƒ Schema a fiocco di neve: Un raffinamento dello
schema a stella in cui la gerarchia dimensionale è
rappresentata esplicitamente (normalizzando le tabelle
delle dimensioni).
ƒ Galassie: tabelle dei fatti multiple condividono la tabelle
delle dimensioni.
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Schema a stella
ƒ Un fatto è un evento di interesse per l’impresa
¾ vendite, spedizioni, acquisti,…
ƒ Le misure sono attributi che descrivono
quantitativamente il fatto da diversi punti di vista
¾ numero di unità vendute, prezzo unitario, sconto,…
ƒ Una dimensione determina la granularità minima di
rappresentazione dei fatti
¾ il prodotto,il punto vendita, la data
ƒ Una gerarchia determina come le istanze di un fatto
possono essere aggregate e selezionate - descrive una
dimensione.
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Esempio di schema a stella
Dimensioni
cliente
Chiavi esterne
nome
indirizzo
Vendite
località
cliente
prodotto
punto vendita
articolo
prodotto
genere
fornitore
reparto
tempo
fornitore
quantità
nome
prezzo
località
sconto
indirizzo
Mario Guarracino
Misure
punto vendita
località
tempo
ora
giorno
settimana
mese
trimestre
anno
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
cliente
nome
Esempio di schema a fiocco
indirizzo
Vendite
località
cliente
prodotto
punto vendita
articolo
prodotto
genere
fornitore
reparto
tempo
fornitore
quantità
nome
prezzo
località
sconto
Misure
tempo
ora
giorno
settimana
mese
trimestre
anno
punto vendita
località
indirizzo
località
comune
provincia
Mario Guarracino
regione
Laboratorio
di Sistemi Informativi Aziendali a.a. 2006/2007
Progettazione dei data mart
Schemi delle
sorgenti operazionali
Requisiti Utente
Progettazione
Concettuale
Carico di lavoro
Volume dati
Schema
riconciliato
Riconciliazione
Carico di lavoro
Volume dati
Modello logico
Progettazione
Logica
Schema
di fatto
Dbms
Progettazione
Fisica
Progettazione
alimentazione
Schema
logico
Schema alimentazione
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Schema
fisico
Cubi di dati
ƒ Una tabella dei fatti collegata a n tabelle delle dimensioni
può essere rappresentata mediante un cubo di dati a n
dimensioni.
ƒ Ogni dimensione contiene una gerarchia di valori e una
cella del cubo contiene i valori aggregati
¾ count, sum, max, …
ƒ Essi rappresentano una naturale evoluzione dei fogli
elettronici.
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Esempio
ƒ Tabella dei fatti: Vendita
ƒ Dimensioni: {tempo, prodotto, negozio}
ƒ Misura: numero di unità vendute
Tutti i prodotti
Latte Pane Succo … ... sum Gennaio 07, Pisa.
Prodotto
Pisa
Roma
Firenze
Negozio
somma
Jan 07
Feb 07
… ...
Tempo
somma
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Esempio
Il manager regionale esamina
la vendita dei prodotti
in tutti i periodi relativamente
ai propri mercati
o
tempo
g
ne
i
z
o
Il manager finanziario esamina la
vendita dei prodotti in tutti i mercati
relativamente al periodo corrente e
quello precedente
prodotto
Il manager di prodotto esamina
la vendita di un prodotto
in tutti i periodo e in tutti i mercati
Mario Guarracino
Il manager strategico si concentra su
una categoria di prodotti,
un’area regionale e un orizzonte
temporale medio
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Operazioni sui cubi
ƒ Roll up: riassumi i dati
¾ il volume totale di vendite per categoria di prodotto e per
regione
ƒ Roll down, drill down, drill through: passa da un livello di
dettaglio basso ad un livello di dettaglio alto
¾ per un particolare prodotto, trova le vendite dettagliate per
ogni venditore e per ogni data
ƒ Slice and dice: select & project
¾ Vendite delle bevande nel sud negli ultimi 6 mesi
ƒ Pivot: riorganizza il cubo
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Sommario
ƒ Abbiamo visto:
¾ Cosa siano i data warehouse;
¾ Cosa siano i data mart;
¾ Quali siano le architetture dei data warehouse;
¾ Cosa siano le tabelle dei fatti, le dimensioni e gli indici;
¾ Cosa siano gli schemi a stella e a fiocco;
¾ Come si usino i cubi ed analisi multidimensionali;
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Nella prossima lezione
ƒ Modelli matematici per le decisioni:
¾ Struttura dei modelli matematici
¾ Fasi di sviluppo
¾ Classi principali di modelli
Mario Guarracino
Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007