Lezione 1
Introduzione
al Data
Warehousing
Data Warehousing: Principi e
Modelli
27/02/2010
1
Motivazioni
I dati disponibili ad un’organizzazione sono
spesso memorizzati su sorgenti informative
pre-esistenti e differenziate
Collezioni eterogenee di ambienti hardware e
software
27/02/2010
Modelli logici differenti
Linguaggi di definizione e di manipolazione dei dati differenti
Meccanismi di gestione della concorrenza e delle transazioni
eterogenei
2
Informazione Distribuita
È necessario garantire la massima trasparenza per
gli utenti finali
È necessario garantire la massima autonomia alle
basi di dati coinvolte
Trasparenza ed autonomia sono molto spesso in
conflitto
Al fine di raggiungere una elevata efficienza è
necessario minimizzare le interazioni tra i componenti
Cooperazione: garantire la massima trasparenza,
autonomia ed efficienza
27/02/2010
3
Informazione Distribuita: Problemi
Gli schemi delle basi di dati da integrare
possono essere differenti
Automobili(numTelaio, modello, colore,
cambioAutomatico, lettoreCD, …)
Autovetture(nTelaio, modello, colore)
Optional(nTelaio, optional)
Nomi diversi possono essere utilizzati per
rappresentare lo stesso concetto (sinonimie)
Nomi uguali possono essere utilizzati per
rappresentare concetti diversi (omonimie)
27/02/2010
4
Informazione Distribuita: Problemi
Differenze nel tipo di dati
Differenze nei valori
Differenze nella semantica
Valori mancanti
27/02/2010
5
Informazione Distribuita: Problemi
La quantità di dati disponibili rende la loro
interpretazione ai fini della gestione dei
processi organizzativi spesso complessa, se
non impossibile, con strumenti tradizionali
Spesso i dati non vengono utilizzati
Decisioni importanti vengono prese senza
sfruttare tutte le informazioni disponibili
È necessario cercare di colmare il gap tra dati
e informazioni estraendo informazioni utili dai
dati disponibili
27/02/2010
6
Informazione Distribuita: Soluzioni
Database Distribuiti
Sistemi Informativi Federati
vi sono più sorgenti indipendenti; ciascuna può richiedere
alle altre informazioni
Sistemi Informativi Cooperativi
vi è un unico DBMS ma i dati sono distribuiti su più siti
le sorgenti sono indipendenti; al di sopra di esse vi è un
componente software che supporta un database virtuale che
l’utente può interrogare come se lo stesso fosse
materializzato
Data Warehousing
27/02/2010
le copie dei dati provenienti da sorgenti differenti sono
memorizzate in un singolo database integrato, denominato
Data Warehouse, dedicato al supporto delle decisioni
7
Database distribuiti
Il DBMS è unico; i dati sono però memorizzati
(ed, eventualmente, replicati) su più siti
In questo modo si massimizza la trasparenza
ma si annulla l’autonomia
Possibili forme di distribuzione dei dati nei
siti:
27/02/2010
Replicazione
Frammentazione
Replicazione e Frammentazione
8
Database distribuiti: Problemi
L’integrazione completa dei sistemi esistenti in un
database omogeneo è spesso difficile per:
difficoltà tecniche: costo di conversione alto
difficoltà organizzative: i DBMS esistenti appartengono a
diversi dipartimenti o organizzazioni
Generalmente, nell’effettuare l’informatizzazione di
un’organizzazione complessa, emerge sempre la
necessità di garantire un alto grado di autonomia ai
singoli dipartimenti
Negli ultimi anni questo trend si è via via sempre più
consolidato
27/02/2010
9
Sistemi Federati
Connessioni uno-ad-uno tra tutte le coppie di sorgenti
informative
IS-j può interrogare IS-i utilizzando il linguaggio e le
modalità che quest’ultimo è in grado di comprendere
Problema:
con n sorgenti informative è necessario scrivere n(n-1)
porzioni di codici di traduzione
Tale architettura è adeguata quando le
comunicazioni nel sistema avvengono
prevalentemente tra singole coppie di sorgenti o
quando il numero delle sorgenti coinvolte è piccolo
27/02/2010
10
Altre soluzioni
Sistemi cooperativi:
risolvono solo il problema dell’accesso
trasparente all’informazione
DWs
27/02/2010
danno valore aggiunto all’informazione
disponibile, fornendo ulteriori servizi
informativi che vanno al di là del mero
accesso trasparente all’informazione
11
Introduzione al Data Warehousing
Dati
rappresentazione digitale di informazioni
Informazione
rappresentazione di porzioni di un dominio
applicativo così come percepito dagli utenti
finali
“business contextualized data”
27/02/2010
12
Introduzione al Data Warehousing
Problemi da affrontare / Requisiti:
Accedere facilmente alle informazioni
necessarie anche con conoscenze
informatiche limitate: Accessibilità
Estrarre l’informazione di interesse da basi di
dati operazionali eterogenee a disposizione:
Integrazione
Decidere in qualunque momento quali analisi
condurre: Flessibilità di interrogazione
27/02/2010
13
Introduzione al Data Warehousing
Problemi da affrontare / Requisiti:
Mostrare all’utente l’informazione al livello di
dettaglio desiderato: Sintesi
Fornire una visione intuitiva e manipolabile
delle informazioni: Rappresentazione
multidimensionale
Correttezza e Completezza
27/02/2010
14
Introduzione al Data Warehousing
Data Warehouse (magazzino di dati)
Garante dei requisiti per un DSS
Orientato ai soggetti
Integrato e Consistente
Rappresentante dell’evoluzione temporale
(dati permanenti)
Finalizzato ai processi decisionali
27/02/2010
15
Introduzione al Data Warehousing
L’idea alla base dello sviluppo dei Data
Warehouse consiste nell’osservazione che le
esigenze di
processi operativi
processi decisionali
sono profondamente diverse e che sia quindi
sbagliato tentare di soddisfarle tutte con uno
stesso ambiente operativo
27/02/2010
Master IFM
16
Introduzione al Data Warehousing
Data Warehouse (caratteristiche)
Nessun inserimento nuova informazione
Riorganizzazione informazione esistente
Analisi su archi temporali molto lunghi
Aggiornamenti “a freddo”
Gestione transizioni non richiesta
27/02/2010
17
Introduzione al Data Warehousing
Processi Operativi
Dati attuali
Dati elementari
Inserimento, cancellazione, lettura
Spazi di occupazione contenuti
Applicazioni precostituite
Processi Decisionali
Dati attuali e storici
Dati elementari ed aggregati
Aggregazioni, lettura
Spazi di occupazione crescenti
Report, analisi, navigazione
27/02/2010
18
Introduzione al Data Warehousing
OLTP
On-Line Transactional Processing
Tipico dei DB-Operazionali
Dati dettagliati, aggiornati e recenti
Ridotto numero di record interessati
Interrogazioni semplici
Indispensabile sofisticata gestione transizioni
27/02/2010
19
Introduzione al Data Warehousing
OLAP
On-Line Analytical Processing
Tipico dei Data Warehouse
Dati storici e aggregati
Basi di dati multiple ed eterogenee
Grande quantità di record interessati
Interrogazioni complesse ma non updates
27/02/2010
20
Introduzione al Data Warehousing
Sistemi “Operazionali”
orientati alle transazioni
memorizzano dati “realtime”
transazioni semplici
ottimizzati su un insieme
di
transazioni predefinite
sono utilizzati da
personale che trattano
dati “individuali”
27/02/2010
Sistemi “Informazionali”
utilizzati per controllo di
gestione
dati storicizzati
ottimizzati per le
interrogazioni
il loro utilizzo è
largamente non
prevedibile
utilizzati dal management
ed altri utenti finali per
capire andamenti
aziendali e poter decidere
21
Introduzione al Data Warehousing
DB-Operazionali
Data Warehouse
Utenti
Impiegati
Dirigenti
Accesso
Pochi record (R/W)
Molti record (R)
Funzione
Operatività gionaliera
Supporto alle decisioni
Qualità
Integrità
Consistenza
Arco temporale
Dati correnti
Dati correnti e storici
Aggiornamenti
Continui
Periodici
Lavoro
Transazione Breve
Interrogazione Complessa
Modello
Normalizzato
Denormalizzato
Ottimizzazione
Per accessi OLTP
Per accessi OLAP
27/02/2010
22
Introduzione al Data Warehousing
Riassumendo:
Sistemi operazionali:
Sistemi informazionali:
27/02/2010
Gestione real-time dei processi aziendali (produttivi e non)
Gestiscono dati di tipo real-time
Progettati per eseguire efficientemente centinaia di piccole
transazioni predefinite di tipo read/write
Supporto alla gestione (qui e di seguito inteso in senso
lato)
Basati sulla “registrazione” della storia della realtà
aziendale
Progettati per eseguire efficientemente interrogazioni
complesse non necessariamente pre-definite
23
Introduzione al Data Warehousing
Nel Data Warehouse il significato di un dato deve
essere concorde a livello aziendale e definito con
precisione in termini informatici.
Sistemi Operazionali
Data Warehouse
Appl A – Descrizione 1
Appl B – Descrizione 2
Appl C – Descrizione 3
Appl A – m,f
Appl B – 1,0
Appl C – x,y
Appl A – Date(yymmdd)
Appl B – Data(mmddaa)
Descrizione
Popolamento
m,f
Data(ddmmyy)
Appl C – Data (assoluta)
27/02/2010
24
Introduzione al Data Warehousing
Data Warehouse
Ambiente
Operativo
27/02/2010
Back
end
DBMS
Front
end
utenti
25
Introduzione al Data Warehousing
Sviluppo spinto da una doppia esigenza
delle organizzazioni:
Necessità di una visione complessiva delle
informazioni
Necessità di un abbattimento dei costi di
gestione delle informazioni
Considerate singolarmente le due
esigenze non avrebbero determinato
questa spinta
27/02/2010
26
Introduzione al Data Warehousing
Determinato dalla disponibilità di
strumenti che hanno abbattuto i costi di
sviluppo
Determinato dall’accettazione diffusa
della centralità del bene informazione
come vantaggio competitivo
Difficoltà primaria / vantaggio primario:
ottenimento di una visione univoca ed
integrata dei dati
27/02/2010
27
Introduzione al Data Warehousing
Esempio
compagnia aerea che, incrociando dati relativi ai frequent
flyers ed alla vendita di biglietti è in grado di ottenere migliori
risultati dalle campagne promozionali
I gestori percepiscono la necessità di accedere in
maniera flessibile all’intero patrimonio informativo
disponibile e la tecnologia è matura per fornire gli
strumenti adatti a questo scopo
Tuttavia i problemi di integrazione da soli non
giustificano lo sviluppo di un DW
Uno studio calcola nel 321% in ROI medio dei progetti
di DW per organizzazioni medio-grandi, con un
periodo medio di payback pari a 2.73 anni
27/02/2010
28
Introduzione al Data Warehousing
Il principale vantaggio dei DW
risiede nel fatto che essi consentono
di utilizzare le informazioni disponibili
in maniera innovativa e non
completamente prefigurabile
27/02/2010
29
Introduzione al Data Warehousing
In ogni caso, e com’è ovvio, un DW non
rappresenta una panacea a tutti i
problemi di trattamento dati di
un’organizzazione
27/02/2010
30
Introduzione al Data Warehousing
Le difficoltà tecniche dello sviluppo di
DW “enterprise-wide” hanno
relativamente frenato la diffusione dei
DW
Accelerazione significativa negli ultimi
anni
Forte spinta verso l’espansione
dell’insieme dei soggetti fruitori di
informazione
27/02/2010
31
Introduzione al Data Warehousing
L’“Information-based management” si
caratterizza oggi nei seguenti punti:
Unica sorgente informativa:
Distribuzione dell’informazione:
27/02/2010
esigenza di riconciliazione e ripulitura dei dati
l’informazione deve poter essere utilizzata ai
diversi livelli di responsabilità decisionale nel
formato più appropriato
32
Introduzione al Data Warehousing
Informazione adattata alle esigenze
decisionali
“Consegna” automatica di nuova
informazione
Qualità e protezione dell’informazione:
l’informazione è bene primario
dell’organizzazione
la sua qualità deve essere garantita
deve essere correttamente protetta
27/02/2010
33
Introduzione al Data Warehousing
A questo livello
vi sono le
applicazioni per
il supporto alle
decisioni
popolamento
BIG
DW
catalog
Enterprise
model
27/02/2010
34
Introduzione al Data Warehousing
tecnologie introdotte nelle organizzazioni “una per volta”
naturale sedimentazione storica delle applicazioni
possibilità un tempo limitata di condurre progetti di sviluppo
altamente integrati
Frammentazione ed inconsistenza tra dati utilizzati da
applicazioni diverse
NOTA: la frammentazione non è di per sé
negativa, consentendo sviluppo veloce di
applicazioni basate su funzioni
27/02/2010
35
Introduzione al Data Warehousing
ambiente applicativo:
forgiato sulla base delle “funzioni” da erogare (es.
Vendita di un prodotto) e modellabile come un
insieme di attività “semplici”
definizione di domini di dati differenti, uno per
ogni applicazione
applicazione:
27/02/2010
insieme di funzioni che l’utente percepisce essere
tra loro collegate (e forse sviluppate in maniera
integrata)
i relativi domini di dati sono consistentemente
percepiti come insiemi integrati e tra loro disgiunti
36
Introduzione al Data Warehousing
il problema principale resta quello delle
inconsistenze
di rappresentazione
di uso
risolvibile solo parzialmente
nell’ambiente operazionale
peggiorato dall’enorme diffusione
dell’informatica personale
27/02/2010
37
Introduzione al Data Warehousing
In realtà.......
Le applicazioni operazionali sono
per loro natura “basate su funzioni” e, perciò,
il problema delle inconsistenze relative
è di fatto intrinseco ad esse
27/02/2010
38