Cenni sul Data Warehouse Miriam Gotti

Ce n n i s u l Da t a Wa r e h o u s e
Ravenna
Miriam Gotti
[email protected]
www.
cineca.it
5 Novembre 2007
Agenda
Fondamenti di Data Warehouse
Modello Multidimensionale
Analisi OLAP
Introduzione a Statportal
www.cineca.it
2
Agenda
Fondamenti di Data Warehouse
Modello Multidimensionale
Analisi OLAP
Introduzione a Statportal
www.cineca.it
3
Fondamenti di Data
Warehouse
Contesto
Miglioramento potenzialità supporti
tecnologici e diminuzione costi
Aumento operazioni automatizzate e
intensificarsi operazioni su Web
Quantità Dati
Complessità del processo di estrazione dell informazione dai dati
Complessità del processo decisionale
www.cineca.it
4
Fondamenti di Data
Warehouse
Perché non usare un operazionale?
Sistemi decisionali (DSS)
Sistemi operazionali
100
50
0
1st 4th
Qtr Qtr
www.cineca.it
5
Fondamenti di Data
Warehouse
Limiti dei sistemi operazionali nei processi
decisionali
I dati nonsono integrati, risiedono su sistemi operazionali eterogenei o
fisicamente separati (es. ARGO, SISSI, ecc.)
Supportano operazioni predefinite e ripetitive, sono strutturati per
l elaborazione in lettura e scrittura di un elevato numero di transazioni
elementari e concomitanti
I dati sono volatili e normalmente noncontengono dati storici, ma si
limitano alla memorizzazioni on-line degli ultimi 12 mesi
Linterfaccia utente di tali sistemi è normalmente troppo rigida e non
fornisce le funzionalità necessarie per costituirsi come strumento di
supporto all attività decisionale
www.cineca.it
6
Fondamenti di Data
Warehouse
Che cosè
Linsieme centralizzatodelle strutture dati e degli strumenti necessari
per ottenere, a partire dai dati operazionali prodotti e gestiti da un
sistema informativo aziendale, informazioni utili ai manager come
supporto alle decisioni.
Il data warehouse devessere orientato agli oggetti, integrato, non
volatile e invariante nel tempo
Che cosa non è
Un programma
Un prodotto da scaffale
La soluzione ai problemi (del gestionale)
www.cineca.it
7
Fondamenti di Data
Warehouse
Orientato al soggetto
Nel DW i dati sono organizzati per soggetto danalisi, anziché per
processo gestionale. Lorientamento influisce sulla struttura del sistema in
termini di organizzazione dei dati e delle modalità di presentazione e
dell interfaccia utente
Sistemi Transazionali
Iscrizioni
Allievi
Trasferimenti
Scuole
Esiti
Classi
Orientati all applicazione
www.cineca.it
Data Warehouse
Orientati al soggetto
d analisi
8
Fondam enti di Data
W arehouse
I nt egrato
Sistemi transazionali
Data Warehouse
I dati, estratti da varie
sorgenti, vengono ripuliti,
trasformati e modellati in
modo da consentirne una
gestione coerente ed
efficace, ad esempio
implementando metodi di
codifica uniformi, unità di
misura omogenee,
l omogeneità semantica
delle variabili
www.cineca.it
9
Fondamenti di Data
Warehouse
Non Volatile
I dati, che periodicamente sono raccolti, trasformati e caricati nel DW, sono
stabili
persistenti
Quando i dati sono caricati nel DW, non possono più essere modificati e
ad essi si può accedere in sola lettura risultando così estremamente rapidi.
I dati nel data warehouse coprono un orizzonte temporale molto ampio
in modo da favorire le attività di analisi comparative su diversi periodi
temporali
www.cineca.it
10
Fondamenti di Data
Warehouse
I nvariante nel tempo
Vengono memorizzate fotografie della stessa realtà in momenti
successivi, mantenendo costante l organizzazione dei dati
Questo consente di effettuare confronti, individuare tendenze e fare
previsioni.
I dati vengono aggiornati periodicamente (e non in tempo reale come
nei sistemi gestionali).
www.cineca.it
11
Fondamenti di Data
Warehouse
Operazionale vs Decisionali
Sistemi transazionali
Data Warehouse
>1000
>100
Dimensioni DB
100MB-1GB
1GB-1TB
Carico di lavoro
Transazioni predefinite
Interrogazioni ad hoc
A centinaia di record in lettura e scrittura
A milioni di record in lettura
Supporto ai processi operativi
Supporto alle decisioni
Dettagliati
Sia di dettaglio che di sintesi
Solo dati correnti
Dati correnti e storici
Aggiornamenti
Continui
Periodici
Ottimizzazione
Per accessi OLTP su una frazione di dati
Per accessi OLAP su gran parte del
DB
Unità di lavoro
Transazione
Interrogazione complessa
Numero di transazioni
Tempi di risposta
Utenti
Accesso
Scopo
Dati
Copertura temporale
Performance
www.cineca.it
12
Fondamenti di Data
Warehouse
Concludendo
perché un DW?
Basare le decisioni su fatti, anzichè sensazioni quindi migliorare i
processi decisionali
Migliorare la qualità del dato operazionale
Creare un repository unico dei dati aziendali, attendibile e facilmente
usufruibile
Analizzare l andamento del fenomeno analizzato sotto diversi punti di
vista (analisi multidimensionale)
www.cineca.it
13
Fondamenti di Data
Warehouse
Fonti Dati /
Fornitore
Informazione
Allievi RA /
Allievi RA /
(Anag. Regionale
(Anag. Regionale
Studenti)
Studenti)
Report Tabellari
DM Allievi
StagingArea
Area
Staging
Allievi extra-RA /
Allievi extra-RA /
(Anag. Regionale
(Anag. Regionale
Studenti)
Studenti)
Conoscenza
Grafici
Data
Warehouse
DM
Autonomie
Scolastiche
Classificazione
Classificazione
Autonomie
Autonomie
Scolastiche e
Scolastiche e
Scuole (MIUR)
Scuole (MIUR)
Mappe
Tematiche
Metadati
Classi
Cruscotti
ETL
Backend
www.cineca.it
Frontend
14
Agenda
Fondamenti di Data Warehouse
Modello Multidimensionale
Analisi OLAP
Introduzione a Statportal
www.cineca.it
15
Modello
Multidimensionale
Modello Dati
Fatti d analisi Allievo
Classe Età
Nel modello multidimensionale le
informazioni sono organizzate
concettualmente in iper-cubi (fatti)
composti da categorie descrittive,
(dimensioni) e misure
quantitative (celle).
Nazionalità
Tempo
Dimensioni d analisi
www.cineca.it
16
Modello
Multidimensionale
Un Esempio
Nazionalità
Allievo
Tempo
Classe Età
Attributi
Nazionalità
Dimensioni
Macro Area
Classe Età
Anno
Formativo
Età
Stato Nascita
Fatti
www.cineca.it
Gerarchia
Allievo
17
Modello
Multidimensionale
Gli elementi
Dimensioni: prospettive attraverso cui è possibile analizzare gli aspetti
d interesse del business. Raggruppano attributi logicamente correlati
rispetto all oggetto del business.
Attributi: variabili di classificazione o elementi descrittivi. Sono
tipicamente testuali e contengono valori discreti. Servono a definire il
livello di aggregazione dei dati e impostare dei filtri sugli stessi.
Gerarchie: relazioni logiche tra attributi che definiscono un percorso di
navigazione dei dati all interno delle dimensioni, e quindi il livello di
aggregazione dei dati.
www.cineca.it
18
Modello
Multidimensionale
Gli elementi
Fatti/Metriche: variabili d analisi, misure mediante le quali è possibile
valutare il soggetto d analisi. Sono tipicamente numeriche. Sono
classificati in due tipologie:
fatti base, grandezze elementari che non possono essere derivate
da altri fatti. I fatti base sono sempre fisicamente memorizzati nel
database
fatti calcolati, misure calcolate applicando funzioni matematiche
ad uno o più fatti base. Normalmente non sono memorizzate nel
database, ma sono calcolati on-the-fly
Granularità: livello minimo di dettaglio di un fatto
www.cineca.it
19
Modello
Multidimensionale
Fonti Dati /
Fornitore
Informazione
Allievi RA /
Allievi RA /
(Anag. Regionale
(Anag. Regionale
Studenti)
Studenti)
Report Tabellari
DM Allievi
StagingArea
Area
Staging
Allievi extra-RA /
Allievi extra-RA /
(Anag. Regionale
(Anag. Regionale
Studenti)
Studenti)
Conoscenza
Grafici
Data
Warehouse
DM
Autonomie
Scolastiche
Classificazione
Classificazione
Autonomie
Autonomie
Scolastiche e
Scolastiche e
Scuole (MIUR)
Scuole (MIUR)
Mappe
Tematiche
Metadati
Classi
Cruscotti
ETL
Backend
www.cineca.it
Frontend
20
Modello
Multidimensionale
Strumento di Amministrazione di Statportal
E un applicativo desktop che consente di:
Definire i percorsi di navigazione dei dati
Definire gli indicatori precalcolati
Gestire gli utenti e i profili utenti
Impostare i diritti di accesso
Introdurre uno strato semantico per rendere i nomi degli
oggetti più parlanti per l utente finale
www.cineca.it
21
Agenda
Fondamenti di Data Warehouse
Modello Multidimensionale
Analisi OLAP
Introduzione a Statportal
www.cineca.it
22
Analisi OLAP
Tecniche di accesso alle informazioni
Query & Reporting: orientato agli utenti che hanno necessità di accedere
agli stessi prospetti informativi predefiniti, a intervalli di tempo prestabiliti
Analisi What-if: insieme di tecniche di predizione guidate dall utente che
permettono di creare previsioni ed eseguire simulazioni sulla base di scenari
Data Mining: processo di estrazione di conoscenza da banche dati di
grandi dimensioni tramite l applicazione di algoritmi statistici che individuano
le relazioni nascoste e le rendono visibili
Analisi OLAP (on line analytical processing): identifica un insieme di
tecnologie e di strumenti predisposti per l analisi di tipo multidimensionale
(pivoting, drilling, filtering)
www.cineca.it
23
Analisi OLAP
Pivoting
Permette di variare la vista corrente dei dati ruotando gli assi del cubo
www.cineca.it
24
Analisi OLAP
Pivoting: esempio
www.cineca.it
25
Analisi OLAP
Drilling
Permette di navigare una gerarchia, scendendo verso dati maggiormente
dettagliati (Drill-Down) o salendo verso informazioni più aggregate (Roll-Up)
Roll-Up
Anno
Mese
Drill-Down
www.cineca.it
Giorno
26
Analisi OLAP
Drilling: esempio
Roll-Up
Drill-Down
www.cineca.it
27
Analisi OLAP
Filtering
Permette di visualizzare solo la porzione di dati desiderata
Slicing consiste in una selezione con un vincolo di
ugualianza e produce una fetta dell ipercubo
Dicing consiste in una selezione con uno o più vincoli di
ugualianza combinati tra loro con operatori di AND e/o OR.
Produce un ipercubo più piccolo estratto da quello corrente
www.cineca.it
28
Analisi OLAP
Filtering: esempio
Slice
Dice
www.cineca.it
29
Analisi OLAP
Fonti Dati /
Fornitore
Informazione
Allievi RA /
Allievi RA /
(Anag. Regionale
(Anag. Regionale
Studenti)
Studenti)
Report Tabellari
DM Allievi
StagingArea
Area
Staging
Allievi extra-RA /
Allievi extra-RA /
(Anag. Regionale
(Anag. Regionale
Studenti)
Studenti)
Conoscenza
Grafici
Data
Warehouse
DM
Autonomie
Scolastiche
Classificazione
Classificazione
Autonomie
Autonomie
Scolastiche e
Scolastiche e
Scuole (MIUR)
Scuole (MIUR)
Mappe
Tematiche
Metadati
Classi
Cruscotti
ETL
Backend
www.cineca.it
Frontend
30
Agenda
Fondamenti di Data Warehouse
Modello Multidimensionale
Analisi OLAP
Introduzione a Statportal
www.cineca.it
31
I ntroduzione a Statportal
Cos è
Un portale Web, compatibile con i browser più diffusi ad
interfaccia user-friendly utile per la:
Consultazione
Produzione
Condivisione
Analisi
di informazione statistica e geostatistica su internet
www.cineca.it
32
I ntroduzione a Statportal
Cosa mi permette di fare
Consultare un catalogo di schede metainformative che
documentano i dati presenti nel sistema (Catalogo Dati)
Visualizzare i dati presenti nel sistema tramite diverse
modalità, ed in modo totalmente interattivo (Databrowsing)
Salvare la struttura di un report, senza salvare i dati al suo
interno e renderla disponibile agli altri utenti
Produrre nuova informazione dai dati, tramite la creazione di
nuovi indicatori, e renderli disponibili agli altri utenti
www.cineca.it
33
I ntroduzione a Statportal
Vantaggi
Garantisce una completa integrazione tra la reportistica e le
schede metainformative dando la possibilità di passare in
modo lineare da una funzionalità all altra in maniera semplice
ed intuitiva
Non salvando i dati, ma solo la struttura del report è
possibile visualizzare sempre l ultimo dato caricato nel
datawarehouse
www.cineca.it
34
I ntroduzione a Statportal
A u t e n t i c a zi o n e
www.cineca.it
35
I ntroduzione a Statportal
M o d i f i c a Da t i Pe r s o n a l i
www.cineca.it
36
I ntroduzione a Statportal
H o m e Pa g e
www.cineca.it
37
I ntroduzione a Statportal
V i s u a l i zza zi o n e d e l l e N e w s
www.cineca.it
38
I ntroduzione a Statportal
Pr o g e t t i
www.cineca.it
39
I ntroduzione a Statportal
Pr o g e t t i
www.cineca.it
40
I ntroduzione a Statportal
Pr o g e t t i
L i v e l l i d i I n t e r a zi o n e
Passiva: l utente visualizza reportistica preimpostata
condivisa da altri utenti, ma non può fare nessun
tipo di modifica
Mista:
l utente visualizza reportistica preimpostata
condivisa da altri utenti, non può scegliere le
dimensioni o la modalità di visualizzazione, ma
può fare filtri sui dati, scegliere il livello di dettaglio
o invertire le righe con le colonne
Attiva:
l utente a partire da un set di dati condivisi da altri
utenti può scegliere le dimensioni, il livello di
dettaglio, il modo migliore per visualizzarle, può
impostare filtri e il layout
www.cineca.it
41
I ntroduzione a Statportal
Cr e a zi o n e N u o v i Pr o g e t t i
www.cineca.it
42
I ntroduzione a Statportal
Cr e a zi o n e N u o v i Pr o g e t t i
Il sistema permette, tramite un percorso guidato di:
Selezionare i dati
Aggregare, disaggregare, impostare i filtri sui dati
selezionati
Combinare i dati tramite espressioni
Creare reportistica dai dati selezionati e dalle nuove
espressioni calcolate
Rendere disponibili come dati i nuovi Progetti creati
agli altri utenti
www.cineca.it
43
I ntroduzione a Statportal
M o d a l i t à d i V i s u a l i zza zi o n e d e l Da t o
Tabellare:
standard, multidimensionale, comparativa,
cruscotto
Grafica:
barre, colonne, torte, curve
Geografica: permette una visualizzazione del dato
tematizzando i valori su una mappa facilmente
navigabile. Può comprendere diversi strati
informativi per arricchire la comprensione della
tematizzazione nel contesto territoriale
www.cineca.it
44
I ntroduzione a Statportal
T a b e l l e Pi a t t e
www.cineca.it
45
I ntroduzione a Statportal
Tabelle Mult idim ensionali
www.cineca.it
46
I ntroduzione a Statportal
T a b e l l e Co m p a r a t i v e
www.cineca.it
47
I ntroduzione a Statportal
Cr u s c o t t i
www.cineca.it
48
I ntroduzione a Statportal
Gr a f i c i
www.cineca.it
49
I ntroduzione a Statportal
Mappe
www.cineca.it
50
I ntroduzione a Statportal
Ca t a l o g o Da t i
www.cineca.it
51
I ntroduzione a Statportal
Ca t a l o g o Da t i
Contiene un insieme di schede metainformative, che
includono descrizioni utili per la compressione dei dati, il loro
corretto utilizzo e la loro reperibilità
Ogni dato o report può essere documentato tramite le schede
metainformative presenti nel catalogo dati
Fornisce un potente motore di ricerca per la ricerca delle
schede dati secondo diversi criteri (tematici, di contenuto, di
provenienza, ecc.)
www.cineca.it
52
I ntroduzione a Statportal
Ca t a l o g o Da t i
Ha una struttura tipo Explorer che permette di accedere alle
schede dei dati in modo agevole
Permette la modifica e la gestione on-line dei metadati esistenti
Permette di passare direttamente alla reportistica se il dato
documentato è presente nel sistema
www.cineca.it
53
Riferimenti Bibliografici
The Data Warehouse Lifecycle Toolkit
di Ralph Kimball, Laura Reeves, Margy Ross, Warren
Thornthwaite
ed. John Wiley & Sons, Inc., 1998
The Data Warehouse Toolkit, 2nd edition
di Ralph Kimball, Margy Ross
ed. John Wiley & Sons, Inc., 2002
Data Warehouse. Teoria e Pratica della Progettazione
di Matteo Golfarelli, Stefano Rizzi
ed. McGraw-Hill, 2002
www.cineca.it
54