Redazione e Presentazione di Progetti Informatici

Redazione e Presentazione
di Progetti Informatici
Corso di Laurea in Informatica
Massimo Ruffolo
E-mail: [email protected]
Web: http://www.icar.cnr.it/ruffolo
Istituto di CAlcolo e Reti ad alte prestazioni
del Consiglio Nazionale delle Ricerche (ICAR-CNR)
Exeura s.r.l. – Spin-off dell’Università della Calabria
Corso di RPPI - Massimo Ruffolo – Data Warehousing
1
Data Warehouse: Definizione
Definizione
Un DW è un struttura che memorizza una raccolta completa e
consistente di dati ottenuti da sorgenti informative diverse
e resi disponibili agli utenti finali utilizzando modi e formati che
li renda immediatamente interpretabili ed utilizzabili agli scopi
del “decision making”
Corso di RPPI - Massimo Ruffolo – Data Warehousing
2
•1
Elementi di Data Warehousing
Data Warehouse
Ambiente
Operativo
Back
end
DBMS
Front
end
utenti
Corso di RPPI - Massimo Ruffolo – Data Warehousing
3
Elementi di Data Warehousing
Ambiente Operativo
Applicazione
A
Applicazione
B
Ambiente Decisionale
Query
Report
Analisi
Navigazione
Applicazione
C
Corso di RPPI - Massimo Ruffolo – Data Warehousing
4
•2
Elementi di Data Warehousing
Processi Operativi
Dati attuali
Dati elementari
Inserimento, cancellazione, lettura
Spazi di occupazione contenuti
Applicazioni precostituite
Processi Decisionali
Dati attuali e storici
Dati elementari ed aggregati
Aggregazioni, lettura
Spazi di occupazione crescenti
Report, analisi, navigazione
Corso di RPPI - Massimo Ruffolo – Data Warehousing
5
Elementi di Data Warehousing
Proprietà di integrazione:
Nel Data Warehouse il significato di un dato deve essere
concorde a livello aziendale e definito con precisione in
termini informatici.
Sistemi Operazionali
Data Warehouse
Appl A – Descrizione 1
Appl B – Descrizione 2
Appl C – Descrizione 3
Appl A – m,f
Appl B – 1,0
Appl C – x,y
Appl A – Date(yymmdd)
Appl B – Data(mmddaa)
Descrizione
Popolamento
m,f
Data(ddmmyy)
Appl C – Data (assoluta)
Corso di RPPI - Massimo Ruffolo – Data Warehousing
6
•3
Elementi di Data Warehousing:
Caratteristiche
‰ Orientamento decisionale: cambiamento dalla prospettiva di dati per
le applicazioni (dati per supportare il processo produttivo) a quella di dati per il
management (dati per supportare il processo decisionale)
‰ Integrazione: il database consolida (come un bilancio consolidato) i dati dai
differenti sistemi che utilizzano diversi metodi di codifica, unità di misura o altro, ed
elimina le inconsistenze tra i dati
‰ Gestione storica dei dati: mentre i dati operazionali danno una
visione sincronica (a un certo momento) e sono validi nel momento in cui si
leggono, i dati in un datawarehouse tengono conto della variabile tempo e possono
essere utilizzati per analizzare la "storia" degli eventi
‰ Non volatilità: i dati nuovi vengono aggiunti e non vanno a rimpiazzare
quelli vecchi, preservando la temporalità ed accrescendo il contenuto informativo
Corso di RPPI - Massimo Ruffolo – Data Warehousing
7
Classificazione dei dati nel DW
‰ Dati di business: dati di interesse dell’organizzazione
utilizzati nei processi operazionali, gestionali e direzionali;
sono modificati ed usati dai sistemi operazionali e dai DW
‰ Metadati: descrivono tutti gli aspetti dei dati contenuti nel
DW, in modo che essi possano essere utilizzati in maniera
consistente.
Dunque
si
memorizzano
informazioni
sull’origine dei dati, sulle trasformazioni cui sono
sottoposti e anche informazioni temporali relative alla
creazione, all’ultima modifica o all’eliminazione dei dati.
Corso di RPPI - Massimo Ruffolo – Data Warehousing
8
•4
Dati di business
‰
real-time: i dati correnti dell’azienda, essi sono manipolati
esclusivamente dai processi operazionali e sono al massimo livello di
dettaglio. Essi non vanno confusi con i dati attuali del DW, in quanto
risiedono sulle sorgenti dati del DW e quindi sono nel formato nativo
‰
storici: molto dettagliati, hanno già subito la fase di integrazione e
quindi fanno parte del DW. Essi risalgono a un periodo temporale non di
interesse per le indagini attuali, perciò sono memorizzati su memorie di
massa poco costose che sono accedute molto di rado
‰
riconciliati: sono il risultato della prima trasformazione che subiscono i
dati real-time prima di essere caricati nel DW; sono il risultato
dell’integrazione e della razionalizzazione dei dati real-time
‰
derivati: derivano dai dati riconciliati, se essi sono stati implementati,
oppure dai dati real-time. Possono esistere a vario livello di dettaglio e
sono proprio quelli usati dalle applicazioni DSS, sono acceduti solo in
lettura
Corso di RPPI - Massimo Ruffolo – Data Warehousing
9
Strumenti ETL
‰ Extraction o Capture (estrazione):
¾
¾
statica: il DW viene popolato per la prima volta
incrementale: il DW viene periodicamente aggiornato
‰ Cleaning o Scrubbing (pulitura): fase critica, deve migliorare la
qualità dei dati provenienti dalle sorgenti informative, tipicamente sporchi a causa di
errori e inconsistenze. Effettua
¾
la correzione e l’omogeneizzazione (riconoscimento di sinonimie, omonimie)
¾
la pulitura basata su regole (applicazione di regole proprie del dominio
applicativo per l’individuazione delle corrette corrispondenze tra i valori)
‰ Transformation (trasformazione): fase di conversione dei dati
dal formato delle sorgenti a quello del DW; è strettamente legata alla fase di pulitura
‰ Loading (caricamento):
¾
¾
refresh: i dati del DW vengono riscritti integralmente (è usato in abbinamento
all’estrazione statica)
update: solo i cambiamenti occorsi nelle sorgenti informative vengono caricati
nel DW (è usato in abbinamento all’estrazione incrementale). I dati
preesistenti nel DW non vengono distrutti né alterati
Corso di RPPI - Massimo Ruffolo – Data Warehousing
10
•5
Strumenti ETL: wrapper e mediator
‰ Wrapper: componente software che fa da interprete tra
l’ambiente globale e la singola sorgente informativa
‰ Mediator: integra le informazioni estratte dai wrapper in
un’unica sorgente informativa
Corso di RPPI - Massimo Ruffolo – Data Warehousing
11
Elementi di Data Warehousing:
Architettura
A questo livello
vi sono le
applicazioni per
il supporto alle
decisioni
BIG
DW catalog
popolamento
Enterprise
model
Corso di RPPI - Massimo Ruffolo – Data Warehousing
12
•6
Elementi di Data Warehousing:
Architettura
Architettura
‰ Separazione:
l’elaborazione analitica e quella transazionale devono essere
mantenute il più possibile separate
‰ Scalabilità: l’architettura hardware e software deve poter essere facilmente
ridimensionata a fronte della crescita nel tempo del volume di dati da gestire e da
elaborare e del numero di utenti da soddisfare
‰ Estendibilità: deve essere possibile accogliere nuove applicazioni e
tecnologie senza riprogettare integralmente il sistema
‰ Sicurezza: il controllo sugli accessi è essenziale a causa della natura
strategica dei dati memorizzati
‰ Accessibilità: la complessità dell’attività di amministrazione non deve
risultare eccessiva
Corso di RPPI - Massimo Ruffolo – Data Warehousing
13
Il Data Warehousing del Bando
Scopro
Regione
Regione
APT
APT
Università
Università
Associazioni
Associazioni
Industriali
Industriali
UTENTI
Oss.
Oss.
SE
SE
Oss.
Oss.
Turismo
Turismo
Oss.
Oss.
Univ.
Univ.
Oss.
Oss.
Imprese
Imprese
OSSERVATORI
DW-PTC
DW
DW-PTC
Oscar
SORGENTI Erica
Corso di RPPI - Massimo Ruffolo – Data Warehousing
Turismo
Segreteria
Studenti
14
•7
Il Data Warehousing del Bando
Scopro
I dati, materia prima di un Data Warehouse, vengono modellati e trasformati al fine di
supportare il processo decisionale.
Il progetto DW-PTC mette a disposizione del management di Telcal, dei decisori
istituzionali, dei cittadini e del mondo produttivo calabrese risorse informative della
regione Calabria interne ed esterne al PTC.
Le sorgenti informative del DW-PTC:
OSCAR (Osservatorio Statistico Calabrese per l’Analisi e la Rilevazione) – Azione
Progettuale Ricerca
ERICA (Elenco Registro Imprese Calabrese) – Azione Progettuale Agricoltura e PMI
Flussi Turistici – Azione Progettuale Turismo
Segreteria Studenti – Università degli Studi della Calabria
Corso di RPPI - Massimo Ruffolo – Data Warehousing
15
Il Data Warehousing del Bando
Scopro
OSCAR
• E’ una Banca Dati relazionale che
informazioni di tipo economico e sociale
fornisce
• Abbraccia un arco temporale che va dal 1991 al 1998
• Contiene 74000 record per un totale di circa 2 MB
• E’ fornita dall’Azione Progettuale Ricerca
Consente:
• Analisi del tessuto economico e sociale
• Elaborazioni statistiche sugli indicatori
• Monitoraggio della diffusione delle ICT sul territorio
Corso di RPPI - Massimo Ruffolo – Data Warehousing
16
•8
Il Data Warehousing del Bando
Scopro
OSCAR
Popolazione
Popolazione residente,
residente, numero
numero di
di famiglie,
famiglie, ecc.
ecc.
consumi
consumi di
di energia
energia elettrica,
elettrica, addetti
addetti alle
alle
unità
unità locali
locali non
non agricole,
agricole, ecc.
ecc.
• Demografia
• Struttura Produttiva
• Territorio
• Condizioni SocioEconomiche
• Dotazioni di Servizi
• Potenziali Fruitori della
Domanda Telematica
distanza
distanza di
di un
un determinato
determinato comune
comune dall’aeroporto
dall’aeroporto
oo distanza
distanza dal
dal capoluogo,
capoluogo, ecc.
ecc.
numero
numero di
di contribuenti
contribuenti IRPEF,
IRPEF, depositi
depositi delle
delle
aziende
aziende di
di credito,
credito, ecc.
ecc.
numero
numero di
di posti
posti letto
letto in
in istituti
istituti pubblici
pubblici di
di cura,
cura,
aule
aule scuola
scuola media
media inferiore,
inferiore, ecc.
ecc.
agenzie
agenzie marittime,
marittime, agenti
agenti ed
ed agenzie
agenzie di
di affari,
affari,
ecc.
ecc.
Corso di RPPI - Massimo Ruffolo – Data Warehousing
17
Il Data Warehousing del Bando
Scopro
ERICA
• E’ una Banca Dati relazionale che offre
informazioni anagrafiche relative alle imprese
ubicate nel territorio calabrese
• Abbraccia un arco temporale che va da
novembre 1999 a maggio 2000
• Contiene 165000 imprese per un totale di circa 60 MB
• E’ fornita dall’Azione Progettuale Agricoltura e PMI
Consente analisi:
• sulla composizione del tessuto produttivo
• settoriali e per aree territoriali
• sulla ricaduta di politiche di incentivazione e di
sostegno all’imprenditoria.
Corso di RPPI - Massimo Ruffolo – Data Warehousing
18
•9
Il Data Warehousing del Bando
Scopro
ERICA
Attività
Attività Economica
Economica
Natura
Natura Giuridica
Giuridica
Capitale
Capitale Sociale
Sociale
Le principali
informazioni
contenute in ERICA
Stato
Stato di
di Attività
Attività
Localizzazione
Localizzazione
Variazione
Variazione di
di Stato
Stato
Corso di RPPI - Massimo Ruffolo – Data Warehousing
19
Il Data Warehousing del Bando
Scopro
Turismo
• Proviene da informazioni cartacee fornite
dall’Azione Progettuale Turismo
• Non costituisce una vera e propria sorgente
operazionale
Consente:
• Il monitoraggio dell’andamento del turismo nelle
varie aree
• Analisi sul grado di utilizzo delle struttura
alberghiere ed extra alberghiere nei vari periodi
dell’anno
• Analisi sulla tipologia di offerta turistica
Corso di RPPI - Massimo Ruffolo – Data Warehousing
20
•10
Il Data Warehousing del Bando
Scopro
Turismo
Flussi
Flussi di
di turisti
turisti italiani
italiani
Flussi
Flussi di
di turisti
turisti stranieri
stranieri
Flussi
Flussi di
di turisti
turisti in
in
strutture
strutture alberghiere
alberghiere
Informazioni sui flussi turistici
cha hanno interessato la Calabria
negli anni dal 1990 al 1998
Flussi
Flussi di
di turisti
turisti in
in
strutture
strutture extra-alberghiere
extra-alberghiere
Presenze
Presenze nelle
nelle strutture
strutture
alberg.
alberg. ed
ed extra-alberg.
extra-alberg.
Corso di RPPI - Massimo Ruffolo – Data Warehousing
21
Il Data Warehousing del Bando
Scopro
Segreteria Studenti UNICAL
• E’ fornita dall’Università della Calabria
• Contiene 11000 iscritti, 126000 esami, 1490
lauree per la sola facoltà di ingegneria per un totale
di circa 20 MB
• Abbraccia un arco temporale che va dal
1994 al 2000
• E’ una Banca Dati relazionale che offre
informazioni sul percorso di studio degli studenti
dell’università della Calabria
Consente:
• Il monitoraggio del sistema universitario calabrese
• Analisi
sull’abbandono
rendimento
• Analisi sul
all’università
passaggio
Corso di RPPI - Massimo Ruffolo – Data Warehousing
universitario
dalla
scuola
e
sul
superiore
22
•11
Il Data Warehousing del Bando
Scopro
Segreteria Studenti UNICAL
Lauree
Lauree
Diplomi
Diplomi
Esami
Esami
Le principali
informazioni
Maturità
Maturità
Test
Test di
di Ammissione
Ammissione
Curricula
Curricula
Corso di RPPI - Massimo Ruffolo – Data Warehousing
23
Il Data Warehousing del Bando
Scopro
Erica
Segr. Studenti
Oscar
Turismo
Estrazione
Trasformazione
Schemi Intermedi
Integrazione
DW-PTC
Olap
Olap
Corso di RPPI - Massimo Ruffolo – Data Warehousing
Data-Mining
Data-Mining
24
•12
Il Data Warehousing del Bando
Scopro
Segreteria Studenti UNICAL
Materie
Materie
Università
Università
Facoltà
Facoltà
Lauree
Lauree
Esami
Esami
Analisi
Revers Engineering
Immatricolazioni
Immatricolazioni
Percorso
Percorso
accademico
accademico
Studente
Studente
Materie
Materie
Iscrizioni
Iscrizioni
Maturità
Maturità
Lauree
Lauree
Corso
Corso
di
di laurea
laurea
Corso di RPPI - Massimo Ruffolo – Data Warehousing
25
Il Data Warehousing del Bando
Scopro
Livelli di Accesso
Descrizione dei Report
BIW
Dimensional Fact Tree
Metadati
Metadati
BIW
BIW
Struttura dei Data Mart
Livelli di Accesso
BDW
Log Accessi
Mapping
Metadati
Metadati
BDW
BDW
Schema Integrato
Sorgenti
Procedure di
ETL
Schemi Intermedi
Mapping
Procedure ETL
Metadati
Metadati
Sorgenti
Sorgenti
Struttura Sorgenti Operazionali
Corso di RPPI - Massimo Ruffolo – Data Warehousing
26
•13