Data warehouse(B.2.8)
Nei database ci sono molti dati di tipo
diverso e ciascuna tipologia di dato può
avere un formato diverso.
Alcuni provengono da legacy system
Altri da database di tipologie diverse.
Alcuni dati sono duplicati anche se in
formati diversi
Adriana Fasulo
2
Legacy system
un sistema legacy ( ereditato, che è un
lascito del passato) è un'applicazione o
un componente software obsoleti, che
continuano ad essere usati poiché
l'utente (tipicamente un'organizzazione)
non vuole o non può rimpiazzarla.
Adriana Fasulo
3
Legacy system
utilizzano tecnologie meno recenti
(tipicamente si tratta di sistemi
informatici con architettura hardware
centralizzata ovvero con un mainframe)
e per questo motivo sono molto difficili
da interfacciare con i sistemi più
recenti.
Adriana Fasulo
4
Legacy system
Di solito sono scarsamente documentati e
di difficile modifica (linguaggi obsoleti,
procedure interne non conosciute).
Non possono essere eliminati perchè di
solito sono “mission critical”
Adriana Fasulo
5
Dataware house e data mart
Il Dataware house è il luogo di consolidamento dell'insieme dei
dati aziendali.
Il termine Data Mart (letteralmente deposito di dati) designa un
sotto-insieme del data warehouse che contiene i data del data
warehouse per un particolare settore aziendale (dipartimento,
direzione, servizio,gamma prodotto, ecc.). Si parla quindi ad
esempio di Data Mart Marketing, Data Mart Commerciale
Un dw è disegnato per agevolare l’analisi di dati non volatili,
provenienti da fonti diverse, trasformati logicamente e
fisicamente e mantenuti per lunghi periodi di tempo per
permettere di effettuare anche analisi di mercato. Non può
gestire dati volatili
Adriana Fasulo
6
ETL (extract, trasform, load)
Extract, Transform, Load (ETL) si riferisce al processo estrazione,
trasformazione e caricamento dei dati in un sistema di sintesi (Data warehouse,
Data Mart).
I dati vengono estratti da sistemi sorgenti quali database transazionali (OLTP),
comuni file di testo o da altri sistemi informatici (ad esempio, sistemi ERP o
CRM).
Subiscono quindi un processo di trasformazione, che consiste nel:
•
•
•
•
•
Selezionare solo quelli che sono di interesse per il sistema
Normalizzare i dati (per esempio eliminando i duplicati)
Derivare nuovi dati calcolati
Eseguire accoppiamenti (join) tra dati recuperati da differenti tabelle
Raggruppare i dati che appartengono allo stesso oggetto
Tale trasformazione ha lo scopo di consolidare i dati (cioè rendere omogenei dati
provenienti da sorgenti diverse) in modo che siano aderenti alla logica di
business del sistema di analisi per cui viene sviluppato. Vengono infine caricati
nelle tabelle del sistema di sintesi (load).
Adriana Fasulo
7
Data Mining
Il Data Mining ha per oggetto l'estrazione di un sapere o di una conoscenza a
partire da grandi quantità di dati e l'utilizzazione industriale o operativa di
questo sapere.
Oggi il Data Mining ha una duplice valenza:
• Estrazione, con tecniche analitiche all'avanguardia, di informazione implicita,
nascosta, da dati già strutturati, per renderla disponibile e direttamente
utilizzabile
• Esplorazione ed analisi, su grandi quantità di dati allo scopo di scoprire pattern
(schemi) significativi. Questo tipo di attività è cruciale in molti ambiti della
ricerca scientifica, ma anche in altri settori. E’ utilizzata per risolvere
problematiche diverse tra loro, che vanno dalla gestione delle relazioni con i
clienti (CRM), all‘individuazione di comportamenti fraudolenti.
Adriana Fasulo
8
Tecniche sw per analisi dati
In generale le operazioni di estrazioni di
dati, le operazioni di ricerca dai
database si basano su tecniche per il sw
per l’analisi dei dati chiamate OLTP e
OLAP
Adriana Fasulo
9
OLAP
OLAP, acronimo che sta per l'espressione On-Line Analytical Processing,
designa un insieme di tecniche software per l'analisi interattiva e veloce di
grandi quantità di dati, che è possibile esaminare in modalità piuttosto
complesse.
Questa è la componente tecnologica base del dataware house , serve
alle aziende per analizzare i risultati delle vendite, l'andamento dei costi di
acquisto merci al marketing per misurare il successo di una campagna
pubblici taria, ad una università i dati di un sondaggio ed altri casi
simili.
Gli strumenti OLAP si differenziano dagli OLTP per il fatto che i primi
hanno come obiettivo la performance nella ricerca e il raggiungimento
di un'ampiezza di interrogazione quanto più grande possibile; i secondi,
invece, hanno come obiettivo la garanzia di integrità e sicurezza delle
transazioni.
Adriana Fasulo
10
Differenza fra OLAP e OLTP
La tecnologia OLTP (On-Line Transaction Processing),non prevede
la creazione di banche di dati separate come avviene per il
sistema OLAP. Infatti le analisi vengono effettuate direttamente
sui dati di esercizio. Lo scopo del sistema OLTP è quello di
acquisire volumi elevati di transizioni di modifica e aggiunta dei
dati per la loro gestione. Tra le altre caratteristiche del
sistema vi è quella che di avere dati in continuo aggiornamento.
(A differenza ad esempio del Datawarehouse dove gli
aggiornamenti avvengono a date predefinite.)Infine un'ultima
importante particolarità del sistema è quella di avere dati
sempre normalizzati in moda da essere conformi alle esigenze
che derivano dalle transizioni.
Adriana Fasulo
11
Architettura Data warehouse
Dati transazionali
Data
warehouse
data
mart
Applicazioni
di
data mining
Traformazioni
ETL
altri dati
Adriana Fasulo
12