Sistemi informativi direzionali (SID)

SISTEMI INFORMATIVI
DIREZIONALI
Master MATIT
Sistemi Informativi Direzionali
1
I Livelli di un SI Aziendale

livello direzionale
– vengono svolte tutte quelle attività necessarie alla
definizione degli obiettivi da raggiungere ed alle azioni,
eventualmente correttive, da intraprendere per perseguirli.

livello operativo
– si occuperà delle attività attraverso cui l’azienda produce i
propri servizi e prodotti.
il livello direzionale
è supportato dai
cosiddetti sistemi
informativi
direzionali.
Master MATIT
Sistemi Informativi Direzionali
2
Schema di un sistema direzionale
OLAP
Motori di calcolo
(DSS)
Motori di presentazione
Q&R (EIS)
Data Warehouse
Data Entry
Alimentazione
(budget, dati direzionali)
OLTP
Master MATIT
DB TRANSAZIONALI
Sistemi Informativi Direzionali
3
Caratteristiche di un SID

i sistemi informativi direzionali hanno la
caratteristica di essere alimentati da altri
sistemi quali ad esempio i sistemi
informativi aziendali oppure mediante
informazioni introdotte manualmente
dagli utenti finali.
Master MATIT
Sistemi Informativi Direzionali
4
Le informazioni trattate

informazioni fortemente aggregate.
– I SID devono fornire ai dirigenti aziendali dati
sintetici (indicatori gestionali)
• medie, ricavi globali,
– in certi intervalli temporali
• tempificate.
– in diverse dimensioni.
•
•
•
•
•
Master MATIT
Il tempo
la dimensione prodotto
dimensione processi
dimensione responsabilità
cliente, al fine di analizzare redditività, volume di affari e
bacino di utenza.
Sistemi Informativi Direzionali
5
Un nuovo ruolo

Il nuovo ruolo dell'Information
Technology (IT) aziendale è quello di
fornire al top management informazioni
rapide ed efficaci sulle quali basare le
decisioni strategiche
Master MATIT
Sistemi Informativi Direzionali
6
OLTP

On Line Transaction Processing
– Transazioni predefinite e di breve durata
– Dati dettagliati, recenti e aggiornati
– Dati residenti su un unico DB
– Read & write di pochi record
– Critiche le proprietà ACIDe
– Implementate su Main Frame
Master MATIT
Sistemi Informativi Direzionali
7
Sistemi direzionali
– Decisioni di tipo “tattico” e “strategico”
– Es.
• Quanti prodotti sono stati venduti nello scorso
anno per regione e categoria?
• Uno sconto tra il 10 ed il 20% potrebbe
aumentare le vendite di auto nel prossimo
bimestre?
– Su quali dati? Su quelli accumulati da
OLTP
Master MATIT
Sistemi Informativi Direzionali
8
Metodologia OLAP

L’obiettivo che si pone la metodologia
OLAP è quello di fornire un supporto
efficiente l’analisi delle informazioni
prendendo in considerazione più
variabili contemporaneamente (analisi
multi dimensionale dei dati).
Master MATIT
Sistemi Informativi Direzionali
9
OLAP

On Line Analytical Processing
– Interrogazioni complesse e casuali
– Dati storici e aggregati
– Dati provenienti da più DB eterogenei
– Moltissime operazioni di Read (nessuna di
write)
– Visualizzazione dei dati su PC
Master MATIT
Sistemi Informativi Direzionali
10
Cosa vuol dire OLAP (Codd)

“OLAP è il nome dato all’analisi dinamica
dell’impresa necessaria per
– creare, manipolare, animare e sintetizzare
informazioni
dai Data Models Aziendali.
 Questo processo consente di scoprire
– nuove relazioni tra le variabili,
– di identificare i parametri necessari alla gestione di
grosse quantità di dati,
– di creare un numero illimitato di dimensioni
– di specificare condizioni ed espressioni che
coinvolgono, contemporaneamente, più
dimensioni.
Master MATIT
Sistemi Informativi Direzionali
11
Da tener ben presente ….

I dati usati dai sistemi OLAP sono gli
stessi di quelli usati dai sistemi OLTP:
– quello che cambia nei due tipi di sistemi è
l’elaborazione compiuta sui dati.
.
Master MATIT
Sistemi Informativi Direzionali
12
OLTP

vs
Users: Impiegati
 Op. giornaliere
 Op. Correnti
 Op. Ripetitivo
 Trans. Breve
 Decine di record
acceduti per volta
 Migliaia di utenti
 100 MB – 1 GB
Master MATIT
OLAP

Users: dirigenti
 Supporto Decisioni
 Dati Storici
 Oper. Casuali
 Int. Complesse
 Milioni di record
acceduti
 Centinaia di utenti
 100 GB – 1 TB
Sistemi Informativi Direzionali
13
Cosa è un data warehouse?

Definizione (Inmon)
Un data warehouse è un data base
relazionale
–
–
–
–

Subject Oriented
Integrato
Non volatile
Time Variant
… progettato per “query and analysis”
– ---- invece che per l’elaborazione di transazioni.
Master MATIT
Sistemi Informativi Direzionali
14
Un DW

Contiene dati storici derivati dalle transazioni,
anche se può contenere dati di altra fonte
 Separa il carico dell’analisi da quello delle
transazioni
 Contiene, oltre ad un DB relazionale, moduli
di:
–
–
–
–
ETL (Extraction, Transformation Loading)
OLAP (On Line Analytical Processing)
Client analysis tools
Altre applicazioni per analisi dei dati e produzione
di rapporti a utenti “business”
Master MATIT
Sistemi Informativi Direzionali
15
Subject Oriented ….

Subject Oritented
– I DW sono progettati
per aiutarti ad
analizzare i tuoi dati
per i tuoi scopi …
Master MATIT

Chi è stato il nostro
miglior venditore di
aspirapolveri lo
scorso anno??
– Topic: “miglior
venditore di
aspirapolveri”: 
analisi orientata al
soggetto
Sistemi Informativi Direzionali
16
Integrated ….

Risoluzione dei
conflitti tra nomi e
dei problemi
derivanti dal fatto
che i dati si trovano
espressi in unità di
misure differenti.
Master MATIT

Nel DB della succursale
di Roma il Sig. Rossi ha
venduto 1000
aspirapolveri a 900.000
lire mentre nel DB della
filiale di NY, Mr Bush ha
venduto 900
aspirapolveri a $ 600 …
come confronto i dati?
Come risolvo i conflitti
tra nomi?
Sistemi Informativi Direzionali
17
Non volatile

I dati non variano
una volta entrati nel
warehouse …
 Il warehouse deve
analizzare ciò che è
accaduto
Master MATIT

Il Sig. Rossi ha
venduto 1000
aspirapolveri, ed ad
oggi è il RecordMan
di vendite
– Se tra mezz’ora Mr.
Bush ne vende altre
250, questa
informazione non
deve entrare nel WH
Sistemi Informativi Direzionali
18
Time Variant

La maggior parte
delle analisi per i
business sono
analisi di “trend”.
Per questo si ha
bisogno di una
grande mole di dati
storici.
Master MATIT

Voglio sapere negli
ultimi tre anni
l’andamento in
borsa della
Compagnia su
Milano, Londra e
Francoforte
Sistemi Informativi Direzionali
19
Considerazioni …..

Non interessa un singolo dato, ma dati
aggregati
– Somma, media, minimo, massimo

Le operazioni di aggregazione sono
fondamentali per popolare e mantenere un
Data Warehousing
 Le operazioni tipiche di un DW saranno:
– Accesso e interrogazione – diurne
– Caricamento e Aggiornamento dati – notturne

Su milioni di record
Master MATIT
Sistemi Informativi Direzionali
20
Considerazioni …

Esigenza di una base dati separata
perché
– Esistono diverse sorgenti di dati …
– sorgenti che devono essere integrate e
tecnicamente ciò non può essere fatto in
linea
– I dati da integrare devono essere aggregati
– Metodi di accesso specifici
– Degrado delle prestazioni
Master MATIT
Sistemi Informativi Direzionali
21
Architettura di un sistema direzionale
Data
Marts
Sorgenti dei dati
Magazzino dati
Area di
Staging
utenti
analisi
Acquisti
reporting
Sistemi di supporto
operativo
Vendite
mining
File piatti
Master MATIT
Inventario
Sistemi Informativi Direzionali
22
Rappresentazione dei Dati

Sorgenti informative… i DB preesistenti …
dipartimentali ….
– Vendita, promozione, marketing

DW: la base dati integrata con soggetti
comuni a tutta l’organizzazione
 Data Marts – componente del DW – soggetti
dipartimentali o settoriali selezionati
 Strumenti di analisi, focalizzati su un
problema in esame
Master MATIT
Sistemi Informativi Direzionali
23
Come viene popolato un DW

Attività
– Estrazione dei dati
• Dalle sorgenti informative
– Trasformazione
• Pulizia dei dati, trasformazione di formato, correlazione
con oggetti in sorgenti diverse
– Caricamento
• Con introduzione di informazione temporali e
generazione di dati aggregati
– Refresh
• Le stesse fasi eseguite incrementalmente

A supporto di queste attività sono mantenute
certe informazioni dette METADATI
Master MATIT
Sistemi Informativi Direzionali
24
Tecniche di Analisi dei dati

Un data warehouse viene costruito per fornire
un accesso facile a sorgenti contenenti una
grossa quantità di dati
– Si tratta allora di un mezzo per arrivare ad un fine.
– Quale è il fine? Effettuare analisi e prendere
decisioni a partire da quei dati.

Quali sono allora le tecniche di analisi dei dati
comunemente usate oggigiorno?
Master MATIT
Sistemi Informativi Direzionali
25
Classificazione Tecniche

Query and reporting
 Analisi multi dimensionale
 Data mining
Display, Analizza, Scopri
In funzione
dell’uso
DW
Data Mart
Master MATIT
Sistemi Informativi Direzionali
26
1) Query And Reporting

E’ il processo di
– Porre una interrogazione
– Rilevare dati fondamentali dal DW
– Trasformare i dati in un contesto
appropriato
– Porre i risultati in un formato leggibile
Master MATIT
Sistemi Informativi Direzionali
27
Q&R
Query
Definition
Data Access
and retrieval
Quanti aspirapolvere
Sono stai venduti dall’
10-9 al 16-9?
E quanti nel nostro
negozio di Agnano?
Answer Set
Calculation
manipulation
Report
Preparation
Report
Delivery
Master MATIT
Sistemi Informativi Direzionali
28
2) Analisi Multidimensionale
L’analisi dei dati viene eseguita sui dati
estratti dal DW o dal Data Mart e
rappresentata in forma multidimensionale.
 E’ basata di solito su

– Fatti:
• un concetto sul quale centrare l’analisi
– Misura:
• Una proprietà atomica di un fatto da analizzare
– Dimensione:
• Una prospettiva lungo la quale effettuare l’analisi

Esempio:
• Telefonata/Costo, durata/Chiamata, Chiamante, Tempo
Master MATIT
Sistemi Informativi Direzionali
29
Un Esempio

Un’azienda si occupa delle vendite di
determinati prodotti, per la quale sono
rilevanti tre dimensioni: prodotti, tempo
e mercati geografici.
– Per descrivere questa situazione si può
pensare ad un cubo, sulle cui dimensioni
geometriche riportiamo le dimensioni di
interesse dell’azienda
Master MATIT
Sistemi Informativi Direzionali
30
I punti di vista

il manager di prodotto
– è interessato alle vendite di un determinato prodotto in tutti i
mercati e in tutto il periodo di tempo preso in considerazione

l’analista finanziario
– è interessato ai risultati di vendita relativi a tutti i prodotti e
tutti i mercati in un determinato periodo temporale

il responsabile regionale
– ha bisogno di conoscere le vendite nel tempo di tutti i
prodotti disponibili sul mercato di sua competenza

l’analista di mercato
– può essere interessato alle vendite di un determinato
prodotto, su di un singolo mercato e relative ad un preciso
periodo temporale
Master MATIT
Sistemi Informativi Direzionali
31
Le prospettive …

Le prime tre prospettive sono ricavabili
fissando il valore di una delle tre dimensioni
e aggregando i dati lungo le rimanenti due
– Ciò
corrisponde
ad
una
visualizzazione
bidimensionale, tipo foglio elettronico.

L’ultima prospettiva, quella dell’analista di
mercato, si ottiene fissando un intervallo su
ognuna delle tre dimensioni
– Un cubo
Master MATIT
Sistemi Informativi Direzionali
32
Master MATIT
Sistemi Informativi Direzionali
33
Approcci all’OLAP

L’insieme dei dati da navigare è archiviato su
una struttura dati a matrice dove sono
registrate tutte le sintesi statistiche degli
incroci multidimensionali possibili
– il viewer in questo caso chiede i dati direttamente
al database multidimensionale

insieme dei dati su cui navigare è registrato
su una o più tabelle relazionali;
– i dati, in questo caso, sono acceduti tramite query
– su di essi, vengono effettuate le sintesi
necessarie per la visualizzazione dei risultati.
Master MATIT
Sistemi Informativi Direzionali
34
Rappresentazione multidimensionale
Mercati
Quantità
Prodotti
Periodi di tempo
Master MATIT
Sistemi Informativi Direzionali
Vendite
35
ROLAP

La R sta per relazionale
– ed indica la caratteristica peculiare di estrazione
dati da una strutture dati di tipo relazionale (una o
più tabelle in formato riga-colonna).

vantaggio
– dati acceduti sono sempre gli ultimi disponibili.
• Esiste una classe di strumenti che è in grado di
recuperare i dati dalle tabelle e sintetizzarli.

svantaggio
– risiede, invece, nel fatto che una volta usciti dal
viewer i dati di sintesi si perdono e quindi per
riaccedervi è necessario rieseguire le
estrazioni e le sommarizzazioni.
Master MATIT
Sistemi Informativi Direzionali
36
MOLAP

indica l’esistenza di una struttura per dati
multi dimensionali.
– il viewer chiede i dati direttamente a questa
struttura, la quale li ha già memorizzati secondo le
dimensioni,

Vantaggio
– in questo caso sono i tempi di risposta.

svantaggio
– il Multidimensional Data Base deve essere
allineato all’aggiornamento dei dati di base dal
quale viene generato.
Master MATIT
Sistemi Informativi Direzionali
37
Una nota sul MOLAP

Il Gartner Group, sostenitore dell’approccio
MOLAP, ha affermato in una Research Note
che i database multidimensionali
permettono di concentrarsi sulla business
view,
– ovvero sugli aspetti più propriamente aziendali

…. mentre i tradizionali database relazionali
richiedono la cosiddetta system view,
– impedendo, di fatto, un’interazione diretta dei
responsabili aziendali poco pratici in materia
Master MATIT
Sistemi Informativi Direzionali
38
La soluzione MOLAP

Ha
come
perno
multidimensionale,
il
concetto
di
array
– tecnica per la riorganizzazione e la memorizzazione di dati
aggregati, in modo che possano essere analizzati da più
prospettive.

Un array multidimensionale è costituito da un insieme
di celle di dati,
– ciascuna delle quali contiene il valore assunto da una
specifica misura, trovato in base alla formula di calcolo e alle
dimensioni che determinano il processo di aggregazione.

In tale struttura, ciascuna dimensione funge da indice
per l’individuazione di un insieme di celle di dati,
eventualmente composto da un singolo elemento
Master MATIT
Sistemi Informativi Direzionali
39
Un esempio di MOLAP 2D
1° TRIM.
2° TRIM.
3° TRIM.
4° TRIM.
PROD. A
100
110
96
94
PROD. B
200
203
174
88
PROD. C
45
49
35
56
PROD. D
78
88
69
71
Master MATIT
Sistemi Informativi Direzionali
40
Ovvero ….

L' esempio riportato in tabella corrisponde
essenzialmente alla gestione dei dati
caratteristica dei fogli elettronici.
 Nell’esempio le dimensioni considerate sono
la dimensione prodotto e la dimensione
tempo, la misura riguarda le vendite dei
prodotti e la formula di aggregazione consiste
nel calcolo del numero totale di unità
vendute.
Master MATIT
Sistemi Informativi Direzionali
41
Individuazione degli elementi

fissando uno specifico prodotto ed uno specifico
trimestre
– si individua la cella che riporta il numero totale di unità
vendute di quel prodotto in quel periodo.

fissando, un valore su una sola delle due dimensioni
– si ha accesso a tutti i dati relativi al valore fissato lungo tutta
la dimensione su cui non è stato specificato un attributo.

volendo determinare il numero totale di unità vendute
del prodotto A in tutto l’anno
– è sufficiente accedere all’array fissando l’attributo PROD. A
e sommando i valori presenti su tutta la riga selezionata.
Master MATIT
Sistemi Informativi Direzionali
42
Operazioni sui dati Multidimensionali

Roll Up
– Aggregazione dei dati
• Es. volume di vendita totale dello scorso anno per categoria e
regione

Drill down
– Disaggregazione dei dati
• Es. mostra le vendite giornaliere e dettagliate di ciascun
negozio per una certa categoria di prodotti

Slice & Dice
– Proiezione su un piano
• Solitamente bidimensionale

Pivot
– Riorientamento del cubo
Master MATIT
Sistemi Informativi Direzionali
43
Roll Up
Ovvero ….
vendite
Europa
Asia
Regione
Città
Nord America
Regione
Città
Impiegato
Città
Impiegato
Drill Down
Master MATIT
Sistemi Informativi Direzionali
44
Dimensional Fact Model (DFM)

E’ un modello concettuale grafico per DW.
– La rappresentazione generata dal DFM è detta
Dimensional Scheme (DS) e consiste in un
insieme di Fact Scheme (FS).
– Il DFM è indipendente dal modello logico target
(multidimensionale o relazionale).
– FS compatibili possono essere sovrapposti per
mettere in relazione e comparare dati.
– I FS possono essere integrati con informazioni sul
carico di lavoro, da usarsi come input per il
progetto logico.
Master MATIT
Sistemi Informativi Direzionali
45
Fact Scheme

I componenti di base dei FS sono fatti,
dimensioni e gerarchie.
– Un fatto è un evento di interesse per l’ impresa ed
è descritto da un insieme di misure.
– Una dimensione determina la granularità di
rappresentazione dei fatti.
– Una gerarchia determina come le istanze di fatto
possono essere aggregate e selezionate in modo
significativo per il processo decisionale.
Master MATIT
Sistemi Informativi Direzionali
46
Fatti : associazioni molti a molti
Master MATIT
Sistemi Informativi Direzionali
47
Il Dimensional Fact Model

Le misure sono attributi a valori continui tipicamente numerici
che descrivono il fatto da diversi punti di vista.
– Ad esempio, ogni vendita è misurata dal suo incasso.

Le dimensioni sono attributi discreti che definiscono la la
granularità minima di rappresentazione dei fatti
– dimensioni tipiche per il fatto vendite sono prodotto, negozio, data.

Le gerarchie (una per ciascuna dimensione) sono costituite da
attributi discreti collegati da associazioni -to-one.
– La gerarchia sulla dimensione prodotto include ad esempio gli
attributi tipo di prodotto, categoria, dipartimento, ecc.

Alcuni attributi, rappresentati da una linea, sono detti attributi
non dimensionali e non possono essere utilizzati per aggregare i
dati.
Master MATIT
Sistemi Informativi Direzionali
48
Modellazione dei dati: Star Schema



individuazione delle variabili oggetto dell’analisi
corrente
per ciascuna di queste variabili devono essere
definite le misure e, per ciascuna misura, le
dimensioni ad essa associata che, ricordiamo,
determinano il tipo e il livello del processo di
aggregazione.
scelta degli attributi di ciascuna dimensione che
devono essere memorizzati nella tabella associata.
– Questa scelta determina il livello di dettaglio con cui viene
descritta la misura e la gerarchia di aggregazione nella
dimensione.
Master MATIT
Sistemi Informativi Direzionali
49
Modello logico Relazionale

Lo star schema prevede una tabella centrale, detta Fact
Table, che determina l’oggetto dello studio e più tabelle di
appoggio, denominate Dimensional Table, che
rappresentano le dimensioni utilizzate per l’analisi.
– La chiave della FT è composta dalle chiavi delle varie DT.
– Le sottoparti della chiave della FT sono chiavi importate delle DT.
– Esiste una relazione di tipo 1-a-n tra le Dimension Table e la Fact
Table

L’accesso ai dati avviene tramite join tra le Dimension
Table e la Fact Table
Master MATIT
Sistemi Informativi Direzionali
50
Esempio
Master MATIT
Sistemi Informativi Direzionali
51
Esempio di Query
Master MATIT
Sistemi Informativi Direzionali
52
Star Schema: osservazioni

Le Dimension Table sono completamente
denormalizzate.
– Si riduce il numero di join necessari
– Ma …
• Aumenta la dimensione delle tabelle
• La Fact Table contiene tuple relative a diversi livelli di
aggregazione

L’elevata dimensione della Fact Table incide sui
tempi di accesso
– Non si hanno problemi di sparsità in quanto vengono
memorizzati soltanto le tuple corrispondenti a punti
dello spazio multi-dimensionale per cui esistono le
informazioni
Master MATIT
Sistemi Informativi Direzionali
53
DENORMALIZZAZIONE

Nei casi pratici il numero di
– variabili da controllare
– delle misure per ciascuna variabile
– delle dimensioni associate a ciascuna misura

sono molto più elevati
– …. ciò comporta una proliferazione notevole del numero
delle tabelle
• sia di quelle associate alle dimensioni, sia di quelle associate
alle misure.

Poiché i dati aggregati memorizzati nelle tabelle delle
misure non sono soggetti a ripetizione, tali tabelle
sono normalizzate
– laddove quelle delle dimensioni sono normalmente
denormalizzate, dovendo memorizzare tutti gli attributi di
ogni livello di aggregazione implementato.
Master MATIT
Sistemi Informativi Direzionali
54
LO SCHEMA A FIOCCO DI NEVE
(snowflake)

La variante nota con il termine schema a
fiocco di neve consiste nella suddivisione
delle tabelle delle dimensioni a livello degli
attributi di aggregazione
 Si ottiene normalizzando una o più
dimensioni dello star schema
– il che consente di avere un numero di tabelle
maggiori ma di piccole dimensioni e normalizzate
– con conseguente semplicità di gestione in fase di
popolazione ed aggiornamento delle tabelle
Master MATIT
Sistemi Informativi Direzionali
55
Lo snowflake schema

Si riduce la dimensione e la cardinalità
delle Dimension Table
– Ogni Fact Table conterrà solo informazioni
a particolari livelli di aggregazione
– È necessario un modulo del DBMS
(Aggregation Navigator) che, per ogni
query, decida a quale fact table accedere
Master MATIT
Sistemi Informativi Direzionali
56
esempio
Master MATIT
Sistemi Informativi Direzionali
57
Come fare le interrogazioni?

In linea di principio, la popolazione di uno star
schema può essere effettuata ricorrendo al
linguaggio SQL standard:
– questa soluzione, però, è estremamente complicata e
dispendiosa in termini di tempo, in quanto, per ciascuna
misura, bisogna considerare alternativamente ogni
dimensione e applicare esplicitamente la formula di
aggregazione desiderata (conteggio, somma, media, etc.).

Per tale motivo, le applicazioni ROLAP utilizzano
tecniche proprietarie per la popolazione e
l’aggiornamento degli star schema, tecniche che si
basano su opportune estensioni del linguaggio SQL.
Master MATIT
Sistemi Informativi Direzionali
58
3) DATA MINING

Discovery Technique
– E’ una tecnica di analisi dei dati
relativamente nuova
– Non effettua query ma usa algoritmi
specifici che analizzano i dati e riportano
quanto scoperto
• Trova relazioni tra certi dati, attraverso tecniche
di clusterizzazione
Master MATIT
Sistemi Informativi Direzionali
59
Cosa è il DM

Col termine data mining si indicano una serie
di tecniche atte ad individuare delle relazioni
tra dati non esplicitamente rappresentate ed
inattese.
– Il processo di analisi comincia acquisendo
conoscenza a partire da un certo campione di dati
via via più ampio assumendo che le caratteristiche
di un ampio set di dati sono simili a quelle di un
campione limitato
Master MATIT
Sistemi Informativi Direzionali
60
PREDICTIVE MODELING

questa tecnica cerca di ripercorrere i processi
di apprendimento umani costruendo un
modello che descriva le più importanti
caratteristiche di un certo fenomeno.
– Il modello viene costruito in due fasi:
• Training set: costruisce il modello a partire da un grosso
campione di dati storici;
• Testing set: verifica il modello cercando di predire i dati
non visti precedentemente;
Master MATIT
Sistemi Informativi Direzionali
61
Le tecniche di PM

Classificazione
– mediante alberi decisionali e reti neurali possono
essere individuati record di particolari aggregati
comportamentali

Value prediction
– mediante modelli di regressione statistici lineari o
non, viene effettuata la previsione futura per un
certo aggregato di dati.
• La tecnica è simile alla tecnica di interpolazione utilizzata
in analisi numerica ed è relativamente semplice da
utilizzare
Master MATIT
Sistemi Informativi Direzionali
62
DATABASE SEGMENTATION

Lo scopo è partizionare il database in
cluster di record omogenei (aventi cioè
proprietà comuni) al fine di individuare
dei profili di sub-popolazioni di dati
presenti nel database.
– Fanno largo uso di queste tecniche quelle
applicazione orientate a definire profili di
utenza, marketing etc.
Master MATIT
Sistemi Informativi Direzionali
63
DEVIATION DETECTION

Tendono ad individuare entità che si
discostano dalle previsioni effettuate
mediante modelli statistici.
– Queste tecniche possono fare uso di
strumenti di visualizzazione grafica che
possono riportare gli aggregati del modello
ed i loro complementi
Master MATIT
Sistemi Informativi Direzionali
64
Analisi dei dati
Guidata dall’
Analista
Query and reporting
Master MATIT
Assistita dall’
Analista
Analisi
Multidimensionale
Sistemi Informativi Direzionali
Data
Driven
Data
Mining
65
L’importanza del modeling

Il tipo di analisi fatto per un DW può
determinarne
– Il tipo
– Il contenuto
• Summarization, Metadati espliciti: Q&R,
MOLAP
• Drilling Down, Rolling UP: MOLAP
• Basso livello di dettaglio: Data Mining
Master MATIT
Sistemi Informativi Direzionali
66
Architetture di DW e Scelte
implementative

Cosa è un Data Mart
– Un DW più piccolo che funziona
indipendentemente o può essere interconnesa per
formare un warehouse integrato
• “Un data mart è un sottoinsieme di un DW che assiste un
particolare dipartimento o una particolare funzione
direzionale”.
• memorizza un sottoinsieme dei dati del DW normalmente
in forma molto aggregata utile ad un particolare
dipartimento direzionale
Master MATIT
Sistemi Informativi Direzionali
67
Data Mart: Architettura
Monitoraggio & Amministrazione
Sorgenti
esterne
Metadati
Data
Warehouse
Basi di dati
operazionali
Strumenti di analisi
Analisi
dimensionale
Visualizzazione
Sorgenti dei dati
Master MATIT
Data mining
Data Mart
Sistemi Informativi Direzionali
68
Data Mart vs Data Warehouse
Un data mart contiene meno
informazioni e quindi è più facile
navigare in essi
 Un data mart non contiene dati operativi
 Un data mart si focalizza solo sui
requisiti di un particolare dipartimento

Master MATIT
Sistemi Informativi Direzionali
69
Perché un Data Mart

Essi permettono agli utenti un accesso rapido
alle informazioni usate da loro più
frequentemente
– migliorando i tempi di risposta del sistema
(essendo diminuito il volume dei dati da visitare).

Forniscono strutture dati appropriate ad
esigenze specifiche agevolando le tecniche di
data mining.
 Il costo per la creazione e la gestione di un
data mart è normalmente più basso di quello
di un DW
Master MATIT
Sistemi Informativi Direzionali
70
Data Mart: caratteristiche


Scalabilità;
Dimensioni:
– devono garantire tempi di risposta più brevi rispetto ad un
DW
• Rapporto tra la loro crescita e le loro performance;


Le Viste logiche di diversi data mart fisici hanno il
nome di virtual data marts;
Le tecnologie di networking sono intimamente legate
ai data marts
– Al crescere del numero di data marts cresce l’esigenza di
avere un management centralizzato degli stessi al fine di
coordinarne l’attività e mantenerne la consistenza
Master MATIT
Sistemi Informativi Direzionali
71