Analisi dei dati

Basi di Dati e Sistemi Informativi
Analisi dei Dati:
OLAP, Data Warehousing, Data Mining
Giuseppe Loseto
Corso di Laurea in Ing. Informatica – Ing. Gestionale Magistrale
1 of 12
Analisi dei Dati Introduzione
• La maggior parte delle aziende dispone di enormi basi di
dati contenenti dati di tipo operativo
• potenziale miniera di informazioni utili
• Sistemi per il supporto alle decisioni permettono di
• analizzare lo stato dell’azienda
• prendere decisioni rapide e migliori
Basi di Dati e
Sistemi Informativi
Analisi dei dati
2 of 12
Elaborazione Dati
Modalità tradizionale di uso dei DBMS
•
•
•
•
•
•
•
istantanea del valore corrente dei dati
dati dettagliati, rappresentazione relazionale
operazioni strutturate e ripetitive
accesso in lettura o aggiornamento di pochi record
transazioni brevi
isolamento, affidabilità e integrità sono critici
dimensione della base di dati » 100MB-GB
Basi di Dati e
Sistemi Informativi
Analisi dei dati
3 of 12
Analisi dei Dati
Elaborazione dei dati per il supporto alle decisioni
dati di tipo “storico”
dati consolidati e integrati
applicazioni ad hoc
accesso in lettura a milioni di record
interrogazioni di tipo complesso
consistenza dei dati prima e dopo le operazioni di
caricamento periodico
• dimensione della base di dati » 100GB-TB
•
•
•
•
•
•
Basi di Dati e
Sistemi Informativi
Analisi dei dati
4 of 12
Dall’OLTP all’OLAP
 La tecnologia delle basi di dati è finalizzata prevalentemente
alla gestione dei dati in linea, si parla di OnLine Transaction
Processing (OLTP)
 I dati disponibili possono essere utilizzati anche nella
pianificazione
 Un’analisi dei dati passati e presenti può essere utile per la
programmazione delle attività future dell’impresa
 Si parla in questo caso di On Line Analytical Processing
(OLAP)
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Dall’OLTP all’OLAP
 Data warehouse (magazzino dei dati), in cui sono contenuti
dati che, opportunamente analizzati possono fornire un
supporto alle decisioni
 I sistemi OLTP forniscono i dati per l’ambiente OLAP, sono
cioè una sorgente di dati (data source) per tale ambiente
 Tra i due sistemi cambia la tipologia di utente:
 terminalisti (OLTP)
 analisti (OLAP)
Basi di Dati e
Sistemi Informativi
Analisi dei dati
6 of 12
Sistemi OLTP e OLAP
OLTP
OLAP
terminalisti
A
1
A
2
DBMS
analisti
A
DB
Terminalisti: utenti finali. Possono
eseguire operazioni di lettura e di
scrittura
Basi di Dati e
Sistemi Informativi
A
2
A
DWMS
DW
A
1
n
n
Analisti: occupano posizioni di alto livello
nell’impresa e svolgono attività di
supporto alle decisioni.
Analisi dei dati
OLTP vs OLAP
OLTP
OLAP
Gestione dei dati
Analisi dei dati
Operazioni
Set ben definito
Operazioni non previste nella
progettazione del DB (sistemi di
supporto alle decisioni)
Dati
Limitata quantità di dati coinvolti,
bassa complessità
Grosse moli di dati
Sorgenti Dati
DB singolo
DB eterogenei e distribuiti
Variabilità
Continuo aggiornamento dei dati,
stato del sistema in tempo reale
Dati storici aggiornati ad intervalli
regolari
Proprietà ACID
Rispettate
Non rilevanti, operazioni di sola
lettura
Finalità
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Caratteristiche dei Data warehouse
 Utilizzano dati provenienti da più DB eterogenei
 I meccanismi di importazione sono di tipo asincrono e
periodico
 Non vengono penalizzate le prestazioni delle data source
 La warehouse non contiene dati perfettamente allineati con il
flusso di transazioni negli OLTP
 Problema legato alla qualità dei dati: la semplice raccolta di
dati può non essere sufficiente per una corretta analisi
 Il DW ha una esistenza autonoma
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Architettura di un
DataWarehouse (1/6)
Export dei dati
operano nella
DW
Data mining
DW
Accesso ai Dati
Analisi
Allineamento dei Dati (refresh)
Acquisizione dei Dati
operano nelle
data source
Alimentazione
Export
Data Filter
Data Source
Basi di Dati e
Sistemi Informativi
Analisi dei dati
10 di 36
Architettura di un
DataWarehouse (2/6)
Data Source
Possono essere di qualsiasi tipo, anche raccolte di dati
non gestite tramite DBMS oppure gestite da DBMS di
vecchia generazione (legacy system).
Controlla la correttezza dei dati prima dell’inserimento
nella warehouse.
Data Filter
Può eliminare dati scorretti e rilevare o correggere
eventuali inconsistenze tra dati provenienti da più data
source.
Viene fatta la pulizia dei dati (data cleaning) necessaria
ad assicurare un buon livello di qualità.
Export
Basi di Dati e
Sistemi Informativi
L’esportazione dei dati avviene in maniera incrementale:
il sistema colleziona solo le modifiche (inserzioni o
cancellazioni) delle data source.
Analisi dei dati
11 di 36
Architettura di un
DataWarehouse (3/6)
Acquisizione dei Dati (loader)
 E’ responsabile del caricamento iniziale dei dati nella DW
 Predispone i dati all’uso operativo, svolge operazioni di ordinamento,
aggregazione e costruisce le strutture dati della warehouse
 Le operazioni di acquisizione vengono svolte a lotti (in batch), quando la
DW non è utilizzata
 In applicazioni con pochi dati il modulo è invocato periodicamente per
acquisire tutto il contenuto della DW
 In genere, invece, i dati vengono allineati in modo incrementale,
utilizzando il modulo di allineamento dei dati
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Architettura di un
DataWarehouse (4/6)
Allineamento dei Dati (refresh)
 Propaga incrementalmente le modifiche della data source in modo da
aggiornare il contenuto della DW
 L’aggiornamento può essere effettuato tramite:
 invio dei dati (data shipping)
 inseriti dei trigger che registrano cancellazioni,
inserimenti e modifiche (coppie inserimentocancellazione)
 invio delle transazioni (transaction shipping)
 viene usato il log delle transazioni
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Archivi
Variazionali
Architettura di un
DataWarehouse (5/6)
Accesso ai Dati
 E’ il modulo che si occupa dell’analisi dei dati
 Realizza in maniera efficiente interrogazioni complesse, caratterizzate da join tra
tabelle, ordinamenti e aggregazioni complesse
 Consente nuove operazioni sui dati: roll up - drill down - data cube
Data mining
 Tecniche algoritmiche che consentono di fare deduzioni sui dati
 Consente di svolgere ricerche sofisticate sui dati e di esplicitare relazioni
“nascoste” tra i dati
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Architettura di un
DataWarehouse (6/6)
Export dei dati
 Consente l’esportazione dei dati da una DW ad un’altra (architettura
gerarchica)
Moduli di ausilio alla progettazione e gestione di una DW:
 un componente per l’assistenza allo sviluppo della DW, che permette di
facilitare le definizione dello schema dei dati e i meccanismi per
l’importazione dei dati
 un dizionario dei dati, che descrive il contenuto della DW, utile per
comprendere quali analisi dei dati possono essere eseguite (glossario)
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Schema di un DataWarehouse
 Nel costruire una DW aziendale ci si concentra su sottoinsiemi
molto semplici dei dati aziendali che si vogliono analizzare
(dati dipartimentali)
 Ogni schema semplificato dei dati dipartimentali prende il
nome di data mart
 L’organizzazione dei dati di un data mart avviene secondo uno
schema multidimensionale
 Fatto – concetto del sistema informativo su cui svolgere analisi
 Misura – proprietà di un fatto
 Dimensione – prospettiva lungo la quale viene fatta l’analisi
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Realizzazione di un DW
 Relational OLAP (ROLAP)
 Tabelle ed SQL
 Grandi aziende
 Multidimensional OLAP (MOLAP)
 Dati memorizzati direttamente in forma
multidimensionale
 Piccole Aziende
Basi di Dati e
Sistemi Informativi
Analisi dei dati
17 of 12
Rappresentazione relazionale
di un DW - Schema a stella
Diverse unità poste a
raggiera intorno ai
fatti rappresentano le
dimensioni dell’analisi
prodotto
Unità centrale
rappresenta i fatti
(0,N)
(1,1)
(0,N)
supermercato
(1,1)
(1,1)
Vendita
(1,1)
(0,N)
tempo
Basi di Dati e
Sistemi Informativi
Analisi dei dati
(0,N)
promozione
Schema a stella: caratteristiche
 Varie relazioni uno a molti collegano ciascuna occorrenza di
fatto con una ed una sola occorrenza di ciascuna delle
dimensioni
 Il fatto ha una chiave composta da attributi chiave delle
dimensioni
 La struttura è regolare e indipendente dal problema
considerato
 Occorrono almeno due dimensioni altrimenti il problema
degenera in una semplice gerarchia uno-molti
 Un numero elevato di dimensioni è sconsigliato perché la
gestione dei fatti e l’analisi si complicano
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Schema a stella
Prodotto: CodProd
Ciascuna occorrenza di vendita ha
per identificatore i quattro codici:
CodProd
CodMarket
CodPromo
CodTempo
Gli attributi non chiave sono Amm e
Qta.
•Nome
•Categoria
•Marca
•Peso
•Fornitore
(0,N)
•Nome
•Città
•Regione
•Zona
•Dimensioni
•Disposizione
(0,N)
(1,1)
Vendita
•Amm
•Qta
(1,1)
(0,N)
Tempo: CodTempo
Basi di Dati e
Sistemi Informativi
Promozione:
CodPromo
(1,1)
Supermercato:
CodMarket
•GiornoSett
•GiornoMese
•GiornoAnno
•SettimanaMese
•SettimanaAnno
Analisi dei dati
•MeseAnno…
(1,1)
(0,N)
•Nome
•Tipo
•Percentuale
•FlagCoupon
•DataInizio
•DataFine
•Costo
•Agenzia
Ogni occorrenza di
vendita è un dato
aggregato
Schema a stella
 Nella dimensione del tempo sono presenti dati derivati e
ridondanze
 Le ridondanze servono per facilitare le operazioni di analisi
dei dati
 I fatti sono in forma normale di Boyce-Codd in quanto ogni
attributo non chiave dipende funzionalmente dalla sua unica
chiave
 Le dimensioni sono in genere relazioni non normalizzate, si
evitano operazioni di join
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Schema a fiocco di neve
Normalizzazione di
(0,N)
Fornitore
(1,1)
Prodotto
uno schema a stella
(1,1)
(0,N)
Categoria
(0,N)
(1,1)
(0,N)
Supermercato
(1,1)
(1,1)
(0,N)
(0,N)
Città
(1,1)
(0,N)
Regione
(1,1)
(0,N)
Basi di Dati e
Sistemi Informativi
(1,1)
Vendita
Zona
(0,N)
Promozione
Giorno
(1,1)
(0,N)
Mese
(1,1)
(0,N)
Analisi dei dati Anno
Tale schema
rappresenta in modo
esplicito le gerarchie,
riducendo così le
ridondanze e le
anomalie
Rappresentazione Multidimensionale
(Cube)
I„ fatti di interesse sono rappresentati in cubi
in cui:
• ogni cella contiene misure numeriche che quantificano il
fatto da diversi punti di vista;
• ogni asse rappresenta una dimensione di interesse per
l’analisi;
• ogni dimensione può essere la radice di una gerarchia di
attributi usati per aggregare i dati memorizzati nei cubi
base.
Basi di Dati e
Sistemi Informativi
Analisi dei dati
23 of 12
Rappresentazione Multidimensionale
(Cube)
Tablet
Quantità
Fotocamera
Di fotocamere
vendute
Smartphone
In toscana ad
aprile
Televisore
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Analisi dei dati: operazioni
 Interfaccia standard di formulazione delle query
 Roll up - aggregazione dei dati
 Drill down - disaggregazione di dati
 Slice-and-dice - selezione di un sottoinsieme di celle
 L’analisi dei dati di un data mart organizzato richiede l’estrazione di
un sottoinsieme dei fatti e delle dimensioni
 Le dimensioni vengono usate per selezionare i dati e per
raggrupparli
 I fatti vengono tipicamente aggregati
 È possibile costruire moduli predefiniti per estrarre i dati in cui si
offrono scelte predefinite (selezioni, aggregazioni,valutazioni di
funzioni aggregate)
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Interfaccia Standard di
formulazione delle Query
Promozione.Nome
Prodotto.Nome
Tempo.Mese
3x2
Coupon 15%
SuperSaver
Vino
Pasta
Olio
Gen … Dic
SuperSaver
Pasta … Olio
Feb … Apr
Prodotto.Nome
Tempo.Mese
Amm
Schema
Opzioni
Attributi delle dimensioni:
•Promozione
Condizioni
sum
sum
•Tempo
Analisi dei dati
Vista
Attributi dei Fatti:
• Aggregati (SUM)
•Prodotto
Basi di Dati e
Sistemi Informativi
Qta
Interfaccia Standard di
formulazione delle Query
Promozione.Nome
Prodotto.Nome
Tempo.Mese
3x2
Coupon 15%
SuperSaver
Vino
Pasta
Olio
Gen … Dic
SuperSaver
Pasta … Olio
Feb … Apr
Prodotto.Nome
Tempo.Mese
Qta
Amm
Schema
Opzioni
Condizioni
sum
sum
Vista
select Tempo.Mese, Prodotto.Nome, sum(Amm), sum(Qta)
from Vendite, Tempo, Prodotto
where Vendite.CodTempo = Tempo.CodTempo
and Vendite.CodProdotto = Prodotto.CodProdotto
and (Prodotto.Nome = ‘Pasta’ or Prodotto.Nome = ‘Olio’)
and Tempo.Mese between ‘Feb’ and ‘Apr’
and Promozione.Nome = ‘SuperSaver’
group by Tempo.Mese, Prodotto.Nome
order by Tempo.Mese, Prodotto.Nome
Basi di Dati e
Sistemi Informativi
Tempo.mese
Analisi dei dati
Prodotto.nome
sum(Amm)
sum(Qta)
Drill-down e Roll-up
 Il drill down permette di aggiungere una dimensione di
analisi disaggregando i dati
 Il roll up dualmente consente di eliminare una dimensione di
analisi aggreagando i dati
 L’operazione di roll up può essere fatta agendo sui risultati
dell’interrogazione
 L’operazione di drill down richiede la riformulazione
dell’interrogazione (servono dati non presenti
nell’interrogazione)
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Drill-down e Roll-up: Esempio
Prodotto.Nome
Tempo.Mese
Vino
Pasta
Olio
Gen … Dic
Pasta
Feb … Apr
Prodotto.Nome
Tempo.Mese
Schema
Opzioni
somma delle
quantità vendute
di pasta nel
trimestre Feb-Apr
Basi di Dati e
Sistemi Informativi
Qta
Condizioni
sum
Vista
Tempo.mese
Prodotto.Nome Sum(Qta)
Feb
Pasta
46 Kg
Mar
Pasta
50 Kg
Apr
Pasta
51 Kg
Analisi dei dati
Drill-down: Esempio
Il manager è interessato
alle vendite per zona:
Drill down on Zona
Tempo.mese
Prodotto.Nome Sum(Qta)
Feb
Pasta
46 Kg
Mar
Pasta
50 Kg
Apr
Pasta
51 Kg
Tempo.mese Prodotto.Nome Zona
Sum(Qta)
Feb
Pasta
Nord
18
Feb
Pasta
Centro
15
Feb
Pasta
Sud
13
Mar
Pasta
Nord
18
Mar
Pasta
Centro
18
Mar
Pasta
Sud
14
Apr
Pasta
Nord
18
Apr
Pasta
Centro
17
Pasta
Sud
16
Analisi dei
dati
Basi
Aprdi Dati e
Sistemi Informativi
Roll-up: Esempio
Tempo.mese Prodotto.Nome Zona
Sum(Qta)
Feb
Pasta
Nord
18
Feb
Pasta
Centro
15
Feb
Pasta
Sud
13
Mar
Pasta
Nord
18
Mar
Pasta
Centro
18
Mar
Pasta
Sud
14
Apr
Pasta
Nord
18
Apr
Pasta
Centro
17
Apr
Pasta
Sud
16
Basi di Dati e
Sistemi Informativi
Il manager è
interessato solo
alla suddivisione
delle vendite per
zona:
Roll up on Mese
Zona
Prodotto.Nome Sum(Qta)
Nord
Pasta
54 Kg
Centro
Pasta
50 Kg
Sud
Analisi dei dati
Pasta
43Kg
Slice-and-dice
 Seleziona un sottoinsieme delle celle del un cubo, ottenuta
“affettando e tagliando” a cubetti il cubo stesso.
 Seleziona e proietta riducendo la dimensionalità dei dati
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Slice-and-dice
Il manager vuole
effettuare un’analisi
relativa alle vendite in
tutti i periodi nella
zona Roma-2
Luogo
Articolo
Tempo
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Slice-and-dice
Il manager di prodotto
esamina la vendita di un
particolare prodotto in
tutti i periodi e in tutti i
mercati
Luogo
Articolo
Tempo
Basi di Dati e
Sistemi Informativi
Analisi dei dati
34 di 36
Slice-and-dice
Il manager finanziario
esamina la vendita di tutti
i prodotti in tutti i mercati
relativamente ad un
particolare periodo
Luogo
Articolo
Tempo
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Slice-and-dice
Il manager strategico
si concentra su una
categoria di prodotti,
una area regionale e
un orizzonte
temporale medio
Luogo
Articolo
Tempo
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Data Mining - Definizioni
Estrazione complessa di informazioni implicite dai
dati, precedentemente sconosciute e
potenzialmente utili
Esplorazione e analisi, per mezzo di sistemi
automatici e semi-automatici, di grandi quantità di
dati al fine di scoprire pattern significativi
Basi di Dati e
Sistemi Informativi
Analisi dei dati
37 of 12
Data mining
 Ricerca di informazioni “nascoste” e utili all’interno
delle DW
 Esempi di utilizzo:
 analisi di mercato (individuazione di oggetti
acquistati assieme o in sequenza)
 analisi di comportamento (frodi o usi illeciti delle
carte di credito)
 analisi di previsione (costo futuro delle cure
mediche)
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Origini
Questa disciplina trae ispirazioni dalle aree del machine
learning/intelligenza artificiale, pattern recognition,
statistica e basi di dati
Le tradizionali tecniche di analisi risultano inidonee per
molteplici motivi
• Quantità dei dati
• Elevata dimensionalità dei dati
• Eterogeneità dei dati
Basi di Dati e
Sistemi Informativi
Analisi dei dati
39 of 12
Data Mining: Confluenza di Discipline
Ricerca
Operativa
Database
Technology
Statistica
Data
R
Mining
i
c
e
Informatica
-modelli adeguati
-algoritmi efficienti
-gestione delle informazioni evoluta
-presentazione dei risultati fruibile
.
Basi di Dati e
Sistemi Informativi
Analisi dei dati
40 of 12
Fasi del processo di data mining
1. Comprensione del dominio
2. Preparazione sul set di dati: individuazione di un
sottoinsieme dei dati della DW su cui effettuare il mining e
loro codifica (input algoritmo)
3. Scoperta dei pattern: ricerca e individuazione di pattern
ripetitivi tra i dati
4. Valutazione dei pattern: partendo dai pattern scoperti si
valutano quali esperimenti compiere successivamente e quali
ipotesi formulare o quali conseguenze trarre
5. Utilizzo dei risultati: prendere decisioni operative a seguito
del processo di data mining (allocazione merci, concessione
credito)
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Pattern
Rappresentazione sintetica e ricca di semantica di un
insieme di dati; esprime in genere un modello
ricorrente nei dati
Un pattern deve essere:
•Valido sui dati con un certo grado di confidenza
•Comprensibile dal punto di vista sintattico e
semantico, affinché l‘utente lo possa interpretare
•Precedentemente sconosciuto e potenzialmente
utile, affinché l’utente possa intraprendere azioni di
conseguenza
Basi di Dati e
Sistemi Informativi
Analisi dei dati
42 of 12
Tipi di pattern
Regole associative - consentono di determinare le regole di implicazione
logica presenti nella base di dati, quindi di individuare i gruppi di affinità tra
oggetti
Classificatori- consentono di derivare un modello per la classificazione di
dati secondo un insieme di classi assegnate a priori
Alberi decisionali- sono particolari classificatori che permettono di
identificare, in ordine di importanza, le cause che portano al verificarsi di un
evento
Clustering-raggruppa gli elementi di un insieme, a seconda delle loro
caratteristiche, in classi non assegnate a priori
Serie temporali- Permettono l’individuazione di pattern ricorrenti o atipici
in sequenze di dati complesse
Basi di Dati e
Sistemi Informativi
Analisi dei dati
43 of 12
Attività tipiche del Data Mining
• Classificazione
• Clustering
• Ricerca di regole associative
• Ricerca di pattern sequenziali
• Regressione
• Discretizzazione
• Discretizzazione
Basi di Dati e
Sistemi Informativi
Analisi dei dati
44 of 12
Classificazione 1
Data una collezione di record (training set )
Ogni record è composto da un insieme di attributi,
di cui uno esprime la classe di appartenenza del
record.
Trova un modello per l’attributo di classe che esprima
il valore dell’attributo in funzione dei valori degli altri
attributi.
Basi di Dati e
Sistemi Informativi
Analisi dei dati
45 of 12
Classificazione 2
Obiettivo: record non noti devono essere assegnati a
una classe nel modo più accurato possibile
Viene utilizzato un test set per determinare
l’accuratezza del modello. Normalmente, il data
set fornito è suddiviso in training set e test set. Il
primo è utilizzato per costruire il modello, il
secondo per validarlo.
Basi di Dati e
Sistemi Informativi
Analisi dei dati
46 of 12
Classificazione - esempio
Individuazione di frodi
 Obiettivo: predire l’utilizzo fraudolento delle carte di credito
 Approccio: Utilizza le precedenti transazioni e le informazioni sui
loro possessori come attributi
• Quando compra l’utente, cosa compra, paga con ritardo, ecc.
-Etichetta le precedenti transazioni come fraudolenti o lecite
-Questa informazione rappresenta l’attributo di classificazione
-Costruisci un modello per le due classi di transazioni (test set+training
set)
-Utilizza il modello per individuare comportamenti fraudolenti delle
prossime transazioni relative a una specifica carta di credito
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Cluster
Dato un insieme di punti, ognuno caratterizzato da un insieme
di attributi, avendo a disposizione una misura di similarità tra i
punti, trovare i sottoinsiemi di punti tali che:
I punti appartenenti a un sottoinsieme sono più simili tra
loro rispetto a quelli appartenenti ad altri cluster
Misure di similarità:
La distanza euclidea è applicabile se gli attributi dei punti
assumono valori continui
Sono possibili molte altre misure che dipendono dal
problema in esame
Basi di Dati e
Sistemi Informativi
Analisi dei dati
48 of 12
Clustering- esempio
Segmentazione del mercato
Obiettivo: suddividere i clienti in sottoinsiemi distinti da
utilizzare come target di specifiche attività di marketing
Approccio:
• Raccogliere informazioni sui clienti legati allo stile di vita
e alla collocazione geografica
• Trovare cluster di clienti simili
• Misurare la qualità dei cluster verificando se il pattern di
acquisto dei clienti appartenenti allo stesso cluster è più
simile di quello di clienti appartenenti a cluster distinti
Basi di Dati e
Sistemi Informativi
Analisi dei dati
49 of 12
Regole di associazione
Dato un insieme di record ognuno composto da più
elementi appartenenti a una collezione data
Produce delle regole di dipendenza che predicono
l’occorrenza di uno degli elementi in presenza di
occorrenze degli altri.
Basi di Dati e
Sistemi Informativi
Analisi dei dati
50 of 12
Regole di associazione 1
 Scoprire associazioni di tipo causa-effetto
 Basket Analysis: è una metodologia orientata
all’identificazione delle relazioni esistenti tra una
vasto numero di prodotti acquistati da differenti
consumatori
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Regole di associazione 2
 Una regola associativa consta di una premessa e di
una conseguenza
 E’ possibile definire in modo preciso le probabilità
associate alle regole di associazione
 supporto: probabilità che in una osservazione sia
presente sia la premessa che la conseguenza di
una regola
 confidenza: probabilità che in una osservazione
sia presente la conseguenza di una regola
essendo già presente la premessa
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Regole di associazione 3
Una regola di associazione è una coppia ordinata di due
insiemi di dati, X e Y, estratti da un transazione del
database
Per estrarre le regole che sono più frequenti e significative:
supporto= percentuale di transazioni con X e Y sul totale
confidenza= percentuale delle transazioni con X e Y su
quelle che hanno già X
L’utente/analista stabilisce due valori minimi.
Basi di Dati e
Sistemi Informativi
Analisi dei dati
53 of 12
Regole di associazione: Esempio
Nazionalità
Età
Stipendio
Italiana
50
Basso
Italiana
40
Alto
Francese
30
Alto
Italiana
50
Medio
Francese
45
Alto
Francese
35
Alto
1) Francese  Stip. Alto
supporto = 3/6 = 0.5
confidenza = 3/3 = 1
2) Stip. Alto  Francese
supporto = 3/6 = 0.5
confidenza = 3/4 = 0.75
3) >= 40 anni  Stip. Basso
supporto = 1/6 = 0.16
confidenza = 1/4 = 0.25
 Il problema di data mining relativo alla scoperta delle regole di
associazione viene quindi enunciato come segue:
Trovare tutte le regole di associazione con supporto e confidenza
superiori a valori prefissati
Basi di Dati e
Sistemi Informativi
Analisi dei dati
Regressione
Predire il valore di una variabile a valori continui sulla base di
valori di altre variabili assumendo un modello di dipendenza
lineare/non lineare.
Esempi:
Predire il fatturato di vendita di un nuovo prodotto sulla
base degli investimenti in pubblicità.
Predire la velocità del vento in funzione della temperatura,
umidità, pressione atmosferica
Predizione dell’andamento del mercato azionario
Basi di Dati e
Sistemi Informativi
Analisi dei dati
55 of 12
Discretizzazione
 Consente di rappresentare un intervallo continuo di dati tramite
pochi valori discreti
 Consiste nella divisione del dominio di un attributo continuo in un
insieme di intervalli – riduce la cardinalità del dominio di un
attributo
 Rendere più evidente il fenomeno sottoposto ad osservazione
 Esempio
 stipendio < 1000  Basso
 1000 ≤ stipendo < 2500  Medio
 stipendio ≥ 2500  Alto
Basi di Dati e
Sistemi Informativi
Analisi dei dati