Data Mining.

SISTEMI INFORMATIVI AZIENDALI
Prof. Andrea Borghesan
venus.unive.it/borg
[email protected]
Ricevimento:
Alla fine di ogni lezione
Modalità esame: scritto
1
Data Mining. Introduzione
La crescente popolarità dei sistemi di data mining all’interno dei
sistemi informativi aziendali è giustificata dalla grande
disponibilità di enormi quantità di dati generati dai vari processi
aziendali informatizzati.
Questi dati contengono sicuramente informazioni potenzialmente
utili al processo decisionali ma spesso tali informazioni non sono
facilmente identificabili (es. complessità delle relazioni).
Per evitare che una decisione venga presa solo sulla base
dell’esperienza o dell’intuito dell’imprenditore si utilizzano
strumenti di data mining al fine di elevare il grado di obiettività e
di precisione dell’analisi inglobando magari anche aspetti che
potrebbero addirittura non valutati
2
Cosa sono i sistemi Data Mining.
Il
data mining è l’attività volta a riconoscere
automaticamente ed estrarre informazione da base di dati
di grandi dimensioni.
Il data mining è spesso definito anche come il processo di scoperta
della conoscenza da basi di dati (Knowledge Discovery in
Databases, KDD).
Il processo di scoperta della conoscenza si articola nei seguenti
passaggi:
 Pulizia dei dati, significa eliminare le inconsistenze e
correggere gli eventuali errori
 Integrazione dei dati, integrare fonti diverse in un unico
modello
3
…
 Selezione dei dati, significa selezionare solo i dati che servono




4
all’analisi
Trasformazione dei dati, significa riorganizzare o aggregare i
dati in base al tipo di elaborazione
Data mining, il processo vero e proprio di analisi
Valutazione dei pattern, significa che spesso le tecniche di data
mining portano alla luce informazioni che possono essere
classificate come non rilevanti per l’indagine
Presentazione della conoscenza, le informazioni devono essere
presentate all’utente tramite opportune rappresentazioni
grafiche (a colpo d’occhio l’utente deve comprendere la
conoscenza che scaturisce dalle informazioni)
Architetture dei sistemi di data
mining
Data
Warehouse
Motore di data
mining
Base di
conoscenza
Valutazione
delle condizioni
Presentazione
5
Componenti dell’archittetura
6
L’archichettura della slide precedente, si fonda sui seguenti componenti:
 DataWarehouse, è la base di dati di analisi
 Base di conoscenza (Knowledge Base), contiene l’insieme di regole
e conoscenze “date per note” che verranno utilizzate per guidare la
ricerca e per filtrare i risultati valutando l’effettivo interesse dei
pattern rilevati
 Motore di data mining (Data Mining Engine), è composto
dall’intero insieme di funzioni di analisi dei dati provenienti da
discipline diverse come la statistica, l’intelligenza artificiale, reti
neurali, l’analisi dei segnali…
 Sistema di valutazione delle condizioni (Pattern Evaluation),
focalizza la ricerca sui pattern (condizioni) interessanti
 Sistema di presentazione, è l’interfaccia tramite la quale l’utente può
specificare le tecniche di data mining, formulare nuove ipotesi o
semplicemente visualizzare i risultati ottenuti
Data Mining e Data Warehouse
7
Un sistema di data mining può non essere integrato nel sistema di data
warehousing, allora il sistema di data mining deve mantenere una
copia propria dei dati informazionali e periodicamente aggiornarla.
Oppure integrarsi “perfettamente”, il sistema data mining viene visto
come una componente funzionale del sistema informazionale, il
vantaggio sta in una facilità di implementazione delle funzioni di
data mining e in prestazioni elevate.
Altre 2 caratteristiche sono:
 Scalabilità, capacità di elaborare le funzioni di analisi con tempi di
risposta lineari rispetto alla numerosità dei dati. Requisito non sempre
soddisfatto in quanto le informazioni superano una soglia critica il
sistema rallenta in modo evidente (soluzione: calcolo parallelo)
 Interpretabilità, facilità con cui l’utente interagisce con l’interfaccia
del sistema per l’attivazione delle funzioni di analisi e rappresentazione
dei dati
Funzioni di mining 1/3
In generale le funzioni di mining possono essere ripartite in 2 macro
classi:
 Il mining descrittivo, descrive le proprietà generali dei dati.
 Il mining predittivo, che analizzando i dati presenti, determina
delle regole e crea modelli per predire il futuro.
Tipologie di analisi:
 Descrizione di classi e concetti
 Concetto: è una astrazione dei fatti (clienti e vendite)
 Classe: raggruppamento di elementi aventi stesse caratteristiche
 Analisi associativa, scopre le regole associative identificando
nella massa dei dati i valori di attributi che si presentano insieme
con elevata frequenza (importanti nei piani di marketing,
campagne  prodotti)
8
Funzioni di mining 2/3
 Tecniche di classificazione e predizione, utilizzate per costruire
modelli a partire dall’analisi dei dati di un campione (es. analisi
rischio-clienti). Tali modelli permettono di ricondurre ad una
classe nota qualsiasi elemento in base alle caratteristiche di suoi
attributi.
 Analisi cluster, i dati vengono raggruppati in classi (cluster) sulla
base della similitudine; elementi che appartengono alla stessa classe
hanno caratteristiche comuni che li rendono simili. Le regole di
similitudine non sono date a priori ma sono determinate dal
sistema sulla base dell’osservazione dei valori assunti dai dati
9
Funzioni di mining 2/3
 Analisi degli outlier, gli outlier sono gli elementi che si
discostano dal modello generale dei dati, quelli che presentano
qualche anomalia rispetto al profilo generale, esempio:
 La ricerca di frodi (operazioni o importi sospetti)
 La ricerca di intrusioni non autorizzate nei sistemi elettronici
 Valutazione efficienza impianti (individuazione macchine con guasti
superiori alla media)
 Analisi evolutiva dei dati, descrive il comportamento nel tempo
degli elementi sottoposti ad analisi, sottolineandone regolarità
(comportamenti stagionali o ciclici) e tendenze. Analisi utilizzata
per predire comportamenti futuri e quindi guidare le decisioni
sulle politiche aziendali.
10
Processo di mining dei dati
Ogni analisi di mining dei dati richiede, da parte dell’utente,
l’indicazione dei parametri elencati di seguito:
 Insieme dei dati di analisi
 Tipo di informazioni da ricercare
 Misure di interesse
 Base di conoscenza
 Presentazione dei pattern
11
Insieme dei dati di analisi
L’insieme dei dati di analisi definisce la porzione dei dati da fornire
in ingresso alle funzioni di data mining.
Esempio, un’analisi delle abitudini di acquisto dei propri clienti ha
come base i fatti di vendita e non avrebbe alcun senso lanciare
l’analisi comprendendo fatti di produzione o fatti legati alla
logistica.
Circoscrivere l’insieme dei dati di partenza migliora le prestazioni.
È possibile che questa attività sia fatta da un utente che non ha una
idea precisa ne consegue che potrebbe vanificare l’attività di
mining sui dati
12
Tipo di informazioni da ricercare
L’utente può/deve indicare quali informazioni ricercare scegliendo
tra le funzioni disponibili quella che si presta meglio al suo
obiettivo di conoscenza (descrittivo, di classificazione, predittivo
o di analisi delle eccezioni).
13
Misure di interesse dei pattern
Le analisi di mining possono produrre un insieme assai numeroso di
elementi in uscita. È necessario un passaggio di post-processing per
focalizzare l’attenzione, un pattern interessante si caratterizza per:
• Novità, si intende informazione nuova, non ancora conosciuta (non
duplicata)
• Semplicità, facilmente comprensibile da chi conduce l’analisi
• Certezza, la regola definita dal pattern deve essere valida anche su dati
nuovi o diversi
• Utilità, la regola identificata deve avere una qualche utilità potenziale
per il decisore
14
Base di conoscenza
Alcuni parametri che potrebbero essere utili per discriminare i
pattern significativi dipendono dalla struttura dei dati, dalle
regole aziendali e dall’esperienza di chi conduce l’analisi.
Tali parametri devono essere descritti all’interno di una base di dati
dedicata, la base di conoscenza, sotto forma di regole, di relazioni
tra elementi.
Per esempio, la base di conoscenza potrebbe descrivere le varie
gerarchie (strutturali, di raggruppamento) all’interno del
sistema.
15
Visualizzazione dei pattern
La visualizzazione dei risultati ottenuti non è un elemento da
sottovalutare, si può considerare come uno dei fattori di successo
di qualsiasi sistema di analisi dei dati.
Nei sistemi di data mining alcuni tipi di visualizzazione sono
particolarmente utili. Esempio, gli alberi di decisione si utilizzano
prevalentemente nelle analisi di classificazione, i diagrammi di
dispersione nelle analisi di clustering.
16
Statistiche elementari e analisi
relative
Un primo insieme di funzioni di mining dei dati è costituito dagli
strumenti che permettono di descrivere in modo sintetico ma
preciso le informazioni contenuti nel database.
Gli strumenti descrittivi operano tramite:
 Generalizzazione, attività che permette di ripartire i dati
elementari in gruppi caratterizzati da attributi comuni
 Caratterizzazione, descrive le particolarità
 Discriminazione, che marca le differenze tra gruppo e gruppo
17
Caratterizzazione
Si utilizzano misure di tendenza al fine di capire come i dati si
dispongono attorno ad un determinato valore:
 Media,media pesata, “centro numerico” di un insieme di valori
 Mediana, valore/modalità che si trova nel mezzo della distribuzione
 Moda, valore che ha la massima frequenza
18
Oppure misure di dispersione:
 Varianza, come i dati si distribuiscono attorno al valore medio
 Confidenza, identifica l’intervallo di valori intorno alla media che si
distribuiscono come una Gaussiana all’interno di una probabilità data
(intervallo di confidenza pari al 98%)
 Percentili, rappresentano, dato un insieme ordinato di misure, il
limite al di sotto del quale ricade una certa percentuale dei dati
(quartili)
Discriminazione
Nella discriminazione le caratteristiche di una classe vengono messe a
confronto con quelle di classi diverse ma ovviamente paragonabili.
Rappresentazione grafica
19
I principali sono:
• Istogramma di frequenza
• Plot quantile
• Scatter plot
• Uno degli strumenti grafici più efficace per vedere a colpo
d’occhio se è presente una relazione di qualsiasi genere tra 2
misure descrittive della stessa classe. La coppia di valori è vista
come una coppia di coordinate. Si evidenziano blocchi di
aggregazione o tendenze o punti isolati
Analisi associative
20
I meccanismi di associazione permettono di identificare le condizioni
che tendenzialmente si verificano contemporaneamente.
Nati principalmente per l’analisi delle vendite, tracciano le propensioni
d’acquisto legate alle caratteristiche dei clienti.
Le informazioni che scaturiscono permettono di pianificare campagne
promozionali efficaci, strutturare i listini o addirittura identificare
clienti potenzialmente a rischio di insoluti.
In sostanza si cerca di individuare dei pattern che si ripetono in
determinate condizioni e che consentono di derivare delle regole di
implicazione del tipo A => B (se si verifica A allora è probabile si
verifichi anche B).
Le condizioni vengono rappresentate nella forma:
Attributo(soggetto, valore)
Attributo1(soggetto, valore1) AND Attributo2(soggetto, valore2)
Significatività delle associazioni 1/2
La significatività di un’associazione viene principalmente valutata in base a
2 misure particolari: confidenza e supporto.
 Confidenza, è una misura della certezza del pattern. Definita come la
probabilità condizionata P(A|B), cioè la probabilità che un elemento
che contenga A contenga anche B.
Calcolato come P(A|B) = P(AB)/P(B)
 Supporto, è una misura della frequenza con cui il pattern è stato
identificato sulla base di dati.
È calcolato come
(elementi che soddisfano la regola)/(totale elementi dell’insieme dati di analisi)
21
Significatività delle associazioni 2/2
Esempio, la regola:
Compra(X, “divano a 2 posti”) => Compra(X, “poltrona”)
Ha una misura di confidenza dell’85% e una di supporto del 30%.
Come si legge?
Significa che tutti coloro che hanno comprato un divano a 2 posti erano
all’85% intenzionati a comprare anche una poltrona ma solo nel 30%
delle vendite il cliente ha comprato sia un divano a 2 posti che una
poltrona
Le associazioni forti sono quelle che il supporto è significativo (oltre
una certa soglia) e la confidenza è elevata.
22
Classificazione
Le tecniche di classificazione sono anche definite tecniche di
apprendimento assistito: i parametri per la creazione del modello
sono infatti forniti dall’utente che specifica le classi, i dati per il
modello e a che classe appartiene il dato.
Nella creazione del modello l’utente divide i dati in 2 sottoinsiemi, il
training set (per l’apprendimento) e il testing set (per la validazione
del modello).
Le tecniche usate sono molteplici:
 Alberi di decisione
 Reti neurali e algoritmi genetici
 Reti bayesiane
23
Alberi di decisione 1/3
Titolo di studio
24
Zona
Età
Acquista divano
Laurea
Nord
< 40
Sì
Laurea
Sud
41-50
No
Laurea
Nord
>50
Sì
Diploma
Sud
< 40
Sì
Diploma
Nord
41-50
Sì
Laurea
Sud
41-50
No
Diploma
Nord
< 40
Sì
Laurea
Sud
>50
No
Laurea
Nord
>50
Sì
Diploma
Nord
>50
No
Alberi di decisione 2/3
Data la tabella slide precedente, costruiamo l’albero delle decisioni.
Prima di iniziare definiamo la struttura:
 I nodi interni sono attributi del soggetto da classificare
 Gli archi in uscita da un nodo sono etichettati con i valori che
l’attributo può assumere
 I nodi foglia sono le classi
La tecnica di costruzione usa raffinamenti successivi: sceglie un attributo
come radice, divide gli elementi in sottoinsiemi sulla base dei valori
assunti dall’attributo e crea gli archi, uno per ogni possibile valore
dell’attributo, che portano a nuovi nodi. Se tutti gli elementi di un
sottoinsieme appartengono alla stessa classe, il nodo corrente è una
foglia, altrimenti sceglie un nuovo attributo per etichettare il nodo e
riprende la divisione.
25
Alberi di decisione 3/3
L’albero avrà la seguente forma:
Età
>50
41-50
<40
Titolo di
studio
Sì
diploma
Sì
laurea
No
Zona
nord
sud
Titolo di
studio
No
diploma
Sì
26
laurea
No
Caratteristiche dei classificatori
 Accuratezza della previsione
 Velocità, tempo impiegato sia per costruire il modello sia che per
classificare gli elementi
 Scalabilità
 Robustezza, capacità del modello di classificare correttamente
elementi anche in presenza di dati errati o mancanti
 Interpretabilità, modello di facile comprensione (vedi l’albero delle
decisioni) a differenza delle reti neurali o quelle bayesiane
27