Introduzione al data mining - Fondazione Torino Wireless

Analisi dei dati con tecniche di
data mining
Teoria e applicazioni
B
D MG
Data Base and Data Mining Group of Politecnico di Torino
Elena Baralis
Politecnico di Torino
Torino, 9 dicembre 2009
Analisi dei dati
„
La maggior parte degli enti e aziende
dispone di enormi basi di dati
contenenti
„
„
„
„
dati di tipo operativo
documenti testuali
risultati di esperimenti
Queste basi di dati costituiscono una
potenziale miniera di informazioni utili
DB
MG
2
Analisi dei dati
„
L’informazione è “nascosta” in grandi quantità di dati
„
„
„
non è immediatamente evidente
gli analisti umani possono aver bisogno di molto tempo per
l’analisi
la maggior parte dei dati non è analizzata affatto
4,000,000
The Data Gap
3,500,000
3,000,000
2,500,000
2,000,000
Spazio su disco
(TB) dal 1995
1,500,000
1,000,000
Numero di
analisti
500,000
DB
MG
0
1995
1996
1997
1998
1999
Da R. Grossman, C. Kamath, V. Kumar, “Data
Mining for Scientific and Engineering Applications”
3
Data mining
„
Estrazione non banale di informazione
„
„
„
„
dai dati disponibili
L’estrazione è automatica
„
„
implicita
precedentemente ignota
potenzialmente utile
eseguita da algoritmi
L’informazione estratta è rappresentata mediante
modelli astratti
„
DB
MG
denominati pattern
4
Esempio: dati biologici
„
Microarray
„
„
„
Cartelle cliniche dei pazienti
„
„
„
livello di espressione dei geni di un tessuto
cellulare
varie tipologie di dati (mRNA, DNA)
dati anagrafici e demografici
risultati di esami
CLID
PATIENT shx013: shv060: shq077: shx009: shx014: shq082:
ID
49A34 45A9 52A28 4A34 61A31 99A6
IMAGE:740ISG20 || int -1.02
IMAGE:767TNFSF13 | -0.52
IMAGE:366LOC93343 -0.25
IMAGE:235ITGA4 || int -1.375
-2.34
-4.06
-4.08
-1.605
1.44
-0.29
0.06
0.155
0.57
0.71
0.13
-0.015
-0.13
1.03
0.08
0.035
0.12
-0.67
0.06
-0.035
shq083:
46A15
shx008:
41A31
0.34
0.22
-0.08
0.505
-0.51
-0.09
-0.05
-0.865
Dati testuali in collezioni pubbliche
„
„
„
DB
MG
formati eterogenei, obiettivi diversi
letteratura scientifica (PUBMed)
ontologie (Gene Ontology)
5
Obiettivi dell’analisi biologica
„
Analisi clinica
individuazione delle cause di una malattia
„
monitoraggio degli effetti delle terapie
⇒ miglioramento delle diagnosi e definizione di nuove
terapie specifiche
„
„
Bio-discovery
„
„
„
scoperta di reti di regolazione genica
studio di patologie genetiche multifattoriali
Farmacogenesi
„
DB
MG
progettazione in laboratorio di nuovi medicinali per
terapie geniche
Come può contribuire il data mining?
6
Contributi del data mining
„
Diagnosi di malattie
„
„
Selezione dei geni coinvolti
in una specifica patologia
„
„
„
clustering
Studio di patologie multifattoriali
„
„
feature selection
clustering
Raggruppamento di geni con
comportamento funzionale simile
„
„
classificazione
regole di associazione
Individuazione di molecole adatte per specifiche terapie
„
DB
MG
classificazione
7
Processo di Knowledge Discovery
selezione
preelaborazione
trasformazione
dati
dati
selezionati
data mining
dati
preelaborati
dati
trasformati
interpretazione
pattern
KDD = Knowledge Discovery from Data
DB
MG
conoscenza
8
Preelaborazione
data cleaning
preelaborazione
• riduce l’effetto del rumore
• identifica o elimina outliers
• risolve inconsistenze
integrazione dei dati
dati
selezionati
dati
preelaborati
• armonizza i dati estratti da
sorgenti diverse
• integra i metadati
• individua e risolve conflitti
sul valore dei dati
• gestisce le ridondanze
I dati del mondo reale sono “sporchi”
Senza dati di buona qualità, non si possono
estrarre pattern di buona qualità
DB
MG
9
Origini del data mining
„
Raccoglie contributi da
„
„
„
„
statistica, intelligenza artificiale (IA)
pattern recognition, machine
learning
Statistica,
basi di dati
IA
Le tecniche tradizionali sono
inadatte a causa di
„
„
„
volume dei dati
elevata dimensionalità dei dati
natura eterogenea e distribuita dei
dati
DB
MG
Machine Learning,
Pattern
Recognition
Data Mining
Basi di dati
Da: P. Tan, M. Steinbach, V. Kumar,
“Introduction to Data Mining”
10
Tipologie di analisi
„
Metodi descrittivi
„
„
„
Estraggono modelli interpretabili che descrivano i dati
Esempio: segmentazione dei clienti
Metodi predittivi
„
„
DB
MG
Utilizzano alcune variabili note per predire valori ignoti o
futuri di altre variabili
Esempio: riconoscimento di posta elettronica “spam”
11
Classificazione
„
Obiettivi
„
„
predizione di un’etichetta di classe
definizione di un modello interpretabile di un dato
fenomeno
dati di training
modello
modello
dati non classificati
DB
MG
dati classificati
12
Classificazione
• Approcci
–
–
–
–
–
–
dati di training
alberi di decisione
classificazione bayesiana
regole di classificazione
reti neurali
k-nearest neighbours
SVM
modello
modello
dati non classificati
DB
MG
dati classificati
13
Classificazione
• Requisiti
–
–
–
–
accuratezza
interpretabilità
scalabilità
capacità di gestire
rumore e outliers
dati di training
modello
modello
dati non classificati
DB
MG
dati classificati
14
Classificazione
„
Applicazioni
„
„
„
„
riconoscimento della propensione all’abbandono (churn)
individuazione di frodi
classificazione di tipi diversi di una patologia
…
dati di training
modello
modello
dati non classificati
DB
MG
dati classificati
15
Clustering
„
Obiettivi
„
„
DB
MG
riconoscimento di gruppi di dati simili
identificazione di eccezioni e outliers
16
Clustering
• Approcci
– partizionale (K-means)
– gerarchico
– density-based (DBSCAN)
– SOM
• Requisiti
– scalabilità
– capacità di gestire
– rumore e outliers
– elevata dimensionalità
– interpretabilità
DB
MG
17
Clustering
„
Applicazioni
„
„
„
„
DB
MG
segmentazione della clientela
raggruppamento di documenti con contenuto simile
raggruppamento di geni con pattern di espressione simile
…
18
Regole di associazione
„
Obiettivo
„
estrazione di correlazioni o pattern frequenti da basi di dati
transazionali
Scontrini di cassa di un
supermercato
TID
Prodotti
1
Pane, CocaCola, Latte
2
Birra, Pane
3
Birra, CocaCola, Pannolini, Latte
4
Birra, Pane, Pannolini, Latte
5
CocaCola, Pannolini, Latte
…
DB
MG
…
„
Regola di associazione
pannolini ⇒ birra
„
„
il 2% delle transazioni
contiene entrambi gli
elementi
il 30% delle transazioni che
contengono pannolini
contiene anche birra
19
Regole di associazione
„
Applicazioni
„
„
„
market basket analysis
cross-selling
progettazione di layout di negozi o di cataloghi
Scontrini di cassa di un
supermercato
TID
Prodotti
1
Pane, CocaCola, Latte
2
Birra, Pane
3
Birra, CocaCola, Pannolini, Latte
4
Birra, Pane, Pannolini, Latte
5
CocaCola, Pannolini, Latte
…
DB
MG
…
„
Regola di associazione
pannolini ⇒ birra
„
„
il 2% delle transazioni
contiene entrambi gli
elementi
il 30% delle transazioni che
contengono pannolini
contiene anche birra
20
Altre tecniche di data mining
„
Estrazione di sequenze
„
„
„
Analisi di serie temporali e geospaziali
„
„
„
si introducono criteri di ordinamento temporale e
disposizione geografica
esempio: dati raccolti da reti di sensori
Regressione
„
„
„
si considerano criteri di ordinamento nei dati da
analizzare
esempio: riconoscimento di motif nelle proteine
Rete di Sensori
predizione di un valore continuo
esempio: predizione delle quotazioni azionarie
Riconoscimento di eccezioni
„
DB
MG
analisi del traffico di rete per riconoscere tentativi di
intrusione
21
Problemi aperti
„
„
„
„
„
„
Scalabilità
Dimensionalità dei dati
Dati con struttura complessa e formato
eterogeneo
Qualità dei dati
Protezione della privacy
Dati streaming (flussi continui)
DB
MG
22
Grazie!
DB
MG
23