Classificazione automatica - Cluster analysis

Classificazione
automatica Cluster
analysis
A. Iodice
Classificazione automatica - Cluster analysis
Clustering:
classificazione
automatica
Strumenti quantitativi per l’economia e la finanza I
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Alfonso Iodice D’Enza
[email protected]
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Università degli studi di Cassino e del Lazio Meridionale
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
1 / 68
Outline
Classificazione
automatica Cluster
analysis
1
Clustering: classificazione automatica
Misure di dissimilarità e distanze (metriche e
ultrametriche)
2
Clustering gerarchico
Criteri di aggregazione
La procedura (agglomerativa)
Qualità della soluzione
3
Clustering non gerarchico
Procedure non gerarchiche
K-means e K-medoids
4
Metodi density-based
DB-Scan
5
Approcci ibridi
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
2 / 68
Clustering
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Le tecniche di clustering consistono in procedure automatiche
per raggruppare gli oggetti a disposizione in classi composte da
record omogenei.
Esempi
Clustering dei profili di comportamento all’acquisto per
identificare comportamenti di nicchia
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Raggruppare insieme i geni che presentano caratteristiche
comuni
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
3 / 68
Clustering
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Obbiettivo delle tecniche di clustering
Le tecniche di clustering puntano a ragruppare gli le unità
statistiche considerate (oggetti, records) in gruppi (cluster).
L’obbiettivo è creare gruppi massimamente omogenei al loro
interno e massimamente eterogenei tra loro.
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
4 / 68
Clustering: misure di dissimilarità
Classificazione
automatica Cluster
analysis
A. Iodice
Dati due oggetti x e y e un indice d() che ne misura della
lontananza logica, possono valere le seguenti proprietà:
Caratteristiche dell’indice di misura
Clustering:
classificazione
automatica
separabilità
d(x, y) = 0 ⇒ x = y
simmetria
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
d(x, y) = d(y, x)
disuguaglianza triangolare si considerino tre oggetti x, y e z
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
d(x, y) ≤ d(x, z) + d(z, y)
Dissimilarità e distanza
indice di dissimilarità: indice caratterizzato da separabilità e simmetria
Clustering non
gerarchico
indice di distanza (metrica) : indice caratterizzato da separabilità e simmetria per il quale risulta
verificata la disuguaglianza triangolare.
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
5 / 68
Clustering: misure di similarità
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Date due osservazioni x = x1 , x2 , . . . , xp e y = y1 , y2 , . . . , yp
descritte da p variabili quantitative
Distanze
distanza euclidea
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
d(x, y) =
sX
Clustering
gerarchico
i
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
distanza city-block
d(x, bf y) =
Clustering non
gerarchico
X
|xi − yi |
i
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
(xi − yi )2
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
6 / 68
Clustering: misure di similarità
Classificazione
automatica Cluster
analysis
Distanze
le precedenti sono casi particolari della distanza di Minkowski
A. Iodice
!1/q
d(x, y) =
Clustering:
classificazione
automatica
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
in particolare per q = 1 si ottiene la distanza city-block; per q = 2 si ottiene
la distanza euclidea.
Dissimilarità e dati qualitativi
Nel caso di variabili categoriche il grado di similarità/dissimilarità che caratterizza
le coppie di osservazioni si misura rispetto al numero di modalità comuni. Dati
due oggetti A e B, descritti da d variabili qualitative, la distanza si misura
contando il numero volte in cui assumono modalità differenti.
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
|xi − yi |
q
i
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
X
d(A, B) =
d
1X
Xi
d i=1
dove Xi = 1 se A e B assumono modalità diverse per la variabile i.
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
7 / 68
Distanze rispetto ad una soglia
Classificazione
automatica Cluster
analysis
A. Iodice
Paradosso e distanza metrica
Per determinare i cluster si determina una distanza soglia tale che dati due punti A e B, se la distanza tra
loro è tale che d(A, B) > soglia allora A e B appartengono a gruppi diversi, viceversa saranno classificati
nello stesso gruppo.
problema: utilizzando una distanza metrica si va incontro al paradosso descritto nel seguente esemio:
si considerino tre punti A, B e C, se la distanza che li separa è minore o uguale a 3 allora i punti
vengono assegnati allo stesso gruppo
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
8 / 68
Distanze rispetto ad una soglia
Classificazione
automatica Cluster
analysis
A. Iodice
Paradosso e distanza metrica
Per determinare i cluster si determina una distanza soglia tale che dati due punti A e B, se la distanza tra
loro è tale che d(A, B) > soglia allora A e B appartengono a gruppi diversi, viceversa saranno classificati
nello stesso gruppo.
problema: utilizzando una distanza metrica si va incontro al paradosso descritto nel seguente esemio:
si considerino tre punti A, B e C, se la distanza che li separa è minore o uguale a 3 allora i punti
vengono assegnati allo stesso gruppo
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
9 / 68
Distanze rispetto ad una soglia
Classificazione
automatica Cluster
analysis
A. Iodice
Paradosso e distanza metrica
Per determinare i cluster si determina una distanza soglia tale che dati due punti A e B, se la distanza tra
loro è tale che d(A, B) > soglia allora A e B appartengono a gruppi diversi, viceversa saranno classificati
nello stesso gruppo.
problema: utilizzando una distanza metrica si va incontro al paradosso descritto nel seguente esemio:
si considerino tre punti A, B e C, se la distanza che li separa è minore o uguale a 3 allora i punti
vengono assegnati allo stesso gruppo
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
10 / 68
Distanze rispetto ad una soglia
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Passaggio alle ultrametriche
Per ovviare al problema si passa alle distanze ultrametriche: le distanze ultrametriche che caratterizzano
ciascuna terna di punti sono date dal triangolo isoscele la cui base è data dalla distanza dei punti più vicini
tra loro. Il lato del triangolo isoscele è rappresentato da una delle atre due distanze. In particolare si ha:
ultrametrica superiore minima se il lato del triangolo isoscele corrisponde alla maggiore delle atre due
distanze
Clustering
gerarchico
ultrametrica inferiore massima se il lato del triangolo isoscele corrisponde alla minore delle atre due
distanze
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
11 / 68
Distanze rispetto ad una soglia
Classificazione
automatica Cluster
analysis
Passaggio alle ultrametriche
ultrametrica superiore minima se il lato del triangolo isoscele corrisponde alla maggiore delle atre due
distanze
A. Iodice
ultrametrica inferiore massima se il lato del triangolo isoscele corrisponde alla minore delle atre due
distanze
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
12 / 68
Distanze rispetto ad una soglia
Classificazione
automatica Cluster
analysis
Passaggio alle ultrametriche
ultrametrica superiore minima se il lato del triangolo isoscele corrisponde alla maggiore delle atre due
distanze
A. Iodice
ultrametrica inferiore massima se il lato del triangolo isoscele corrisponde alla minore delle atre due
distanze
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
13 / 68
Trasformazione delle variabili
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Normalizzare. standardizzare
Per rendere direttamente confrontabili le variabili si possono
utilizzare le seguenti trasformazioni
normalizzazione min-max
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
X∗ =
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
X − min(X)
range(X)
standardizzazione (z-score)
X∗ =
Clustering non
gerarchico
X − µX
σX
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
14 / 68
Tipologie di clustering
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
gerarchie e partizioni
clustering gerarchico determina una gerarchia, ovvero una
struttura di cluster in cui l’insieme di unità viene bipartita
ricorsivamente in corrispondenza di diversi livelli di
aggregazione
clustering non gerarchico: l’insieme delle unità viene
partizionato in k cluster omogenei disgiunti
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
15 / 68
Partizioni e gerarchie
Classificazione
automatica Cluster
analysis
Gerarchie
Si consideri un insieme O. La gerarchia H(O) .è un insieme di classi
tali che
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Tutti gli oggetti oj ∈ O appartengono ad H(O)
oj ∈ O → oj ∈ H(O)
Partizioni
Si consideri un insieme O ed una sua
partizione
P (O) = {A, B, C, D, E}.
la gerarchia H(O) contiene anche la classe contenente tutti
gli oggetti considerati
Due elementi A e B sono
disgiunti oppure coincidono.
A ∩ B = 0 se A 6= B,
A, B ∈ P (O).
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
se P (O) =
{A, B, C, D, E}.allora
A ∪ B ∪ C ∪ D ∪ E = O.
Clustering non
gerarchico
O ∈ H(O)
Due oggetti oi e oj ∈ H(O) o sono disgiunti oppure uno dei
due contiene l’altro
oi ∩ oj = oppure risulta una tra
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
oi ⊂ oj e oj ⊂ oi
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
16 / 68
Clustering gerarchico
Classificazione
automatica Cluster
analysis
A. Iodice
clustering gerarchico: algoritmo agglomerativo. La
soluzione si ottiene a partire dalle singole unità statistiche,
ad ogni iterazione si aggregano le unità statistiche più
vicine; la procedura termina quando tutte le unità
risultano aggregate in un unico cluster.
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
clustering gerarchico: algoritmo divisivo. In questo caso
tutte le unità sono in una stessa classe e, ad ogni
iterazione successiva, l’unità più dissimile dalle altre viene
assegnata ad un nuovo cluster.
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
17 / 68
Scelta del criterio di aggregazione
Classificazione
automatica Cluster
analysis
A. Iodice
il primo passo di una procedura di clustering gerarchico agglomerativo
consiste nell’aggregare tra loro i due elementi più vicini. Per fare questo si
calcola la distanza tra tutte le coppie di unità considerate.
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
A partire dal secondo passo in poi emerge la necessità di calcolare distanze
tra le singole unità e i gruppi di unità che si vanno progressivamente
formando, o tra coppie di gruppi di unità.
Clustering
gerarchico
I criteri di aggregazione stabiliscono, dunque, la regola per calcolare la
distanza tra un’unità ed un gruppo, o tra due gruppi.
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
18 / 68
Scelta del criterio di aggregazione
Classificazione
automatica Cluster
analysis
A. Iodice
metodo del legame semplice. La distanza tra due classi A e B viene
calcolata considerando la distanza minima tra un elemento di A ad uno di
B (nearest-neighbour)
Clustering:
classificazione
automatica
metodo del legame completo. La distanza tra due classi A e B viene
calcolata considerando la distanza massima tra un elemento di A ad uno di
B (farthest-neighbour)
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
metodo del legame medio. La distanza tra due classi A e B viene calcolata
considerando la distanza media tra gli elementi di A e di B
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
metodo dei centroidi. La distanza tra due classi A e B viene calcolata
considerando la distanza tra i centroidi (elementi medi) di A e di B .
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
19 / 68
Scelta del criterio di aggregazione
Classificazione
automatica Cluster
analysis
A. Iodice
metodo di Ward: tale metodo parte da gruppi contenenti
un solo oggetto; ad ogni passo aggrega gli oggetti che
determinano il minimo decremento di inerzia.
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
L’obbiettivo di una cluster analysis è massimizzare l’inerzia
tra i gruppi, ovvero minimizzare l’inerzia interna ai gruppi.
Clustering
gerarchico
Il metodo di Ward aggrega di volta in volta la coppia di
oggetti che minimizza la perdita di inerzia tra i gruppi.
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
20 / 68
Esempio di classificazione gerarchico
Classificazione
automatica Cluster
analysis
A. Iodice
esempio dati bivariati
Clustering:
classificazione
automatica
item01
item02
item03
item04
item05
item06
item07
item08
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
X
2
9
12
11
7
9
10
11
scatter-plot
Y
4
2
8
7
5
9
5
2
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
21 / 68
Step dell’algoritmo agglomerativo
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
matrice di distanza
esempio dati bivariati
item01
item02
item03
item04
item05
item06
item07
item08
X
2
9
12
11
7
9
10
11
Y
4
2
8
7
5
9
5
2
i1
i2
i3
i4
i5
i6
i7
i8
i1
0
7.28
10.77
9.49
5.10
8.60
8.06
9.22
i2
i3
i4
i5
i6
i7
i8
0
6.71
5.39
3.61
7.00
3.16
2.00
0
1.41
5.83
3.16
3.61
6.08
0
4.47
2.83
2.24
5.00
0
4.47
3.00
5.00
0
4.12
7.28
0
3.16
0
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
22 / 68
Procedura agglomerativa
Classificazione
automatica Cluster
analysis
matrice di distanza: step 1
i1
i2
i3
i4
i5
i6
i7
i8
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
i2
i3
i4
i5
i6
i7
i8
0
6.71
5.39
3.61
7
3.16
2
0
1.41
5.83
3.16
3.61
6.08
0
4.47
2.83
2.24
5
0
4.47
3
5
0
4.12
7.28
0
3.16
0
matrice di distanza: step 2
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
i1
i2
(i4,i3)
i5
i6
i7
i8
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
i1
0
7.28
10.77
9.49
5.10
8.60
8.06
9.22
A. Iodice
i1
0
7.28
10.77
5.10
8.60
8.06
9.22
i2
(i4,i3)
i5
i6
i7
i8
0
6.71
3.61
7
3.16
2
0
5.83
3.16
3.61
6.08
0
4.47
3
5
0
4.12
7.28
0
3.16
0
Classificazione automatica - Cluster analysis
Statistica
23 / 68
Procedura agglomerativa
Classificazione
automatica Cluster
analysis
matrice di distanza: step3
A. Iodice
i1
(i2,i8)
(i4,i3)
i5
i6
i7
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
i1
0
9.22
10.77
5.10
8.60
8.06
(i2,i8)
(i4,i3)
i5
i6
i7
0
6.71
5
7.28
3.16
0
5.83
3.16
3.61
0
4.47
3
0
4.12
0
matrice di distanza: step4
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
i1
(i2,i8)
(i4,i3)
i6
(i7,i5)
Clustering non
gerarchico
i1
0
9.22
10.77
8.60
8.06
(i2,i8)
(i4,i3)
i6
(i7,i5)
0
6.71
7.28
5
0
3.16
5.83
0
4.47
0
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
24 / 68
Procedura agglomerativa
Classificazione
automatica Cluster
analysis
matrice di distanza: step5
A. Iodice
i1
(i2,i8)
(i6,i4,i3)
(i7,i5)
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
i1
0
9.22
10.77
8.06
(i2,i8)
(i6,i4,i3)
(i7,i5)
0
7.28
5
0
5.83
0
matrice di distanza: step6
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
i1
(i6,i4,i3)
(i7,i5,i2,i8)
i1
0
10.77
9.22
(i6,i4,i3)
(i7,i5,i2,i8)
0
7.28
0
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
25 / 68
Esempio classificazione gerachica
Classificazione
automatica Cluster
analysis
legame semplice
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
26 / 68
Visualizzazione procedura: legame semplice
Classificazione
automatica Cluster
analysis
cliccare il centro della slide per visualizzare l’animazione
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
27 / 68
Esempio classificazione gerachica
Classificazione
automatica Cluster
analysis
legame completo
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
28 / 68
Visualizzazione procedura: legame completo
Classificazione
automatica Cluster
analysis
cliccare il centro della slide per visualizzare l’animazione
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
29 / 68
Esempio classificazione gerachica
Classificazione
automatica Cluster
analysis
legame medio
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
30 / 68
Visualizzazione procedura: legame medio
Classificazione
automatica Cluster
analysis
cliccare il centro della slide per visualizzare l’animazione
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
31 / 68
Qualità della soluzione
Classificazione
automatica Cluster
analysis
La qualità della gerarchia ottenuta può essere valutata confrontando le distanze tra le unità statistiche
originarie e le distanze ultrametriche. Sia
dij : la distanza tra l’individuo i e l’individuo j.
A. Iodice
d∗
ij : la distanza ultrametrica tra l’individuo i e l’individuo j.
Clustering:
classificazione
automatica
n: numero di unità statistiche considerate.
n
X
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Indice di deformazione del
quadrato degli scarti
Indice di deformazione del
valore assoluto
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
| dij − d∗
ij |
n
X
i=1 j=i+1
2
(dij − d∗
ij )
2 − n)/2
(n
i=1 j=i+1
n
X
(n(n − 2))/2
n
X
coefficiente di correlazione
Pn
i=1
Clustering non
gerarchico
qP
n
i=1
Pn
j=i+1
¯ ∗ − d¯∗ )
(dij − d)(d
ij
Pn Pn
∗
¯∗ 2
i=1
j=i+1 (dij − d )
¯2
j=i+1 (dij − d)
Pn
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
32 / 68
Qualità della soluzione
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
matrice di distanza
esempio dati bivariati
item01
item02
item03
item04
item05
item06
item07
item08
X
2
9
12
11
7
9
10
11
Y
4
2
8
7
5
9
5
2
i1
i2
i3
i4
i5
i6
i7
i8
i1
0
7.28
10.77
9.49
5.10
8.60
8.06
9.22
i2
i3
i4
i5
i6
i7
i8
0
6.71
5.39
3.61
7.00
3.16
2.00
0
1.41
5.83
3.16
3.61
6.08
0
4.47
2.83
2.24
5.00
0
4.47
3.00
5.00
0
4.12
7.28
0
3.16
0
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
33 / 68
Qualità della soluzione
Classificazione
automatica Cluster
analysis
matrice di distanza
i1
i2
i3
i4
i5
i6
i7
i8
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
i2
i3
i4
i5
i6
i7
i8
0
6.71
5.39
3.61
7.00
3.16
2.00
0
1.41
5.83
3.16
3.61
6.08
0
4.47
2.83
2.24
5.00
0
4.47
3.00
5.00
0
4.12
7.28
0
3.16
0
i2
i3
i4
i5
i6
i7
i8
0
7.2
7.2
5.00
7.2
5.00
2.00
0
1.41
7.2
3.16
7.2
7.2
0
7.2
3.16
7.2
7.2
0
7.2
3.00
3.00
0
7.2
7.2
0
5.00
0
matrice delle ultrametriche superiori minime
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
i1
i2
i3
i4
i5
i6
i7
i8
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
i1
0
7.28
10.77
9.49
5.10
8.60
8.06
9.22
A. Iodice
i1
0
10.7
10.7
10.7
10.7
10.7
10.7
10.7
Classificazione automatica - Cluster analysis
Statistica
34 / 68
Esempio con data set di dimensioni maggiori
Classificazione
automatica Cluster
analysis
legame semplice
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
35 / 68
Esempio con data set di dimensioni maggiori
Classificazione
automatica Cluster
analysis
legame completo
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
36 / 68
Esempio con data set di dimensioni maggiori
Classificazione
automatica Cluster
analysis
legame medio
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
37 / 68
Esempio data set strutturato
Classificazione
automatica Cluster
analysis
legame semplice
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
38 / 68
Esempio data set strutturato
Classificazione
automatica Cluster
analysis
legame completo
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
39 / 68
Esempio con data set strutturato
Classificazione
automatica Cluster
analysis
legame medio
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
40 / 68
Procedure non gerarchiche
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
metodo dei centri mobili: procedura di classificazione non
gerarchica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
K-means: variazione del metodo dei centri mobili
Clustering
gerarchico
K-medoids: variazione del metodo K-means
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
41 / 68
Clustering non gerarchico: centri mobili
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
centri mobili
1 scegliere il parametro k numero di classi
2
scegliere k centri c1 , . . . , ck in modo casuale
3
assegnare ciascuna osservazione al centro più vicino,
ottenendo C1 , . . . , Ck classi
4
aggiornare i centri c1 = C̄1 , . . . , ck = C̄k
5
ripetere gli step 3 e 4 fino a convergenza
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
42 / 68
Procedura in azione: inizializzazione (favorevole)
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
43 / 68
Procedura in azione: inizializzazione (sfavorevole)
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
44 / 68
Procedura in azione: scelta erronea del numero di classi (K=4)
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
45 / 68
Procedura in azione: scelta erronea del numero di classi (K=5)
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
46 / 68
Clustering non gerarchico: K-means
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
K-means
1 scegliere il parametro k numero di classi
2
scegliere k centri c1 , . . . , ck : ciascun nucleo è composto da
più elementi
3
assegnare ciascuna osservazione al centro più vicino
4
aggiornare contestualmente il centro associato alla classe
cui l’osservazione è stata assegnata
5
ripetere gli step 3 e 4 fino a convergenza
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
47 / 68
Le forme forti
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Individuazione delle forme forti
Gli oggetti che in diverse applicazioni successive di una
procedura di classificazione automatica vengono collocate
sempre nello stesso gruppo si definiscono forme forti
Effettuare s volte la classificazione automatica
Clustering
gerarchico
Gli oggetti che in ognuna delle s ripetizioni vengono
assegnate ad uno stesso gruppo sono una forma forte
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Gli oggetti che in ognuna delle s ripetizioni vengono
assegnate a gruppi diversi sono una forma debole
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
48 / 68
Esempio di classificazione non gerarchico
Classificazione
automatica Cluster
analysis
A. Iodice
esempio dati bivariati
Clustering:
classificazione
automatica
item01
item02
item03
item04
item05
item06
item07
item08
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
X
2
9
12
11
7
9
10
11
scatter-plot
Y
4
2
8
7
5
9
5
2
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
49 / 68
Esempio con data set strutturato
Classificazione
automatica Cluster
analysis
scelta del numero di classi: k = 3
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
50 / 68
Esempio con data set strutturato
Classificazione
automatica Cluster
analysis
scelta del numero di classi: k = 4
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
51 / 68
Criteri per stabilire il numero di classi
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Indice Calinski and Harabasz
Per individuare il numero di classi che garantisce la soluzione migliore si utilizza il
Calinski and Harabasz (CH) index. Tale indice consiste nel rapporto tra la
devianza between (tra i gruppi) e quella within (interna ai gruppi): ciascuna delle
due devianze è rapportata ad un fattore di penalizzazione legato al numero dei
gruppi. Formalmente:
CH =
Dev(B)/K − 1
Dev(W )/n − K
dove K è il numero di gruppi scelto, n è il numero di oggetti da raggruppare.
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Silhouette
Ampiezza media della silhouette: per ciascun oggetto i il valore della silhouette é
si =
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
bi − ai
,
max(ai , bi )
dove ai è la distanza media tra i e gli altri punti all’interno della stessa classe di
i. Il valore bi è invece la distanza media tra i e i punti della più vicina delle altre
classi.
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
52 / 68
Esempio di silhouette plot
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
53 / 68
Scelta del metodo
Classificazione
automatica Cluster
analysis
A. Iodice
procedure gerarchiche
Clustering:
classificazione
automatica
procedure non gerarchiche
La soluzione consiste in una partizione dei
dati, di facile interpretazione
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
il costo computazionale per ottenere una
soluzione è n × k (n oggetti, k classi)
la scelta iniziale (e casuale) dei centri
determina l’esito della soluzione
Clustering
gerarchico
necessità di conoscere a priori k il numero
di classi, altrimenti sono necessarie prove
ripetute su diversi k alla ricerca di quello
ottimale
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
La soluzione consiste in una gerarchia
indicizzata:
- lettura veriticale: come si formano i gruppi
- lettura orizzontale: ad ogni livello della
gerarchia gli oggetti vengono assegnati ai
diversi gruppi
il costo computazionale per ottenere una
soluzione: calcolare n(n − 1)/2 distanze
diventa proibitivo in caso di elevata
numerosità
le aggregazioni iniziali sono incluse nelle
successive e condizionano l’esito della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
54 / 68
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Density-based clustering
Le tecniche di clustering density-based mirano a identificare e
distinguere le regioni ad alta densità di punti da qulle a bassa densità
di punti The aim of clustering is to identify regions of high density of
points, separated from one another by low density regions.
center-based density: la densità di ciascun punto i è stimata dal
numero di punti che si trovano all’interno del cerchio di centro
in i e raggio Eps definito dall’utente.
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
core points: un punto la cui densità è superiore ad una certa
soglia definita dall’utente, MinPts
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
border points: punti di frontiera, non sono core points, ma nelle
loro vicinanze (all’interno del cerchio di raggio Eps) si trovano
dei core points.
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
noise points: non sono ne core point ne border point.
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
55 / 68
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Density-based clustering
identificare ciascun punto e definire se sia core, border o
noise point
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
eliminare i noise point
formare un cluster con tutti i core point che si trovano
ciascuno nel cerchio di raggio Eps dell’altro
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
assegnare ciascun border point al cluster cui appartiene il
core point più vicino
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
56 / 68
Cluster analysis sulle coordinate delle unità
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Nelle applicazioni di tecniche fattoriali quali ACP e MCA, la rappresentazione
delle unità statistiche, soprattutto se in numero elevato, risulta di difficile
interpretazione e in molti casi di scarso interesse. La rappresentazione sintetica
delle unità può essere utilizzata come input di una procedura di cluster analysis:
in questo modo si ottiene un duplice vantaggio
riduzione del costo computazionale della procedura di cluster analysis
Clustering
gerarchico
maggiore efficienza nella determinazione delle classi (gli oggetti osservati
sono descritti da un numero ridotto di dimensioni)
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
57 / 68
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
58 / 68
Cluster analysis sulle coordinate delle unità: ACP
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Con riferimento ai dati del Sole24Ore, e alle variabili associate al tenore di vita in
particolare, si consideri di voler definire dei gruppi omogenei di province. Per fare
questo si esegue:
una ACP sulla matrice dei dati di partenza;
una classificazione gerarchica sulle coordinate delle unità (le province).
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
59 / 68
Cluster analysis sulle coordinate delle unità: ACP
Classificazione
automatica Cluster
analysis
Dendrogramma: il numero di gruppi è 4
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
60 / 68
Cluster analysis sulle coordinate delle unità: ACP
Classificazione
automatica Cluster
analysis
Dendrogramma costruito sul piano fattoriale
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
61 / 68
Cluster analysis sulle coordinate delle unità: ACP
Classificazione
automatica Cluster
analysis
Soluzione ACP e cluster analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
62 / 68
Cluster analysis sulle coordinate delle unità: MCA
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Con riferimento ai dati del wg93 circa le opinioni sulla scienza di un campione di
871 individui, si consideri di voler definire dei gruppi omogenei di individui. Per
fare questo si esegue:
una ACM sulla matrice dei dati di partenza;
una classificazione gerarchica sulle coordinate delle unità (individui).
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
63 / 68
Cluster analysis sulle coordinate delle unità: ACP
Classificazione
automatica Cluster
analysis
Dendrogramma: il numero di gruppi è 3 (ma la struttura in gruppi non è ben
definita)
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
64 / 68
Cluster analysis sulle coordinate delle unità: ACP
Classificazione
automatica Cluster
analysis
Dendrogramma costruito sul piano fattoriale
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
65 / 68
Cluster analysis sulle coordinate delle unità: ACP
Classificazione
automatica Cluster
analysis
A. Iodice
Soluzione ACP e cluster analysis
Mappa fattoriale attributi
Mappa fattoriale individui
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
66 / 68
Approccio combinato metodi gerarchici e non
gerarchici
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Approccio combinato
Le procedure non gerachiche, anche se molto potenti da un punto di vista computazionale,
necessitano dell scelta apriori di K, numero di classi
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Clustering
gerarchico
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Le procedure gerachiche, consentono di visualizzare la progressiva formazione delle classi,
consentendo di scegliere opportunamente il numero di classi da considerare. Tuttavia gli algoritmi
gerarchici richiedono un notevole sforzo computazionale e sono pertanto inadatti ad applicazioni su
data set di grandi dimensioni (es. n > 10000) a causa dei lunghi tempi di elaborazioni richiesti.
In caso di data set di grandi dimensioni è possibile adottare un approccio di classificazione ibrido che sfrutti
al meglio le peculiarità degli algoritmi gerarchici e non gerarchici.
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
67 / 68
Approccio combinato metodi gerarchici e non
gerarchici
Classificazione
automatica Cluster
analysis
A. Iodice
Clustering:
classificazione
automatica
Misure di
dissimilarità e
distanze
(metriche e
ultrametriche)
Fasi cluster analysis ad approccio ibrido
Quando il numero di oggetti da clusterizzare è elevato, è possibile ricorrere a procedure non gerarchiche con
K = 100 o superiore in funzione del grado di sintesi che si vuole ottenere. Calcolando il centroide di
ciascuna classe si ottengono K = 100 nuovi oggetti che sintetizzano i dati di partenza. La matrice di dati
risultante può essere quindi agilmente inputata in una procedura gerarchica: dall’analisi del dendrogramma
risultante si decide il numero di classi in cui ripartire i dati di partenza.
Clustering
gerarchico
step1: algoritmo non gerarchico K − means con parametro K elevato
step2: algoritmo gerarchico sui K centroidi ottenuti
Criteri di
aggregazione
La procedura
(agglomerativa)
Qualità della
soluzione
Clustering non
gerarchico
Procedure non
gerarchiche
K-means e
K-medoids
Metodi
density-based
A. Iodice
Classificazione automatica - Cluster analysis
Statistica
68 / 68