Classificazione automatica Cluster analysis A. Iodice Classificazione automatica - Cluster analysis Clustering: classificazione automatica Strumenti quantitativi per l’economia e la finanza I Misure di dissimilarità e distanze (metriche e ultrametriche) Alfonso Iodice D’Enza [email protected] Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Università degli studi di Cassino e del Lazio Meridionale Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 1 / 68 Outline Classificazione automatica Cluster analysis 1 Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) 2 Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione 3 Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids 4 Metodi density-based DB-Scan 5 Approcci ibridi A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 2 / 68 Clustering Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Le tecniche di clustering consistono in procedure automatiche per raggruppare gli oggetti a disposizione in classi composte da record omogenei. Esempi Clustering dei profili di comportamento all’acquisto per identificare comportamenti di nicchia Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Raggruppare insieme i geni che presentano caratteristiche comuni Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 3 / 68 Clustering Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Obbiettivo delle tecniche di clustering Le tecniche di clustering puntano a ragruppare gli le unità statistiche considerate (oggetti, records) in gruppi (cluster). L’obbiettivo è creare gruppi massimamente omogenei al loro interno e massimamente eterogenei tra loro. Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 4 / 68 Clustering: misure di dissimilarità Classificazione automatica Cluster analysis A. Iodice Dati due oggetti x e y e un indice d() che ne misura della lontananza logica, possono valere le seguenti proprietà: Caratteristiche dell’indice di misura Clustering: classificazione automatica separabilità d(x, y) = 0 ⇒ x = y simmetria Misure di dissimilarità e distanze (metriche e ultrametriche) d(x, y) = d(y, x) disuguaglianza triangolare si considerino tre oggetti x, y e z Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione d(x, y) ≤ d(x, z) + d(z, y) Dissimilarità e distanza indice di dissimilarità: indice caratterizzato da separabilità e simmetria Clustering non gerarchico indice di distanza (metrica) : indice caratterizzato da separabilità e simmetria per il quale risulta verificata la disuguaglianza triangolare. Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 5 / 68 Clustering: misure di similarità Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Date due osservazioni x = x1 , x2 , . . . , xp e y = y1 , y2 , . . . , yp descritte da p variabili quantitative Distanze distanza euclidea Misure di dissimilarità e distanze (metriche e ultrametriche) d(x, y) = sX Clustering gerarchico i Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione distanza city-block d(x, bf y) = Clustering non gerarchico X |xi − yi | i Procedure non gerarchiche K-means e K-medoids Metodi density-based (xi − yi )2 A. Iodice Classificazione automatica - Cluster analysis Statistica 6 / 68 Clustering: misure di similarità Classificazione automatica Cluster analysis Distanze le precedenti sono casi particolari della distanza di Minkowski A. Iodice !1/q d(x, y) = Clustering: classificazione automatica Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione in particolare per q = 1 si ottiene la distanza city-block; per q = 2 si ottiene la distanza euclidea. Dissimilarità e dati qualitativi Nel caso di variabili categoriche il grado di similarità/dissimilarità che caratterizza le coppie di osservazioni si misura rispetto al numero di modalità comuni. Dati due oggetti A e B, descritti da d variabili qualitative, la distanza si misura contando il numero volte in cui assumono modalità differenti. Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based |xi − yi | q i Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico X d(A, B) = d 1X Xi d i=1 dove Xi = 1 se A e B assumono modalità diverse per la variabile i. A. Iodice Classificazione automatica - Cluster analysis Statistica 7 / 68 Distanze rispetto ad una soglia Classificazione automatica Cluster analysis A. Iodice Paradosso e distanza metrica Per determinare i cluster si determina una distanza soglia tale che dati due punti A e B, se la distanza tra loro è tale che d(A, B) > soglia allora A e B appartengono a gruppi diversi, viceversa saranno classificati nello stesso gruppo. problema: utilizzando una distanza metrica si va incontro al paradosso descritto nel seguente esemio: si considerino tre punti A, B e C, se la distanza che li separa è minore o uguale a 3 allora i punti vengono assegnati allo stesso gruppo Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 8 / 68 Distanze rispetto ad una soglia Classificazione automatica Cluster analysis A. Iodice Paradosso e distanza metrica Per determinare i cluster si determina una distanza soglia tale che dati due punti A e B, se la distanza tra loro è tale che d(A, B) > soglia allora A e B appartengono a gruppi diversi, viceversa saranno classificati nello stesso gruppo. problema: utilizzando una distanza metrica si va incontro al paradosso descritto nel seguente esemio: si considerino tre punti A, B e C, se la distanza che li separa è minore o uguale a 3 allora i punti vengono assegnati allo stesso gruppo Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 9 / 68 Distanze rispetto ad una soglia Classificazione automatica Cluster analysis A. Iodice Paradosso e distanza metrica Per determinare i cluster si determina una distanza soglia tale che dati due punti A e B, se la distanza tra loro è tale che d(A, B) > soglia allora A e B appartengono a gruppi diversi, viceversa saranno classificati nello stesso gruppo. problema: utilizzando una distanza metrica si va incontro al paradosso descritto nel seguente esemio: si considerino tre punti A, B e C, se la distanza che li separa è minore o uguale a 3 allora i punti vengono assegnati allo stesso gruppo Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 10 / 68 Distanze rispetto ad una soglia Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Passaggio alle ultrametriche Per ovviare al problema si passa alle distanze ultrametriche: le distanze ultrametriche che caratterizzano ciascuna terna di punti sono date dal triangolo isoscele la cui base è data dalla distanza dei punti più vicini tra loro. Il lato del triangolo isoscele è rappresentato da una delle atre due distanze. In particolare si ha: ultrametrica superiore minima se il lato del triangolo isoscele corrisponde alla maggiore delle atre due distanze Clustering gerarchico ultrametrica inferiore massima se il lato del triangolo isoscele corrisponde alla minore delle atre due distanze Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 11 / 68 Distanze rispetto ad una soglia Classificazione automatica Cluster analysis Passaggio alle ultrametriche ultrametrica superiore minima se il lato del triangolo isoscele corrisponde alla maggiore delle atre due distanze A. Iodice ultrametrica inferiore massima se il lato del triangolo isoscele corrisponde alla minore delle atre due distanze Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 12 / 68 Distanze rispetto ad una soglia Classificazione automatica Cluster analysis Passaggio alle ultrametriche ultrametrica superiore minima se il lato del triangolo isoscele corrisponde alla maggiore delle atre due distanze A. Iodice ultrametrica inferiore massima se il lato del triangolo isoscele corrisponde alla minore delle atre due distanze Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 13 / 68 Trasformazione delle variabili Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Normalizzare. standardizzare Per rendere direttamente confrontabili le variabili si possono utilizzare le seguenti trasformazioni normalizzazione min-max Misure di dissimilarità e distanze (metriche e ultrametriche) X∗ = Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione X − min(X) range(X) standardizzazione (z-score) X∗ = Clustering non gerarchico X − µX σX Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 14 / 68 Tipologie di clustering Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico gerarchie e partizioni clustering gerarchico determina una gerarchia, ovvero una struttura di cluster in cui l’insieme di unità viene bipartita ricorsivamente in corrispondenza di diversi livelli di aggregazione clustering non gerarchico: l’insieme delle unità viene partizionato in k cluster omogenei disgiunti Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 15 / 68 Partizioni e gerarchie Classificazione automatica Cluster analysis Gerarchie Si consideri un insieme O. La gerarchia H(O) .è un insieme di classi tali che A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Tutti gli oggetti oj ∈ O appartengono ad H(O) oj ∈ O → oj ∈ H(O) Partizioni Si consideri un insieme O ed una sua partizione P (O) = {A, B, C, D, E}. la gerarchia H(O) contiene anche la classe contenente tutti gli oggetti considerati Due elementi A e B sono disgiunti oppure coincidono. A ∩ B = 0 se A 6= B, A, B ∈ P (O). Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione se P (O) = {A, B, C, D, E}.allora A ∪ B ∪ C ∪ D ∪ E = O. Clustering non gerarchico O ∈ H(O) Due oggetti oi e oj ∈ H(O) o sono disgiunti oppure uno dei due contiene l’altro oi ∩ oj = oppure risulta una tra Procedure non gerarchiche K-means e K-medoids Metodi density-based oi ⊂ oj e oj ⊂ oi A. Iodice Classificazione automatica - Cluster analysis Statistica 16 / 68 Clustering gerarchico Classificazione automatica Cluster analysis A. Iodice clustering gerarchico: algoritmo agglomerativo. La soluzione si ottiene a partire dalle singole unità statistiche, ad ogni iterazione si aggregano le unità statistiche più vicine; la procedura termina quando tutte le unità risultano aggregate in un unico cluster. Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico clustering gerarchico: algoritmo divisivo. In questo caso tutte le unità sono in una stessa classe e, ad ogni iterazione successiva, l’unità più dissimile dalle altre viene assegnata ad un nuovo cluster. Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 17 / 68 Scelta del criterio di aggregazione Classificazione automatica Cluster analysis A. Iodice il primo passo di una procedura di clustering gerarchico agglomerativo consiste nell’aggregare tra loro i due elementi più vicini. Per fare questo si calcola la distanza tra tutte le coppie di unità considerate. Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) A partire dal secondo passo in poi emerge la necessità di calcolare distanze tra le singole unità e i gruppi di unità che si vanno progressivamente formando, o tra coppie di gruppi di unità. Clustering gerarchico I criteri di aggregazione stabiliscono, dunque, la regola per calcolare la distanza tra un’unità ed un gruppo, o tra due gruppi. Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 18 / 68 Scelta del criterio di aggregazione Classificazione automatica Cluster analysis A. Iodice metodo del legame semplice. La distanza tra due classi A e B viene calcolata considerando la distanza minima tra un elemento di A ad uno di B (nearest-neighbour) Clustering: classificazione automatica metodo del legame completo. La distanza tra due classi A e B viene calcolata considerando la distanza massima tra un elemento di A ad uno di B (farthest-neighbour) Misure di dissimilarità e distanze (metriche e ultrametriche) metodo del legame medio. La distanza tra due classi A e B viene calcolata considerando la distanza media tra gli elementi di A e di B Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione metodo dei centroidi. La distanza tra due classi A e B viene calcolata considerando la distanza tra i centroidi (elementi medi) di A e di B . Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 19 / 68 Scelta del criterio di aggregazione Classificazione automatica Cluster analysis A. Iodice metodo di Ward: tale metodo parte da gruppi contenenti un solo oggetto; ad ogni passo aggrega gli oggetti che determinano il minimo decremento di inerzia. Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) L’obbiettivo di una cluster analysis è massimizzare l’inerzia tra i gruppi, ovvero minimizzare l’inerzia interna ai gruppi. Clustering gerarchico Il metodo di Ward aggrega di volta in volta la coppia di oggetti che minimizza la perdita di inerzia tra i gruppi. Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 20 / 68 Esempio di classificazione gerarchico Classificazione automatica Cluster analysis A. Iodice esempio dati bivariati Clustering: classificazione automatica item01 item02 item03 item04 item05 item06 item07 item08 Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico X 2 9 12 11 7 9 10 11 scatter-plot Y 4 2 8 7 5 9 5 2 Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 21 / 68 Step dell’algoritmo agglomerativo Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione matrice di distanza esempio dati bivariati item01 item02 item03 item04 item05 item06 item07 item08 X 2 9 12 11 7 9 10 11 Y 4 2 8 7 5 9 5 2 i1 i2 i3 i4 i5 i6 i7 i8 i1 0 7.28 10.77 9.49 5.10 8.60 8.06 9.22 i2 i3 i4 i5 i6 i7 i8 0 6.71 5.39 3.61 7.00 3.16 2.00 0 1.41 5.83 3.16 3.61 6.08 0 4.47 2.83 2.24 5.00 0 4.47 3.00 5.00 0 4.12 7.28 0 3.16 0 Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 22 / 68 Procedura agglomerativa Classificazione automatica Cluster analysis matrice di distanza: step 1 i1 i2 i3 i4 i5 i6 i7 i8 A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico i2 i3 i4 i5 i6 i7 i8 0 6.71 5.39 3.61 7 3.16 2 0 1.41 5.83 3.16 3.61 6.08 0 4.47 2.83 2.24 5 0 4.47 3 5 0 4.12 7.28 0 3.16 0 matrice di distanza: step 2 Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione i1 i2 (i4,i3) i5 i6 i7 i8 Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based i1 0 7.28 10.77 9.49 5.10 8.60 8.06 9.22 A. Iodice i1 0 7.28 10.77 5.10 8.60 8.06 9.22 i2 (i4,i3) i5 i6 i7 i8 0 6.71 3.61 7 3.16 2 0 5.83 3.16 3.61 6.08 0 4.47 3 5 0 4.12 7.28 0 3.16 0 Classificazione automatica - Cluster analysis Statistica 23 / 68 Procedura agglomerativa Classificazione automatica Cluster analysis matrice di distanza: step3 A. Iodice i1 (i2,i8) (i4,i3) i5 i6 i7 Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico i1 0 9.22 10.77 5.10 8.60 8.06 (i2,i8) (i4,i3) i5 i6 i7 0 6.71 5 7.28 3.16 0 5.83 3.16 3.61 0 4.47 3 0 4.12 0 matrice di distanza: step4 Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione i1 (i2,i8) (i4,i3) i6 (i7,i5) Clustering non gerarchico i1 0 9.22 10.77 8.60 8.06 (i2,i8) (i4,i3) i6 (i7,i5) 0 6.71 7.28 5 0 3.16 5.83 0 4.47 0 Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 24 / 68 Procedura agglomerativa Classificazione automatica Cluster analysis matrice di distanza: step5 A. Iodice i1 (i2,i8) (i6,i4,i3) (i7,i5) Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico i1 0 9.22 10.77 8.06 (i2,i8) (i6,i4,i3) (i7,i5) 0 7.28 5 0 5.83 0 matrice di distanza: step6 Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione i1 (i6,i4,i3) (i7,i5,i2,i8) i1 0 10.77 9.22 (i6,i4,i3) (i7,i5,i2,i8) 0 7.28 0 Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 25 / 68 Esempio classificazione gerachica Classificazione automatica Cluster analysis legame semplice A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 26 / 68 Visualizzazione procedura: legame semplice Classificazione automatica Cluster analysis cliccare il centro della slide per visualizzare l’animazione A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 27 / 68 Esempio classificazione gerachica Classificazione automatica Cluster analysis legame completo A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 28 / 68 Visualizzazione procedura: legame completo Classificazione automatica Cluster analysis cliccare il centro della slide per visualizzare l’animazione A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 29 / 68 Esempio classificazione gerachica Classificazione automatica Cluster analysis legame medio A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 30 / 68 Visualizzazione procedura: legame medio Classificazione automatica Cluster analysis cliccare il centro della slide per visualizzare l’animazione A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 31 / 68 Qualità della soluzione Classificazione automatica Cluster analysis La qualità della gerarchia ottenuta può essere valutata confrontando le distanze tra le unità statistiche originarie e le distanze ultrametriche. Sia dij : la distanza tra l’individuo i e l’individuo j. A. Iodice d∗ ij : la distanza ultrametrica tra l’individuo i e l’individuo j. Clustering: classificazione automatica n: numero di unità statistiche considerate. n X Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Indice di deformazione del quadrato degli scarti Indice di deformazione del valore assoluto Misure di dissimilarità e distanze (metriche e ultrametriche) | dij − d∗ ij | n X i=1 j=i+1 2 (dij − d∗ ij ) 2 − n)/2 (n i=1 j=i+1 n X (n(n − 2))/2 n X coefficiente di correlazione Pn i=1 Clustering non gerarchico qP n i=1 Pn j=i+1 ¯ ∗ − d¯∗ ) (dij − d)(d ij Pn Pn ∗ ¯∗ 2 i=1 j=i+1 (dij − d ) ¯2 j=i+1 (dij − d) Pn Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 32 / 68 Qualità della soluzione Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione matrice di distanza esempio dati bivariati item01 item02 item03 item04 item05 item06 item07 item08 X 2 9 12 11 7 9 10 11 Y 4 2 8 7 5 9 5 2 i1 i2 i3 i4 i5 i6 i7 i8 i1 0 7.28 10.77 9.49 5.10 8.60 8.06 9.22 i2 i3 i4 i5 i6 i7 i8 0 6.71 5.39 3.61 7.00 3.16 2.00 0 1.41 5.83 3.16 3.61 6.08 0 4.47 2.83 2.24 5.00 0 4.47 3.00 5.00 0 4.12 7.28 0 3.16 0 Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 33 / 68 Qualità della soluzione Classificazione automatica Cluster analysis matrice di distanza i1 i2 i3 i4 i5 i6 i7 i8 A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico i2 i3 i4 i5 i6 i7 i8 0 6.71 5.39 3.61 7.00 3.16 2.00 0 1.41 5.83 3.16 3.61 6.08 0 4.47 2.83 2.24 5.00 0 4.47 3.00 5.00 0 4.12 7.28 0 3.16 0 i2 i3 i4 i5 i6 i7 i8 0 7.2 7.2 5.00 7.2 5.00 2.00 0 1.41 7.2 3.16 7.2 7.2 0 7.2 3.16 7.2 7.2 0 7.2 3.00 3.00 0 7.2 7.2 0 5.00 0 matrice delle ultrametriche superiori minime Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione i1 i2 i3 i4 i5 i6 i7 i8 Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based i1 0 7.28 10.77 9.49 5.10 8.60 8.06 9.22 A. Iodice i1 0 10.7 10.7 10.7 10.7 10.7 10.7 10.7 Classificazione automatica - Cluster analysis Statistica 34 / 68 Esempio con data set di dimensioni maggiori Classificazione automatica Cluster analysis legame semplice A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 35 / 68 Esempio con data set di dimensioni maggiori Classificazione automatica Cluster analysis legame completo A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 36 / 68 Esempio con data set di dimensioni maggiori Classificazione automatica Cluster analysis legame medio A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 37 / 68 Esempio data set strutturato Classificazione automatica Cluster analysis legame semplice A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 38 / 68 Esempio data set strutturato Classificazione automatica Cluster analysis legame completo A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 39 / 68 Esempio con data set strutturato Classificazione automatica Cluster analysis legame medio A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 40 / 68 Procedure non gerarchiche Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica metodo dei centri mobili: procedura di classificazione non gerarchica Misure di dissimilarità e distanze (metriche e ultrametriche) K-means: variazione del metodo dei centri mobili Clustering gerarchico K-medoids: variazione del metodo K-means Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 41 / 68 Clustering non gerarchico: centri mobili Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) centri mobili 1 scegliere il parametro k numero di classi 2 scegliere k centri c1 , . . . , ck in modo casuale 3 assegnare ciascuna osservazione al centro più vicino, ottenendo C1 , . . . , Ck classi 4 aggiornare i centri c1 = C̄1 , . . . , ck = C̄k 5 ripetere gli step 3 e 4 fino a convergenza Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 42 / 68 Procedura in azione: inizializzazione (favorevole) Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 43 / 68 Procedura in azione: inizializzazione (sfavorevole) Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 44 / 68 Procedura in azione: scelta erronea del numero di classi (K=4) Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 45 / 68 Procedura in azione: scelta erronea del numero di classi (K=5) Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 46 / 68 Clustering non gerarchico: K-means Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione K-means 1 scegliere il parametro k numero di classi 2 scegliere k centri c1 , . . . , ck : ciascun nucleo è composto da più elementi 3 assegnare ciascuna osservazione al centro più vicino 4 aggiornare contestualmente il centro associato alla classe cui l’osservazione è stata assegnata 5 ripetere gli step 3 e 4 fino a convergenza Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 47 / 68 Le forme forti Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Individuazione delle forme forti Gli oggetti che in diverse applicazioni successive di una procedura di classificazione automatica vengono collocate sempre nello stesso gruppo si definiscono forme forti Effettuare s volte la classificazione automatica Clustering gerarchico Gli oggetti che in ognuna delle s ripetizioni vengono assegnate ad uno stesso gruppo sono una forma forte Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Gli oggetti che in ognuna delle s ripetizioni vengono assegnate a gruppi diversi sono una forma debole Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 48 / 68 Esempio di classificazione non gerarchico Classificazione automatica Cluster analysis A. Iodice esempio dati bivariati Clustering: classificazione automatica item01 item02 item03 item04 item05 item06 item07 item08 Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico X 2 9 12 11 7 9 10 11 scatter-plot Y 4 2 8 7 5 9 5 2 Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 49 / 68 Esempio con data set strutturato Classificazione automatica Cluster analysis scelta del numero di classi: k = 3 A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 50 / 68 Esempio con data set strutturato Classificazione automatica Cluster analysis scelta del numero di classi: k = 4 A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 51 / 68 Criteri per stabilire il numero di classi Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Indice Calinski and Harabasz Per individuare il numero di classi che garantisce la soluzione migliore si utilizza il Calinski and Harabasz (CH) index. Tale indice consiste nel rapporto tra la devianza between (tra i gruppi) e quella within (interna ai gruppi): ciascuna delle due devianze è rapportata ad un fattore di penalizzazione legato al numero dei gruppi. Formalmente: CH = Dev(B)/K − 1 Dev(W )/n − K dove K è il numero di gruppi scelto, n è il numero di oggetti da raggruppare. Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Silhouette Ampiezza media della silhouette: per ciascun oggetto i il valore della silhouette é si = Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based bi − ai , max(ai , bi ) dove ai è la distanza media tra i e gli altri punti all’interno della stessa classe di i. Il valore bi è invece la distanza media tra i e i punti della più vicina delle altre classi. A. Iodice Classificazione automatica - Cluster analysis Statistica 52 / 68 Esempio di silhouette plot Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 53 / 68 Scelta del metodo Classificazione automatica Cluster analysis A. Iodice procedure gerarchiche Clustering: classificazione automatica procedure non gerarchiche La soluzione consiste in una partizione dei dati, di facile interpretazione Misure di dissimilarità e distanze (metriche e ultrametriche) il costo computazionale per ottenere una soluzione è n × k (n oggetti, k classi) la scelta iniziale (e casuale) dei centri determina l’esito della soluzione Clustering gerarchico necessità di conoscere a priori k il numero di classi, altrimenti sono necessarie prove ripetute su diversi k alla ricerca di quello ottimale Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione La soluzione consiste in una gerarchia indicizzata: - lettura veriticale: come si formano i gruppi - lettura orizzontale: ad ogni livello della gerarchia gli oggetti vengono assegnati ai diversi gruppi il costo computazionale per ottenere una soluzione: calcolare n(n − 1)/2 distanze diventa proibitivo in caso di elevata numerosità le aggregazioni iniziali sono incluse nelle successive e condizionano l’esito della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 54 / 68 Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Density-based clustering Le tecniche di clustering density-based mirano a identificare e distinguere le regioni ad alta densità di punti da qulle a bassa densità di punti The aim of clustering is to identify regions of high density of points, separated from one another by low density regions. center-based density: la densità di ciascun punto i è stimata dal numero di punti che si trovano all’interno del cerchio di centro in i e raggio Eps definito dall’utente. Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico core points: un punto la cui densità è superiore ad una certa soglia definita dall’utente, MinPts Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione border points: punti di frontiera, non sono core points, ma nelle loro vicinanze (all’interno del cerchio di raggio Eps) si trovano dei core points. Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based noise points: non sono ne core point ne border point. A. Iodice Classificazione automatica - Cluster analysis Statistica 55 / 68 Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Density-based clustering identificare ciascun punto e definire se sia core, border o noise point Misure di dissimilarità e distanze (metriche e ultrametriche) eliminare i noise point formare un cluster con tutti i core point che si trovano ciascuno nel cerchio di raggio Eps dell’altro Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione assegnare ciascun border point al cluster cui appartiene il core point più vicino Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 56 / 68 Cluster analysis sulle coordinate delle unità Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Nelle applicazioni di tecniche fattoriali quali ACP e MCA, la rappresentazione delle unità statistiche, soprattutto se in numero elevato, risulta di difficile interpretazione e in molti casi di scarso interesse. La rappresentazione sintetica delle unità può essere utilizzata come input di una procedura di cluster analysis: in questo modo si ottiene un duplice vantaggio riduzione del costo computazionale della procedura di cluster analysis Clustering gerarchico maggiore efficienza nella determinazione delle classi (gli oggetti osservati sono descritti da un numero ridotto di dimensioni) Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 57 / 68 Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 58 / 68 Cluster analysis sulle coordinate delle unità: ACP Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Con riferimento ai dati del Sole24Ore, e alle variabili associate al tenore di vita in particolare, si consideri di voler definire dei gruppi omogenei di province. Per fare questo si esegue: una ACP sulla matrice dei dati di partenza; una classificazione gerarchica sulle coordinate delle unità (le province). Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 59 / 68 Cluster analysis sulle coordinate delle unità: ACP Classificazione automatica Cluster analysis Dendrogramma: il numero di gruppi è 4 A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 60 / 68 Cluster analysis sulle coordinate delle unità: ACP Classificazione automatica Cluster analysis Dendrogramma costruito sul piano fattoriale A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 61 / 68 Cluster analysis sulle coordinate delle unità: ACP Classificazione automatica Cluster analysis Soluzione ACP e cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 62 / 68 Cluster analysis sulle coordinate delle unità: MCA Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Con riferimento ai dati del wg93 circa le opinioni sulla scienza di un campione di 871 individui, si consideri di voler definire dei gruppi omogenei di individui. Per fare questo si esegue: una ACM sulla matrice dei dati di partenza; una classificazione gerarchica sulle coordinate delle unità (individui). Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 63 / 68 Cluster analysis sulle coordinate delle unità: ACP Classificazione automatica Cluster analysis Dendrogramma: il numero di gruppi è 3 (ma la struttura in gruppi non è ben definita) A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 64 / 68 Cluster analysis sulle coordinate delle unità: ACP Classificazione automatica Cluster analysis Dendrogramma costruito sul piano fattoriale A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 65 / 68 Cluster analysis sulle coordinate delle unità: ACP Classificazione automatica Cluster analysis A. Iodice Soluzione ACP e cluster analysis Mappa fattoriale attributi Mappa fattoriale individui Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 66 / 68 Approccio combinato metodi gerarchici e non gerarchici Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Approccio combinato Le procedure non gerachiche, anche se molto potenti da un punto di vista computazionale, necessitano dell scelta apriori di K, numero di classi Misure di dissimilarità e distanze (metriche e ultrametriche) Clustering gerarchico Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Le procedure gerachiche, consentono di visualizzare la progressiva formazione delle classi, consentendo di scegliere opportunamente il numero di classi da considerare. Tuttavia gli algoritmi gerarchici richiedono un notevole sforzo computazionale e sono pertanto inadatti ad applicazioni su data set di grandi dimensioni (es. n > 10000) a causa dei lunghi tempi di elaborazioni richiesti. In caso di data set di grandi dimensioni è possibile adottare un approccio di classificazione ibrido che sfrutti al meglio le peculiarità degli algoritmi gerarchici e non gerarchici. Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 67 / 68 Approccio combinato metodi gerarchici e non gerarchici Classificazione automatica Cluster analysis A. Iodice Clustering: classificazione automatica Misure di dissimilarità e distanze (metriche e ultrametriche) Fasi cluster analysis ad approccio ibrido Quando il numero di oggetti da clusterizzare è elevato, è possibile ricorrere a procedure non gerarchiche con K = 100 o superiore in funzione del grado di sintesi che si vuole ottenere. Calcolando il centroide di ciascuna classe si ottengono K = 100 nuovi oggetti che sintetizzano i dati di partenza. La matrice di dati risultante può essere quindi agilmente inputata in una procedura gerarchica: dall’analisi del dendrogramma risultante si decide il numero di classi in cui ripartire i dati di partenza. Clustering gerarchico step1: algoritmo non gerarchico K − means con parametro K elevato step2: algoritmo gerarchico sui K centroidi ottenuti Criteri di aggregazione La procedura (agglomerativa) Qualità della soluzione Clustering non gerarchico Procedure non gerarchiche K-means e K-medoids Metodi density-based A. Iodice Classificazione automatica - Cluster analysis Statistica 68 / 68