L’Analisi
Multidimensionale
dei Dati
Una Statistica da vedere
I metodi
di Classificazione automatica
Matrici e metodi
Strategia
di AMD
Anal. Discrimin.
Segmentazione
SI
Per riga
NO
Correl. Canon.
Corrisp. Multi.
SI
Analisi
simmetrica
SI
Matrice
strutturata
NO
Analisi nello
spazio delle
variabili
NO
SI
Comp.Princ.
An. Corrisp.
An. Matrici 3D
NO
Analisi
confermative
Cluster Anal.
Scaling Multid
Regress.Mult,
Conjoint Anal.
An. Non Simm
Corrisp.
• Variabili qualitative
• Variabili ordinali
• Variabili quantitative
Analisi
esplorative
Classificazione automatica
Insieme di procedure (algoritmi) che si prefiggono
di classificare o raggruppare individui in classi tali che:
- gli individui all'interno di una classe siano molto simili
- ogni classe sia relativamente distinta dalle altre
• Tabelle individui-variabili numeriche
I dati • Tabelle di contingenza
• Tabelle di presenza-assenza
Si ipotizza la presenza di raggruppamenti tra le unità
oppure
Se ne richiede la determinazione
La definizione delle classi si ottiene mediante algoritmi
iterativi basati su una serie di operazioni elementari
ripetute in maniera ricorsiva.
I metodi di Classificazione automatica
Definire una o più partizioni a partire dall’insieme dei punti considerati
Obiettivo
Numero delle partizioni possibili
Problema
Es.: 4 elementi (A,B,C,D) e 2 gruppi
(A) (B,C,D)
(B) (A,C,D)
(C) (A,B,D)
Numero delle partizioni (P)
(D) (A,B,C)
(A,B) (C,D)
(A,C) (B,D)
(A,D) (B,C)
2n-1- 1
n=4
P=7
n=10
P = 511
n=100
P = 1,000,000,000,000,000,000,000,000,000,00 - 1
= 1029-1
I metodi di Classificazione automatica
1 milione di partizioni
al secondo
Partizione ottimale di...
… 20 unità in 5 classi
8 giorni
… 30 unità in 5 classi
2444 secoli!
I metodi di Classificazione automatica
• Gli algoritmi per la classificazione automatica possono portare:



Alla costruzione di classi per
dicotomizzazioni successive
dell’insieme degli oggetti
Alla costruzione di classi per
aggregazioni successive di
coppie di oggetti
Direttamente a
delle partizioni
Classificazione
gerarchica discendente
Classificazione
gerarchica ascendente
Classificazione non
gerarchica
Criteri di classificazione
E = {e1, e2, ..., ei, ..., en} è l'insieme degli n individui da raggruppare
Una PARTIZIONE di E : P(E) = {c1, c2, ..., cj, ..., ck} (k  n) verifica le
seguenti proprietà
 per cj e cj  P(E) cj  cj =  j  j
 c1  c2  ...  cj  ...  ck = E
 P(E)  P(E) se ogni elemento di P(E) è incluso in un solo elemento di
P(E)
Una GERARCHIA di E : H(E) = {c1, c2, ..., cj, ..., ck} verifica le seguenti
proprietà
  ei  E  ei  H(E)
 E = {e1, e2, ..., ei, ..., en}  H(E)
 per cj e cj  H(E) cj  cj =  o cj  cj o cj  cj
taglio del dendrogramma per
ottenere i gruppi
H(E)

e3
e1
P4={(e1 e2 e3 e4) e5}
nodi
e2
e4
P5={(e1 e2 e3 e4 e5)}
H(E)
rami
P2={(e1 e2) e3 e4 e5}
e5
E
Gerarchia
una gerarchia è una
sequenza di
partizioni nidificate
P3={(e1 e2) (e3 e4) e5}
P1={e1 e2 e3 e4 e5}
e1
e2
e3
e4
e5
Albero Gerarchico
o
Dendrogramma
La misura del grado di somiglianza
Si può definire una applicazione d che faccia corrispondere un
numero reale positivo o nullo a ciascuna coppia (i,h)
Condizioni:
1) Separabilità: d i, h  0  ei  eh
2) Simmetria: di, h  dh, i 
3) Disuguaglianza triangolare: di, h  di, e  de, h
 i, h, e
4) Condizione di Krassner: di, h  SUPdi, e ; de, h
 i, h, e
Parleremo di:
.) indice di dissimilarità  se si verificano le condizioni 1 e 2
.) metrica o distanza  se si verificano le condizioni 1, 2 e 3
.) ultrametrica
 se si verificano le condizioni 1, 2 e 4
• indici di similarità: dati booleani
• indici di distanza: dati numerici e frequenze
Indici di similarità per variabili dicotomiche
Dati binari
•
Sii  0

Indici di similarità:  ei , ei  E  Sii  Sii (simmetria )
S  max solo se x  x  j  1, ..., p
ij
ij
 ii 
ei
ei
1 2 3 4 5 .. .. .. .. 10 .. .. .. .. 15 .. .. .. .. 20
0 1 1 0 0 1 0 0 1 0 0 1 1 1 0 0 1 0 1 0
0 1 1 1 0 0 0 0 1 1 1 1 1 1 0 1 1 0 1 0
ei
ei
ei
1
0
1
a
c
0
b
d

ei
1
0
• Indice di Sokal-Michener:
1
8
4
12
0
1
7
8
Sii 
• Coefficente di Jaccard: Sii 
9
11
20
a+ d = concordanza
a+d

a+b+c+d
a

a b c
0,1
0,1 

15
 0.75
20
8
 0.6
13
La matrice di similarità/dissimilarità
Dati binari
e1. . ei ei . . en
e1
1
.
.
1
ei
Sii
ei 
Si i
.
.
1
en
Indice di dissimilarità
Matrice di Similarità
 quadrata n  n
 simmetrica
 diagonale = 1
d ii  1  S ii
Distanze per variabili quantitative
METRICA DI MINKOWSKY d
h
ii 

   xij - xij
 j
h




1
h
Caso particolare
h=2
h=1

2 




d

x
x
2
Distanza Euclidea
  ij ij 
 j

Distanza di Manhattan (city block) d 1   x ij - x ij
1
2
j
d   Max x ij - x i j
h   Distanza di Lebisev
j

e1
x12
d 22  4 2  2 2

d1  4  2  6
2
x11
2
 4.472
d   Max 4,2  4
4
x22
1
e2
x21
2
DISTANZA EUCLIDEA NORMALIZZATA d ii
DISTANZA DI MAHALANOBIS
xi


1
2



  2 x ij - x ij 
 j 

j


1
2

- x i  W -1  x i - x i 
(W è la matrice di varianza)
INDICE DI DISTANZA DEDOTTO DAL COEFFICIENTE DI CORRELAZIONE
d ii  1 - rii
Distanze per tabelle di frequenze
Distanza del
c2 (Benzecri)
• Distanza tra due righe i e i’:
d ii 

j
• Distanza tra due colonne j e j’:
d jj 
1  f ij f ij 
 

f . j  f i. f i. 

i
1
f i.
2
 f ij
f ij 


f .j 
 f .j
2
PCI
DC
Una Metrica Particolare: la Distanza del
V.D'Aosta
Piemonte
PCI  DC
 VDA 
 PIE 
c2
2
2
PCI2 
DC2 
1  PCI1
1  DC1



 ...
PCI VDA PIE DC VDA PIE
f i j 
1  f ij


c2  
f i . 
j f. j  fi .
2
Classificazione gerarchica
• Il principio dell’algoritmo consiste nel creare, a ciascun passo, una
partizione ottenuta aggregando a due a due gli elementi più vicini;
• L’algoritmo non fornisce una partizione in q classi di un insieme di n
oggetti ma una gerarchia di partizioni che si presentano sotto forma di
albero detto anche dendrogramma e che contiene n-1 partizioni;
• L’importanza della lettura del dendrogramma è nella possibilità di
suggerire il numero di classi effettivamente presenti nell’insieme
osservato.
I passi di una procedura di classificazione
•
PASSO 0: n individui da classificare
•
PASSO 1: analisi della matrice di dissimilarità
(distanza) e aggregazione dei due elementi più vicini
•
PASSO 2: calcolo delle distanze tra il nuovo punto ed
i punti restanti. Ritorno al passo 0 con n-1 punti da
classificare
•
PASSO 3: nuova ricerca dei due punti più vicini e loro
aggregazione. Calcolo delle nuove distanze e
ripetizione del processo fino a comprendere tutti gli
elementi in un'unica classe
Dendrogramma
14
15
16
gruppi
19
18
17
48
9
7
6
5
3
gruppi
1
gruppo
2 gruppi
gruppi
Scelta del livello
di “taglio”
x
Definizione delle
classi della partizione
x
x
I diversi criteri di raggruppamento
Gruppo A
Gruppo B
x
x
• Criteri per la determinazione della distanza tra due gruppi
a. Distanza minima
;
b. Distanza massima
c.
;
d. Distanza media
Distanza centroidi
• Criteri basati sull’inerzia dei gruppi
Metodo di Ward
I diversi criteri di raggruppamento
• Criteri basati sull’inerzia dei gruppi
Metodo di Ward
Il metodo di Ward è basato sulla minimizzazione della
varianza all’interno dei gruppi
Inerzia totale
=
Inerzia entro le classi + Inerzia tra le classi
gj
Teorema di Huyghens:
g
gk
g
gi
xi
• Obiettivo della partizione è minimizzare la quota di variabilità interna ai gruppi,
massimizzando al contempo la variabilità tra i gruppi, così da ottenere classi
omogenee al loro interno e ben separate l’una dall’altra
• Varianza tra i gruppi in caso di n classi: massima
• Varianza tra i gruppi in caso di una classe: nulla
• L’algoritmo di Ward aggrega, ad ogni passo intermedio, gli oggetti (gruppi o unità)
che determinano la perdita di inerzia tra le classi minima.
 DISTANZA DI WARD O CRITERIO DELLA VARIANZA MINIMA
d c j , c j   n j d e j , e jj   n j d e j , e jj  e jj centroide di c j  c j 
e j j
cj 
(nj )
ej
 cj
e j
e j j 
(nj )
e j j
e j 
 cj
(nj )
Un esempio
(Criterio della distanza minima)
6
a b
a
b
c
d
e
f
g
ab
c
de
f
g
abcde
f
g
c
d e
a
0
ab
0
f
b
1
0
c
2
0
abcde
0
g
c
3
2
0
de
5
3
0
f
4
0
d
6
5
3
0
f
10
8
4
0
g
9
5
0
e
7
6
4
1
0
g
15
13
9
5
0
5
f
11
10
8
5
4
0
abc
de
f
g
4
g
16
15
13
10
9
5
0
abc
0
abcdef
abcdef
0
g
3
2
1
a b c d e
de
3
0
g
5
0
f
8
4
0
g
13
9
5
0
f
g
I diversi criteri di raggruppamento
a b
c
d e
a b c d e f g
Distanza
minima
f
g
a b c d e f g
a b c d e f g
Distanza
massima
Distanza
media
I passi di una classificazione gerarchica
1
…
p
1
1
:
Matrice
dei dati
:
…
n
1
…
n-1
1
Matrice
delle
distanze
:
n-1
n
Matrice delle
ultrametriche
n
1
:
n
1
n
1
…
Matrice
delle
distanze
1 … 2
...
1
2
Matrice
delle
distanze
Esempio: I consumi alimentari
2.92
Livello
di taglio
1.40
0.93
0.77
0.71
0.54
0.38
0.36
0.13
0.08
BE
FR
GE
DA
0.15
IR
AU
0.22
0.11
OL
SV
FI
0.18
0.13
GB
NO
Classi della partizione
IS
SP
PO
GR
IT
La descrizione delle classi: I valori-test
Media
generale
Media
classe k
a) variabili continue:
t k X j  
x jk  x j
 j2 N  n k
nk

~
N 1
N(0,1)
Numerosità
classe k
Variabile j
Varianza
variabile j
Numerosità
totale
b) variabili nominali
 
tk X j 

p jk  Pj

Pj 1 Pj N  nk

nk
N 1
95%
~
N(0,1)
2.5%
-1,96 
0
2.5%e
1,96 
La definizione delle classi
Classe 1
BE, FR, GE, DA, IR
V. test
Media
Classe Generale
Classe 2
AU, OL, SV, FI, GB, NO, IS
Variab.
V. test
Media
Classe Generale
Classe 1
SP, PO, GR, IT
Variab.
V. test
Media
Classe Generale
Variab.
2,81
104,10
85,78
Carne
2,46
161,63
128,41
Latte
3,26
175,78
95,61
Verdure
2,20
6,20
4,22
Burro
2,09
40,29
36,38
Zucchero
2,50
94,35
78,21
Cereali
2,16
13,94
12,27
Uova
0,33
4,44
4,22
Burro
2,33
5,43
4,17
Riso
1,05
91,92
81,31
Patate
0,37
85,75
81,31
Patate
0,33
37,18
36,38
Zucchero
-0,15
4,11
4,17
Riso
-1,12
11,61
12,27
Uova
-0,01
85,68
85,78
Carne
-0,39
76,08
78,21
Cereali
-1,30
71,20
81,31
Patate
-1,03
11,35
12,27
Uova
-0,47
120,14
128,41
Latte
-1,82
70,51
78,21
Cereali
-2,32
80,62
128,41
Latte
-0,87
77,26
95,61
Verdure
-2,03
62,90
95,61
Verdure
-2,73
1,35
4,22
Burro
-2,02
3,24
4,17
Riso
-2,61
72,76
85,78
Carne
-2,74
28,52
36,38
Zucchero
es.:
t Carne,Cl.1 
104.10  85.78
18.32

6.53
290.70 16  5

5
16  1
2.81
Le “tipologie”
La dieta
mediterranea
La dieta
iperproteica
La dieta grassa
Classificazione non gerarchica
• E’ utilizzata quando si hanno molti punti da classificare
• Richiede la determinazione a priori del numero di classi che definiscono la
partizione
Metodo dei centri mobili
• L’algoritmo è convergente ed il numero di iterazioni richieste è
generalmente limitato, cosa che rende questo metodo applicabili anche a
grosse quantità di dati;
• D’altra parte, la soluzione ottenuta non rappresenta la soluzione ottimale
ma solo una delle tante possibili, ottenuta avendo determinato a priori quel
numero di classi e avendo scelto quelle unità iniziali;
Soluzione proposta
Metodo delle nubi dinamiche
Metodo dei centri mobili
1° passo: Scelta casuale dei k nuclei iniziali
2° passo: Calcolo delle distanze e definizione della prima partizione
Passi successivi: Definizione dei nuovi nuclei, calcolo delle nuove
distanze, definizione della nuova partizione, e così via...
Convergenza: Stabilità della partizione
Un algoritmo generale di tipo nubi dinamiche
PASSO 0: definizione del numero delle classi (k) e dei nuclei costituiti
da uno o più elementi rappresentativi di ciascuna classe. La
scelta dei nuclei può essere inizialmente arbitraria (per es.
elementi casuali) o basata su informazione a priori (per es.
un'analisi fattoriale preliminare
L 0 l'insieme
n j ( j  1, ..., k ) ,
PASSO 1: sia
0
dei k nuclei iniziali E j

di numerosità
L  E ... E ... E
0
0
0
1
0
j
0
k

Al primo passo si passa da questi nuclei ad una prima
partizione P0 E  C10 ... C0j ... C0k 
per mezzo di una funzione di distanza D tale che:

C 0j  ei  E




D ei , E 0j  D ei , E 0h  h  j

Un algoritmo generale di tipo nubi dinamiche
PASSO 1
D può essere il legame singolo, il legame medio, ecc., tra i gruppi
E 10
.......
E 0j
.......
E 0k
D i1
.......
D ij
.......
D ik
e1
.
.
.
ei
.
.
.
en
Un algoritmo generale di tipo nubi dinamiche
PASSO 2: ridefinizione dei k nuclei L11  E11 ... E1j ... E1k  di numerosità
n j ancora considerando gli elementi più vicini alla classe
C 0j per mezzo di una funzione di distanza R tale che:

E 1j  ei  E i  1, ..., n j
C
0
1
.......
C 0j
e1
R1j
.
.
.
.
.
.
ei
.......
R ij
.
.
.
.
.
.
en
R nj


R ei , C 0j  Min
.......
.......
C 0k

Un algoritmo generale di tipo nubi dinamiche
1
PASSI SUCCESSIVI: si passa dai nuovi nuclei E j ad una nuova
partizione P1 E  , poi ai nuclei E 2j e da questi ad una nuova
partizione e così via fino alla convergenza ad una soluzione
stabile e quindi ottimale
Ricerca delle forme forti:
la soluzione dipende dalle scelte iniziali.
Ripetendo la procedura s volte P , P , ..., P si
definiscono forme forti le k classi della partizione
prodotto  P costituita da elementi classificati
insieme in ciascuna delle s partizioni
1
j
2
s
Metodo delle nubi dinamiche
x1
x2
x3
x4
x5
1
2
2
0
3
4
2
5
1
5
2
1
x1
x2
x3
x4
x5
Matrice
dei Dati
 x3
x1 x2 x3 x4 x5
0
4
2 3.16 4.45
4
0 4.45 1.41 2
2 4.45 0 4.25 5.65
3.16 1.41 4.25 0 1.41
4.45 2 5.65 1.41 0
Matrice delle
Distanze Euclidee
E 10  x3 , x5 
 x1
E 02  x1 
 x4
 x2
 x5
Scelta dei Nuclei
Iniziali
Metodo delle nubi dinamiche
x1
x2
x3
x4
x5
E 10 E 02
3.23 0
3.23 4
2.83 2
2.83 3.16
2.83 4.45
0

P1  x 2 , x 4 , x 5 

 0

P2  x1 , x 3 
PPAAASSSS
11:: passaggio
S
O
Passo
1:
dai dai nuclei
SO
Opassaggio
nuclei
alla partizione
prima secondo il
alla prima
partizione
il
criterio secondo
della distanza
media
criterio della distanza
media
x1
x2
x3
x4
x5
P10 P20
PPasso
O
PAAASSSSSSO
O 2:2
2::calcolo
calcolodei d
3.87 1
nuclei nuclei
in baseinagli
ele
nuovi
base
1.14 4.23
agli
elementi
più
prossimi
alla partizion
4.78 1
prossimi alla partizione
0.94 3.71
1.14 5.05
E 11  x 4 , x 5 
Passo 3: passaggio dai
nuovi nuclei ad una
nuova partizione
x1
x2
x3
x4
x5
E 12  x1 
E 11 E 12
3.58 0
0.71 4
4.35 2
0.71 3.16
1.71 4.45
1

P1  x 2 , x 4 , x 5 

 1

P2  x1 , x 3 
PPAAASSSSSSO
O
O 3
3:: passaggio
Metodo delle nubi dinamiche
Partizione
Finale
x
 3
P  x2 , x4 , x5 
1
1
P21  x1 , x3 
x
 1
x
 4
x
 2
x
 5
Metodo delle nubi dinamiche
(distanza minima dai nuclei)
x1
x2
x3
x4
x1
x2
x3
0
4
2
0
x4
3.16 4.45
4.45 1.41
0
x5
x5
Matrice delle
Distanze
{x1 x2 x3}
{x4 x5}
{x1 x3}
{x2 x4 x5}
4
4.45
2
3.4
1
3.37
0
2
4.05
1.7
4.2
1.41
4.45
5.65
2.2
4.45
1
4.78
1.41
1.41
1.41
2.3
0.7
3.47
1.41
0
2
0
4.3
0.7
3.35
1.7
2
4.25 5.65
0
A) {x2} {x5}
Metodo delle nubi dinamiche
(distanza media dai nuclei)
B) {x1} {x3}
 x3
 x1
{x3}
0
2
3.4
2
4
4.25
1.84
4.45
2
0
4.18
0
3.16
4.25
1.49
4.25
4.45
5.65
1.96
5.65
 x4
 x2
{x1 x2 x4}
Partizione Finale
 x5
A
{x1 x3}{x2 x4 x5}
B
{x1 x3}{x2 x4 x5}
Metodi fattoriali e Classificazione
Metodi fattoriali
+ Sono particolarmente adatti all’esplorazione di grandi tabelle di dati individuali
+ Consentono di evidenziare le relazioni strutturali tra le variabili e/o le unità osservate
-
I piani rappresentano solo una parte della variabilità totale
La lettura può risultare complessa
Metodi di classificazione
delle classi è più facile di quella di uno spazio continuo, anche
+ Lase adescrizione
due dimensioni
Le classi si formano sulla base delle dimensioni reali del fenomeno e non
+ considerano, quindi, eventuali deformazioni dovute ad operazioni di proiezione
algoritmi di classificazione sono generalmente “robusti”, nel senso che
+ Gli
risultano non influenzati da eventuali punti anomali isolati
Lo spazio a p dimensioni è probabilmente ridondante e contiene, quindi, una
- parte di “rumore”, inutile ai fini dell’analisi
Approccio integrato
Classificazione sui risultati di un
metodo fattoriale