Document

Tecniche di proiezione
Obiettivo delle tecniche di proiezione è trovare il miglior sottospazio in
cui proiettare i dati. Questo sottospazio è quello che dà origine alla
migliore approssimazione della configurazione reale dei dati.
Le tecniche di proiezione si applicano a variabili numeriche.
Lo scatterplot è lo strumento più utilizzato per visualizzare la
configurazione dei dati.
Si parla di spazio degli oggetti se i punti proiettati sono gli oggetti e di
spazio delle variabili se i punti sono le variabili. La prima
rappresentazione è la più utilizzata dalle tecniche di analisi multivariata.
1
Definizione dello spazio degli oggetti
x2
x2
Centratura
x′ij = x ij − x j
x3
C
x1
x3
Standardizzazione
o autoscaling
x′ij =
x1
x ij − x j
sj
Se x1 ha una distribuzione normale, allora
la distanza tra i due iperpiani è circa 6
volte la sua deviazione standard.
La correlazione tra variabili influenza la forma dell’iperellissoide.
Con variabili ortogonali si ottiene una ipersfera.
2
Analisi delle componenti principali (PCA)
X2
X1= altezza
X2= peso
Dati centrati
T1
T2
α
T1= dimensione individui
X1
T2= forma individui
t 1 = x1 cos α + x 2 sin α = a11x1 + a12 x 2
combinazione lineare (a11 e a12
hanno lo stesso segno)
t 2 = − x1 sin α + x 2 cos α = a21x1 + a22 x 2
contrasto lineare (a21 e a22
hanno segno opposto)
3
Analisi delle componenti principali
X2
Riduzione della dimensionalità dello spazio:
poichè la dispersione dei punti su T1 è molto
più grande di quella su T2, proiettando i punti
T1
T2
Pi
su T1 si ottiene una buona approssimazione
1-dimensionale della configurazione reale 2-
α
dimensionale dei punti.
Pi’
O
X1
Problema: diversi valori di α generano
diverse variabili T1, quale α scegliere?
Il migliore asse T1 è quello che
determina il minor spostamento dei punti
dalla loro posizione originale (Pearson
1901).
minimizzare:
n
1
2
⋅ ∑ Pi Pi ′
n − 1 i =1
b g
varianza delle proiezioni lungo T1
n
1
⋅ ∑ ti − 0
n − 1 i =1
b
g
2
n
1
=
⋅ ∑ t i2
n − 1 i =1
massimizzare:
n
1
2
⋅ ∑ 4OPi ′
n − 1 i =1
b g
Analisi delle componenti principali
Se lo spazio originale è definito da p variabili...
1. si cerca il primo asse T1 caratterizzato dalla massima dispersione delle
proiezioni dei punti,
2. quindi, tra tutti gli assi ortogonali a T1, si cerca l’asse T2 tale che i punti
proiettati abbiano massima dispersione.
3. Il terzo asse T3, tra tutti gli assi ortogonali a T1 e T2, è quello a massima
varianza delle proiezioni, e così di seguito.
Il processo continua fino a determinare p assi mutualmente ortogonali.
5
Analisi delle componenti principali
L’analisi delle componenti principali (PCA) è il processo che consente di
determinare p assi mutualmente ortogonali.
Ciascun asse definisce una nuova variabile:
t m = am1x1 + am 2 x 2 + L + amp x p
I coefficienti amj sono determinati in modo tale che:
1. la varianza di tm sia massima
2. le variabili tm siano mutualmente ortogonali
p
3.
∑ amj2 = 1
j =1
Le variabili tm così ottenute prendono il nome di componenti principali
(fattori, variabili latenti).
I coefficienti amj delle componenti principali prendono il nome di loadings
(standardizzati) e vengono comunemente definiti con il simbolo lmj.
6
Analisi delle componenti principali
Se si proiettano i punti nello spazio definito dalle p componenti principali
si ottiene la configurazione reale dei punti. Se si desidera ottenere la
migliore rappresentazione di questa configurazione in uno spazio a M
dimensioni (M < p), occorre semplicemente proiettare i punti nello spazio
definito dalle prime M componenti principali.
Le coordinate dei punti rispetto alle prime M componenti principali sono:
t i1 = l11x i1 + l 21x i2 + K + l p1x ip
t i2 = l12 x i1 + l 22 x i2 + K + l p2 x ip
L
t iM = l1M x i1 + l 2M x i2 + K + l pM x ip
(n, M)
(n, p) (p, M)
T = X⋅L
Le coordinate degli oggetti rispetto alle componenti principali prendono il
nome di scores.
7
Analisi delle componenti principali
ATTENZIONE ...
Nonostante la configurazione dei punti nello spazio delle prime M
componenti principali sia la migliore approssimazione della configurazione
reale, occorre ricordare che si tratta comunque di un’approssimazione!
Il grado di approssimazione dipende dal grado di riduzione della
dimensionalità dello spazio.
Se la riduzione di dimensionalità è grande, è alta la probabilità di
distorsione della configurazione dei punti. Ciò significa che alcune
relazioni tra gli oggetti osservate nello spazio a M componenti principali
potrebbero differire da quelle nello spazio originale.
8
Analisi delle componenti principali
La procedura matematica per il calcolo delle componenti principali
consiste nel calcolo degli autovalori e autovettori associati della matrice di
covarianza S, ottenuta dalla matrice dei dati X.
Gli autovalori λm della matrice di covarianza vengono ordinati in senso
decrescente e rappresentano la varianza delle proiezioni lungo le
componenti principali.
b g
n
2
λ m = Var t m = ∑ t im
i =1
Gli autovettori lm della matrice di covarianza sono vettori a lunghezza
unitaria che definiscono le direzioni delle componenti principali. Gli
elementi degli autovettori sono i coefficienti ljm (loadings) delle
combinazioni lineari (componenti principali).
− 1 ≤ l jm ≤ +1
∑ j l 2jm = 1
9
Analisi delle componenti principali
variabili xj
dati
n,p
S
pc tm
diag
varianze
covarianze
p,p
pc tm
variabili xj
X
scores
n,p
autovalori
pc tm
T = X ⋅L
variabili x j
T
Λ
p,p
pc tm
oggetti
oggetti
variabili xj
L
loadings
p,p
10
Analisi delle componenti principali
Matrice degli autovalori Λ
λ1
0 K 0
0 λ2 K 0
Λ≡
K K K K
0
0
K λp
b g
λ m = Var t m
λ1 ≥ λ 2 ≥ K ≥ λ p ≥ 0
∑ j λ j = tracebSg
∏ j λ j = detbSg
La matrice degli autovalori è la matrice di covarianza
delle componenti principali.
11
Analisi delle componenti principali
L’analisi delle componenti principali è usata per:
- visualizzare i dati (configurazione degli oggetti) e osservare le
relazioni interne (individuazione di outliers e gruppi, ...);
- ridurre la dimensionalità dello spazio dei dati;
- sintetizzare la descrizione dei dati (eliminazione del rumore, ...);
- valutare le correlazioni tra le variabili e il ruolo che hanno nel
determinare la configurazione dei dati;
- ricercare proprietà principali;
- definire uno spazio ortogonale in cui cercare modelli per i dati.
12
Analisi delle componenti principali
Scalatura delle variabili?
I risultati dell’analisi delle componenti principali sono fortemente
influenzati dall’aver o meno effettuato la scalatura delle variabili.
Quando le variabili
-
rappresentano entità diverse (ex. peso e altezza)
-
sono espresse con unità di misura differenti
-
hanno varianze non confrontabili (ordini di grandezza diversi)
è sempre consigliabile effettuare l’autoscaling (standardizzazione)
delle variabili prima della PCA.
In alternativa all’autoscaling si possono calcolare gli autovalori e gli
autovettori della matrice di correlazione C.
13
Analisi delle componenti principali
Come determinare il numero di componenti principali significative?
Effettuata l’analisi delle componenti principali, occorre decidere quante
componenti principali servono per ottenere una “buona” approssimazione
della configurazione reale dei dati.
La misura della bontà di tale approssimazione è una qualche funzione
della varianza degli oggetti proiettati nello spazio delle componenti, cioè
degli autovalori associati alle componenti.
14
Analisi delle componenti principali
Varianza totale:
bg
b g
trace S = trace Λ =
M
p
m =1
m = M +1
∑ λm + ∑ λm
La quantità totale di informazione è costante.
La trasformazione operata dalle PC è solo una rotazione del sistema di riferimento.
M
Explained Variance % :
Cum. E.V .% =
∑ λm
m =1
p
∑ λm
⋅ 100
m =1
Valori di riferimento per E.V% sono 75 - 80%.
p
Residual Variance % :
RV % =
∑ λm
m = M +1
p
∑ λm
m =1
⋅ 100
15
Analisi delle componenti principali
Explained Variance % di PC1 :
EV1 % =
λ1
p
∑ λm
⋅ 100
m =1
Explained Variance % di PC1 + PC2 :
EVb1+ 2 g % =
λ1 + λ 2
p
∑ λm
⋅ 100
m =1
16
Analisi delle componenti principali
Scree Plot
λm
4
3
2
1
0
1 2 3 4 5 6 7 8
m
17
Analisi delle componenti principali
Criterio dell’autovalore medio
p
λ=
∑ λm
m =1
p
La componente principale tm è significativa se:
λm ≥ λ
Se le componenti principali sono estratte dalla matrice di
correlazione C, allora l’autovalore medio è uguale a 1.
18
Analisi delle componenti principali
Interpretazione delle componenti principali
Poichè le componenti principali sono combinazioni lineari delle
variabili originali, il loro significato dipende dai loadings delle
variabili originali.
Tuttavia, poichè non esiste un metodo matematico per dare un
significato fisico alle combinazioni lineari, l’interpretazione tende ad
essere soggettiva e non sempre può essere realizzata.
Il grafico dei loadings è lo strumento utile per interpretare le
componenti principali.
19
Analisi delle componenti principali
Esempio 1: WINES
38 campioni di vino descritti dal contenuto di 17 metalli
20
Analisi delle componenti principali
Esempio 1: WINES
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
Cd
.005
.055
.056
.063
.011
.05
.025
.024
.009
.033
.039
.045
.06
.067
.077
.064
.025
.02
.034
.013
.043
.061
.047
.048
.049
.042
.058
.065
.065
.068
.067
.084
.069
.087
.074
.084
.106
.102
Mo
.044
.16
.146
.191
.363
.106
.479
.234
.058
.074
.071
.147
.116
.166
.261
.191
.009
.027
.05
.03
.268
.245
.161
.146
.155
.126
.184
.211
.129
.166
.199
.266
.183
.208
.142
.171
.307
.342
Mn
1.51
1.16
1.1
.959
1.38
1.25
1.07
.906
1.84
1.28
1.19
2.76
1.15
1.53
1.65
1.78
1.57
1.74
1.15
2.82
2.32
1.61
1.47
1.85
1.73
1.7
1.28
1.65
1.56
3.14
1.65
1.28
1.94
1.76
2.44
1.85
1.15
4.08
Ni
.122
.149
.088
.38
.16
.114
.168
.466
.042
.098
.043
.071
.055
.041
.073
.067
.041
.046
.058
.058
.066
.07
.154
.092
.051
.112
.095
.102
.166
.104
.119
.087
.07
.061
.051
.088
.063
.065
Cu
.83
.066
.643
.133
.051
.055
.753
.102
.17
.053
.163
.074
.18
.043
.285
.552
.081
.153
.058
.05
.314
.172
.082
.09
.158
.21
.058
.055
.151
.053
.163
.071
.095
.099
.052
.038
.051
.077
Al
.982
1.02
1.29
1.05
1.32
1.27
.715
.811
1.8
1.35
.971
.483
.912
.512
.596
.633
.655
1.15
1.35
.623
.627
2.07
.546
.889
.653
.508
1.3
.308
.373
.368
.447
1.14
.465
.683
.737
1.21
.643
.752
Ba
.387
.312
.308
.165
.38
.275
.164
.271
.225
.329
.105
.301
.166
.132
.078
.085
.072
.094
.294
.349
.099
.071
.181
.328
.081
.299
.346
.206
.281
.292
.292
.158
.225
.087
.408
.263
.29
.366
Cr
.029
.038
.035
.036
.059
.019
.062
.044
.022
.03
.028
.087
.041
.026
.063
.063
.021
.021
.006
.082
.045
.053
.06
.1
.037
.054
.037
.028
.034
.039
.058
.049
.037
.042
.022
.072
.031
.048
Sr
1.23
.975
1.14
.927
1.13
1.05
.823
.963
1.13
1.07
.491
2.14
.578
.229
.156
.192
.172
.358
1.12
2.91
.36
.186
.898
1.32
.164
.995
1.17
.72
.889
1.11
.927
.794
1.19
.168
1.16
1.35
.885
1.08
Pb
.561
.697
.73
.796
1.73
.491
2.06
1.09
.048
.552
.31
.546
.518
.699
1.02
.777
.232
.025
.206
.171
1.28
1.19
.747
.604
.767
.686
1.28
1.02
.638
.831
1.02
1.3
.915
1.33
.745
.899
1.61
1.77
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
B
2.63
6.21
3.05
2.57
3.07
6.56
4.57
3.18
6.13
3.3
6.56
3.5
6.43
7.27
5.04
5.56
3.79
4.24
2.71
3.54
5.68
4.42
8.11
6.42
4.91
6.94
3.29
6.12
7.28
4.71
6.97
3.77
2
5.04
3.94
2.38
4.4
3.37
Mg
128
193
127
112
138
172
179
145
113
140
103
199
111
107
94.6
110
75.9
80.9
120
208
98.4
87.6
160
134
86.5
129
145
99.3
139
125
131
143
123
92.9
143
130
151
145
Si
17.3
19.7
15.8
13.4
16.7
18.7
17.8
14.3
13
16.3
9.47
9.18
11.1
6
6.34
6.96
6.4
7.92
14.7
9.32
9.11
7.62
19.3
19.3
6.46
43.6
16.7
27.1
22.2
17.6
38.3
19.7
4.57
6.96
6.75
6.18
17.4
5.33
Na
66.8
53.3
35.4
27.5
76.6
15.7
98.5
10.5
54.4
70.5
45.3
80.4
59.7
55.2
10.4
13.6
11.6
38.9
68.1
79.2
19.5
11.6
12.5
125
11.5
45
65.8
20.5
13.3
13.9
42.9
39.1
7.51
12
36.8
101
7.25
33.1
Ca
80.5
75
91
93.6
84.6
112
122
91.9
70.2
74.7
67.9
66.3
83.8
44.9
54.9
64.1
48.1
57.6
64.8
66.4
64.3
70.6
82.1
83.2
53.9
85.9
72.8
95.2
84.2
59.5
85.9
128
69.4
56.3
67.6
64.4
103
58.3
P
150
118
161
120
164
137
184
187
158
159
133
212
139
148
132
167
132
136
133
266
176
156
218
173
172
165
175
194
164
141
164
146
123
157
81.9
98.6
177
117
K
1130
1010
1160
924
1090
1290
1170
1020
1240
1100
1090
1470
1120
854
899
976
995
876
1050
1430
945
820
1220
1810
1020
1330
1140
1260
1200
1030
1390
1230
943
949
1170
1070
1100
1010
Aroma
3.3
4.4
3.9
3.9
5.6
4.6
4.8
5.3
4.3
4.3
5.1
3.3
5.9
7.7
7.1
5.5
6.3
5
4.6
3.4
6.4
5.5
4.7
4.1
6
4.3
3.9
5.1
3.9
4.5
5.2
4.2
3.3
6.8
5
3.5
4.3
5.2
21
Analisi delle componenti principali
Esempio 1: WINES
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
autovalore
4.1785
2.7468
2.2098
1.9349
1.4355
1.0813
0.8527
0.6082
0.5129
0.4287
0.3711
0.2542
0.1682
0.1151
0.0495
0.0333
0.0193
E.V.%
24.6
16.2
13.0
11.4
8.4
6.4
5.0
3.6
3.0
2.5
2.2
1.5
1.0
0.7
0.3
0.2
0.1
C.E.V.% AEC
24.6
*
40.7
*
53.7
*
65.1
*
73.6
*
79.9
*
84.9
88.5
91.5
94.1
96.2
97.7
98.7
99.4
99.7
99.9
100.0
KL
*
*
*
*
*
*
*
*
*
KP
*
*
*
*
BS
20.233
14.350
11.409
9.448
7.978
6.801
5.821
4.981
4.245
3.592
3.003
2.469
1.978
1.526
1.106
0.714
0.346
MIF
0.00908
0.00886
0.00868
0.00843
0.00827
0.00821
0.00821
0.00839
0.00860
0.00881
0.00883
0.00901
0.00945
0.00998
0.01315
0.02254
22
Analisi delle componenti principali
Esempio 1: WINES
23
Analisi delle componenti principali
Esempio 1: WINES
Matrice dei loadings
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Var.
Cd
Mo
Mn
Ni
Cu
Al
Ba
Cr
Sr
Pb
B
Mg
Si
Na
Ca
P
K
PC1
0.125
-0.034
-0.056
-0.109
-0.004
0.039
-0.353
-0.271
-0.415
-0.030
0.020
-0.405
-0.239
-0.303
-0.233
-0.256
-0.403
PC2
-0.285
-0.546
0.118
-0.247
-0.122
0.130
0.080
-0.118
0.187
-0.537
-0.034
-0.048
-0.142
0.161
-0.333
-0.024
0.097
PC3
0.351
0.150
0.571
-0.268
-0.219
-0.278
0.061
0.266
0.134
0.168
-0.091
0.075
-0.282
-0.019
-0.339
-0.015
-0.011
PC4
0.055
-0.125
0.021
-0.140
-0.065
-0.420
-0.229
0.101
-0.166
-0.161
0.618
-0.084
0.308
-0.194
-0.022
0.289
0.243
PC5
-0.369
0.132
0.011
-0.107
0.496
0.047
-0.348
0.394
-0.085
0.064
-0.052
-0.111
-0.276
0.228
-0.140
0.368
-0.029
PC6
-0.233
-0.096
0.072
0.552
-0.061
-0.352
-0.013
-0.087
0.168
-0.091
-0.224
0.115
-0.123
-0.438
-0.116
0.342
-0.231 24
Analisi delle componenti principali
Esempio 1: WINES
25
Analisi delle componenti principali
Esempio 1: WINES
26
Analisi delle componenti principali
Esempio 2 : ALIMENTI
Oggetti: 109
Variabili: 17
Il data set è composto da alcuni campioni di frutta e verdura, fresca e
conservata, per i quali sono state definite e misurate 17 variabili.
27
Analisi delle componenti principali
Esempio 2: ALIMENTI
ID
Etichetta
Definizione
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
P. Ed. (%)
H2O
Prot.
Lip.
Glu-ava
Glu-ami
Glu-sol
Glu-fib
Kcal
Fe
Ca
P
Tia.
Rib.
Niam.
Vit-A
Vit-C
Parte edibile
Acqua
Proteine
Lipidi
Glucidi disponibili
Glucidi amido
Glucidi solubili
Glucidi fibra
Kilocalorie
Ferro
Calcio
Fosforo
Tiamina
Riboflavina
Niamicina
Vitamina A
Vitamina C
28
Analisi delle componenti principali
Esempio 2: ALIMENTI
Name
ID P.Ed. H2O Prot. Lip. Glu-ava Glu-ami Glu-sol Glu-fib Kcal Fe
Albicocche
Amarene
Ananas
Arachidi crude
Arance
Arance succo
Banane
Castagne
Ciliegie
Cocomero
Fichi
Fichi d'India
Fragole
Lamponi
Limoni
Limoni succo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Ca
P
Tia. Rib. Niam. Vit-A Vit-C
94
85
57
79
80
100
65
69
86
52
75
64
94
100
64
100
86.3
84.2
86.4
7.1
87.2
89.3
76.8
41.0
86.2
95.3
81.9
83.2
90.5
84.6
89.5
92.1
0.4
0.8
0.5
26.0
0.7
0.5
1.2
3.5
0.8
0.4
0.9
0.8
0.9
1.0
0.6
0.2
0.1
0.0
0.0
47.2
0.2
0.0
0.3
1.8
0.1
0.0
0.2
0.0
0.4
0.6
0.0
0.0
6.8
10.2
10.0
11.2
7.8
8.2
15.5
42.4
9.0
3.7
11.2
13.0
5.3
6.5
2.3
1.4
0.0
0.0
0.0
6.7
0.0
0.0
2.4
34.3
0.0
0.0
0.0
1.6
0.0
0.0
0.0
0.0
6.8
10.2
10.0
4.5
7.8
8.2
12.8
8.1
9.0
3.7
11.2
13.0
5.3
6.5
2.3
1.4
0.6
1.0
0.4
2.3
0.6
0.0
0.5
1.0
1.0
0.0
0.7
0.3
0.6
3.0
0.6
0.0
28
41
40
571
34
33
66
189
38
15
47
53
27
34
11
6
0.5
0.4
0.5
3.2
0.2
0.2
0.8
1.2
0.6
0.2
0.5
0.4
0.8
1.0
0.1
0.2
16.0
15.0
17.0
60.0
49.0
15.0
7.0
38.0
30.0
7.0
43.0
30.0
35.0
49.0
14.0
14.0
16.0
17.0
8.0
239.0
22.0
17.0
28.0
89.0
18.0
2.0
25.0
25.0
28.0
52.0
11.0
10.0
0.0
0.0
0.1
1.5
0.1
0.1
0.1
0.2
0.0
0.0
0.0
0.0
0.0
0.1
0.0
0.0
0.0
0.1
0.0
0.1
0.1
0.0
0.1
0.4
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.5
0.4
0.2
0.4
0.2
0.4
0.7
1.4
0.5
0.0
0.4
0.4
0.5
0.5
0.3
0.2
360.0
24.0
7.0
0.0
71.0
38.0
45.0
0.0
19.0
37.0
15.0
10.0
0.0
13.0
0.0
0.0
13.0
7.0
17.0
2.0
50.0
44.0
16.0
18.2
11.0
8.0
7.0
2.0
54.0
25.0
50.0
43.0
………………. …..
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
Sedano
Sedano rapa
Spinaci
Tartufo nero
Zucca gialla
Zucchine
Ceci
Fagioli
Fave sgusciate
Lenticchie
Lupini
Lupini secchi
Piselli
80
72
83
79
81
88
100
100
100
100
76
100
100
88.3
88.0
90.1
76.3
94.6
93.6
13.0
10.7
13.3
11.6
69.0
10.7
13.0
2.3
1.9
3.4
6.0
1.1
1.3
21.8
23.6
27.2
25.0
16.4
37.2
21.7
0.2
0.1
0.7
0.5
0.1
0.1
4.9
2.5
3.0
2.5
2.4
13.2
2.0
2.4
3.8
3.0
0.7
3.5
2.1
54.3
51.7
55.3
54.0
7.2
36.0
53.6
0.2
0.0
2.4
1.2
1.0
1.2
46.0
43.2
45.4
46.5
6.0
38.8
45.7
2.2
3.8
0.4
0.7
2.5
2.1
3.7
4.0
4.9
2.4
0.5
3.1
2.9
0.8
1.8
0.5
9.4
1.3
0.9
5.2
5.0
1.5
3.9
3.6
1.1
5.0
20
23
31
31
18
14
334
311
342
325
114
402
306
0.5
0.5
2.9
3.5
0.9
0.5
6.1
6.7
5.0
5.1
5.5
5.5
4.5
31.0
52.0
78.0
24.0
20.0
21.0
117.0
137.0
90.0
127.0
45.0
94.0
48.0
45.0
90.0
62.0
62.0
40.0
65.0
299.0
437.0
420.0
347.0
100.0
320.5
320.0
0.1
0.1
0.1
0.1
0.0
0.1
0.4
0.4
0.5
0.6
0.1
0.4
0.6
0.2
0.1
0.4
0.1
0.0
0.1
0.1
0.2
0.3
0.2
0.0
0.2
0.2
0.2
0.5
0.4
2.0
0.5
0.7
1.7
2.3
2.6
1.8
0.2
1.8
2.2
207.0
0.0
485.0
0.0
599.0
6.0
30.0
3.0
10.0
10.0
12.6
12.6
10.0
32.0
6.0
54.0
1.0
9.0
11.0
5.0
3.0
4.0
3.0
3.8
29
3.8
4.0
97
98
99
100
101
102
103
104
105
106
107
108
109
Analisi delle componenti principali
Esempio 2: ALIMENTI
PC
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
autovalore
6.9010
2.2290
2.0180
1.3320
0.9168
0.8030
0.6984
0.5680
0.4098
0.3694
0.2792
0.2440
0.1623
0.0603
0.0071
0.0016
0.0001
E.V.%
40.59
13.11
11.87
7.84
5.39
4.72
4.11
3.34
2.41
2.17
1.64
1.44
0.95
0.35
0.04
0.01
0.00
C.E.V.%
40.59
53.71
65.58
73.41
78.80
83.53
87.64
90.98
93.39
95.56
97.20
98.64
99.59
99.95
99.99
100
100
AEC
*
*
*
*
CAEC
*
*
*
*
*
*
30
Analisi delle componenti principali
Esempio 2: ALIMENTI
31
Analisi delle componenti principali
Esempio 2: ALIMENTI
Loading Plot of axes 1 and 2 (54% )
1
0.8
Glu-ava
Glu-sol
axis 2 (13% )
0.6
P.Ed.
0.4
Glu-ami
0.2
0
Kcal Fe
Tia.
P Prot.
-0.2
-0.4
Glu-fib
Niam.
Ca
Lip.
H2O
Vit-A
Vit-C
Rib.
-0.6
-0.8
-1
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
axis 1 (41% )
0.4
0.6
0.8
32
1
Analisi delle componenti principali
Esempio 2: ALIMENTI
Interpretazione delle componenti principali
PC1 (E.V.% 40.59): contiene essenzialmente informazione sul contenuto d'acqua
degli alimenti; infatti, nel loading plot PC2 vs. PC1, si può osservare che la variabile
H2O ha un loading in valore assoluto molto alto. Altre variabili importanti nella prima
componente principale ma inversamente correlate alla variabile H2O (influenza
opposta nel determinare la componente) sono: KCAL (kilocalorie), P (contenuto di
fosforo), PROT (contenuto di proteine), FE (contenuto di ferro) e TIA (contenuto di
tiamina).
33
Analisi delle componenti principali
Esempio 2: ALIMENTI
Interpretazione delle componenti principali
PC2 (E.V.% 13.11): contiene essenzialmente informazione sul contenuto di glucidi
(solubili, GLU_SOL, e disponibili, GLU_AVA) e la parte edibile (EDIB) degli alimenti.
Altre variabili influenti ma inversamente correlate ai glucidi e alla parte edibile sono:
LIP (contenuto di lipidi), VIT_A e VIT_C (contenuto di vitamine) e RIB (contenuto di
riboflavina).
Quindi, la seconda componente principale sembra spiegare la separazione tra
alimenti molto dolci, grande contenuto di zuccheri, ed alimenti a maggior contenuto
di lipidi e vitamine.
34
Analisi delle componenti principali
Esempio 2: ALIMENTI
Analisi delle correlazioni tra le variabili
Analizzando i grafici dei loadings relativi alle componenti principali significative, è
possibile studiare le correlazioni tra le variabili originali relativamente
all'informazione spiegata dalle componenti considerate.
Gruppi di variabili che compaiono vicine nello spazio delle componenti principali
considerate indicano che, limitatamente all'informazione portata da queste
componenti, esse portano un'informazione simile e sono quindi correlate.
35
Analisi delle componenti principali
Esempio 2: ALIMENTI
Analisi delle correlazioni tra le variabili
Considerando le prime sei componenti principali, le correlazioni più
significative riscontrate riguardano i seguenti gruppi di variabili:
Correlazione diretta:
-
vitamina A e vitamina C
-
proteine, tiamina e fosforo
-
lipidi e Kcal
Correlazione inversa:
-
acqua e Kca
36
Analisi delle componenti principali
Esempio 2: ALIMENTI
Analisi delle similarità/diversità dei campioni
I grafici degli scores (score plots) consentono di analizzare il comportamento dei
campioni e in particolare le loro similarità/diversità e anche l'eventuale presenza di
campioni anomali.
Il grafico degli scores, relativo a due componenti principali, è un grafico in cui sono
visualizzate le proiezioni dei campioni nello spazio definito dalle due componenti
considerate.
37
Analisi delle componenti principali
Esempio 2: ALIMENTI
Score Plot of axes 1 and 2 (54% )
6
Alimenti conservati
4
axis 2 (13% )
33
2
109
103
104106
105
108
0
4
-2
43
39
-4
45
34 35
36
44
31
21
17
27
30
8
2
19
28
70
84
9
72
14
688
18
85
20
12
11
9016
50 7 22
89
71
83
96
55
29
1
3
13
25
67
100
102
91
107
47
5
65
66
93
784098 81
10
24
95
60
15
73
101
46
80
4177 76 53 62
23
69
97
82
56686187
74
49 42 54
51
64
58
59
48
79
63
5299
57
94
75
86
92
32
38 26
37
Alimenti freschi
-6
-8
-6
-4
-2
axis 1 (41% )
0
2
38
4
Analisi delle componenti principali
Esempio 2: ALIMENTI
Analisi delle similarità/diversità dei campioni
Spazio PC1 – PC2 (C.V.% 53.71)
Si evidenzia una separazione tra gli alimenti freschi e gli alimenti conservati, i primi
caratterizzati soprattutto da un elevato contenuto d'acqua e vitamine e i secondi da un
basso contenuto d'acqua.
Il gruppo di alimenti conservati mostra una evidente separazione in sottogruppi al suo
interno, in particolare si evidenziano i seguenti sottogruppi:
- campioni n. 103, 104, 105, 106, 108, 109 (legumi): basso contenuto di acqua, molto
calorici, alto contenuto di proteine, fosforo, ferro, tiamina;
- campioni n. 33, 34, 35, 36, 44, 45 (frutta secca dolce): alto contenuto di glucidi (solubili
e disponibili), grande parte edibile, basso contenuto di lipidi e vitamine;
- campioni n. 4, 26, 32, 37, 38, 39, 43 (frutta secca): basso contenuto di acqua, molto
calorici, alto contenuto di lipidi, vitamine, riboflavina, calcio, basso contenuto di glucidi e
39
piccola parte edibile.
Analisi delle componenti principali
Esempio 2: ALIMENTI
Biplot on axes 1 and 2 (54% )
6
45
4
axis 2 (13% )
33
34 35
36
Glu-ava
44 Glu-sol
P.Ed.
109
103
31
104106
Glu-ami
21
105
17
27
30
8
2
19
28
84
70
72
9
688
14
85
20
18
12
11
108
9016
89
50 7 22
71
Glu-fib
83
96
55
29
1
3
13
25
Fe
67
102
100
91
Kcal
107
47
5
65
66
9324
784098 60
10
95
15
Prot.
Niam.
73
81
101
46 4177 76 53 6980
23
97
82
Tia. Ca
56686187
P
74
49 42 5462
51
64
58
59
48
32
6379 Vit-C
4
5299
Rib.
Lip.
57Vit-A
94
26
75
38
43
86
39
92
37
2
0
-2
-4
H2O
-6
-8
-6
-4
-2
0
axis 1 (41% )
2
4
6
40
8
Altre tecniche di proiezione
L’analisi delle componenti principali è la tecnica più popolare perchè:
-
le pc sono facilmente calcolabili (esiste soluzione analitica);
-
le pc sono intuitive;
-
le pc hanno proprietà interessanti.
Lo spazio definito dalle componenti principali minimizza la seguente
quantità:
e
V = ∑s ∑t d st2 − d$st2
j
d st2 è la distanza al quadrato tra i punti Ps e Pt nello spazio originale
d$st2 è la distanza al quadrato tra i punti P’s e P’t nello spazio delle pc
… tuttavia, sotto il vincolo dell’ortogonalità delle componenti.
41
Altre tecniche di proiezione
Rinunciando all’ortogonalità, si può cercare la rappresentazione dei dati
che riproduce al meglio le distanze reali tra tutte le coppie di oggetti, cioè
che minimizza:
e
L* = ∑s ∑t w st ⋅ d st − d$st
j
2
NON - LINEAR MAPPING
E’ una tecnica di ottimizzazione che trova le coordinate degli oggetti nel
nuovo spazio mediante algoritmi numerici iterativi partendo da una
configurazione iniziale dei punti.
Le nuove variabili non hanno alcun significato, servono solo per la
visualizzazione grafica degli oggetti in uno spazio a poche dimensioni.
42
Altre tecniche di proiezione
Poichè la PCA e il non-linear mapping possono essere applicati a variabili
numeriche …..
…. cosa fare quando si hanno variabili categoriche?
1. Se la variabile categorica è ordinale, può essere trasformata in
variabile numerica attribuendo dei punteggi alle categorie.
2. Ciascuna categoria della variabile può essere sostituita con una
variabile binaria con valori 0 e 1.
3. Si calcola la dissimilarità tra tutte le coppie di oggetti e si cerca di
costruire una configurazione di punti minimizzando le funzioni V o L*
dove la distanza Euclidea tra punti è sostituita dalla misura di
dissimilarità tra i corrispondenti oggetti.
43
Altre tecniche di proiezione
MATRICE DI DISSIMILARITA’
matrice quadrata simmetrica (n, n)
0 d12 K d1n
0 K d2n
K K
0
1. Può essere calcolata dalla matrice dei dati (n, p)
2. o essere essa stessa la matrice dei dati.
44
Altre tecniche di proiezione
Principal coordinate analysis (scaling metrico)
Tecnica utilizzata per cercare una rappresentazione geometrica degli
oggetti a partire dalla matrice di dissimilarità.
Gli oggetti vengono rappresentati con dei punti e le distanze tra punti
misurano la dissimilarità tra gli oggetti corrispondenti.
Si calcolano gli autovalori e autovettori di una matrice F ricavata dalla
matrice di dissimilarità. Le coordinate degli oggetti rispetto all’asse j
sono date da:
x$ j = λ j ⋅ a j
dove aj sono gli elementi del j-esimo autovettore e λj il corrispondente
autovalore.
45
Altre tecniche di proiezione
Principal coordinate analysis (scaling metrico)
Gli assi che definiscono il sistema di riferimento non hanno alcun
significato.
Le posizioni degli oggetti nello spazio sono strettamente dipendenti
dai dati utilizzati.
Se la matrice di dissimilarità è calcolata usando la distanza Euclidea,
allora il risultato della principal coordinate analysis è identico a quello
della principal component analysis applicata alla matrice dei dati (n, p).
46
Altre tecniche di proiezione
Multidimensional Scaling (non-metric)
Tecnica basata sugli stessi principi della principal coordinate analysis,
però finalizzata alla ricerca di una configurazione dei punti in cui le
distanze tra punti siano monotonicamente relazionate alle dissimilarità
tra gli oggetti corrispondenti.
Il punto di partenza è sempre la matrice di dissimilarità.
Si utilizzano algoritmi numerici iterativi a partire da una configurazione
iniziale arbitraria di punti.
47
Altre tecniche di proiezione
MATRICE DI INCIDENZA
Gli elementi di questa matrice sono dati dal numero di occorrenze
congiunte di alcune variabili discrete.
Tabella di contingenza (k, q) relativa a 2 variabili discrete K con k
categorie e Q con q categorie. Il singolo elemento nij rappresenta il
numero di volte che la categoria i-esima della variabile K e la categoria
j-esima della variabile Q sono osservate contemporaneamente in un
campione di n oggetti.
48
Altre tecniche di proiezione
Analisi delle corrispondenze
Tecnica utilizzata per ottenere una rappresentazione grafica del
contenuto di una matrice di incidenza.
E’ una tecnica di ottimizzazione.
L’idea è quella di definire un’opportuna scala di valori per le variabili
categoriche in modo che possano essere proiettate. Viene assegnato
uno score a ciascuna categoria di ogni variabile, tale score viene quindi
utilizzato come coordinata della categoria nella rappresentazione
grafica.
49
Tecniche di proiezione per analisi esplorativa
Matrice di dati con struttura di gruppo
Supponiamo che sia data una matrice di dati (n, p)
in cui gli oggetti sono suddivisi in G gruppi diversi.
ng = numero di oggetti appartenenti al g-esimo gruppo
G
n = ∑ ng
g =1
50
Tecniche di proiezione per analisi esplorativa
Matrice di dati con struttura di gruppo
In una rappresentazione geometrica dei dati:
-
gli oggetti sono rappresentati con dei punti;
-
i gruppi di oggetti sono rappresentati con insiemi di punti;
-
le distanze tra gli insiemi di punti rappresentano le diversità
tra i corrispondenti gruppi di oggetti.
Se p > 3, allora occorre trovare una rappresentazione dei dati a
poche dimensioni che approssimi al meglio le differenze tra gli
insiemi di punti nella configurazione reale.
51
Tecniche di proiezione per analisi esplorativa
Analisi delle componenti principali
150 iris
Iris data
-1
- lunghezza sepali
-2
- ampiezza sepali
-3
- lunghezza petali
-4
- ampiezza petali
PC2
4 variabili:
-5
-6
3 gruppi:
setosa
versicolor
virginica
-7
-8
-9
-10
3.8
4.2
4.6
5.0
5.4
PC1
5.8
6.2
6.6
7.0
52
Tecniche di proiezione per analisi esplorativa
Analisi delle variabili canoniche
setosa
Iris data
versicolor
virginica
3
2
1
CV2
0
-1
-2
-3
-10
-5
0
CV1
5
10
53
Tecniche di proiezione per analisi esplorativa
Analisi delle variabili canoniche
Obiettivo dell’analisi canonica è trovare la migliore rappresentazione
dei dati per osservare le differenze tra i gruppi.
Alcuni principi dell’analisi
Supponiamo di voler trovare la migliore rappresentazione a 1 dimensione,
combinazione lineare delle variabili originali.
tig è la coordinata dell’i-esimo oggetto appartenente al g-esimo gruppo lungo
il nuovo asse.
54
Tecniche di proiezione per analisi esplorativa
Analisi delle variabili canoniche
ng
1
⋅ ∑ t ig
n g i =1
Media di gruppo :
tg =
Media generalizzata :
1 G
1 G g
1 n
t = ⋅ ∑ n g ⋅ t g = ⋅ ∑ ∑ t ig = ⋅ ∑ t i
n g =1
n g =1 i = 1
n i =1
n
55
Tecniche di proiezione per analisi esplorativa
Analisi delle variabili canoniche
Between-group Sum of Squares :
Within-group Sum of Squares :
bg
G
i
2
d
SSW a = ∑ ∑ t ig − t g
i
SSB a = ∑ n g ⋅ t g − t
bg
g =1
G ng
g =1 i =1
d
56
2
Tecniche di proiezione per analisi esplorativa
Analisi delle variabili canoniche
La migliore scelta di a è quella che massimizza il rapporto :
G − 1g
b
g
b
F=
SSW ba g bn − G g
SSB a
a definisce la direzione lungo la quale la varianza tra i gruppi
relativamente alla varianza all’interno dei gruppi è massima.
57
Tecniche di proiezione per analisi esplorativa
Analisi delle variabili canoniche
Le combinazioni lineari delle variabili originali trovate dall’analisi
canonica si chiamano variabili canoniche (CV).
A differenza delle componenti principali, le variabili canoniche non
sono ortogonali. Quindi, l’analisi canonica introduce una
deformazione del sistema di riferimento originale.
Assunzione fondamentale dell’analisi canonica :
le matrici di covarianza dei singoli gruppi devono essere uguali.
58
Tecniche di proiezione per analisi esplorativa
matrice dei dati con
struttura di classe
Canonical Analysis
Principal Component Analysis
Variabili numeriche
matrice dei dati
(n, p)
Non-linear mapping
Variabili categoriche
matrice di similarità
(n, n)
Principal Coordinate
Analysis
Multidimensional Scaling
matrice di incidenza
Correspondence
(k, q)
Analysis
59