Tecniche di riduzione della dimensionalità

annuncio pubblicitario
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
Tecniche di riduzione della dimensionalità
Analisi statistica e matematico-finanziaria II
Alfonso Iodice D’Enza
[email protected]
Università degli studi di Cassino e del Lazio Meridionale
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Outline
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
1
Analisi in componenti principali
La prima analisi in componenti principali (senza usare il
computer! - o quasi...)
Definizione del metodo
Trasformazioni sulla matrice dei dati
Formalizzazione del metodo
Ricerca del sottospazio di proiezione ottimale
Scelta del numero di dimensioni
Contributi agli assi e qualità della rappresentazione
Rappresentazione congiunta unità variabili
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Tecniche di
riduzione della
dimensionalità
La prima analisi in componenti principali1
A. Iodice
Il data set: le diete dei paesi europei
Danimarca
Grecia
Spagna
Irlanda
Italia
Portogallo
Austria
Finlandia
Islanda
Svezia
Cereali
70.5
109.8
71.4
93.4
110.2
86.0
68.7
70.1
79.7
69.3
Zucchero
39.5
30.0
26.8
34.8
27.9
29.4
37.1
35.7
54.9
37.5
Verdure
50.0
229.5
191.7
55.0
181.9
100.0
81.9
52.6
50.0
48.5
qual’è il paese dove si consuma più verdura?
qual’è il paese dove si consuma meno latte?
qual’è il paese dove si consuma più carne?
1
grazie a Sebastien Lè per l’esempio!
Carne
105.8
77.1
102.1
105.0
88.0
75.5
93.4
65.0
71.7
60.5
Latte
145.2
63.1
98.4
185.9
65.0
96.0
121.3
208.4
205.6
154.1
Uova
14.3
11.3
15.3
11.4
11.1
7.7
13.4
10.9
11.3
12.9
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Tecniche di
riduzione della
dimensionalità
La prima analisi in componenti principali
A. Iodice
Il data set: dati centrati
Danimarca
Grecia
Spagna
Irlanda
Italia
Portogallo
Austria
Finlandia
Islanda
Svezia
Cereali
-12.4
26.9
-11.5
10.5
27.3
3.1
-14.2
-12.8
-3.2
-13.6
Zucchero
4.1
-5.4
-8.6
-0.6
-7.5
-6.0
1.7
0.3
19.5
2.1
Verdure
-54.1
125.4
87.6
-49.1
77.8
-4.1
-22.2
-51.5
-54.1
-55.6
qual’è il paese dove si consuma più verdura?
qual’è il paese dove si consuma meno latte?
qual’è il paese dove si consuma più carne?
Carne
21.4
-7.3
17.7
20.6
3.6
-8.9
9.0
-19.4
-12.7
-23.9
Latte
10.9
-71.2
-35.9
51.6
-69.3
-38.3
-13.0
74.1
71.3
19.8
Uova
2.3
-0.7
3.3
-0.6
-0.9
-4.3
1.4
-1.1
-0.7
0.9
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Tecniche di
riduzione della
dimensionalità
La prima analisi in componenti principali
A. Iodice
Analisi in
componenti
principali
Il data set: dati centrati
Danimarca
Grecia
Spagna
Irlanda
Italia
Portogallo
Austria
Finlandia
Islanda
Svezia
Cereali
-12.4
26.9
-11.5
10.5
27.3
3.1
-14.2
-12.8
-3.2
-13.6
Zucchero
4.1
-5.4
-8.6
-0.6
-7.5
-6.0
1.7
0.3
19.5
2.1
Verdure
-54.1
125.4
87.6
-49.1
77.8
-4.1
-22.2
-51.5
-54.1
-55.6
Carne
21.4
-7.3
17.7
20.6
3.6
-8.9
9.0
-19.4
-12.7
-23.9
Latte
10.9
-71.2
-35.9
51.6
-69.3
-38.3
-13.0
74.1
71.3
19.8
Uova
2.3
-0.7
3.3
-0.6
-0.9
-4.3
1.4
-1.1
-0.7
0.9
Il consumo di carne in Danimarca è più elevato di quanto non sia basso
il consumo di latte in Grecia?
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Tecniche di
riduzione della
dimensionalità
La prima analisi in componenti principali
A. Iodice
Analisi in
componenti
principali
Il data set: dati trasformati in unità standard
Danimarca
Grecia
Spagna
Irlanda
Italia
Portogallo
Austria
Finlandia
Islanda
Svezia
Cereali
-0.75
1.63
-0.70
0.64
1.66
0.19
-0.86
-0.78
-0.20
-0.83
Zucchero
0.51
-0.66
-1.05
-0.07
-0.91
-0.73
0.21
0.04
2.39
0.26
Verdure
-0.77
1.79
1.25
-0.70
1.11
-0.06
-0.32
-0.74
-0.77
-0.80
Carne
1.28
-0.44
1.05
1.23
0.21
-0.53
0.54
-1.16
-0.76
-1.43
Latte
0.20
-1.31
-0.66
0.95
-1.28
-0.71
-0.24
1.36
1.31
0.36
Uova
1.10
-0.31
1.57
-0.26
-0.40
-2.00
0.68
-0.50
-0.31
0.44
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Analisi in Componenti Principali
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
Ottica analitica
L’Analisi in Componenti
Principali ha per obbiettvo
l’individuazione della struttura di
fondo delle relazioni osservate.
Questo avviene attraverso
l’identificazione di un numero
limitato di nuove variabili,
risultanti dalla combinazione
lineare delle variabili di partenza,
che consentano un’ adeguata
descrizione del sistema osservato,
eliminando ridondanze nelle
informazioni contenute nei dati.
Ottica geometrica
L’insieme dei vettori riga unità della matrice dei dati
di partenza (di dimensioni n × p) è interpretabile
come una configurazione di punti nello spazio di
dimensione Rp . Analogamente,i p vettori colonna
variabili della matrice sono interpretabili come una
nube di punti nello spazio Rn .
L’ACP ha per obbiettivo l’individuazione di un
sottospazio di Rp (Rn ) tale che la sommma dei
quadrati delle distanze tra le proiezioni dei
punti/unità (punti/variabile) sia massimizzata.
Ottenere una proiezione della configurazione dei
punti di partenza che approssimi al meglio la forma
originale
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Matrice dei dati. Esempio: la dieta di 16 paesi
europei
Si consideri di aver rilevato le quantità di sostanze nutritive ingerite in sedici paesi europei. Ciascuna
delle p = 10 variabili quantiative rappresenta una dimensione dello spazio R10 in cui sono
rappresentati gli n = 16 paesi eutopei. In modo duale, a ciascuna delle variabili corrisponde un punto
nello spazio R16 .
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Trasformazione sulla matrice dei dati
Tecniche di
riduzione della
dimensionalità
A. Iodice
L’ACP si propone di individuare un sottospazio di dimensioni ridotte tale da massimizzare la somma delle
distanze tra le proiezioni delle possibili coppie di punti. La somma di tali distanze è una misura della
variabilità che caratterizza i dati. Dunque l’ACP mira a massimizzare la variabilità spiegata dalle
proiezioni dei punti nel sottospazio.
Per individuare le direzioni degli assi componenti del sottospazio di proiezione ottimale si fa
riferimento al teorema generale di Huyghens
teorema generale di Huyghens
Assicura che le direzioni di massima variabilità passino per il baricentro della nube di punti e
siano ortogonali tra loro
il baricentro della nube corrisponde al vettore delle medie delle p variabili
massimizzare la somma delle distanze quadratiche delle proiezioni equivale a massimizzare la
somma delle distanze delle proiezioni dal baricentro
centratura della matrice
analiticamente: centrare la matrice dei dati consiste nel calcolare gli n scarti dalla media per
ciascuna delle p variabili
geometricamente: centrare la matrice dei dati consiste nel traslare la configurazione di punti in
modo che il baricentro della nube si sposti nell’origine degli assi. Il problema diventa quindi
massimizzare la somma delle distanze al quadrato dei punti dall’origine degli assi del sottospazio
di proiezione, ovvero massimizzare la somma dei quadrati delle coordinate dei punti sugli assi
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Tecniche di
riduzione della
dimensionalità
Matrice dei dati. Esempio: la dieta di 16 paesi europei

y1,1
 y2,1
X=
 ...
yn,1

y1,2
y2,2
...
yn,2
...
...
...
...
(y1,1 − µ1 )
 (y2,1 − µ1 )
=

...
(yn,1 − µ1 )


y1,p
µ1

y2,p 
 −  µ1
 ...
... 
µ1
yn,p
(y1,2 − µ2 )
(y2,2 − µ2 )
...
(yn,2 − µ2 )
...
...
...
...
µ2
µ2
...
µ2
...
...
...
...

µp
µp 
=
... 
µp

(y1,p − µp )
(y2,p − µp ) 


...
(yn,p − µp )
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Interpretazione geometrica della centratura
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Rendere i dati omogenei: standardizzazione
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
Per trattare simultaneamente le variabili è necessario che siano omogenee: si procede pertanto alla
standardizzazione, consistente nel dividere ciascuno degli elementi della matrice centrata X per lo scarto
quadratico medio della variabile corrispondente. Formalmente,
xij =
(yij − µj )
√
σj n
interpretazione geometrica della standardizzazione
attraverso la standardizzazioni i vettori colonna (variabili) vengono riscalati, si collocano nella
iper-sfera di raggio unitario e dimensione n.
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Interpretazione geometrica della centratura
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Matrice dei dati standardizzati
Per trattare simultaneamente le variabili è necessario che siano omogenee: si procede pertanto alla
standardizzazione, consistente nel dividere ciascuno degli elementi della matrice centrata X per lo scarto
quadratico medio della variabile corrispondente. Formalmente,
xij =
(yij − µj )
√
σj n
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Sintesi dell’informazione
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La proiezione ortogonale su un asse U dei vettori riga o colonna determina una sintesi degli elementi dei
vettori (la coordinata sull’asse). La sintesi varia al variare dell’asse scelto. Quindi...
obiettivo delle tecniche fattoriali
...i metodi fattoriali hanno l’obbiettivo di sintetizzare la configurazione dei vettori riga nello spazio Rp e
quella dei vettori colonna nello spazio Rn .
ricerca della soluzione
la soluzione consiste nella determinazione di un sottospazio di proiezione costiituito da assi che
approssimino al meglio le distanze tra i punti dello spazio originario.
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Perdita di informazione
Tecniche di
riduzione della
dimensionalità
A. Iodice
La proiezione ortogonale dei punti determina una inevitabile perdita di informazione: la distanza che
caratterizza i punti nello spazio originario viene deformata quando proiettata nel sottospazio fattoriale.
Minore sarà tale deformazione, più fedele sarà l’immagine nel sottospazio della configurazione iniziale dei
punti.
deformazione delle distanze tra i punti
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Criterio per la ricerca del sottospazio di
proiezione ottimale
Un vettore sarà approssimato al meglio dall’asse U quanto minore sarà la sua distanza dall’asse
(Mi Hi ) o, in maniera corrispondente, quanto maggiore sarà la coordinata del vettore sull’asse (OHi ).
..ricordando il Teorema di
Pitagora
Metodo dei minimi quadrati
Il metodo dei minimi quadrati ha per obbiettivo la ricerca
dell’asse U che minimizzi la somma delle distanze al
quadrato dei punti dall’asse. Formalmente
min!
n
X
2
(Mi Hi )
=
i=1
n
X
2
(OMi ) −
i=1
n
X
2
(OHi )
i=1
L’ipotenusa OMi del triangolo rettangolo di vertici
OMi Hi corrsiponde al vettore nello spazio originario, di
conseguenza è fissa. Dunque
min!
n
X
i=1
2
(Mi Hi )
equivale a max!
n
X
i=1
2
(OHi )
Da un punto di vista grafico, si considera il
triangolo rettangolo di vertici (O, Hi , Mi ).
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Formalizzazione del problema
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
Il problema
La proiezione ortogonale della matrice X su un asse di versore u è
(oh) = Xu. Dove (oh)T = [OH1 , OH2 , . . . , OHn ]. Il problema
della ricerca del sottospazio di proiezione che riproduca al meglio
la variabilità originaria della nube viene formalizzato come segue
funzione obbiettivo:
max!
n
X
(OHi )2 = (oh)T (oh) = (Xu)T (Xu) = uT XT Xu
i=1
vincolo: uT u = 1
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Soluzione del problema: ricerca del miglior asse
Tecniche di
riduzione della
dimensionalità
A. Iodice
Metodo di risoluzione del problema
La ricerca del miglior asse di versore u1 è dunque un
problema di massimizzazione vincolata. Per risolverlo si fa
ricorso al metodo dei moltiplicatori di Lagrange. Tale
metodo consiste nel ridefinire la funzione obbiettivo in modo
da includere il vincolo (in questo caso uT
1 u1 = 1). La
funzione da massimizzare diventa
T
T
max!L = uT
1 X Xu1 − λ(u1 u1 − 1)
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Soluzione del problema
Tecniche di
riduzione della
dimensionalità
A. Iodice
La soluzione del problema
Per massimizzare L si deve porre a zero la derivata prima
rispetto ad u
T
T
max!L = uT
1 X Xu1 − λ1 (u1 u1 − 1)
ðu1 L = 2XT Xu1 − 2λ1 u1 = 0
XT Xu1 = λ1 u1
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Soluzione del problema
Tecniche di
riduzione della
dimensionalità
A. Iodice
Risoluzione dell’equazione caratteristica
XT Xu1 = λ1 u1
XT Xu1 − λ1 u1 = 0
(XT X − λ1 )u1 = 0
quest’ultima rappresenta l’equazione caratteristica: di fatto
la soluzione del problema di massimizzazione vincolata si
ottiene mediante la ricerca di autovalori ed autovettori della
matrice XT X.
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Tecniche di
riduzione della
dimensionalità
Autovalori e autovettori
Esempio di calcolo di autovalori e autovettori
A. Iodice
Si consideri la seguente matrice

2
A3×3 =  3
3
4
8
1
Analisi in
componenti
principali

7
9 
1
Per trovare gli autovalori è necessario uguagliare a zero il determinante della
seguente matrice

2
(A−λI) =  3
3
4
8
1
 
7
λ
9 − 0
1
0

2−λ
3
det 
3
0
λ
0
4
8−λ
1
 
0
2−λ
0  = 
3
λ
3
4
8−λ
1

7
=0
9
1−λ
Ricorrendo alla formula del determinante per matrice
3×3
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili

7

9
1−λ
Autovalori e autovettori
Tecniche di
riduzione della
dimensionalità
A. Iodice
Esempio di calcolo di autovalori e autovettori

2−λ
3
det 
3
4
8−λ
1

7
8−λ
9
 = (2 − λ) × det
9
1
1−λ
1−λ
3
9
− 4 × det
3
1−λ
3
8−λ
+ 7 × det
=0
3
1
= (2 − λ)((8 − λ)(1 − λ) − 9) − 4(3(1 − λ) − 27) + 7(3 − 3(8 − λ)) =
2
= (2 − λ)(λ − 9λ − 1) − 4(3 − 3λ − 27) + 7(3 − 24 + 3λ) =
2
3
2
= 2λ − 18λ − 2 − λ + 9λ + λ − 12 + 12λ + 108 + 21 − 168 + 21λ =
3
2
= −λ + 11λ + 16λ − 53 = 0
L’equazione è risolta per
λ1 = 11.97, λ2 = −2.64 e λ3 = −1.675
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Autovalori e autovettori
Tecniche di
riduzione della
dimensionalità
A. Iodice
Esempio di calcolo di autovalori e autovettori
Per ciascuno degli autovalori ottenuti si può individuare, tra gli infiniti vettori collineari ad essi associati,
l’autovettore di norma 1. La ricerca dell’autovettore u di norma 1 associato a λ1 si ottiene risolvendo
l’equazione caratteristica.


2 − 11.97
3
3
4
8 − 11.97
1





x1
7
0
 ×  x2  =  0 
9
1 − 11.97
0
x3
−9.97x1 + 4x2 + 7x3 = 0
3x1 − 3.97x2 + 9x3 = 0
3x1 − 1x2 − 10.97x3 = 0
Dato il sistema rispetto al primo autovalore, tra gli infiti autovalori collineari che lo risolvono, si sceglie
l’autovalore di norma unitaria. L’autovettore cercato è


−0.4879
u1 =  −0.8471 
0.2107
L’autovettore u1 è pertanto associato all’autovalore λ1 .
Ripetendo il procedimento per ciascuno degli autovalori trovati (λ2 ,λ3 ), si ottengono gli autovettori u2
e u3 .
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Autovalori e autovettori
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
A ciascun autovalore λ sono associati infiniti autovettori collineari
Una matrice A e la sua trasposta AT hanno gli stessi autovalori ma
autovettori diversi
La somma degli autovalori di A è uguale alla sua traccia
Se A è una matrice simmetrica ad elementi reali, gli autovalori sono reali
Se A è una matrice simmetrica ad elementi reali, il numero di autovalori
non nulli corrisponde al numero di righe e colonne linearmente
indipendenti (rango di A)
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Soluzione del problema
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
Metodo di risoluzione del problema
La ricerca del secondo miglior asse di versore u2 è un
problema di massimizzazione vincolata (Lagrange). I vincoli
da includere nel lagrangiano sono in questo caso uT
2 u2 = 1
(norma unitaria) e uT
u
=
0
(vincolo
di
ortogonalità)(per
il
1 2
teorema di Huyghens). La funzione da massimizzare diventa
T
T
T
max!L = uT
2 X Xu2 − λ(u2 u2 − 1) − µ(u1 u2 )
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Soluzione del problema
Tecniche di
riduzione della
dimensionalità
La soluzione del problema
A. Iodice
Per massimizzare L si deve porre a zero la derivata prima
rispetto ad u
T
T
T
max!L = uT
2 X Xu2 − λ2 (u2 u2 − 1) − µ(u1 u2 )
ðu2 L = 2XT Xu2 − 2λ2 u2 − µu1 = 0
Premoltiplicando uT
1
T
T
T
ðu2 L = 2uT
1 X Xu2 − 2λ2 u1 u2 − µu1 u1 = 0
i primi due termini sono nulli per l’ortogonalità tra u1 e u2 ;
perchè il termine µuT
1 u1 si annulli deve essere µ = 0
XT Xu2 = λ2 u2
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Soluzione del problema
Tecniche di
riduzione della
dimensionalità
A. Iodice
Risoluzione dell’equazione caratteristica
XT Xu2 = λ2 u2
(XT X − λ2 )u2 = 0
la soluzione del problema di massimizzazione vincolata si
ottiene mediante la ricerca dell’autovettore associato al
secondo autovalore più grande della matrice XT X.
gli assi successivi al secondo avranno per versori gli
autovettori associati agli autovalori successivi, presi in ordine
decrescente.
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Tecniche di
riduzione della
dimensionalità
Matrice di correlazione

ρ1,1
 ρ2,1
R=X X=
 ...
ρp,1
T
ρ1,2
ρ2,2
...
ρp,2
...
...
...
...

ρ1,p

ρ2,p 
... 
ρp,p
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Autovalori λ, autovettori U
Calcolando gli autovalori e gli autovettori di norma 1 ad essi associati, si è individuata la base ortogonale
del sottospazio di proiezione ottimale.
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Proiezione ortogonale sugli assi
Le colonne della matrice degli autovettori U rappresentano il sistema di pesi da applicare alle righe della
matrice X per ottenere le coordinate delle unità nel sottospazio ottimale ottenuto. Ricordando la
proiezione ortogonale, le coordinate principali degli individui.
CU = Xu
Calcolo delle coordinate principali
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Coordinate principali dei paesi europei
Le coordinate principali delle unità sono date da
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Tecniche di
riduzione della
dimensionalità
Scelta delle dimensioni
A. Iodice
Per scegliere il numero di dimensioni è necessario trovare un compromesso tra la variabilità spiegata dal
sottospazio e il potere di sintesi della soluzione adottata: più alto è il numero q di dimensioni
considerate minore sarà la sintesi dell’informazione. In particolare, se la dimensione del sottospazio è
q > 3 non sarà possibile rappresentare la proiezione della nube di punti ottenuta.
Per le proprietà degli autovalori
p
X
T
tr(X X) =
λα
α=1
T
la traccia della matrice tr(X X corrisponde al valore della variabilità complessiva della nube di punti
corrispondente alla matrice dei dati standardizzati: ciascun autovalore esprime una parte della variabilità
complessiva.
inertia
La variabilità spiegata dall’asse associato all’autovalore λα si definisce inertia ed è data da
inertiaα = Pp
λα
α=1
λα
× 100
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Scelta delle dimensioni
Tecniche di
riduzione della
dimensionalità
A. Iodice
rappresentazione inertia di ciascuna delle dimensioni del
sottospazio di Rp
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
criteri di scelta delle dimensioni
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La scelta del numero di dimensioni non può essere univocamente determinata: sta all’analista valutare
quale sia la scelta migliore sulla base dei seguenti criteri:
criterio della variabilità spiegata: si sceglie il numero delle dimensioni sulla base della
percentuale cumulata di variabilità spiegata dagli assi (inertia cumulata)
criterio dell’ eigenvalue-one: poichè per effetto della standardizzazione le variabili di partenza
hanno tutte varianza pari ad 1 , si scelgono le variabili di sintesi la cui varianza sia maggiore di
1. La variabilità sugli assi è data dall’autovalore, quindi si sceglieranno le dimensioni il cui
autovalore è maggiore di 1
criterio dello scree-test: si considera il diagramma di Pareto relativo agli autovalori, quando il
salto da una barra alla successiva si regolarizza, l’apporto alla variabilità di ogni dimensione
aggiuntiva è irrilevante. Si sceglieranno le dimensioni corrispondenti alle barre che precedono la
regolarizzazione del decremento della distribuzione
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Interpretazione dei fattori e qualità della
rappresentazione
La proiezione nel sottospazio ridotto determina delle distorsioni della configurazione di punti originaria;
inoltre, gli assi di proiezione vengono determinati sulla base dei valori delle variabili di partenza osservati
sulle diverse unità. È dunque necessario valutare, per ciascuna unità,
contributo alla determinazione di ciascun asse di proiezione
qualità della rappresentazione sugli’assi
contributo assoluto
Il contributo di una unità alla variabilità dell’asse α si definisce contributo assoluto e si misura come
segue:
CAiα =
c2
iα
nλα
1 rappresenta il peso dell’unità, che nell’ACP è uguale per le n unità.
il fattore n
qualità della rappresentazione: il cos2
La qualità della rappresentazione di ciascun vettore unità dipende dal rapporto tra la lunghezza (norma)
del vettore nello spazio originario e la lunghezza della sua proiezione ortogonale su ciascun asse. Il
rapporto tra tali norme quadratiche equivale al coseno dell’angolo formato tra il vettore nello spazio
originario e la sua proiezione sull’asse.
2
cosiα =
kx̂iα k2
kxi k2
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Rappresentazione degli individui
Contributi assoluti sul primo asse
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Rappresentazione degli individui
Contributi assoluti sul secondo asse
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Contributi assoluti degli individui
Tecniche di
riduzione della
dimensionalità
A. Iodice
Contributi assoluti degli individui
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Coseni al quadrato degli individui
Tecniche di
riduzione della
dimensionalità
A. Iodice
Coseni al quadrato degli individui
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Ricerca del sottospazio ottimale di
rappresentazione delle variabili: ricerca del
miglior asse
Metodo di risoluzione del problema
La ricerca del miglior asse di versore v1 è un problema di
massimizzazione vincolata. Per risolverlo si fa ricorso al
metodo dei moltiplicatori di Lagrange. Tale metodo consiste
nel ridefinire la funzione obbiettivo in modo da includere il
vincolo (in questo caso v1T v1 = 1). La funzione da
massimizzare diventa
max!L = v1T XXT v1 − µ(v1T v1 − 1)
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Soluzione del problema
Tecniche di
riduzione della
dimensionalità
A. Iodice
La soluzione del problema
Per massimizzare L si deve porre a zero la derivata prima
rispetto ad u
max!L = v1T XXT v1 − µ(v1T v1 − 1)
ðv1 L = 2XXT v1 − 2µ1 v1 = 0
XXT v1 = µ1 v1
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Tecniche di
riduzione della
dimensionalità
Soluzione del problema
A. Iodice
Risoluzione dell’equazione caratteristica
T
XX v1 = µ1 v1
T
XX v1 − µ1 v1 = 0
T
(XX − µ1 )v1 = 0
quest’ultima rappresenta l’equazione caratteristica: di fatto la soluzione del problema di
massimizzazione vincolata si ottiene mediante la ricerca di autovalori ed autovettori della matrice XXT .
Coordinate dei punti variabile sul sottospazio di
proiezione
Analogamente a quanto descritto nell’analisi dello spazio di rappresentazione degli individui Rp , gli
autovalori µα catturano una quota della variabilità complessiva. La coordinata della variabile j sull’asse
individuato dall’autovalore µα (α = 1, . . . , n) è data da
T
Cα (j) = xj vα
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Relazione tra le decomposizioni di XT X e XXT
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
T
T
EVD(X X) vs. EVD(XX )
le due matrici XT X e XXT hanno gli stessi autavori;
gli autovettori dono caratterizzati dalle seguenti
relazione:
−1/2
V = XUDλ
−1/2
U = XT VDλ
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Tecniche di
riduzione della
dimensionalità
Un piccolo esempio numerico
A. Iodice
A=
T
EVD A A
U=
Dλ =
3
25
4
1
23
8
5
12
9
651
3
; AT A = 301
2
111
1
619
286
145
286
698
146
145
146
45
288
124
66
1084.419
0
0
111
253
95
0.804
-0.570
-0.172
0
413.852
0
-0.018
-0.312
0.950
0
0
9.729
V=
Dλ =
Analisi in
componenti
principali
; AAT =
288
124
66
146
EVD AAT
0.595
-0.760
-0.261
301
762
253
-0.657
-0.660
-0.204
-0.303
1084.419
0
0
0
-0.602
0.738
0.001
-0.305
0.421
-0.030
0.086
-0.903
0
413.852
0
0
0.173
0.136
-0.975
-0.016
0
0
9.729
0
0
0
0
0
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Tecniche di
riduzione della
dimensionalità
Un piccolo esempio numerico
A. Iodice
−1/2
V = AUDλ
3
25
4
1
23
8
5
12
√
9
3
2
1
·
0.595
-0.760
-0.261
1
1084.419
0
-0.657
-0.660
-0.204
-0.303
0
-0.602
0.738
0.001
-0.305
-0.018
-0.312
0.950
0
1
413.852
0
=
0.804
-0.570
-0.172
0
√
Analisi in
componenti
principali
=
0.421
-0.030
0.086
-0.903
0
√ 1
9.729
0.173
0.136
-0.975
-0.016
=
·
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Tecniche di
riduzione della
dimensionalità
Un piccolo esempio numerico
A. Iodice
T
−1/2
U = A VDλ
3
23
9
25
8
3
4
5
2
√
1
12
1
·
1
1084.419
-0.657
-0.660
-0.204
-0.303
0
√
0
1
413.852
Analisi in
componenti
principali
=
-0.602
0.738
0.001
-0.305
0
0.421
-0.030
0.086
-0.903
0
0
0
0
0
√ 1
9.729
0
0
0
0
0
=
0.595
-0.760
-0.261
0.804
-0.570
-0.172
-0.018
-0.312
0.950
0
0
0
0.173
0.136
-0.975
-0.016
=
·
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Rappresentazione delle variabili: il cerchio delle
correlazioni
Sottospazio di approssimazione di R
n
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Rappresentazione delle variabili: guida
all’interpretazione
Sottospazio di approssimazione di Rn
Mentre per i punti individuo, la distanza euclidea che li separa è indice di dissimilarità, nel caso delle
variabili si interpreta l’angolo formato tra i diversi vettori/variabile.
minore è l’angolo θ tra un vettore e ciasun asse fattoriale, maggiore sarà la correlazione tra la
variabili originaria corrispondente e le variabili di sintesi
minore è l’angolo θ tra due vettori , maggiore sarà la correlazione tra le variabili corrispondenti
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Possibile rappresentazione congiunta
unità/variabili
Da un punto di vista interpretativo può essere di aiuto avere una rappresentazione congiunta tra unità e
variabili. Per fare questo, si proiettano le variabili iniziali nel sottospazio di proiezione delle unità.
Possibilità di una rappresentazione congiunta
Si definiscono p vettori variabile di lunghezza 1 che rappesentano le direzioni. Poichè ad ogni
dimensione dello spazio Rp corrisponde una variabile, i vettori unitari associati a ciascuna
variabile hanno tutti gli elementi uguali a zero, fatta eccezione per la dimensione corrispondente
alla variabile che rappresentano.
Gli operatori di proiezione ortogonale sono, come per le unità, gli autovettori (colonne della
matrice U).
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Rappresentazione congiunta unità/variabili
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Le province italiane: dati del Sole24Ore
Tecniche di
riduzione della
dimensionalità
A. Iodice
Ogni anno il Sole24Ore stila una classifica sulla qualità della vita nelle 107 province italiane. Di seguito
le 36 variabili osservate.
Popolazione
numero abitanti per km2 ;
totale immigrati su popolazione;
laureati su 1000 abitanti di età compresa tra 25 e 30 anni;
nati su 1000 abitanti;
over 65 su abitanti di età compresa tra 15 e 64 anni;
divorzi e separazioni ogni diecimila famiglie.
Affari e Lavoro
numero di fallimenti su 1000 imprese;
numero di imprese su 100 abitanti;
saldo tra iscrizioni e cancellazioni di imprese;
numero di protesti pro-capite;
tasso di occupazione della popolazione tra 25 e 34 anni.
tasso di occupazione femminile.
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Le province italiane: dati del Sole24Ore
Tecniche di
riduzione della
dimensionalità
A. Iodice
Servizi socio-ambientali e sanitari
asili comunali su utenza;
indice Tagliacarne infrastrutture;
emigrazione ospedaliera;
escursione termica;
indice Legambiente;
rapporto tra cause evase e pendenti.
Ordine pubblico
numero furti in casa su 100mila abitanti;
numero d’auto su 100mila abitanti;
numero di estorsioni su 100mila abitanti;
numero di rapine su 100mila abitanti;
numero di frodi su 100mila abitanti;
variazione trend delitti tra il 2005 e il 2010.
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Le province italiane: dati del Sole24Ore
Tecniche di
riduzione della
dimensionalità
A. Iodice
Tenore di vita
valore dei risparmi;
importo assegno sociale;
tasso di inflazione;
trend del reddito;
costo case al m2 ;
spesa pro-capite.
Qualità del tempo libero
indice libri su popolazione
bar e ristoranti su 100mila abitanti;
numero di spettacoli su 100mila abitanti;
indice di sportività;
organizzazioni di volontariato su 100mila abitanti;
numero di cinema su 100mila abitanti.
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Analisi su tutto il data set (inerzia= 46.5%)
Le variabili
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Analisi su tutto il data set (inerzia= 46.5%)
Le unità statistiche
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Popolazione (inerzia= 61.44%)
Le variabili
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Popolazione (inerzia= 61.44%)
Le unità statistiche
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Affari e lavoro (inerzia= 65.18%)
Le variabili
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Affari e lavoro (inerzia= 65.18%)
Le unità statistiche
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Servizi socio-ambientali e sanitari (inerzia= 67%)
Le variabili
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Servizi socio-ambientali e sanitari (inerzia= 67%)
Le unità statistiche
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Ordine Pubblico (inerzia= 57.35%)
Le variabili
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Ordine Pubblico (inerzia= 57.35%)
Le unità statistiche
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Tenore di vita (inerzia= 70.3%)
Le variabili
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Tenore di vita (inerzia= 70.3%)
Le unità statistiche
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Tempo Libero (inerzia= 63.4%)
Le variabili
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Tempo Libero (inerzia= 63.4%)
Le unità statistiche
Tecniche di
riduzione della
dimensionalità
A. Iodice
Analisi in
componenti
principali
La prima analisi in
componenti principali
(senza usare il
computer! - o
quasi...)
Definizione del
metodo
Trasformazioni sulla
matrice dei dati
Formalizzazione del
metodo
Ricerca del
sottospazio di
proiezione ottimale
Scelta del numero di
dimensioni
Contributi agli assi e
qualità della
rappresentazione
Rappresentazione
congiunta unità
variabili
Scarica