Analisi in Componenti Principali - Strumenti quantitativi per l

Analisi in
Componenti
Principali
A. Iodice
Analisi in Componenti Principali
Definizione del
metodo
Strumenti quantitativi per l’economia e la finanza I
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Alfonso Iodice D’Enza
[email protected]
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Università degli studi di Cassino e del Lazio Meridionale
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
1 / 60
Outline
Analisi in
Componenti
Principali
1
Definizione del metodo
2
Trasformazioni sulla matrice dei dati
3
Formalizzazione del metodo: analisi in Rp
Formalizzazione
del metodo:
analisi in Rp
4
Scelta del numero di dimensioni
Scelta del
numero di
dimensioni
5
Contributi agli assi e qualità della rappresentazione
Contributi agli
assi e qualità
della rappresentazione
6
Formalizzazione del metodo: analisi in Rn
7
Rappresentazione congiunta unità variabili
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
2 / 60
Analisi in Componenti Principali
Analisi in
Componenti
Principali
A. Iodice
Definizione del
metodo
Ottica analitica
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Ottica geometrica
L’Analisi in Componenti Principali
ha per obbiettvo l’individuazione
della struttura di fondo delle
relazioni osservate.
Questo avviene attraverso
l’identificazione di un numero
limitato di nuove variabili,
risultanti dalla combinazione
lineare delle variabili di partenza,
che consentano un’ adeguata
descrizione del sistema osservato,
eliminando ridondanze nelle
informazioni contenute nei dati.
L’insieme dei vettori riga unità della matrice dei dati di
partenza (di dimensioni n × p) è interpretabile come
una configurazione di punti nello spazio di dimensione
Rp . Analogamente,i p vettori colonna variabili della
matrice sono interpretabili come una nube di punti nello
spazio Rn .
L’ACP ha per obbiettivo l’individuazione di un
sottospazio di Rp (Rn ) tale che la sommma dei
quadrati delle distanze tra le proiezioni dei punti/unità
(punti/variabile) sia massimizzata.
Ottenere una proiezione della configurazione dei punti
di partenza che approssimi al meglio la forma originale
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
3 / 60
Matrice dei dati. Esempio: la dieta di 16 paesi
europei
Analisi in
Componenti
Principali
Si consideri di aver rilevato le quantità di sostanze nutritive ingerite in sedici paesi europei. Ciascuna delle
p = 10 variabili quantiative rappresenta una dimensione dello spazio R10 in cui sono rappresentati gli
n = 16 paesi eutopei. In modo duale, a ciascuna delle variabili corrisponde un punto nello spazio R16 .
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
4 / 60
Trasformazione sulla matrice dei dati
Analisi in
Componenti
Principali
A. Iodice
L’ACP si propone di individuare un sottospazio di dimensioni ridotte tale da massimizzare la somma delle
distanze tra le proiezioni delle possibili coppie di punti. La somma di tali distanze è una misura della
variabilità che caratterizza i dati. Dunque l’ACP mira a massimizzare la variabilità spiegata dalle proiezioni
dei punti nel sottospazio.
Per individuare le direzioni degli assi componenti del sottospazio di proiezione ottimale si fa
riferimento al teorema generale di Huyghens
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
teorema generale di Huyghens
Assicura che le direzioni di massima variabilità passino per il baricentro della nube di punti e siano
ortogonali tra loro
il baricentro della nube corrisponde al vettore delle medie delle p variabili
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
massimizzare la somma delle distanze quadratiche delle proiezioni equivale a massimizzare la somma
delle distanze delle proiezioni dal baricentro
centratura della matrice
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
analiticamente: centrare la matrice dei dati consiste nel calcolare gli n scarti dalla media per
ciascuna delle p variabili
geometricamente: centrare la matrice dei dati consiste nel traslare la configurazione di punti in modo
che il baricentro della nube si sposti nell’origine degli assi. Il problema diventa quindi massimizzare la
somma delle distanze al quadrato dei punti dall’origine degli assi del sottospazio di proiezione, ovvero
massimizzare la somma dei quadrati delle coordinate dei punti sugli assi
Analisi in Componenti Principali
Statistica
5 / 60
Matrice dei dati. Esempio: la dieta di 16 paesi
europei
Analisi in
Componenti
Principali
A. Iodice

y1,1
 y2,1
X=
 ...
yn,1

Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
y1,2
y2,2
...
yn,2
...
...
...
...
(y1,1 − µ1 )
 (y2,1 − µ1 )
=

...
(yn,1 − µ1 )


y1,p
µ1

y2,p 
 −  µ1
 ...
... 
µ1
yn,p
(y1,2 − µ2 )
(y2,2 − µ2 )
...
(yn,2 − µ2 )
...
...
...
...
µ2
µ2
...
µ2
...
...
...
...

µp
µp 
=
... 
µp

(y1,p − µp )
(y2,p − µp ) 


...
(yn,p − µp )
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
6 / 60
Interpretazione geometrica della centratura
Analisi in
Componenti
Principali
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
7 / 60
Rendere i dati omogenei: standardizzazione
Analisi in
Componenti
Principali
A. Iodice
Definizione del
metodo
Per trattare simultaneamente le variabili è necessario che siano omogenee: si procede pertanto alla
standardizzazione, consistente nel dividere ciascuno degli elementi della matrice centrata X per lo scarto
quadratico medio della variabile corrispondente. Formalmente,
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
xij =
(yij − µj )
√
σj n
interpretazione geometrica della standardizzazione
Scelta del
numero di
dimensioni
attraverso la standardizzazioni i vettori colonna (variabili) vengono riscalati, si collocano nella
iper-sfera di raggio unitario e dimensione n.
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
8 / 60
Interpretazione geometrica della centratura
Analisi in
Componenti
Principali
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
9 / 60
Matrice dei dati standardizzati
Analisi in
Componenti
Principali
Per trattare simultaneamente le variabili è necessario che siano omogenee: si procede pertanto alla
standardizzazione, consistente nel dividere ciascuno degli elementi della matrice centrata X per lo scarto
quadratico medio della variabile corrispondente. Formalmente,
A. Iodice
xij =
Definizione del
metodo
(yij − µj )
√
σj n
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
10 / 60
Formalizzazione del problema
Analisi in
Componenti
Principali
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Il problema
La proiezione ortogonale della matrice X su un asse di versore
u è (OH) = Xu. Il problema della ricerca del sottospazio di
proiezione che riproduca al meglio la variabilità originaria della
nube viene formalizzato come segue
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
funzione obbiettivo:
max!
n
X
(OHi )2 = (Xu)T (Xu) = uT XT Xu
i=1
vincolo: uT u = 1
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
11 / 60
Soluzione del problema: ricerca del miglior asse
Analisi in
Componenti
Principali
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Metodo di risoluzione del problema
La ricerca del miglior asse di versore u1 è dunque un problema
di massimizzazione vincolata. Per risolverlo si fa ricorso al
metodo dei moltiplicatori di Lagrange. Tale metodo consiste
nel ridefinire la funzione obbiettivo in modo da includere il
vincolo (in questo caso uT
1 u1 = 1). La funzione da
massimizzare diventa
Contributi agli
assi e qualità
della rappresentazione
T
T
max!L = uT
1 X Xu1 − λ(u1 u1 − 1)
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
12 / 60
Soluzione del problema
Analisi in
Componenti
Principali
A. Iodice
Definizione del
metodo
La soluzione del problema
Per massimizzare L si deve porre a zero la derivata prima
rispetto ad u
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
T
T
max!L = uT
1 X Xu1 − λ1 (u1 u1 − 1)
ðu1 L = 2XT Xu1 − 2λ1 u1 = 0
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
XT Xu1 = λ1 u1
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
13 / 60
Soluzione del problema
Analisi in
Componenti
Principali
Risoluzione dell’equazione caratteristica
A. Iodice
XT Xu1 = λ1 u1
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
XT Xu1 − λ1 u1 = 0
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
(XT X − λ1 )u1 = 0
quest’ultima rappresenta l’equazione caratteristica: di fatto la
soluzione del problema di massimizzazione vincolata si ottiene
mediante la ricerca di autovalori ed autovettori della matrice
XT X.
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
14 / 60
Soluzione del problema
Analisi in
Componenti
Principali
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Metodo di risoluzione del problema
La ricerca del secondo miglior asse di versore u2 è un problema
di massimizzazione vincolata (Lagrange). I vincoli da includere
nel lagrangiano sono in questo caso uT
2 u2 = 1 (norma unitaria)
T
e u1 u2 = 0 (vincolo di ortogonalità)(per il teorema di
Huyghens). La funzione da massimizzare diventa
Scelta del
numero di
dimensioni
T
T
T
max!L = uT
2 X Xu2 − λ(u2 u2 − 1) − µ(u1 u2 )
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
15 / 60
Soluzione del problema
Analisi in
Componenti
Principali
A. Iodice
La soluzione del problema
Per massimizzare L si deve porre a zero la derivata prima
rispetto ad u
Definizione del
metodo
T
T
T
max!L = uT
2 X Xu2 − λ2 (u2 u2 − 1) − µ(u1 u2 )
Trasformazioni
sulla matrice
dei dati
ðu2 L = 2XT Xu2 − 2λ2 u2 − µu1 = 0
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Premoltiplicando uT
1
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
T
T
T
ðu2 L = 2uT
1 X Xu2 − 2λ2 u1 u2 − µu1 u1 = 0
i primi due termini sono nulli per l’ortogonalità tra u1 e u2 ;
perchè il termine µuT
1 u1 si annulli deve essere µ = 0
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti
Principali
T
Statistica
16 / 60
Soluzione del problema
Analisi in
Componenti
Principali
A. Iodice
Risoluzione dell’equazione caratteristica
XT Xu2 = λ2 u2
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
(XT X − λ2 )u2 = 0
la soluzione del problema di massimizzazione vincolata si
ottiene mediante la ricerca dell’autovettore associato al
secondo autovalore più grande della matrice XT X.
gli assi successivi al secondo avranno per versori gli autovettori
associati agli autovalori successivi, presi in ordine decrescente.
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
17 / 60
Matrice di correlazione
Analisi in
Componenti
Principali
A. Iodice

ρ1,1
 ρ2,1
T
R=X X=
 ...
ρp,1
ρ1,2
ρ2,2
...
ρp,2
...
...
...
...

ρ1,p
ρ2,p 

... 
ρp,p
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
18 / 60
Autovalori λ, autovettori U
Analisi in
Componenti
Principali
Calcolando gli autovalori e gli autovettori di norma 1 ad essi associati, si è individuata la base ortogonale del
sottospazio di proiezione ottimale.
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
19 / 60
Proiezione ortogonale sugli assi
Analisi in
Componenti
Principali
Le colonne della matrice degli autovettori U rappresentano il sistema di pesi da applicare alle righe della
matrice X per ottenere le coordinate delle unità nel sottospazio ottimale ottenuto. Ricordando la proiezione
ortogonale, le coordinate principali degli individui.
CU = Xu
A. Iodice
Definizione del
metodo
Calcolo delle coordinate principali
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
20 / 60
Coordinate principali dei paesi europei
Analisi in
Componenti
Principali
Le coordinate principali delle unità sono date da
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
21 / 60
Scelta delle dimensioni
Analisi in
Componenti
Principali
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Per scegliere il numero di dimensioni è necessario trovare un compromesso tra la variabilità spiegata dal
sottospazio e il potere di sintesi della soluzione adottata: più alto è il numero q di dimensioni considerate
minore sarà la sintesi dell’informazione. In particolare, se la dimensione del sottospazio è q > 3 non sarà
possibile rappresentare la proiezione della nube di punti ottenuta.
Per le proprietà degli autovalori
p
X
T
tr(X X) =
λα
α=1
T
la traccia della matrice tr(X X corrisponde al valore della variabilità complessiva della nube di punti
corrispondente alla matrice dei dati standardizzati: ciascun autovalore esprime una parte della variabilità
complessiva.
inertia
La variabilità spiegata dall’asse associato all’autovalore λα si definisce inertia ed è data da
Contributi agli
assi e qualità
della rappresentazione
inertiaα = Pp
λα
α=1
λα
× 100
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
22 / 60
Scelta delle dimensioni
Analisi in
Componenti
Principali
A. Iodice
rappresentazione inertia di ciascuna delle dimensioni del
sottospazio di Rp
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
23 / 60
criteri di scelta delle dimensioni
Analisi in
Componenti
Principali
A. Iodice
Definizione del
metodo
La scelta del numero di dimensioni non può essere univocamente determinata: sta all’analista valutare quale
sia la scelta migliore sulla base dei seguenti criteri:
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
criterio della variabilità spiegata: si sceglie il numero delle dimensioni sulla base della percentuale
cumulata di variabilità spiegata dagli assi (inertia cumulata)
criterio dell’ eigenvalue-one: poichè per effetto della standardizzazione le variabili di partenza hanno
tutte varianza pari ad 1 , si scelgono le variabili di sintesi la cui varianza sia maggiore di 1. La
variabilità sugli assi è data dall’autovalore, quindi si sceglieranno le dimensioni il cui autovalore è
maggiore di 1
criterio dello scree-test: si considera il diagramma di Pareto relativo agli autovalori, quando il salto
da una barra alla successiva si regolarizza, l’apporto alla variabilità di ogni dimensione aggiuntiva è
irrilevante. Si sceglieranno le dimensioni corrispondenti alle barre che precedono la regolarizzazione
del decremento della distribuzione
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
24 / 60
Interpretazione dei fattori e qualità della
rappresentazione
Analisi in
Componenti
Principali
La proiezione nel sottospazio ridotto determina delle distorsioni della configurazione di punti originaria;
inoltre, gli assi di proiezione vengono determinati sulla base dei valori delle variabili di partenza osservati sulle
diverse unità. È dunque necessario valutare, per ciascuna unità,
contributo alla determinazione di ciascun asse di proiezione
A. Iodice
qualità della rappresentazione sugli’assi
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
contributo assoluto
Il contributo di una unità alla variabilità dell’asse α si definisce contributo assoluto e si misura come segue:
CAiα =
c2
iα
nλα
1 rappresenta il peso dell’unità, che nell’ACP è uguale per le n unità.
il fattore n
qualità della rappresentazione: il cos2
La qualità della rappresentazione di ciascun vettore unità dipende dal rapporto tra la lunghezza (norma) del
vettore nello spazio originario e la lunghezza della sua proiezione ortogonale su ciascun asse. Il rapporto tra
tali norme quadratiche equivale al coseno dell’angolo formato tra il vettore nello spazio originario e la sua
proiezione sull’asse.
kx̂iα k2
2
cosiα =
kxi k2
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
25 / 60
Rappresentazione degli individui
Analisi in
Componenti
Principali
A. Iodice
Contributi assoluti sul primo asse
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
26 / 60
Rappresentazione degli individui
Analisi in
Componenti
Principali
A. Iodice
Contributi assoluti sul secondo asse
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
27 / 60
Contributi assoluti degli individui
Analisi in
Componenti
Principali
A. Iodice
Contributi assoluti degli individui
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
28 / 60
Coseni al quadrato degli individui
Analisi in
Componenti
Principali
A. Iodice
Coseni al quadrato degli individui
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
29 / 60
Ricerca del sottospazio ottimale di rappresentazione
delle variabili: formalizzazione del problema
Analisi in
Componenti
Principali
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Metodo dei minimi quadrati
Il metodo dei minimi quadrati ha per obbiettivo la ricerca dell’asse U che minimizzi la somma delle distanze
al quadrato dei punti dall’asse. L’identificazione dell’asse
all’identificazione del suo versore v:
Pn U corrsponde
2
la ricerca del vettore v che massimizzi la quantità
i=1 (OHi ) è vincolata al fatto che il vettore abbia
lunghezza 1 (norma unitaria) tale condizione sussiste se vT v = 1.
In questo caso, volendo proiettare i punti variabile, dobbiamo considerare i vettori colonna della matrice X,
la proiezione ortogonale sull’asse di versore v è data da XT v.
Il problema
Ricordando che XT v:
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
funzione obbiettivo:
max!
n
X
(OHi )2 = (XT v)T (XT v) = vT XXT v
i=1
vincolo: vT v = 1
Analisi in Componenti Principali
Statistica
30 / 60
Ricerca del sottospazio ottimale di rappresentazione
delle variabili: ricerca del miglior asse
Analisi in
Componenti
Principali
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Metodo di risoluzione del problema
La ricerca del miglior asse di versore v1 è un problema di
massimizzazione vincolata. Per risolverlo si fa ricorso al metodo
dei moltiplicatori di Lagrange. Tale metodo consiste nel
ridefinire la funzione obbiettivo in modo da includere il vincolo
(in questo caso v1T v1 = 1). La funzione da massimizzare
diventa
max!L = v1T XXT v1 − µ(v1T v1 − 1)
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
31 / 60
Soluzione del problema
Analisi in
Componenti
Principali
A. Iodice
Definizione del
metodo
La soluzione del problema
Per massimizzare L si deve porre a zero la derivata prima
rispetto ad u
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
max!L = v1T XXT v1 − µ(v1T v1 − 1)
ðv1 L = 2XXT v1 − 2µ1 v1 = 0
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
XXT v1 = µ1 v1
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
32 / 60
Soluzione del problema
Analisi in
Componenti
Principali
Risoluzione dell’equazione caratteristica
T
A. Iodice
XX v1 = µ1 v1
Definizione del
metodo
XX v1 − µ1 v1 = 0
Trasformazioni
sulla matrice
dei dati
(XX − µ1 )v1 = 0
T
T
Formalizzazione
del metodo:
analisi in Rp
quest’ultima rappresenta l’equazione caratteristica: di fatto la soluzione del problema di massimizzazione
vincolata si ottiene mediante la ricerca di autovalori ed autovettori della matrice XXT .
Scelta del
numero di
dimensioni
Coordinate dei punti variabile sul sottospazio di proiezione
Contributi agli
assi e qualità
della rappresentazione
Analogamente a quanto descritto nell’analisi dello spazio di rappresentazione degli individui Rp , gli
autovalori µα catturano una quota della variabilità complessiva. La coordinata della variabile j sull’asse
individuato dall’autovalore µα (α = 1, . . . , n) è data da
T
Cα (j) = xj vα
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
33 / 60
autovalori λ, autovettori U
Analisi in
Componenti
Principali
A. Iodice
autovalori e autovettori
Gli autovalori risultanti dalla diagonalizzazione della matrice XXT sono n di cui n − p nulli. Gli autovalori
non nulli coincidono con quelli della matrice XT X.
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
34 / 60
Coordinate principali delle variabili
Analisi in
Componenti
Principali
A. Iodice
Coordinate principali delle variabili
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
35 / 60
Rappresentazione delle variabili: il cerchio delle
correlazioni
Analisi in
Componenti
Principali
Sottospazio di approssimazione di Rn
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
36 / 60
Relazione tra le decomposizioni di XT X e XXT
Analisi in
Componenti
Principali
A. Iodice
Definizione del
metodo
EVD(XT X) vs. EVD(XXT )
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
le due matrici XT X e XXT hanno gli stessi autavori;
gli autovettori dono caratterizzati dalle seguenti relazione:
−1/2
V = XUDλ
−1/2
U = XT VDλ
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
37 / 60
Un piccolo esempio numerico
Analisi in
Componenti
Principali
A. Iodice
A=
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
3
25
4
1
23
8
5
12
9
3
2
1
; AT A =
651
301
111
111
253
95
; AAT =
619
286
145
288
286
698
146
124
145
146
45
66
288
124
66
146
EVD AAT
EVD AT A
U=
301
762
253
0.595
-0.760
-0.261
0.804
-0.570
-0.172
-0.018
-0.312
0.950
V=
-0.657
-0.660
-0.204
-0.303
-0.602
0.738
0.001
-0.305
0.421
-0.030
0.086
-0.903
0.173
0.136
-0.975
-0.016
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Dλ =
1084.419
0
0
0
413.852
0
0
0
9.729
Dλ =
1084.419
0
0
0
0
413.852
0
0
0
0
9.729
0
0
0
0
0
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
38 / 60
Un piccolo esempio numerico
Analisi in
Componenti
Principali
A. Iodice
−1/2
V = AUDλ
=
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
3
25
4
1
23
8
5
12
9
3
2
1
·
0.595
-0.760
-0.261
0.804
-0.570
-0.172
-0.018
-0.312
0.950
-0.657
-0.660
-0.204
-0.303
-0.602
0.738
0.001
-0.305
1
√
1084.419
·
0
0
0
√ 1
413.852
0
0
0
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
=
0.421
-0.030
0.086
-0.903
=
√ 1
9.729
0.173
0.136
-0.975
-0.016
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
39 / 60
Un piccolo esempio numerico
Analisi in
Componenti
Principali
T
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
−1/2
U = A VDλ
A. Iodice
3
23
9
25
8
3
4
5
2
√
1
12
1
·
1
1084.419
-0.657
-0.660
-0.204
-0.303
0
√
0
=
-0.602
0.738
0.001
-0.305
0
1
413.852
0.421
-0.030
0.086
-0.903
0
0
0
0
0
√ 1
9.729
0
0
0
0
0
0.173
0.136
-0.975
-0.016
·
=
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
=
0.595
-0.760
-0.261
0.804
-0.570
-0.172
-0.018
-0.312
0.950
0
0
0
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
40 / 60
Rappresentazione delle variabili: guida
all’interpretazione
Analisi in
Componenti
Principali
Sottospazio di approssimazione di Rn
Mentre per i punti individuo, la distanza euclidea che li separa è indice di dissimilarità, nel caso delle variabili
si interpreta l’angolo formato tra i diversi vettori/variabile.
A. Iodice
Definizione del
metodo
minore è l’angolo θ tra un vettore e ciasun asse fattoriale, maggiore sarà la correlazione tra la
variabili originaria corrispondente e le variabili di sintesi
minore è l’angolo θ tra due vettori , maggiore sarà la correlazione tra le variabili corrispondenti
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
41 / 60
Possibile rappresentazione congiunta unità/variabili
Analisi in
Componenti
Principali
Da un punto di vista interpretativo può essere di aiuto avere una rappresentazione congiunta tra unità e
variabili. Per fare questo, si proiettano le variabili iniziali nel sottospazio di proiezione delle unità.
Possibilità di una rappresentazione congiunta
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Si definiscono p vettori variabile di lunghezza 1 che rappesentano le direzioni. Poichè ad ogni
dimensione dello spazio Rp corrisponde una variabile, i vettori unitari associati a ciascuna variabile
hanno tutti gli elementi uguali a zero, fatta eccezione per la dimensione corrispondente alla variabile
che rappresentano.
Gli operatori di proiezione ortogonale sono, come per le unità, gli autovettori (colonne della matrice
U).
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
42 / 60
Rappresentazione congiunta unità/variabili
Analisi in
Componenti
Principali
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
43 / 60
Le province italiane: dati del Sole24Ore
Analisi in
Componenti
Principali
A. Iodice
Ogni anno il Sole24Ore stila una classifica sulla qualità della vita nelle 107 province italiane. Di seguito le 36
variabili osservate.
Popolazione
numero abitanti per km2 ;
Definizione del
metodo
totale immigrati su popolazione;
laureati su 1000 abitanti di età compresa tra 25 e 30 anni;
Trasformazioni
sulla matrice
dei dati
nati su 1000 abitanti;
over 65 su abitanti di età compresa tra 15 e 64 anni;
divorzi e separazioni ogni diecimila famiglie.
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Affari e Lavoro
numero di fallimenti su 1000 imprese;
numero di imprese su 100 abitanti;
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
saldo tra iscrizioni e cancellazioni di imprese;
numero di protesti pro-capite;
tasso di occupazione della popolazione tra 25 e 34 anni.
tasso di occupazione femminile.
Analisi in Componenti Principali
Statistica
44 / 60
Le province italiane: dati del Sole24Ore
Analisi in
Componenti
Principali
Servizi socio-ambientali e sanitari
A. Iodice
asili comunali su utenza;
Definizione del
metodo
indice Tagliacarne infrastrutture;
Trasformazioni
sulla matrice
dei dati
escursione termica;
Formalizzazione
del metodo:
analisi in Rp
emigrazione ospedaliera;
indice Legambiente;
rapporto tra cause evase e pendenti.
Ordine pubblico
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
numero furti in casa su 100mila abitanti;
numero d’auto su 100mila abitanti;
numero di estorsioni su 100mila abitanti;
numero di rapine su 100mila abitanti;
numero di frodi su 100mila abitanti;
variazione trend delitti tra il 2005 e il 2010.
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
45 / 60
Le province italiane: dati del Sole24Ore
Analisi in
Componenti
Principali
Tenore di vita
A. Iodice
valore dei risparmi;
Definizione del
metodo
importo assegno sociale;
Trasformazioni
sulla matrice
dei dati
trend del reddito;
Formalizzazione
del metodo:
analisi in Rp
tasso di inflazione;
costo case al m2 ;
spesa pro-capite.
Qualità del tempo libero
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
indice libri su popolazione
bar e ristoranti su 100mila abitanti;
numero di spettacoli su 100mila abitanti;
indice di sportività;
organizzazioni di volontariato su 100mila abitanti;
numero di cinema su 100mila abitanti.
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
46 / 60
Analisi su tutto il data set (inerzia= 46.5%)
Analisi in
Componenti
Principali
Le variabili
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
47 / 60
Analisi su tutto il data set (inerzia= 46.5%)
Analisi in
Componenti
Principali
Le unità statistiche
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
48 / 60
Popolazione (inerzia= 61.44%)
Analisi in
Componenti
Principali
Le variabili
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
49 / 60
Popolazione (inerzia= 61.44%)
Analisi in
Componenti
Principali
Le unità statistiche
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
50 / 60
Affari e lavoro (inerzia= 65.18%)
Analisi in
Componenti
Principali
Le variabili
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
51 / 60
Affari e lavoro (inerzia= 65.18%)
Analisi in
Componenti
Principali
Le unità statistiche
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
52 / 60
Servizi socio-ambientali e sanitari (inerzia= 67%)
Analisi in
Componenti
Principali
Le variabili
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
53 / 60
Servizi socio-ambientali e sanitari (inerzia= 67%)
Analisi in
Componenti
Principali
Le unità statistiche
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
54 / 60
Ordine Pubblico (inerzia= 57.35%)
Analisi in
Componenti
Principali
Le variabili
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
55 / 60
Ordine Pubblico (inerzia= 57.35%)
Analisi in
Componenti
Principali
Le unità statistiche
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
56 / 60
Tenore di vita (inerzia= 70.3%)
Analisi in
Componenti
Principali
Le variabili
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
57 / 60
Tenore di vita (inerzia= 70.3%)
Analisi in
Componenti
Principali
Le unità statistiche
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
58 / 60
Tempo Libero (inerzia= 63.4%)
Analisi in
Componenti
Principali
Le variabili
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
59 / 60
Tempo Libero (inerzia= 63.4%)
Analisi in
Componenti
Principali
Le unità statistiche
A. Iodice
Definizione del
metodo
Trasformazioni
sulla matrice
dei dati
Formalizzazione
del metodo:
analisi in Rp
Scelta del
numero di
dimensioni
Contributi agli
assi e qualità
della rappresentazione
Formalizzazione
del metodo:
analisi in Rn
Rappresentazione
A. Iodice ()
congiunta
Analisi in Componenti Principali
Statistica
60 / 60