Analisi in Componenti Principali A. Iodice Analisi in Componenti Principali Definizione del metodo Strumenti quantitativi per l’economia e la finanza I Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Alfonso Iodice D’Enza [email protected] Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Università degli studi di Cassino e del Lazio Meridionale Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 1 / 60 Outline Analisi in Componenti Principali 1 Definizione del metodo 2 Trasformazioni sulla matrice dei dati 3 Formalizzazione del metodo: analisi in Rp Formalizzazione del metodo: analisi in Rp 4 Scelta del numero di dimensioni Scelta del numero di dimensioni 5 Contributi agli assi e qualità della rappresentazione Contributi agli assi e qualità della rappresentazione 6 Formalizzazione del metodo: analisi in Rn 7 Rappresentazione congiunta unità variabili A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 2 / 60 Analisi in Componenti Principali Analisi in Componenti Principali A. Iodice Definizione del metodo Ottica analitica Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Ottica geometrica L’Analisi in Componenti Principali ha per obbiettvo l’individuazione della struttura di fondo delle relazioni osservate. Questo avviene attraverso l’identificazione di un numero limitato di nuove variabili, risultanti dalla combinazione lineare delle variabili di partenza, che consentano un’ adeguata descrizione del sistema osservato, eliminando ridondanze nelle informazioni contenute nei dati. L’insieme dei vettori riga unità della matrice dei dati di partenza (di dimensioni n × p) è interpretabile come una configurazione di punti nello spazio di dimensione Rp . Analogamente,i p vettori colonna variabili della matrice sono interpretabili come una nube di punti nello spazio Rn . L’ACP ha per obbiettivo l’individuazione di un sottospazio di Rp (Rn ) tale che la sommma dei quadrati delle distanze tra le proiezioni dei punti/unità (punti/variabile) sia massimizzata. Ottenere una proiezione della configurazione dei punti di partenza che approssimi al meglio la forma originale Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 3 / 60 Matrice dei dati. Esempio: la dieta di 16 paesi europei Analisi in Componenti Principali Si consideri di aver rilevato le quantità di sostanze nutritive ingerite in sedici paesi europei. Ciascuna delle p = 10 variabili quantiative rappresenta una dimensione dello spazio R10 in cui sono rappresentati gli n = 16 paesi eutopei. In modo duale, a ciascuna delle variabili corrisponde un punto nello spazio R16 . A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 4 / 60 Trasformazione sulla matrice dei dati Analisi in Componenti Principali A. Iodice L’ACP si propone di individuare un sottospazio di dimensioni ridotte tale da massimizzare la somma delle distanze tra le proiezioni delle possibili coppie di punti. La somma di tali distanze è una misura della variabilità che caratterizza i dati. Dunque l’ACP mira a massimizzare la variabilità spiegata dalle proiezioni dei punti nel sottospazio. Per individuare le direzioni degli assi componenti del sottospazio di proiezione ottimale si fa riferimento al teorema generale di Huyghens Definizione del metodo Trasformazioni sulla matrice dei dati teorema generale di Huyghens Assicura che le direzioni di massima variabilità passino per il baricentro della nube di punti e siano ortogonali tra loro il baricentro della nube corrisponde al vettore delle medie delle p variabili Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni massimizzare la somma delle distanze quadratiche delle proiezioni equivale a massimizzare la somma delle distanze delle proiezioni dal baricentro centratura della matrice Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta analiticamente: centrare la matrice dei dati consiste nel calcolare gli n scarti dalla media per ciascuna delle p variabili geometricamente: centrare la matrice dei dati consiste nel traslare la configurazione di punti in modo che il baricentro della nube si sposti nell’origine degli assi. Il problema diventa quindi massimizzare la somma delle distanze al quadrato dei punti dall’origine degli assi del sottospazio di proiezione, ovvero massimizzare la somma dei quadrati delle coordinate dei punti sugli assi Analisi in Componenti Principali Statistica 5 / 60 Matrice dei dati. Esempio: la dieta di 16 paesi europei Analisi in Componenti Principali A. Iodice y1,1 y2,1 X= ... yn,1 Definizione del metodo Trasformazioni sulla matrice dei dati y1,2 y2,2 ... yn,2 ... ... ... ... (y1,1 − µ1 ) (y2,1 − µ1 ) = ... (yn,1 − µ1 ) y1,p µ1 y2,p − µ1 ... ... µ1 yn,p (y1,2 − µ2 ) (y2,2 − µ2 ) ... (yn,2 − µ2 ) ... ... ... ... µ2 µ2 ... µ2 ... ... ... ... µp µp = ... µp (y1,p − µp ) (y2,p − µp ) ... (yn,p − µp ) Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 6 / 60 Interpretazione geometrica della centratura Analisi in Componenti Principali A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 7 / 60 Rendere i dati omogenei: standardizzazione Analisi in Componenti Principali A. Iodice Definizione del metodo Per trattare simultaneamente le variabili è necessario che siano omogenee: si procede pertanto alla standardizzazione, consistente nel dividere ciascuno degli elementi della matrice centrata X per lo scarto quadratico medio della variabile corrispondente. Formalmente, Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp xij = (yij − µj ) √ σj n interpretazione geometrica della standardizzazione Scelta del numero di dimensioni attraverso la standardizzazioni i vettori colonna (variabili) vengono riscalati, si collocano nella iper-sfera di raggio unitario e dimensione n. Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 8 / 60 Interpretazione geometrica della centratura Analisi in Componenti Principali A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 9 / 60 Matrice dei dati standardizzati Analisi in Componenti Principali Per trattare simultaneamente le variabili è necessario che siano omogenee: si procede pertanto alla standardizzazione, consistente nel dividere ciascuno degli elementi della matrice centrata X per lo scarto quadratico medio della variabile corrispondente. Formalmente, A. Iodice xij = Definizione del metodo (yij − µj ) √ σj n Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 10 / 60 Formalizzazione del problema Analisi in Componenti Principali A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Il problema La proiezione ortogonale della matrice X su un asse di versore u è (OH) = Xu. Il problema della ricerca del sottospazio di proiezione che riproduca al meglio la variabilità originaria della nube viene formalizzato come segue Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione funzione obbiettivo: max! n X (OHi )2 = (Xu)T (Xu) = uT XT Xu i=1 vincolo: uT u = 1 Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 11 / 60 Soluzione del problema: ricerca del miglior asse Analisi in Componenti Principali A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Metodo di risoluzione del problema La ricerca del miglior asse di versore u1 è dunque un problema di massimizzazione vincolata. Per risolverlo si fa ricorso al metodo dei moltiplicatori di Lagrange. Tale metodo consiste nel ridefinire la funzione obbiettivo in modo da includere il vincolo (in questo caso uT 1 u1 = 1). La funzione da massimizzare diventa Contributi agli assi e qualità della rappresentazione T T max!L = uT 1 X Xu1 − λ(u1 u1 − 1) Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 12 / 60 Soluzione del problema Analisi in Componenti Principali A. Iodice Definizione del metodo La soluzione del problema Per massimizzare L si deve porre a zero la derivata prima rispetto ad u Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp T T max!L = uT 1 X Xu1 − λ1 (u1 u1 − 1) ðu1 L = 2XT Xu1 − 2λ1 u1 = 0 Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione XT Xu1 = λ1 u1 Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 13 / 60 Soluzione del problema Analisi in Componenti Principali Risoluzione dell’equazione caratteristica A. Iodice XT Xu1 = λ1 u1 Definizione del metodo Trasformazioni sulla matrice dei dati XT Xu1 − λ1 u1 = 0 Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn (XT X − λ1 )u1 = 0 quest’ultima rappresenta l’equazione caratteristica: di fatto la soluzione del problema di massimizzazione vincolata si ottiene mediante la ricerca di autovalori ed autovettori della matrice XT X. Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 14 / 60 Soluzione del problema Analisi in Componenti Principali A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Metodo di risoluzione del problema La ricerca del secondo miglior asse di versore u2 è un problema di massimizzazione vincolata (Lagrange). I vincoli da includere nel lagrangiano sono in questo caso uT 2 u2 = 1 (norma unitaria) T e u1 u2 = 0 (vincolo di ortogonalità)(per il teorema di Huyghens). La funzione da massimizzare diventa Scelta del numero di dimensioni T T T max!L = uT 2 X Xu2 − λ(u2 u2 − 1) − µ(u1 u2 ) Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 15 / 60 Soluzione del problema Analisi in Componenti Principali A. Iodice La soluzione del problema Per massimizzare L si deve porre a zero la derivata prima rispetto ad u Definizione del metodo T T T max!L = uT 2 X Xu2 − λ2 (u2 u2 − 1) − µ(u1 u2 ) Trasformazioni sulla matrice dei dati ðu2 L = 2XT Xu2 − 2λ2 u2 − µu1 = 0 Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Premoltiplicando uT 1 Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn T T T ðu2 L = 2uT 1 X Xu2 − 2λ2 u1 u2 − µu1 u1 = 0 i primi due termini sono nulli per l’ortogonalità tra u1 e u2 ; perchè il termine µuT 1 u1 si annulli deve essere µ = 0 Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali T Statistica 16 / 60 Soluzione del problema Analisi in Componenti Principali A. Iodice Risoluzione dell’equazione caratteristica XT Xu2 = λ2 u2 Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn (XT X − λ2 )u2 = 0 la soluzione del problema di massimizzazione vincolata si ottiene mediante la ricerca dell’autovettore associato al secondo autovalore più grande della matrice XT X. gli assi successivi al secondo avranno per versori gli autovettori associati agli autovalori successivi, presi in ordine decrescente. Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 17 / 60 Matrice di correlazione Analisi in Componenti Principali A. Iodice ρ1,1 ρ2,1 T R=X X= ... ρp,1 ρ1,2 ρ2,2 ... ρp,2 ... ... ... ... ρ1,p ρ2,p ... ρp,p Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 18 / 60 Autovalori λ, autovettori U Analisi in Componenti Principali Calcolando gli autovalori e gli autovettori di norma 1 ad essi associati, si è individuata la base ortogonale del sottospazio di proiezione ottimale. A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 19 / 60 Proiezione ortogonale sugli assi Analisi in Componenti Principali Le colonne della matrice degli autovettori U rappresentano il sistema di pesi da applicare alle righe della matrice X per ottenere le coordinate delle unità nel sottospazio ottimale ottenuto. Ricordando la proiezione ortogonale, le coordinate principali degli individui. CU = Xu A. Iodice Definizione del metodo Calcolo delle coordinate principali Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 20 / 60 Coordinate principali dei paesi europei Analisi in Componenti Principali Le coordinate principali delle unità sono date da A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 21 / 60 Scelta delle dimensioni Analisi in Componenti Principali A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Per scegliere il numero di dimensioni è necessario trovare un compromesso tra la variabilità spiegata dal sottospazio e il potere di sintesi della soluzione adottata: più alto è il numero q di dimensioni considerate minore sarà la sintesi dell’informazione. In particolare, se la dimensione del sottospazio è q > 3 non sarà possibile rappresentare la proiezione della nube di punti ottenuta. Per le proprietà degli autovalori p X T tr(X X) = λα α=1 T la traccia della matrice tr(X X corrisponde al valore della variabilità complessiva della nube di punti corrispondente alla matrice dei dati standardizzati: ciascun autovalore esprime una parte della variabilità complessiva. inertia La variabilità spiegata dall’asse associato all’autovalore λα si definisce inertia ed è data da Contributi agli assi e qualità della rappresentazione inertiaα = Pp λα α=1 λα × 100 Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 22 / 60 Scelta delle dimensioni Analisi in Componenti Principali A. Iodice rappresentazione inertia di ciascuna delle dimensioni del sottospazio di Rp Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 23 / 60 criteri di scelta delle dimensioni Analisi in Componenti Principali A. Iodice Definizione del metodo La scelta del numero di dimensioni non può essere univocamente determinata: sta all’analista valutare quale sia la scelta migliore sulla base dei seguenti criteri: Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni criterio della variabilità spiegata: si sceglie il numero delle dimensioni sulla base della percentuale cumulata di variabilità spiegata dagli assi (inertia cumulata) criterio dell’ eigenvalue-one: poichè per effetto della standardizzazione le variabili di partenza hanno tutte varianza pari ad 1 , si scelgono le variabili di sintesi la cui varianza sia maggiore di 1. La variabilità sugli assi è data dall’autovalore, quindi si sceglieranno le dimensioni il cui autovalore è maggiore di 1 criterio dello scree-test: si considera il diagramma di Pareto relativo agli autovalori, quando il salto da una barra alla successiva si regolarizza, l’apporto alla variabilità di ogni dimensione aggiuntiva è irrilevante. Si sceglieranno le dimensioni corrispondenti alle barre che precedono la regolarizzazione del decremento della distribuzione Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 24 / 60 Interpretazione dei fattori e qualità della rappresentazione Analisi in Componenti Principali La proiezione nel sottospazio ridotto determina delle distorsioni della configurazione di punti originaria; inoltre, gli assi di proiezione vengono determinati sulla base dei valori delle variabili di partenza osservati sulle diverse unità. È dunque necessario valutare, per ciascuna unità, contributo alla determinazione di ciascun asse di proiezione A. Iodice qualità della rappresentazione sugli’assi Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn contributo assoluto Il contributo di una unità alla variabilità dell’asse α si definisce contributo assoluto e si misura come segue: CAiα = c2 iα nλα 1 rappresenta il peso dell’unità, che nell’ACP è uguale per le n unità. il fattore n qualità della rappresentazione: il cos2 La qualità della rappresentazione di ciascun vettore unità dipende dal rapporto tra la lunghezza (norma) del vettore nello spazio originario e la lunghezza della sua proiezione ortogonale su ciascun asse. Il rapporto tra tali norme quadratiche equivale al coseno dell’angolo formato tra il vettore nello spazio originario e la sua proiezione sull’asse. kx̂iα k2 2 cosiα = kxi k2 Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 25 / 60 Rappresentazione degli individui Analisi in Componenti Principali A. Iodice Contributi assoluti sul primo asse Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 26 / 60 Rappresentazione degli individui Analisi in Componenti Principali A. Iodice Contributi assoluti sul secondo asse Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 27 / 60 Contributi assoluti degli individui Analisi in Componenti Principali A. Iodice Contributi assoluti degli individui Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 28 / 60 Coseni al quadrato degli individui Analisi in Componenti Principali A. Iodice Coseni al quadrato degli individui Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 29 / 60 Ricerca del sottospazio ottimale di rappresentazione delle variabili: formalizzazione del problema Analisi in Componenti Principali A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Metodo dei minimi quadrati Il metodo dei minimi quadrati ha per obbiettivo la ricerca dell’asse U che minimizzi la somma delle distanze al quadrato dei punti dall’asse. L’identificazione dell’asse all’identificazione del suo versore v: Pn U corrsponde 2 la ricerca del vettore v che massimizzi la quantità i=1 (OHi ) è vincolata al fatto che il vettore abbia lunghezza 1 (norma unitaria) tale condizione sussiste se vT v = 1. In questo caso, volendo proiettare i punti variabile, dobbiamo considerare i vettori colonna della matrice X, la proiezione ortogonale sull’asse di versore v è data da XT v. Il problema Ricordando che XT v: Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta funzione obbiettivo: max! n X (OHi )2 = (XT v)T (XT v) = vT XXT v i=1 vincolo: vT v = 1 Analisi in Componenti Principali Statistica 30 / 60 Ricerca del sottospazio ottimale di rappresentazione delle variabili: ricerca del miglior asse Analisi in Componenti Principali A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Metodo di risoluzione del problema La ricerca del miglior asse di versore v1 è un problema di massimizzazione vincolata. Per risolverlo si fa ricorso al metodo dei moltiplicatori di Lagrange. Tale metodo consiste nel ridefinire la funzione obbiettivo in modo da includere il vincolo (in questo caso v1T v1 = 1). La funzione da massimizzare diventa max!L = v1T XXT v1 − µ(v1T v1 − 1) Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 31 / 60 Soluzione del problema Analisi in Componenti Principali A. Iodice Definizione del metodo La soluzione del problema Per massimizzare L si deve porre a zero la derivata prima rispetto ad u Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp max!L = v1T XXT v1 − µ(v1T v1 − 1) ðv1 L = 2XXT v1 − 2µ1 v1 = 0 Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione XXT v1 = µ1 v1 Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 32 / 60 Soluzione del problema Analisi in Componenti Principali Risoluzione dell’equazione caratteristica T A. Iodice XX v1 = µ1 v1 Definizione del metodo XX v1 − µ1 v1 = 0 Trasformazioni sulla matrice dei dati (XX − µ1 )v1 = 0 T T Formalizzazione del metodo: analisi in Rp quest’ultima rappresenta l’equazione caratteristica: di fatto la soluzione del problema di massimizzazione vincolata si ottiene mediante la ricerca di autovalori ed autovettori della matrice XXT . Scelta del numero di dimensioni Coordinate dei punti variabile sul sottospazio di proiezione Contributi agli assi e qualità della rappresentazione Analogamente a quanto descritto nell’analisi dello spazio di rappresentazione degli individui Rp , gli autovalori µα catturano una quota della variabilità complessiva. La coordinata della variabile j sull’asse individuato dall’autovalore µα (α = 1, . . . , n) è data da T Cα (j) = xj vα Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 33 / 60 autovalori λ, autovettori U Analisi in Componenti Principali A. Iodice autovalori e autovettori Gli autovalori risultanti dalla diagonalizzazione della matrice XXT sono n di cui n − p nulli. Gli autovalori non nulli coincidono con quelli della matrice XT X. Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 34 / 60 Coordinate principali delle variabili Analisi in Componenti Principali A. Iodice Coordinate principali delle variabili Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 35 / 60 Rappresentazione delle variabili: il cerchio delle correlazioni Analisi in Componenti Principali Sottospazio di approssimazione di Rn A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 36 / 60 Relazione tra le decomposizioni di XT X e XXT Analisi in Componenti Principali A. Iodice Definizione del metodo EVD(XT X) vs. EVD(XXT ) Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni le due matrici XT X e XXT hanno gli stessi autavori; gli autovettori dono caratterizzati dalle seguenti relazione: −1/2 V = XUDλ −1/2 U = XT VDλ Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 37 / 60 Un piccolo esempio numerico Analisi in Componenti Principali A. Iodice A= Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp 3 25 4 1 23 8 5 12 9 3 2 1 ; AT A = 651 301 111 111 253 95 ; AAT = 619 286 145 288 286 698 146 124 145 146 45 66 288 124 66 146 EVD AAT EVD AT A U= 301 762 253 0.595 -0.760 -0.261 0.804 -0.570 -0.172 -0.018 -0.312 0.950 V= -0.657 -0.660 -0.204 -0.303 -0.602 0.738 0.001 -0.305 0.421 -0.030 0.086 -0.903 0.173 0.136 -0.975 -0.016 Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Dλ = 1084.419 0 0 0 413.852 0 0 0 9.729 Dλ = 1084.419 0 0 0 0 413.852 0 0 0 0 9.729 0 0 0 0 0 Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 38 / 60 Un piccolo esempio numerico Analisi in Componenti Principali A. Iodice −1/2 V = AUDλ = Definizione del metodo Trasformazioni sulla matrice dei dati 3 25 4 1 23 8 5 12 9 3 2 1 · 0.595 -0.760 -0.261 0.804 -0.570 -0.172 -0.018 -0.312 0.950 -0.657 -0.660 -0.204 -0.303 -0.602 0.738 0.001 -0.305 1 √ 1084.419 · 0 0 0 √ 1 413.852 0 0 0 Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni = 0.421 -0.030 0.086 -0.903 = √ 1 9.729 0.173 0.136 -0.975 -0.016 Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 39 / 60 Un piccolo esempio numerico Analisi in Componenti Principali T Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp −1/2 U = A VDλ A. Iodice 3 23 9 25 8 3 4 5 2 √ 1 12 1 · 1 1084.419 -0.657 -0.660 -0.204 -0.303 0 √ 0 = -0.602 0.738 0.001 -0.305 0 1 413.852 0.421 -0.030 0.086 -0.903 0 0 0 0 0 √ 1 9.729 0 0 0 0 0 0.173 0.136 -0.975 -0.016 · = Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione = 0.595 -0.760 -0.261 0.804 -0.570 -0.172 -0.018 -0.312 0.950 0 0 0 Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 40 / 60 Rappresentazione delle variabili: guida all’interpretazione Analisi in Componenti Principali Sottospazio di approssimazione di Rn Mentre per i punti individuo, la distanza euclidea che li separa è indice di dissimilarità, nel caso delle variabili si interpreta l’angolo formato tra i diversi vettori/variabile. A. Iodice Definizione del metodo minore è l’angolo θ tra un vettore e ciasun asse fattoriale, maggiore sarà la correlazione tra la variabili originaria corrispondente e le variabili di sintesi minore è l’angolo θ tra due vettori , maggiore sarà la correlazione tra le variabili corrispondenti Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 41 / 60 Possibile rappresentazione congiunta unità/variabili Analisi in Componenti Principali Da un punto di vista interpretativo può essere di aiuto avere una rappresentazione congiunta tra unità e variabili. Per fare questo, si proiettano le variabili iniziali nel sottospazio di proiezione delle unità. Possibilità di una rappresentazione congiunta A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Si definiscono p vettori variabile di lunghezza 1 che rappesentano le direzioni. Poichè ad ogni dimensione dello spazio Rp corrisponde una variabile, i vettori unitari associati a ciascuna variabile hanno tutti gli elementi uguali a zero, fatta eccezione per la dimensione corrispondente alla variabile che rappresentano. Gli operatori di proiezione ortogonale sono, come per le unità, gli autovettori (colonne della matrice U). Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 42 / 60 Rappresentazione congiunta unità/variabili Analisi in Componenti Principali A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 43 / 60 Le province italiane: dati del Sole24Ore Analisi in Componenti Principali A. Iodice Ogni anno il Sole24Ore stila una classifica sulla qualità della vita nelle 107 province italiane. Di seguito le 36 variabili osservate. Popolazione numero abitanti per km2 ; Definizione del metodo totale immigrati su popolazione; laureati su 1000 abitanti di età compresa tra 25 e 30 anni; Trasformazioni sulla matrice dei dati nati su 1000 abitanti; over 65 su abitanti di età compresa tra 15 e 64 anni; divorzi e separazioni ogni diecimila famiglie. Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Affari e Lavoro numero di fallimenti su 1000 imprese; numero di imprese su 100 abitanti; Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta saldo tra iscrizioni e cancellazioni di imprese; numero di protesti pro-capite; tasso di occupazione della popolazione tra 25 e 34 anni. tasso di occupazione femminile. Analisi in Componenti Principali Statistica 44 / 60 Le province italiane: dati del Sole24Ore Analisi in Componenti Principali Servizi socio-ambientali e sanitari A. Iodice asili comunali su utenza; Definizione del metodo indice Tagliacarne infrastrutture; Trasformazioni sulla matrice dei dati escursione termica; Formalizzazione del metodo: analisi in Rp emigrazione ospedaliera; indice Legambiente; rapporto tra cause evase e pendenti. Ordine pubblico Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione numero furti in casa su 100mila abitanti; numero d’auto su 100mila abitanti; numero di estorsioni su 100mila abitanti; numero di rapine su 100mila abitanti; numero di frodi su 100mila abitanti; variazione trend delitti tra il 2005 e il 2010. Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 45 / 60 Le province italiane: dati del Sole24Ore Analisi in Componenti Principali Tenore di vita A. Iodice valore dei risparmi; Definizione del metodo importo assegno sociale; Trasformazioni sulla matrice dei dati trend del reddito; Formalizzazione del metodo: analisi in Rp tasso di inflazione; costo case al m2 ; spesa pro-capite. Qualità del tempo libero Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione indice libri su popolazione bar e ristoranti su 100mila abitanti; numero di spettacoli su 100mila abitanti; indice di sportività; organizzazioni di volontariato su 100mila abitanti; numero di cinema su 100mila abitanti. Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 46 / 60 Analisi su tutto il data set (inerzia= 46.5%) Analisi in Componenti Principali Le variabili A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 47 / 60 Analisi su tutto il data set (inerzia= 46.5%) Analisi in Componenti Principali Le unità statistiche A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 48 / 60 Popolazione (inerzia= 61.44%) Analisi in Componenti Principali Le variabili A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 49 / 60 Popolazione (inerzia= 61.44%) Analisi in Componenti Principali Le unità statistiche A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 50 / 60 Affari e lavoro (inerzia= 65.18%) Analisi in Componenti Principali Le variabili A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 51 / 60 Affari e lavoro (inerzia= 65.18%) Analisi in Componenti Principali Le unità statistiche A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 52 / 60 Servizi socio-ambientali e sanitari (inerzia= 67%) Analisi in Componenti Principali Le variabili A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 53 / 60 Servizi socio-ambientali e sanitari (inerzia= 67%) Analisi in Componenti Principali Le unità statistiche A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 54 / 60 Ordine Pubblico (inerzia= 57.35%) Analisi in Componenti Principali Le variabili A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 55 / 60 Ordine Pubblico (inerzia= 57.35%) Analisi in Componenti Principali Le unità statistiche A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 56 / 60 Tenore di vita (inerzia= 70.3%) Analisi in Componenti Principali Le variabili A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 57 / 60 Tenore di vita (inerzia= 70.3%) Analisi in Componenti Principali Le unità statistiche A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 58 / 60 Tempo Libero (inerzia= 63.4%) Analisi in Componenti Principali Le variabili A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 59 / 60 Tempo Libero (inerzia= 63.4%) Analisi in Componenti Principali Le unità statistiche A. Iodice Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo: analisi in Rp Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Formalizzazione del metodo: analisi in Rn Rappresentazione A. Iodice () congiunta Analisi in Componenti Principali Statistica 60 / 60