Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali Tecniche di riduzione della dimensionalità Analisi statistica e matematico-finanziaria II Alfonso Iodice D’Enza [email protected] Università degli studi di Cassino e del Lazio Meridionale La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Outline Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali 1 Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Tecniche di riduzione della dimensionalità La prima analisi in componenti principali1 A. Iodice Il data set: le diete dei paesi europei Danimarca Grecia Spagna Irlanda Italia Portogallo Austria Finlandia Islanda Svezia Cereali 70.5 109.8 71.4 93.4 110.2 86.0 68.7 70.1 79.7 69.3 Zucchero 39.5 30.0 26.8 34.8 27.9 29.4 37.1 35.7 54.9 37.5 Verdure 50.0 229.5 191.7 55.0 181.9 100.0 81.9 52.6 50.0 48.5 qual’è il paese dove si consuma più verdura? qual’è il paese dove si consuma meno latte? qual’è il paese dove si consuma più carne? 1 grazie a Sebastien Lè per l’esempio! Carne 105.8 77.1 102.1 105.0 88.0 75.5 93.4 65.0 71.7 60.5 Latte 145.2 63.1 98.4 185.9 65.0 96.0 121.3 208.4 205.6 154.1 Uova 14.3 11.3 15.3 11.4 11.1 7.7 13.4 10.9 11.3 12.9 Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Tecniche di riduzione della dimensionalità La prima analisi in componenti principali A. Iodice Il data set: dati centrati Danimarca Grecia Spagna Irlanda Italia Portogallo Austria Finlandia Islanda Svezia Cereali -12.4 26.9 -11.5 10.5 27.3 3.1 -14.2 -12.8 -3.2 -13.6 Zucchero 4.1 -5.4 -8.6 -0.6 -7.5 -6.0 1.7 0.3 19.5 2.1 Verdure -54.1 125.4 87.6 -49.1 77.8 -4.1 -22.2 -51.5 -54.1 -55.6 qual’è il paese dove si consuma più verdura? qual’è il paese dove si consuma meno latte? qual’è il paese dove si consuma più carne? Carne 21.4 -7.3 17.7 20.6 3.6 -8.9 9.0 -19.4 -12.7 -23.9 Latte 10.9 -71.2 -35.9 51.6 -69.3 -38.3 -13.0 74.1 71.3 19.8 Uova 2.3 -0.7 3.3 -0.6 -0.9 -4.3 1.4 -1.1 -0.7 0.9 Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Tecniche di riduzione della dimensionalità La prima analisi in componenti principali A. Iodice Analisi in componenti principali Il data set: dati centrati Danimarca Grecia Spagna Irlanda Italia Portogallo Austria Finlandia Islanda Svezia Cereali -12.4 26.9 -11.5 10.5 27.3 3.1 -14.2 -12.8 -3.2 -13.6 Zucchero 4.1 -5.4 -8.6 -0.6 -7.5 -6.0 1.7 0.3 19.5 2.1 Verdure -54.1 125.4 87.6 -49.1 77.8 -4.1 -22.2 -51.5 -54.1 -55.6 Carne 21.4 -7.3 17.7 20.6 3.6 -8.9 9.0 -19.4 -12.7 -23.9 Latte 10.9 -71.2 -35.9 51.6 -69.3 -38.3 -13.0 74.1 71.3 19.8 Uova 2.3 -0.7 3.3 -0.6 -0.9 -4.3 1.4 -1.1 -0.7 0.9 Il consumo di carne in Danimarca è più elevato di quanto non sia basso il consumo di latte in Grecia? La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Tecniche di riduzione della dimensionalità La prima analisi in componenti principali A. Iodice Analisi in componenti principali Il data set: dati trasformati in unità standard Danimarca Grecia Spagna Irlanda Italia Portogallo Austria Finlandia Islanda Svezia Cereali -0.75 1.63 -0.70 0.64 1.66 0.19 -0.86 -0.78 -0.20 -0.83 Zucchero 0.51 -0.66 -1.05 -0.07 -0.91 -0.73 0.21 0.04 2.39 0.26 Verdure -0.77 1.79 1.25 -0.70 1.11 -0.06 -0.32 -0.74 -0.77 -0.80 Carne 1.28 -0.44 1.05 1.23 0.21 -0.53 0.54 -1.16 -0.76 -1.43 Latte 0.20 -1.31 -0.66 0.95 -1.28 -0.71 -0.24 1.36 1.31 0.36 Uova 1.10 -0.31 1.57 -0.26 -0.40 -2.00 0.68 -0.50 -0.31 0.44 La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Analisi in Componenti Principali Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali Ottica analitica L’Analisi in Componenti Principali ha per obbiettvo l’individuazione della struttura di fondo delle relazioni osservate. Questo avviene attraverso l’identificazione di un numero limitato di nuove variabili, risultanti dalla combinazione lineare delle variabili di partenza, che consentano un’ adeguata descrizione del sistema osservato, eliminando ridondanze nelle informazioni contenute nei dati. Ottica geometrica L’insieme dei vettori riga unità della matrice dei dati di partenza (di dimensioni n × p) è interpretabile come una configurazione di punti nello spazio di dimensione Rp . Analogamente,i p vettori colonna variabili della matrice sono interpretabili come una nube di punti nello spazio Rn . L’ACP ha per obbiettivo l’individuazione di un sottospazio di Rp (Rn ) tale che la sommma dei quadrati delle distanze tra le proiezioni dei punti/unità (punti/variabile) sia massimizzata. Ottenere una proiezione della configurazione dei punti di partenza che approssimi al meglio la forma originale La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Matrice dei dati. Esempio: la dieta di 16 paesi europei Si consideri di aver rilevato le quantità di sostanze nutritive ingerite in sedici paesi europei. Ciascuna delle p = 10 variabili quantiative rappresenta una dimensione dello spazio R10 in cui sono rappresentati gli n = 16 paesi eutopei. In modo duale, a ciascuna delle variabili corrisponde un punto nello spazio R16 . Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Trasformazione sulla matrice dei dati Tecniche di riduzione della dimensionalità A. Iodice L’ACP si propone di individuare un sottospazio di dimensioni ridotte tale da massimizzare la somma delle distanze tra le proiezioni delle possibili coppie di punti. La somma di tali distanze è una misura della variabilità che caratterizza i dati. Dunque l’ACP mira a massimizzare la variabilità spiegata dalle proiezioni dei punti nel sottospazio. Per individuare le direzioni degli assi componenti del sottospazio di proiezione ottimale si fa riferimento al teorema generale di Huyghens teorema generale di Huyghens Assicura che le direzioni di massima variabilità passino per il baricentro della nube di punti e siano ortogonali tra loro il baricentro della nube corrisponde al vettore delle medie delle p variabili massimizzare la somma delle distanze quadratiche delle proiezioni equivale a massimizzare la somma delle distanze delle proiezioni dal baricentro centratura della matrice analiticamente: centrare la matrice dei dati consiste nel calcolare gli n scarti dalla media per ciascuna delle p variabili geometricamente: centrare la matrice dei dati consiste nel traslare la configurazione di punti in modo che il baricentro della nube si sposti nell’origine degli assi. Il problema diventa quindi massimizzare la somma delle distanze al quadrato dei punti dall’origine degli assi del sottospazio di proiezione, ovvero massimizzare la somma dei quadrati delle coordinate dei punti sugli assi Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Tecniche di riduzione della dimensionalità Matrice dei dati. Esempio: la dieta di 16 paesi europei y1,1 y2,1 X= ... yn,1 y1,2 y2,2 ... yn,2 ... ... ... ... (y1,1 − µ1 ) (y2,1 − µ1 ) = ... (yn,1 − µ1 ) y1,p µ1 y2,p − µ1 ... ... µ1 yn,p (y1,2 − µ2 ) (y2,2 − µ2 ) ... (yn,2 − µ2 ) ... ... ... ... µ2 µ2 ... µ2 ... ... ... ... µp µp = ... µp (y1,p − µp ) (y2,p − µp ) ... (yn,p − µp ) A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Interpretazione geometrica della centratura Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Rendere i dati omogenei: standardizzazione Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali Per trattare simultaneamente le variabili è necessario che siano omogenee: si procede pertanto alla standardizzazione, consistente nel dividere ciascuno degli elementi della matrice centrata X per lo scarto quadratico medio della variabile corrispondente. Formalmente, xij = (yij − µj ) √ σj n interpretazione geometrica della standardizzazione attraverso la standardizzazioni i vettori colonna (variabili) vengono riscalati, si collocano nella iper-sfera di raggio unitario e dimensione n. La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Interpretazione geometrica della centratura Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Matrice dei dati standardizzati Per trattare simultaneamente le variabili è necessario che siano omogenee: si procede pertanto alla standardizzazione, consistente nel dividere ciascuno degli elementi della matrice centrata X per lo scarto quadratico medio della variabile corrispondente. Formalmente, xij = (yij − µj ) √ σj n Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Sintesi dell’informazione Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La proiezione ortogonale su un asse U dei vettori riga o colonna determina una sintesi degli elementi dei vettori (la coordinata sull’asse). La sintesi varia al variare dell’asse scelto. Quindi... obiettivo delle tecniche fattoriali ...i metodi fattoriali hanno l’obbiettivo di sintetizzare la configurazione dei vettori riga nello spazio Rp e quella dei vettori colonna nello spazio Rn . ricerca della soluzione la soluzione consiste nella determinazione di un sottospazio di proiezione costiituito da assi che approssimino al meglio le distanze tra i punti dello spazio originario. La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Perdita di informazione Tecniche di riduzione della dimensionalità A. Iodice La proiezione ortogonale dei punti determina una inevitabile perdita di informazione: la distanza che caratterizza i punti nello spazio originario viene deformata quando proiettata nel sottospazio fattoriale. Minore sarà tale deformazione, più fedele sarà l’immagine nel sottospazio della configurazione iniziale dei punti. deformazione delle distanze tra i punti Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Criterio per la ricerca del sottospazio di proiezione ottimale Un vettore sarà approssimato al meglio dall’asse U quanto minore sarà la sua distanza dall’asse (Mi Hi ) o, in maniera corrispondente, quanto maggiore sarà la coordinata del vettore sull’asse (OHi ). ..ricordando il Teorema di Pitagora Metodo dei minimi quadrati Il metodo dei minimi quadrati ha per obbiettivo la ricerca dell’asse U che minimizzi la somma delle distanze al quadrato dei punti dall’asse. Formalmente min! n X 2 (Mi Hi ) = i=1 n X 2 (OMi ) − i=1 n X 2 (OHi ) i=1 L’ipotenusa OMi del triangolo rettangolo di vertici OMi Hi corrsiponde al vettore nello spazio originario, di conseguenza è fissa. Dunque min! n X i=1 2 (Mi Hi ) equivale a max! n X i=1 2 (OHi ) Da un punto di vista grafico, si considera il triangolo rettangolo di vertici (O, Hi , Mi ). Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Formalizzazione del problema Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali Il problema La proiezione ortogonale della matrice X su un asse di versore u è (oh) = Xu. Dove (oh)T = [OH1 , OH2 , . . . , OHn ]. Il problema della ricerca del sottospazio di proiezione che riproduca al meglio la variabilità originaria della nube viene formalizzato come segue funzione obbiettivo: max! n X (OHi )2 = (oh)T (oh) = (Xu)T (Xu) = uT XT Xu i=1 vincolo: uT u = 1 La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Soluzione del problema: ricerca del miglior asse Tecniche di riduzione della dimensionalità A. Iodice Metodo di risoluzione del problema La ricerca del miglior asse di versore u1 è dunque un problema di massimizzazione vincolata. Per risolverlo si fa ricorso al metodo dei moltiplicatori di Lagrange. Tale metodo consiste nel ridefinire la funzione obbiettivo in modo da includere il vincolo (in questo caso uT 1 u1 = 1). La funzione da massimizzare diventa T T max!L = uT 1 X Xu1 − λ(u1 u1 − 1) Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Soluzione del problema Tecniche di riduzione della dimensionalità A. Iodice La soluzione del problema Per massimizzare L si deve porre a zero la derivata prima rispetto ad u T T max!L = uT 1 X Xu1 − λ1 (u1 u1 − 1) ðu1 L = 2XT Xu1 − 2λ1 u1 = 0 XT Xu1 = λ1 u1 Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Soluzione del problema Tecniche di riduzione della dimensionalità A. Iodice Risoluzione dell’equazione caratteristica XT Xu1 = λ1 u1 XT Xu1 − λ1 u1 = 0 (XT X − λ1 )u1 = 0 quest’ultima rappresenta l’equazione caratteristica: di fatto la soluzione del problema di massimizzazione vincolata si ottiene mediante la ricerca di autovalori ed autovettori della matrice XT X. Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Tecniche di riduzione della dimensionalità Autovalori e autovettori Esempio di calcolo di autovalori e autovettori A. Iodice Si consideri la seguente matrice 2 A3×3 = 3 3 4 8 1 Analisi in componenti principali 7 9 1 Per trovare gli autovalori è necessario uguagliare a zero il determinante della seguente matrice 2 (A−λI) = 3 3 4 8 1 7 λ 9 − 0 1 0 2−λ 3 det 3 0 λ 0 4 8−λ 1 0 2−λ 0 = 3 λ 3 4 8−λ 1 7 =0 9 1−λ Ricorrendo alla formula del determinante per matrice 3×3 La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili 7 9 1−λ Autovalori e autovettori Tecniche di riduzione della dimensionalità A. Iodice Esempio di calcolo di autovalori e autovettori 2−λ 3 det 3 4 8−λ 1 7 8−λ 9 = (2 − λ) × det 9 1 1−λ 1−λ 3 9 − 4 × det 3 1−λ 3 8−λ + 7 × det =0 3 1 = (2 − λ)((8 − λ)(1 − λ) − 9) − 4(3(1 − λ) − 27) + 7(3 − 3(8 − λ)) = 2 = (2 − λ)(λ − 9λ − 1) − 4(3 − 3λ − 27) + 7(3 − 24 + 3λ) = 2 3 2 = 2λ − 18λ − 2 − λ + 9λ + λ − 12 + 12λ + 108 + 21 − 168 + 21λ = 3 2 = −λ + 11λ + 16λ − 53 = 0 L’equazione è risolta per λ1 = 11.97, λ2 = −2.64 e λ3 = −1.675 Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Autovalori e autovettori Tecniche di riduzione della dimensionalità A. Iodice Esempio di calcolo di autovalori e autovettori Per ciascuno degli autovalori ottenuti si può individuare, tra gli infiniti vettori collineari ad essi associati, l’autovettore di norma 1. La ricerca dell’autovettore u di norma 1 associato a λ1 si ottiene risolvendo l’equazione caratteristica. 2 − 11.97 3 3 4 8 − 11.97 1 x1 7 0 × x2 = 0 9 1 − 11.97 0 x3 −9.97x1 + 4x2 + 7x3 = 0 3x1 − 3.97x2 + 9x3 = 0 3x1 − 1x2 − 10.97x3 = 0 Dato il sistema rispetto al primo autovalore, tra gli infiti autovalori collineari che lo risolvono, si sceglie l’autovalore di norma unitaria. L’autovettore cercato è −0.4879 u1 = −0.8471 0.2107 L’autovettore u1 è pertanto associato all’autovalore λ1 . Ripetendo il procedimento per ciascuno degli autovalori trovati (λ2 ,λ3 ), si ottengono gli autovettori u2 e u3 . Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Autovalori e autovettori Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali A ciascun autovalore λ sono associati infiniti autovettori collineari Una matrice A e la sua trasposta AT hanno gli stessi autovalori ma autovettori diversi La somma degli autovalori di A è uguale alla sua traccia Se A è una matrice simmetrica ad elementi reali, gli autovalori sono reali Se A è una matrice simmetrica ad elementi reali, il numero di autovalori non nulli corrisponde al numero di righe e colonne linearmente indipendenti (rango di A) La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Soluzione del problema Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali Metodo di risoluzione del problema La ricerca del secondo miglior asse di versore u2 è un problema di massimizzazione vincolata (Lagrange). I vincoli da includere nel lagrangiano sono in questo caso uT 2 u2 = 1 (norma unitaria) e uT u = 0 (vincolo di ortogonalità)(per il 1 2 teorema di Huyghens). La funzione da massimizzare diventa T T T max!L = uT 2 X Xu2 − λ(u2 u2 − 1) − µ(u1 u2 ) La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Soluzione del problema Tecniche di riduzione della dimensionalità La soluzione del problema A. Iodice Per massimizzare L si deve porre a zero la derivata prima rispetto ad u T T T max!L = uT 2 X Xu2 − λ2 (u2 u2 − 1) − µ(u1 u2 ) ðu2 L = 2XT Xu2 − 2λ2 u2 − µu1 = 0 Premoltiplicando uT 1 T T T ðu2 L = 2uT 1 X Xu2 − 2λ2 u1 u2 − µu1 u1 = 0 i primi due termini sono nulli per l’ortogonalità tra u1 e u2 ; perchè il termine µuT 1 u1 si annulli deve essere µ = 0 XT Xu2 = λ2 u2 Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Soluzione del problema Tecniche di riduzione della dimensionalità A. Iodice Risoluzione dell’equazione caratteristica XT Xu2 = λ2 u2 (XT X − λ2 )u2 = 0 la soluzione del problema di massimizzazione vincolata si ottiene mediante la ricerca dell’autovettore associato al secondo autovalore più grande della matrice XT X. gli assi successivi al secondo avranno per versori gli autovettori associati agli autovalori successivi, presi in ordine decrescente. Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Tecniche di riduzione della dimensionalità Matrice di correlazione ρ1,1 ρ2,1 R=X X= ... ρp,1 T ρ1,2 ρ2,2 ... ρp,2 ... ... ... ... ρ1,p ρ2,p ... ρp,p A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Autovalori λ, autovettori U Calcolando gli autovalori e gli autovettori di norma 1 ad essi associati, si è individuata la base ortogonale del sottospazio di proiezione ottimale. Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Proiezione ortogonale sugli assi Le colonne della matrice degli autovettori U rappresentano il sistema di pesi da applicare alle righe della matrice X per ottenere le coordinate delle unità nel sottospazio ottimale ottenuto. Ricordando la proiezione ortogonale, le coordinate principali degli individui. CU = Xu Calcolo delle coordinate principali Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Coordinate principali dei paesi europei Le coordinate principali delle unità sono date da Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Tecniche di riduzione della dimensionalità Scelta delle dimensioni A. Iodice Per scegliere il numero di dimensioni è necessario trovare un compromesso tra la variabilità spiegata dal sottospazio e il potere di sintesi della soluzione adottata: più alto è il numero q di dimensioni considerate minore sarà la sintesi dell’informazione. In particolare, se la dimensione del sottospazio è q > 3 non sarà possibile rappresentare la proiezione della nube di punti ottenuta. Per le proprietà degli autovalori p X T tr(X X) = λα α=1 T la traccia della matrice tr(X X corrisponde al valore della variabilità complessiva della nube di punti corrispondente alla matrice dei dati standardizzati: ciascun autovalore esprime una parte della variabilità complessiva. inertia La variabilità spiegata dall’asse associato all’autovalore λα si definisce inertia ed è data da inertiaα = Pp λα α=1 λα × 100 Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Scelta delle dimensioni Tecniche di riduzione della dimensionalità A. Iodice rappresentazione inertia di ciascuna delle dimensioni del sottospazio di Rp Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili criteri di scelta delle dimensioni Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La scelta del numero di dimensioni non può essere univocamente determinata: sta all’analista valutare quale sia la scelta migliore sulla base dei seguenti criteri: criterio della variabilità spiegata: si sceglie il numero delle dimensioni sulla base della percentuale cumulata di variabilità spiegata dagli assi (inertia cumulata) criterio dell’ eigenvalue-one: poichè per effetto della standardizzazione le variabili di partenza hanno tutte varianza pari ad 1 , si scelgono le variabili di sintesi la cui varianza sia maggiore di 1. La variabilità sugli assi è data dall’autovalore, quindi si sceglieranno le dimensioni il cui autovalore è maggiore di 1 criterio dello scree-test: si considera il diagramma di Pareto relativo agli autovalori, quando il salto da una barra alla successiva si regolarizza, l’apporto alla variabilità di ogni dimensione aggiuntiva è irrilevante. Si sceglieranno le dimensioni corrispondenti alle barre che precedono la regolarizzazione del decremento della distribuzione La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Interpretazione dei fattori e qualità della rappresentazione La proiezione nel sottospazio ridotto determina delle distorsioni della configurazione di punti originaria; inoltre, gli assi di proiezione vengono determinati sulla base dei valori delle variabili di partenza osservati sulle diverse unità. È dunque necessario valutare, per ciascuna unità, contributo alla determinazione di ciascun asse di proiezione qualità della rappresentazione sugli’assi contributo assoluto Il contributo di una unità alla variabilità dell’asse α si definisce contributo assoluto e si misura come segue: CAiα = c2 iα nλα 1 rappresenta il peso dell’unità, che nell’ACP è uguale per le n unità. il fattore n qualità della rappresentazione: il cos2 La qualità della rappresentazione di ciascun vettore unità dipende dal rapporto tra la lunghezza (norma) del vettore nello spazio originario e la lunghezza della sua proiezione ortogonale su ciascun asse. Il rapporto tra tali norme quadratiche equivale al coseno dell’angolo formato tra il vettore nello spazio originario e la sua proiezione sull’asse. 2 cosiα = kx̂iα k2 kxi k2 Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Rappresentazione degli individui Contributi assoluti sul primo asse Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Rappresentazione degli individui Contributi assoluti sul secondo asse Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Contributi assoluti degli individui Tecniche di riduzione della dimensionalità A. Iodice Contributi assoluti degli individui Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Coseni al quadrato degli individui Tecniche di riduzione della dimensionalità A. Iodice Coseni al quadrato degli individui Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Ricerca del sottospazio ottimale di rappresentazione delle variabili: ricerca del miglior asse Metodo di risoluzione del problema La ricerca del miglior asse di versore v1 è un problema di massimizzazione vincolata. Per risolverlo si fa ricorso al metodo dei moltiplicatori di Lagrange. Tale metodo consiste nel ridefinire la funzione obbiettivo in modo da includere il vincolo (in questo caso v1T v1 = 1). La funzione da massimizzare diventa max!L = v1T XXT v1 − µ(v1T v1 − 1) Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Soluzione del problema Tecniche di riduzione della dimensionalità A. Iodice La soluzione del problema Per massimizzare L si deve porre a zero la derivata prima rispetto ad u max!L = v1T XXT v1 − µ(v1T v1 − 1) ðv1 L = 2XXT v1 − 2µ1 v1 = 0 XXT v1 = µ1 v1 Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Tecniche di riduzione della dimensionalità Soluzione del problema A. Iodice Risoluzione dell’equazione caratteristica T XX v1 = µ1 v1 T XX v1 − µ1 v1 = 0 T (XX − µ1 )v1 = 0 quest’ultima rappresenta l’equazione caratteristica: di fatto la soluzione del problema di massimizzazione vincolata si ottiene mediante la ricerca di autovalori ed autovettori della matrice XXT . Coordinate dei punti variabile sul sottospazio di proiezione Analogamente a quanto descritto nell’analisi dello spazio di rappresentazione degli individui Rp , gli autovalori µα catturano una quota della variabilità complessiva. La coordinata della variabile j sull’asse individuato dall’autovalore µα (α = 1, . . . , n) è data da T Cα (j) = xj vα Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Relazione tra le decomposizioni di XT X e XXT Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali T T EVD(X X) vs. EVD(XX ) le due matrici XT X e XXT hanno gli stessi autavori; gli autovettori dono caratterizzati dalle seguenti relazione: −1/2 V = XUDλ −1/2 U = XT VDλ La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Tecniche di riduzione della dimensionalità Un piccolo esempio numerico A. Iodice A= T EVD A A U= Dλ = 3 25 4 1 23 8 5 12 9 651 3 ; AT A = 301 2 111 1 619 286 145 286 698 146 145 146 45 288 124 66 1084.419 0 0 111 253 95 0.804 -0.570 -0.172 0 413.852 0 -0.018 -0.312 0.950 0 0 9.729 V= Dλ = Analisi in componenti principali ; AAT = 288 124 66 146 EVD AAT 0.595 -0.760 -0.261 301 762 253 -0.657 -0.660 -0.204 -0.303 1084.419 0 0 0 -0.602 0.738 0.001 -0.305 0.421 -0.030 0.086 -0.903 0 413.852 0 0 0.173 0.136 -0.975 -0.016 0 0 9.729 0 0 0 0 0 La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Tecniche di riduzione della dimensionalità Un piccolo esempio numerico A. Iodice −1/2 V = AUDλ 3 25 4 1 23 8 5 12 √ 9 3 2 1 · 0.595 -0.760 -0.261 1 1084.419 0 -0.657 -0.660 -0.204 -0.303 0 -0.602 0.738 0.001 -0.305 -0.018 -0.312 0.950 0 1 413.852 0 = 0.804 -0.570 -0.172 0 √ Analisi in componenti principali = 0.421 -0.030 0.086 -0.903 0 √ 1 9.729 0.173 0.136 -0.975 -0.016 = · La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Tecniche di riduzione della dimensionalità Un piccolo esempio numerico A. Iodice T −1/2 U = A VDλ 3 23 9 25 8 3 4 5 2 √ 1 12 1 · 1 1084.419 -0.657 -0.660 -0.204 -0.303 0 √ 0 1 413.852 Analisi in componenti principali = -0.602 0.738 0.001 -0.305 0 0.421 -0.030 0.086 -0.903 0 0 0 0 0 √ 1 9.729 0 0 0 0 0 = 0.595 -0.760 -0.261 0.804 -0.570 -0.172 -0.018 -0.312 0.950 0 0 0 0.173 0.136 -0.975 -0.016 = · La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Rappresentazione delle variabili: il cerchio delle correlazioni Sottospazio di approssimazione di R n Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Rappresentazione delle variabili: guida all’interpretazione Sottospazio di approssimazione di Rn Mentre per i punti individuo, la distanza euclidea che li separa è indice di dissimilarità, nel caso delle variabili si interpreta l’angolo formato tra i diversi vettori/variabile. minore è l’angolo θ tra un vettore e ciasun asse fattoriale, maggiore sarà la correlazione tra la variabili originaria corrispondente e le variabili di sintesi minore è l’angolo θ tra due vettori , maggiore sarà la correlazione tra le variabili corrispondenti Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Possibile rappresentazione congiunta unità/variabili Da un punto di vista interpretativo può essere di aiuto avere una rappresentazione congiunta tra unità e variabili. Per fare questo, si proiettano le variabili iniziali nel sottospazio di proiezione delle unità. Possibilità di una rappresentazione congiunta Si definiscono p vettori variabile di lunghezza 1 che rappesentano le direzioni. Poichè ad ogni dimensione dello spazio Rp corrisponde una variabile, i vettori unitari associati a ciascuna variabile hanno tutti gli elementi uguali a zero, fatta eccezione per la dimensione corrispondente alla variabile che rappresentano. Gli operatori di proiezione ortogonale sono, come per le unità, gli autovettori (colonne della matrice U). Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Rappresentazione congiunta unità/variabili Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Le province italiane: dati del Sole24Ore Tecniche di riduzione della dimensionalità A. Iodice Ogni anno il Sole24Ore stila una classifica sulla qualità della vita nelle 107 province italiane. Di seguito le 36 variabili osservate. Popolazione numero abitanti per km2 ; totale immigrati su popolazione; laureati su 1000 abitanti di età compresa tra 25 e 30 anni; nati su 1000 abitanti; over 65 su abitanti di età compresa tra 15 e 64 anni; divorzi e separazioni ogni diecimila famiglie. Affari e Lavoro numero di fallimenti su 1000 imprese; numero di imprese su 100 abitanti; saldo tra iscrizioni e cancellazioni di imprese; numero di protesti pro-capite; tasso di occupazione della popolazione tra 25 e 34 anni. tasso di occupazione femminile. Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Le province italiane: dati del Sole24Ore Tecniche di riduzione della dimensionalità A. Iodice Servizi socio-ambientali e sanitari asili comunali su utenza; indice Tagliacarne infrastrutture; emigrazione ospedaliera; escursione termica; indice Legambiente; rapporto tra cause evase e pendenti. Ordine pubblico numero furti in casa su 100mila abitanti; numero d’auto su 100mila abitanti; numero di estorsioni su 100mila abitanti; numero di rapine su 100mila abitanti; numero di frodi su 100mila abitanti; variazione trend delitti tra il 2005 e il 2010. Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Le province italiane: dati del Sole24Ore Tecniche di riduzione della dimensionalità A. Iodice Tenore di vita valore dei risparmi; importo assegno sociale; tasso di inflazione; trend del reddito; costo case al m2 ; spesa pro-capite. Qualità del tempo libero indice libri su popolazione bar e ristoranti su 100mila abitanti; numero di spettacoli su 100mila abitanti; indice di sportività; organizzazioni di volontariato su 100mila abitanti; numero di cinema su 100mila abitanti. Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Analisi su tutto il data set (inerzia= 46.5%) Le variabili Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Analisi su tutto il data set (inerzia= 46.5%) Le unità statistiche Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Popolazione (inerzia= 61.44%) Le variabili Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Popolazione (inerzia= 61.44%) Le unità statistiche Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Affari e lavoro (inerzia= 65.18%) Le variabili Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Affari e lavoro (inerzia= 65.18%) Le unità statistiche Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Servizi socio-ambientali e sanitari (inerzia= 67%) Le variabili Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Servizi socio-ambientali e sanitari (inerzia= 67%) Le unità statistiche Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Ordine Pubblico (inerzia= 57.35%) Le variabili Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Ordine Pubblico (inerzia= 57.35%) Le unità statistiche Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Tenore di vita (inerzia= 70.3%) Le variabili Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Tenore di vita (inerzia= 70.3%) Le unità statistiche Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Tempo Libero (inerzia= 63.4%) Le variabili Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili Tempo Libero (inerzia= 63.4%) Le unità statistiche Tecniche di riduzione della dimensionalità A. Iodice Analisi in componenti principali La prima analisi in componenti principali (senza usare il computer! - o quasi...) Definizione del metodo Trasformazioni sulla matrice dei dati Formalizzazione del metodo Ricerca del sottospazio di proiezione ottimale Scelta del numero di dimensioni Contributi agli assi e qualità della rappresentazione Rappresentazione congiunta unità variabili