CAPITOLO 4 L’ANALISI DELLE COMPONENTI PRINCIPALI 4.1 L’analisi generale dei dati Secondo la logica delle riduzione delle dimensioni dell’analisi delle componenti principali e quindi di sintesi dell’informazione contenuta nei dati di partenza, si può procedere descrivendo la tecnica secondo due punti di vista differenti e quindi distinguendo l’approccio classico da un approccio nuovo. I due tipi di approcci hanno in comune il fatto di voler rappresentare i caratteri e le unità in uno spazio di riferimento ottimale dove poter rilevare le relazioni più significative. Tale riferimento è un sottospazio di dimensione ridotta rispetto a quello di partenza. Il primo considera separatamente due spazi affini e dove rappresentare rispettivamente le nuvole dei caratteri e delle unità; l’obiettivo è quindi quello di cercare i due sottospazi, che forniscono la migliore approssimazione delle nuvole, separatamente, risolvendo due problemi di massimo o minimo vincolato e vedendo poi quali sono le relazioni che legano i due sottospazi in questione. Con il nuovo approccio si cerca invece di rappresentare, nello stesso spazio V, sia i caratteri che le unità partendo da una generica matrice S di prodotti scalari tra generatori qualsiasi di V, quindi simmetrica e semidefinita positiva, tramite la quale si potranno ricavare le posizioni dei vettori caratteri e dei punti unità e, la matrice approssimata S* di S di rango minimo, è la matrice da diagonalizzare da cui dedurre la base di autovettori che costituisce il sottospazio ottimale. 4.2 La trattazione classica 4.2.1 La matrice dei dati In un’analisi fattoriale si considera un insieme d’osservazioni effettuate su un certo sistema. Le informazioni possono essere raccolte in una tabella a due dimensioni. Si è soliti 67 disporre la prima dimensione sulle righe della tavola di dati ed assegnargli il nome di unità statistiche, individui o osservazioni mentre le colonne prendono il nome di caratteri o variabili. L’insieme di osservazioni effettuate su n individui relativamente a p caratteri sarà allora rappresentato da una matrice X reale di dimensioni : dove l’elemento rappresenta il valore assunto dal carattere j sull'unità i. Uno degli scopi dell’analisi è quello di trovare una rappresentazioni grafica dei dati raccolti. Nella trattazione classica si può pensare di associare ogni colonna della matrice X ad un vettore. Questi p vettori genereranno un sottospazio vettoriale che può essere pensato come la giacitura di uno spazio affine (detto spazio delle variabili), la cui dimensione è pari al rango della metrica che si vorrà adottare. A questo punto i valori in colonna si considerano come coordinate di un punto lungo la retta individuata dal vettore considerato ed ognuna delle n righe della matrice potrà essere considerata come l’insieme delle coordinate di un punto (unità) nello spazio delle variabili. Sarà quindi possibile rappresentare graficamente in questo sottospazio sia le unità, come punti, che i caratteri, come vettori. L’i-esimo individuo si può allora identificare con il vettore di coordinate . L’insieme degli n punti individua quindi una nuvola detta nuvola degli individui: Si potrebbero trattare le informazioni contenute nella matrice X in modo duale. Precisamente, le righe di X possono essere pensate come vettori che genereranno uno spazio affine (detto spazio degli individui), avente la stessa dimensione, perché essa dipende dal rango della metrica che verrà adottata. In tale spazio affine le colonne di X potranno essere pensate allora come coordinate di punti (caratteri) e sarà possibile rappresentarle graficamente. Il j-esimo carattere si può identificare con il vettore di coordinate . L’insieme dei p punti individua quindi una nuvola detta nuvola dei caratteri: 68 4.2.2 L’analisi generale Lo scopo è al solito quello di riuscire a determinare un sottospazio dello spazio (affine o euclideo) di partenza, in cui l’informazione contenuta nei dati possa essere rappresentata in maniera semplice, in modo da consentire la descrizione e l’interpretazione del fenomeno a cui i dati si riferiscono. Si affronteranno ora tutti i problemi legati alla determinazione di tale sottospazio. Bisogna specificare che, nella trattazione classica, la riduzione dello spazio di rappresentazione di un insieme di dati comporta la risoluzione d’un problema di massimo o di minimo vincolato, ossia è necessario definire una funzione obiettivo di cui s’intende calcolare il massimo o il minimo, in m odo che risultino verificate alcune condizioni (vincoli). Si tradurrà la classica analisi statistica in termini puramente matematici considerando le righe e le colonne della tavola dei dati rispettivamente come punti (unità) e vettori (caratteri) nello spazio affine dei caratteri (o come vettori e punti nello spazio affine delle unità) che si è definito in precedenza. Ques ti spazi affini verranno poi dotati di metriche opportune, legate alla matrice dei dati, in modo tale da farlo divenire uno spazio euclideo. È evidente che se n o p sono maggiori di tre questo tipo di rappresentazione grafica non ha molto senso. Da qui nasce l’esigenza di una rappresentazione approssimata in sottospazi ottimali di dimensione ridotta che saranno proprio gli assi fattoriali. Lo scopo dell’analisi è allora quello di selezionare fra i caratteri (o le unità) quelli che caratterizzano maggiormente la tavola dei dati, dato che fra essi ve ne potrebbero essere alcuni fortemente dipendenti dagli altri o esservene alcuni indipendenti. A tal fine s’introduce nei due spazi affini e una struttura euc lidea, definendo due matrici dei prodotti scalari M ed N fra i vettori delle rispettive basi, d’ordine rispettivamente p ed n. Le due matrici saranno allora quadrate, simmetriche e definite positive. Oltre al prodotto scalare fra due vettori in tali spazi saranno allora definite la distanza fra due punti e la norma di un vettore: Prima di esporre le più comuni scelte delle matrici M ed N per i prodotti scalari nei due spazi verranno presentate alcune grandezze caratteristiche delle variabili. 69 4.2.2.1 Matrici di associazione tra individui e caratteri Il concetto di carattere è ovviamente inseparabile dal concetto di unità: quest’ultimo quindi influenza tutte le grandezze relative ai caratteri. A questo riguardo ha senso associare ad ogni unità i un certo peso pi (i = 1, ... , n), che dà una misura del suo grado di importanza: infatti decidendo il valore di questi pesi si può scegliere di puntare l’attenzione su alcune unità piuttosto che su altre, oppure di considerarle tutte allo stesso modo assegnando, ad esempio, a ciascuna un peso pi=1/n. I pesi, che devono sempre essere tali che: possono essere considerati come gli elementi di una matrice diagonale di ordine n: Una grandezza, che dà una prima indicazione sul comportamento di un carattere è costituita dal suo valore medio, che rappresenta la somma pesata sulle unità dei valori assunti dal j-esimo carattere. Infatti, dato un carattere , il suo valor medio su n unità statistiche è dato da: Si definisce baricentro o centro di gravità della nuvola dei punti-unità il punto le cui p coordinate sono i valori medi delle variabili: La media tuttavia non dà indicazioni sufficienti sulla distribuzione di un carattere, in quanto variabili molto diverse possono avere la stessa media. Un’altra grandezza, che dà ulteriori indicazioni sul comportamento di un carattere, è la varianza, quantità che esprime una misura della dispersione dei valori che un carattere 70 assume intorno alla sua media. Il legame tra due caratteri è espresso invece dalla covarianza. Dati due caratteri rispettivamente come: e si definiscono la varianza di e la covarianza fra e La varianza è dunque tanto maggiore quanto più i valori di un carattere sono dispersi attorno al loro valore medio. Inoltre, se la covarianza tra due caratteri è 0, essi si dicono non correlati: la conoscenza del comportamento di uno non fornisce indicazioni su quello dell'altro; viceversa, un valore elevato della covarianza indica una significativa reciproca dipendenza lineare nel comportamento dei due caratteri. La covarianza di un carattere con sé stesso coincide ovviamente con la varianza. Le covarianze tra tutte le coppie di caratteri formano la matrice di varianza-covarianza V di ordine (p×p): Essendo: V risulta essere una matrice simmetrica. Inoltre, se si trasforma la matrice dei dati in modo tale che gli n punti siano centrati intorno al baricentro, si ottiene la matrice degli scarti , il cui generico elemento, ricordiamo, è dato dal corrispondente elemento della matrice non centrata X meno la media del j-esimo carattere, cioè: . Dalle definizioni di matrice di varianza-covarianza e di covarianza si ottiene: . Si indica come scarto quadratico medio o deviazione standard di un carattere quantità: 71 la Un’altra misura del legame tra due caratteri, legata alla covarianza, è data dal coefficiente di correlazione: Il vantaggio di questa misura rispetto alla covarianza consiste nel fatto che il coefficiente di correlazione non dipende dalle unità di misura usate per i caratteri, in quanto le varianze che compaiono al denominatore costituiscono un fattore di normalizzazione. Inoltre, mentre la covarianza può assumere valori grandi quanto si vuole (positivi e negativi), si dimostra che il coefficiente di correlazione è una quantità compresa tra -1 e 1. Si ha poi ovviamente per ogni j. Il valore assoluto del coefficiente di correlazione si può quindi considerare come un indice di similarità (per ulteriori approfondimenti relativi agli indici di similarità, si rimanda il lettore al capitolo 5), cioè una misura che è tanto maggiore quanto più gli oggetti in questione sono simili. Non altrettanto si può dire in generale per i prodotti scalari (in particolare per la covarianza), perché il prodotto scalare tra un carattere e sé stesso può essere più piccolo di quello tra due caratteri diversi; in questo caso per ricondursi ad un indice di somiglianza si può dividere ogni carattere per la sua norma: in questo modo il prodotto scalare coincide con il coseno dell’angolo tra i due caratteri (cioè tra i due vettori che li rappresentano) e quindi è una misura di similarità perché vale 1 solo quando i caratteri coincidono, altrimenti è minore di 1. I coefficienti di correlazione tra tutte le coppie di caratteri formano la matrice di correlazione R , che è una matrice simmetrica di dimensione p×p: dove quindi sulla diagonale compaiono le unità, poiché . Un carattere si dirà standardizzato quando ha media 0 e varianza 1. Si definisce matrice dei dati standardizzati la matrice Z che ha come elemento generico: 72 Quindi, denotando con: la matrice diagonale degli inversi degli scarti quadratici medi standard, riesce: Inoltre, si ottiene la seguente relazione tra la matrice di varianza-covarianza e quella di correlazione: e ancora ricordando l’espressione di V tramite la matrice degli scarti si ottiene: 4.2.2.2 Scelta delle metriche in ed La scelta della matrice M è equivalente alla scelta di una metrica nello spazio dei caratteri e quindi alla decisione di come misurare le distanze delle unità. Nello spazio fisico, come è noto, per misurare la distanza tra due punti, si usa la metrica euclidea classica 73 che corrisponde a scegliere come matrice M dei prodotti scalari la matrice unità I; gli assi del riferimento risultano dunque ortogonali tra loro. Questo modo di procedere è giustificato dal fatto che le dimensioni dello spazio fisico sono tutte della stessa natura, in quanto sono lunghezze che si misurano con la stessa unità; non altrettanto si può dire in un'analisi di tipo statistico dove ciascun asse del riferimento ha un diverso significato in quanto corrisponde ad una variabile ed ogni variabile è caratterizzata da una sua particolare unità di misura. In tal caso la scelta di un prodotto scalare risulta del tutto arbitraria, ed è arbitraria anche la scelta di considerare perpendicolari o no gli assi del riferimento. La distanza euclidea perde dunque il suo ruolo privilegiato, così come lo pe rde qualsiasi distanza definita da una matrice M diagonale. Tuttavia, proprio per il fatto che la scelta di un prodotto scalare si riconduce a fissare una convenzione, conviene fare in modo che la matrice M dei prodotti scalari abbia una forma particolarmente semplice: di solito si sceglie una matrice diagonale: e quindi il prodotto scalare fra due caratteri x ed y assume la forma particolarmente semplice: mentre la norma dei caratteri sarà pari a: Si vuole ora far vedere che effettuando una trasformazione della matrice dei dati è possibile ricondurre il prodotto scalare definito da M a quello classico associato alla metrica euclidea. Bisogna però sottolineare che si tratta di una notazione e che non s’intende dotare lo spazio affine dei caratteri della metrica euclidea standard. Si definisce la matrice nel modo seguente: 74 e si moltiplica la matrice X dei dati per questa matrice, ottenendo così la matrice Y: Risulta: quindi le distanze tra unità standardizzate, misurate rispetto alla metrica I e le distanze fra le unità non standardizzate, misurate rispetto alla metrica M, hanno gli stessi valori. L’utilità della notazione consiste allora nel fatto che i calcoli sono notevolmente semplificati. Restano ora da scegliere i coefficienti . Una scelta particolarmente opportuna è quella di porre: dove con s’è indicata lo scarto quadratico medio del i-esimo carattere. Dato che in tal caso risulta , ogni carattere ha un peso pari al suo scarto quadratico medio. Se si considera la matrice centrata dei dati e la si trasforma tramite la matrice ,i caratteri che si ottengono risultano essere standardizzati, ossia con media 0 e varianza 1. Infatti, considerando il carattere trasformato: 75 Essendo per ipotesi essendo si ha: , si ha: dunque è un carattere standardizzato. Rispetto alla metrica , la distanza fra due unità e , risulta essere pari a: quindi la scelta è equivalente alla standardizzazione di ognuno dei caratteri; le distanze fra le unità standardizzate possono essere calcolate come se la metrica nello spazio dei carattere fosse I. Ricordando che la matrice di correlazione di X è pari a , si ha: dove con N s’è indicata la matrice dei pesi delle unità. Quindi R si può anche interpretare come la matrice di varianza-covarianza relativa a Y, dove le variabili sono standardizzate. Vi sono dunque due punti di vista equivalenti per quanto riguarda i prodotti scalari tra le unità: 1. la matrice dei dati è X, la matrice di varianza-covarianza è V, la metrica è definita da 76 2. ; la matrice dei dati è Y, cioè X centrata e standardizzata, la matrice di varianzacovarianza è R, la metrica è definita da I. Nel seguito si supporrà che nello spazio delle unità si sia introdotta una struttura euclidea definita da una matrice M di prodotti scalari senza nessun’altra ipotesi particolare sulla forma della matrice tranne il fatto di essere simmetrica e definita positiva. I risultati finora ottenuti possono essere generalizzati ad una metrica qualunque in quanto si è dimostrato nel capitolo 3 (Teorema 3.1.21) che per ogni matrice simmetrica definita positiva M esiste1 una matrice T tale che . Il prodotto scalare definito da M, si può allora scrivere come: Dunque usare una metrica M per certi dati equivale a trasformare questi ultimi per mezzo della matrice T, cioè a sostituire la tabella X con e ad eseguire i calcoli come se la metrica nello spazio fosse I. Nello spazio delle unità viene invece introdotta la metrica definita dalla matrice: che corrisponde ai pesi delle unità introdotti nella definizione di media di un carattere con la condizione che . I valori sono le masse dei punti in . La scelta fatta porta a interessanti interpretazioni geometriche degli indici statistici che 1 ( La decomposizione di M come prodotto di una matrice per la sua trasposta non è unica. Se infatti P è una qualunque matrice ortonormale ) si ha che Dato che però si tratta comunque di matrici ortogonali, questo significa che una matrice H tale che è definita a meno di una rotazione nello spazio. Inoltre, dato che la matrice W è definita a partire da una base ortonormale d’autovettori, essa non sarà, in generale, unica. Se esiste un autovalore che ha molteplicità maggiore di 1, è sempre possibile trovare un’altra base ortonormale di autovettori per il sottospazio associato a , e quindi per l’intero spazio V. In realtà ciò è vero anche se gli autovalori sono tutti semplici perché ogni autovalore è definito a meno di una costante moltiplicativa e quindi se la base dev’essere ortonormale ogni autovettore è definito a meno dell’orientamento. 77 si sono introdotti. Supponendo che i caratteri siano centrati (ossia a media nulla) si ha infatti: da cui segue che: dove è l’angolo formato dai vettori e . Inoltre la matrice di varianza - covarianza, ossia la matrice di dispersione dei p caratteri rispetto alle n unità, è data da: 4.2.2.3 Criteri di ottimizzazione e direzioni di massima dispersione Come già osservato in precedenza, una matrice di dati X individua due nuvole di punti , rispettivamente nello spazio dei caratteri e delle unità. L’insieme delle distanze fra le coppie di punti individua la forma della nuvola, che può essere immaginata come un volume corrispondente all’inviluppo dell’insieme dei punti. La forma della nuvola caratterizza la natura e l’intensità delle relazioni fra i punti. Essa rivela quindi la struttura dell’informazione contenuta nei dati. Figura 1 78 Se ad esempio la nuvola si disperde maggiormente lungo una direzione (forma allungata, la prima di figura 1) ciò significa che esiste un supporto lineare lungo il quale i punti sono disposti. Se la nuvola ha invece una forma parabolica (la seconda di figura 1) questa traduce il fatto che vi è una relazione non lineare fra i punti mentre una nuvola di forma sferica (la terza di figura 1) ha il significato di assenza di relazione fra i punti. Altre forme classiche di nuvole come le nuvole triangolari o nuvole composte da più gruppi di punti. Figura 2 Nella maggior parte dei casi però non è facile riconoscere la forma della nuvola dato che l’ordine (n, p) della matrice dei dati è maggiore di tre. Data infatti una tavola di dati X di dimensioni , se si considera ad esempio la nuvola degli n punti - unità nello spazio , per rappresentare completamente i dati si devono utilizzare n A p numeri, ma non sempre tutti questi valori sono realmente necessari. Se infatti gli n punti non sono sparsi nello spazio, ma giacciono in un sottospazio di , di dimensione q < p, allora per individuare un punto saranno necessarie solo q coordinate. Servono però n A q numeri per rappresentare tutti i punti di e p A q numeri per definire le coordinate dei vettori della base di in . In questo caso particolare comunque un cambiamento di riferimento permette di ridurre le dimensione della tavola dei dati senz’alcuna perdita d’informazione. Si è però detto che quasi sempre esistono delle direzioni privilegiate, ossia lungo le quali la nuvola di punti si disperde maggiormente. L’idea è allora di ricercare un sottospazio che non contenga esattamente i punti ma tale che, proiettando su di esso i punti, si ottenga la miglior rappresentazione possibile. Se si proiettano ad esempio i punti su di un piano , le distanze fra le proiezioni dei punti non potranno coincidere con le distanze della rappresentazione iniziale: si ha infatti un effetto di distorsione, dovuto al fatto che i punti non giacciono esattamente su e quindi le nuove distanze saranno ridotte. Facendo variare il piano nello spazio si riesce a trovarne uno che minimizza la somma delle distorsioni. Questo criterio non è valido solo nel caso di un piano ma vale per un sottospazio di dimensioni qualunque. 79 Il metodo consiste nella ricerca di un sottospazio ad una dimensione H che meglio approssimi la nuvola dei punti ossia che massimizzi la somma dei quadrati delle distanze tra le proiezioni su H di tutte le coppie di punti : Se si considera che ad ogni punto sia associato un peso si dovrà invece massimizzare la quantità Nel caso di analisi delle componenti principali si vedrà che questo criterio equivale a dove G è il baricentro della nuvola di punti. Spesso si è però interessati non solo alla forma della nuvola dei punti come nel caso dell’analisi delle componenti principali, ma anche alla sua posizione rispetto all’origine. E’ questo l’obiettivo dell’analisi generale dei dati. Una volta che si è trovata la retta di miglior approssimazione, si cerca un sottospazio di dimensione 2 che meglio si adatta alla nuvola di punti. Si dimostra che tale nuovo sottospazio dovrà necessariamente contenere quello di dimensione 1. Il procedimento prosegue nella ricerca di sottospazi di dimensione sempre maggiore che man mano daranno una rappresentazione migliore ma con una quantità di dati via via maggiore. È necessario allora trovare un compromesso: arrestare il procedimento ad un numero di dimensioni abbastanza piccolo in modo da ridurre le dimensioni della matrice dei dati ma che fornisca una buona approssimazione della configurazione dei dati di partenza. Il problema che ci si propone di risolvere è allora un problema di riduzione puramente numerico, ovvero di riduzione dei dati. Per esporre questa tecnica di riduzione fattoriale è necessario considerare separatamente i due spazi e e vedere poi quali sono le relazioni che legano i due sottospazi che forniscono la miglior approssimazione delle nuvole. 4.2.2.4 Ricerca del sottospazio ottimale per le unità nello spazio dei caratteri Sia X la matrice dei dati. Si suppone d’aver dotato lo spazio affine dei caratteri di una metrica M definita positiva e che le unità della nuvola siano dotate di peso tramite una 80 matrice diagonale N d’ordine n. Si inizia con il ricercare una retta r di , passante per l’origine degli assi che riproduca nel migliore dei modi la nuvola . Per poterla individuare basterà definire un versore che ne individui la direzione. Sia allora u tale versore; esso dovrà soddisfare la condizione La proiezione ortogonale pari a dell’i-esima unità sulla retta r di versore u sarà (22) dove lo scalare , ovviamente, è la misura della proiezione del punto su r. La proiezione di tutti gli n punti su r dà luogo ad un vettore che, in forma matriciale assume la seguente espressione: Osservazione: Si ricorda che, dato un generico versore u e la retta da esso generata r, il momento di inerzia rispetto a è dato dall’espressione: avendo considerato la scomposizione su r e proiezione di su . Dalla (22) si ha: del vettore e dunque: 81 con proiezione di Quest’ultima quantità può essere interpretata come il quadrato della norma in del vettore c, in quanto in il prodotto scalare è definito dalla matrice dei pesi . Ne segue che: (23) dove è per definizione la matrice di varianza-covarianza. L’espressione precedente dimostra, quindi, che il momento di inerzia è una forma quadratica e MVM è la matrice ad essa associata. ~ Fra i criteri d’adattamento d’un sottospazio ad una nuvola di n punti, quello che conduce a calcoli più semplici è il criterio dei minimi quadrati. Questo criterio consiste nel ricercare la retta di massima dispersione della nuvola dei punti, e che cioè rende minima la somma dei quadrati delle distanze dei punti da essa; la quantità da rendere minima sarà: Essendo la proiezione della nuvola di punti ortogonale alla retta cercata, per il teorema di Pitagora (applicato a ciascuno degli n rettangoli del tipo ) si ha: Poiché minimizzare è una quantità data, indipendentemente dal vettore u cercato, equivale a massimizzare . 82 Figura 3 - Metrica M in Quindi, tenuto conto del criterio d’adattamento, si vuole trovare il vettore u che rende massima la somma ponderata dei quadrati delle proiezioni: (24) dove si è posto . Si nota che se i pe si che tirano la retta verso di loro. non sono uniformi ci saranno dei punti Dall’osservazione precedente, se S è un sottospazio qualsiasi, si ha che la (24) diventa: Considerando il sistema (24) si scrive sinteticamente come: Dalla simmetria di M e dal fatto che N è una matrice diagonale si ha che anche la matrice A è una matrice simmetrica, infatti: e quindi è una forma quadratica. 83 La ricerca del versore u è stata quindi ricondotta alla ricerca del massimo della forma quadratica , sottoposta al vincolo che u abbia norma 1 (sistema (24)). Sia il versore per il quale si ha il valore massimo per la forma quadratica. Per il teorema d’incapsulamento dei sottospazi ad inerzia massima, il sottospazio bidimensionale che meglio riproduce la nuvola degli individui, dovrà necessariamente contenere il sottospazio generato da . Più in generale, se si è trovato il sottospazio k-dimensionale che meglio s’adatta alla nuvola, generato dai versori , il sottospazio di dimensione k+1, che verifica la stessa condizione, per il teorema suddetto, li dovrà contenere. Questo però fornisce un metodo per ricercare il versore successivo: basterà cercare un versore , M-ortogonale a , che massimizzi la forma quadratica : Derivando questa quantità rispetto alle p componenti del vettore u, si vede che il vettore delle derivate parziali di u’Au si scrive sotto forma matriciale: Analogamente: Per ricercare il massimo della forma quadratica sottoposta al vincolo di normalizzazione del vettore u rispetto alla metrica M bisogna imporre la condizione di annullamento delle derivate della funzione di Lagrange: dove è un moltiplicatore di Lagrange. Poiché riesce: 84 se ne deduce che: Premoltiplicando entrambi i membri di questa relazione per : si ricava, tenendo conto del vincolo: Si ha quindi che è il valore cercato per il massimo. Inoltre, essendo M definita positiva, sarà anche invertibile; moltiplicando la relazione prima ottenuta per l’inversa di M si ha: da cui segue che u è l’autovettore della matrice massimo . La ricerca del sottospazio che corrisponde all’autovalore si riconduce a risolvere il sistema: e cioè il problema di massimo vincolato è equivalente ad un problema agli autovalori. Ricordando l’espressione di data dalla (23) e che A = MVM, si ha che: Corollario: Se u verifica il sistema precedente, con , si ottiene: ovvero l’inerzia spiegata dalla retta r è pari a proiezione su r della nuvola. Indicando con tale autovettore e con 85 ; rappresenta dunque l’inerzia della l’autovalore corrispondente si cerca ora un versore , ortogonale ad e che massimizzi la forma quadratica , ossia tale che: Tale ricerca conduce questa volta ad annullare le derivate della lagrangiana dove e sono due moltiplicatori di Lagrange. La condizione di massimo vincolato sarà allora espressa da: Moltiplicando a sinistra entrambi i membri di questa relazione per si ha: e, ricordando le condizioni imposte, si ricava: da cui segue . Sostituendo nella condizione di massimo si ricava come prima: Quindi, essendo M invertibile, sarà il secondo autovalore di , relativo al secondo più grande autovalore . Proseguendo la dimostrazione considerando il caso di un versore per , ortogonale a tutti quello trovati precedentemente e che massimizzi la forma quadratica , ossia: 86 Imponendo le condizioni di massimo si ricaverà nuovamente ed essendo M invertibile Questo conclude la dimostrazione che, nel caso di metrica M qualunque e di punti dotati di peso, lo spazio S in cui verrà descritta l’informazione contenuta nei dati ha per base gli autovettori relativi agli autovalori della matrice . Osservazioni: • Nel caso particolare di metrica M = I e di punti privi di massa si avrà in particolare che il sottospazio a q dimensioni che meglio approssima la nuvola di punti nel senso dei minimi quadrati sarà generato dai primi più grandi autovettori della matrice l’equazione agli autovalori che dovrà essere risolta sarà allora: • L’analisi sarà quindi basata sulla diagonalizzazione della matrice e alla ricerca della base rispetto alla quale la matrice di partenza assume forma diagonale. Geometricamente questo corrisponde ad effettuare una rotazione degli assi attorno all’origine O e fornisce un sistema di coordinate i cui assi passano il più vicino possibile attorno alla nuvola di punti; In , è l’ -esimo asse fattoriale; il vettore delle coordinate delle unità su quest’asse è: e costituisce l’ -esima componente principale o fattore dello spazio dei caratteri; 87 • Si è detto che la quantità rappresenta l’inerzia della nuvola dei punti pesati lungo l’asse di massima dispersione, l’asse fattoriale u. I p autovettori di A definiscono gli assi principali d’inerzia della nuvola dei punti e la somma degli autovalori, ossia la traccia di A, fornisce quindi l’inerzia totale della nuvola: Poiché VM è una matrice M-simmetrica, vale a dire , i suoi autovalori sono reali e, se si assume che sia semidefinita positiva, sono anche non negativi. Si indichino con: tali autovalori posti in ordine decrescente e con: gli autovalori differenti tra di loro cui competono le rispettive molteplicità: A ciascun autovalore corrisponde il rispettivo autospazio E’ dunque possibile determinare una base ortonormale di di dimensione , da cui: : scegliendo arbitrariamente, da ogni autospazio versori M-ortogonali. Ovviamente, lo scopo di questa analisi è di individuare fra tutte le possibili basi quella che sia costituita da quei vettori fra i quali i primi q spieghino la massima inerzia, o per meglio dire, i primi q autovettori che riescono a riassumere la maggiore informazione contenuta nei dati. 88 4.2.2.5 Ricerca del sottospazio ottimale nello spazio delle unità Ci si pone ora nello spazio delle unità. In questo spazio la tavola dei dati X è rappresentata dai p punti - caratteri le cui coordinate sono le colonne della matrice. Come nel caso di , dopo aver dotato lo spazio di una metrica N, si cerca un sottospazio di , di dimensione , che meglio approssimi la nuvola di punti nel senso dei minimi quadrati Questo equivale ad effettuare lo stesso procedimento eseguito nello spazio sulla matrice . Si arriverà allora a dover rendere massimi i quadrati delle p proiezioni dei punti su v, ossia le p componenti del vettore . Si deve allora cercare: avendo posto . L’equazione agli autovalori si esprimerà allora come: Nel caso particolare di metrica N = I e di punti privi di massa si avrà in particolare che il sottospazio a q dimensioni che meglio approssima la nuvola di punti nel senso dei minimi quadrati sarà generato dai primi più grandi autovettori della matrice l’equazione agli autovalori che dovrà essere risolta sarà allora: L’analisi sarà quindi basata sulla diagonalizzazione della matrice di dimensione n × n, e alla ricerca della base rispetto alla quale la matrice di partenza assume forma diagonale. In , è l’ -esimo asse fattoriale e le coordinate dei caratteri su tale asse sono: ossia l’ -esima componente principale dello spazio delle unità. Osservazioni: 1. L’orientamento degli assi che deriva dalla costruzione è puramente arbitrario in quanto gli autovettori sono definiti a meno del segno. La figura, che riguarda il caso di tre 89 2. punti, mostra che, in ogni caso, le orientazioni dei fattori rispettano la forma della nuvola e quindi anche le distanze fra i punti. Pertanto, ai fini dell’analisi si avrà sempre un’interpretazione corretta dell’informazione contenuta nella tavola dei dati. I vettori delle coordinate delle unità e dei caratteri rispettivamente in e , hanno per norma: (25) e 4.2.2.6 Elementi supplementari o non attivi Gli elementi (caratteri e unità) che entrano a far pare della costruzione del sottospazio di rappresentazione dei dati vengono detti elementi attivi. Può però essere utile rappresentare in tale sottospazio altri elementi, sia caratteri che unità, detti non attivi o supplementari. Vengono anche chiamati elementi illustrativi o fuori analisi in quanto, non partecipando all’analisi, non contribuiscono alla determinazione della soluzione ottimale, ma saranno utili per l’interpretazione delle nuove dimensioni fattoriali. Infatti, gli elementi supplementari non intervengono nei calcoli di approssimazione e non partecipano dunque alla formazione degli assi fattoriali, ma intervengono a posteriori per caratterizzare gli assi. Allo scopo di posizionare gli elementi illustrativi nella nuvola delle unità o in quella dei caratteri sarà necessario calcolare a posteriori le loro coordinate sugli assi fattoriali. Indicata con la matrice delle unità supplementari e con la matrice dei caratteri supplementari, dopo aver determinato gli assi fattoriali e a partire dalla matrice X delle unità attive, le coordinate di questi nuovi elementi saranno date da: Gli elementi attivi, utilizzati per costruire il sottospazio ottimale di rappresentazione dei dati, devono formare un insieme omogeneo, cioè devono essere sia della stessa natura continui o nominali (perché abbia senso definire la distanza tra due elementi), sia relativi ad uno stesso tema (si confrontano gli oggetti secondo un certo punto di vista e non utilizzando, senza differenziazione tutti gli attributi conosciuti). Gli elementi illustrativi non sono invece 90 sottoposti a queste condizioni d’omogeneità. 4.2.3 Analisi in Componenti Principali L’analisi in componenti principali presenta numerose varianti, a seconda delle trasformazioni apportate alla tavola dei dati: la nuvola dei punti-unità può essere centrata o no, ridotta o no. Tra queste varianti, l’analisi in componenti principali normata (nuvola centrata-ridotta) è certamente la più utilizzata ed è quella che verrà descritta. Si è detto che ciò è equivalente a scegliere come metrica M la matrice diagonale , i cui elementi diagonali sono gli inversi delle varianze dei caratteri. Si indicherà con R la matrice dei dati e con X la matrice trasformata, ottenuta a partire da R. Per quanto prima dimostrato, le distanze fra le unità standardizzate, potranno essere calcolate come se lo spazio fosse dotato della metrica I, ossia: 4.2.3.1 Analisi della nuvola delle unità D’ora in poi si considererà la nuvola delle n unità non ponderata ossia la matrice dei pesi sarà la matrice identità. Si cerca nello spazio dei caratteri, di approssimare la nuvola delle n unità con un sottospazio ad una, poi a due dimensioni, in modo tale da ottenere su un grafico, al più bidimensionale, una rappresentazione, la più fedele possibile, delle prossimità esistenti tra le n unità rispetto ai p caratteri. 4.2.3.2 Principio di approssimazione Lo scopo dell’analisi in questo caso non è quello di massimizzare la somma dei quadrati delle distanze dall’origine, ma la somma dei quadrati delle distanze fra tutte le coppie d’unità: Ciò significa che la direzione di massima dispersione non deve necessariamente passare dall’origine, come invece accadeva per la retta nell’analisi generale. 91 Figura 4 - Retta d’adattamento di una nuvola di n punti Si vuole far vedere che, tramite un’opportuna trasformazione dei dati, ci si riduce nuovamente all’analisi generale. Siano e i valori delle due proiezioni dei punti-unità su . Considerando la quantità che deve essere massimizzata si ha: dove indica la media delle proiezioni delle n unità, cioè: e, per semplicità, s’è indicata con d la metrica associata ad I. Tale punto corrisponde alla proiezione su del centro di gravità G della nuvola di punti, la cui j - esima coordinata vale: Figura 5 - Proiezione su 92 Si avrà allora: Il criterio di massimizzazione sarà allora equivalente a: Dato che la matrice X è la matrice dei dati standardizzati, il baricentro G coincide con l’origine del sistema di riferimento. La quantità da massimizzare sarà nuovamente la somma dei quadrati delle distanze dall’origine e ci si è quindi ricondotti all’analisi generale in . 4.2.3.3 Metrica di Si considera il caso in cui si voglio far giocare un ruolo identico ad ogni carattere nella definizione di distanza fra le unità; dovrà allora essere effettuata un’analisi normata, ossia in cui la matrice dei dati sarà centrata e ridotta. In tal caso la distanza adottata sarà: dove indica lo scarto quadratico medio del carattere j: e è il termine generale della matrice trasformata. In tal modo tutti i caratteri sono confrontabili ed hanno tutti varianza 1. Tale trasformazione, a livello geometrico, è equivalente ad effettuare una traslazione dell’origine portandola nel baricentro (mantenendo l’orientamento degli assi) e ad un 93 cambiamento di scala su tutti gli assi. L’analisi generale della tavola X trasformata prosegue ora con la diagonalizzazione della matrice il cui termine generale è: ossia: Ricordando il valore del coefficiente di correlazione empirico tra i caratteri e si ha che: e quindi la matrice A da diagonalizzare non è altro che la matrice di correlazione. Osservazione: Se si considera il caso di un’analisi non normata in cui la nuvola delle unità pesanti nello spazio sia centrata nel baricentro G, la tabella iniziale dei dati R verrà sottoposta a diverse trasformazioni: si costruisce la matrice X dei dati centrati ed a ogni unità si attribuisce un peso attraverso gli elementi non nulli di una matrice diagonale N. La matrice dei dati su cui verrà effettuata l’analisi sarà allora la matrice Z: dove con si intende la matrice diagonale i cui elementi sono le radici quadrate degli elementi di N. La matrice da diagonalizzare diverrà allora la matrice d’inerzia: il cui termine generale è pari a: In particolare se le masse rappresentano delle frequenze, allora la matrice da 94 diagonalizzare altro non è che la matrice delle covarianze. 4.2.3.4 Coordinate delle unità sugli assi fattoriali Come nel caso dell’analisi generale le coordinate degli n punti sull’ -esimo asse fattoriale saranno date dal vettore: o, esplicitamente per ogni unità: Essendo i caratteri centrati, la media su un fattore risulta essere nulla varianza è pari a . e la Osservazione: Nel caso di analisi centrata ma non ridotta (analisi non normata) le componenti di ogni unità sull’ -esimo asse saranno date da: e si avrà (si vedano le relazioni nel paragrafo 4.2.2.4) : 4.2.3.5 Analisi della nuvola dei caratteri Nell’analisi generale si è visto che effettuando la ricerca delle direzioni di massima dispersione in uno spazio, implicitamente si effettua la ricerca anche nell’altro ed si era sottolineato la simmetria delle due analisi. Nel caso di analisi normata però la trasformazione dei dati viene effettuata solo in base ai caratteri e quindi non ci sarà più simmetria di ruoli fra le righe e le colonne della matrice. Si vuole ora vedere come si riflette nello spazio l’aver scelto l’origine delle coordinate nel baricentro. 95 4.2.3.6 Metrica di Anche in tal caso, essendo i dati standardizzati, la metrica N diviene la metrica I e quindi la distanza fra due caratteri e è data da: e, ricordando che: si ha: dove con si è indicato il coefficiente di correlazione fra i due caratteri. Da questo segue la relazione che lega la distanza in fra due punti carattere e il coefficiente di correlazione fra i caratteri stessi: che implica: 96 Figura 6 - Sistema d’associazioni tra due punti caratteri Nel caso di analisi normalizzata le varianze dei caratteri sono unitarie e quindi i vettori ad essi associati sono a distanza 1 dall’origine degli assi. Nello spazio i punti ad essi associati saranno situati quindi su un’ipersfera di raggio 1. È per tale motivo che l’analisi nello spazio delle unità viene effettuata rispetto all’origine e non rispetto al baricentro. Dalla definizione di prodotto scalare fra due vettori segue inoltre che il coseno dell’angolo fra due vettori - caratteri è pari al loro coefficiente di correlazione, infatti: La distanza fra due punti varierà allora fra 0 e 2, in funzione del valore del coseno dell’angolo e quindi in funzione della loro correlazione. Si deduce quindi che due caratteri fortemente correlati sono molto vicini ( ) se la relazione che le lega è diretta oppure sono al massimo della distanza se la relazione è inversa ( ). Se invece sono incorrelati, e quindi ortogonali ( ), allora si trovano a distanza media. Le prossimità tra punti - carattere s’interpretano dunque in termini di correlazione. 97 Figura 7 - Correlazioni e distanze tra punti - caratteri In questo caso l’analisi non si fa rispetto al baricentro della nuvola dei punti - carattere, ma contrariamente a quanto fatto in precedenza, si fa rispetto all’origine. La distanza d’un carattere dall’origine O è espressa da: Tutti i punti-caratteri sono, come già detto, su una ipersfera di raggio 1 centrata nell’origine degli assi, la sfera delle correlazioni. I piani fattoriali intersecheranno la sfera secondo grandi cerchi (di raggio 1), i cerchi delle correlazioni, all’interno dei quali si troveranno le proiezioni dei punti-caratteri. Figura 8 - Rappresentazione della sfera e del cerchio di correlazione Osservazione: La trasformazione dei dati geometrici profondamente differenti. ha nei due spazi significati 98 Si considera per semplicità la trasformazione che porta ad avere dati centrati In questa trasformazione è equivalente ad una traslazione dell’origine degli assi nel baricentro della nuvola delle unità. Figura 9 - Trasformazione in Ap In , invece, questa trasformazione è una proiezione parallelamente alla prima bisettrice degli assi sull’iperpiano ad essa ortogonale2. Trasformazione in Osservazione: Nel caso di analisi centrata la matrice su cui verrà fatta l’analisi è la matrice Z il cui termine generico è: dove: 2 La matrice P associata a questa trasformazione ha per termine generale dove ortogonale. 99 è il simbolo di Kronecker. P è una matrice La distanza indotta fra due caratteri sarà allora data da: Essa è quindi funzione della varianza dei due caratteri (aumenta all’aumentare di esse) e della loro covarianza (diminuisce all’aumentare di essa). Inoltre la distanza di un carattere dall’origine degli assi è pari alla sua varianza: Conseguentemente, per l’analisi in componenti principali non normate, la sfera di correlazione non è più lo spazio di partenza. 4.2.3.7 Coordinate dei caratteri sugli assi fattoriali Nello spazio generato dai caratteri la componente dell’i-esimo carattere sull’ -esimo asse fattoriale sarà pari a: 4.2.3.8 Unità supplementari È spesso utile convalidare l’interpretazione della struttura individuata nella matrice dei dati con l’ausilio di elementi illustrativi. Il loro utilizzo ha diverse implicazioni; in particolare consente di integrare l’analisi basata su informazioni quantitative con informazioni di tipo qualitativo. La tavola R dei dati viene allora completata in riga dalla matrice delle unità illustrative di dimensioni . Dato che sulla tavola R si è effettuata una trasformazione altrettanto dovrà essere fatto su , in modo da rendere i dati confrontabili. La tavola ottenuta verrà indicata con . 100 Per poter rappresentare gli individui illustrativi nello spazio è necessario posizionarli rispetto al baricentro della nuvola e dividere le loro coordinate per lo scarto quadratico medio (precedentemente calcolati per le n unità). La trasformazione da effettuare sarà quindi: e quindi le coordinate dei nuovi punti-unità saranno le righe del vettore: Per ottenere le coordinate di tutte le unità (attive e non) si può definire la matrice e quindi le coordinate delle unità saranno date da . 4.2.3.9 Relazione fra gli autovalori delle due matrici d’inerzia Nel caso dell’analisi delle componenti principali, le due matrici d’inerzia A e B, divengono: e quindi le due equazioni agli autovalori saranno: (26) dove con U e V si sono indicate le matrici degli autovettori rispettivamente di e mentre e sono le matrici che hanno sulle diagonali principali gli autovalori di ordinati in modo non crescente. Moltiplicando a sinistra la seconda delle relazioni (26) per s’ottiene: 101 , e Questa relazione mostra che ad ogni autovettore di , relativo all’autovalore non nullo , corrisponde l’autovettore della matrice relativo allo stesso autovalore . Analogamente, moltiplicando a sinistra la prima delle relazioni (26) per X s’ottiene: Come prima, si osserva che è un’autovettore della matrice relativamente all’autovalore . Ciò significa che le due matrici hanno gli stessi autovalori (con la stessa molteplicità) ed essendo ordinati in modo non crescente in entrambe le matrici e , si avrà: Ricordando che il vettore ha per norma (vedi (25)), il vettore unitario corrispondente allo stesso autovalore è allora facilmente calcolabile in funzione di . Si hanno infatti le seguenti formule di transizione : cioè: poiché . 4.2.3.10 Il modello di ricostruzione dei dati (a) Ricostruzione esatta Si considera l’equazione agli autovalori nello spazio delle variabili. Dato che U è una matrice ortogonale, moltiplicando a destra l’equazione agli autovalori per , si ha: 102 Se s’indica con la matrice dato che risulta : si ha che: Questa formula, detta formula di ricostruzione dei dati, permette allora di ricostruire la tavola dei dati di partenza attraverso gli autovalori e gli autovettori ad esso associati. Esplicitamente tale cosa si descrive considerando la prima delle precedenti formule di transizione scritta come: Postmoltiplicando entrambi i membri della precedente espressione per e sommando su tutti i valori di si ha: si ha L’espressione nelle parentesi graffe rappresenta il prodotto scalare tra due vettori ortonormali 103 per cui la formula di ricostruzione diventa: (27) (b) Ricostruzione approssimata Nel caso dell’analisi delle componenti principali normata, la matrice d’inerzia nello spazio dei caratteri è pari a: Dato che la traccia di A rappresenta l’inerzia totale della nuvola delle unità e che , l’idea è d’approssimare A con una matrice S di rango . Si consideri la decomposizione a valori singolari (il teorema verrà enunciato e dimostrato successivamente) della matrice A: dove le matrici U e , sono entrambe quadrate d’ordine p. Supponendo di aver ricavato la miglior approssimazione, con il teorema di Eckart e Young (il teorema verrà enunciato e dimostrato successivamente), di rango q d’una matrice è data da: dove con s’è indicata la matrice composta dalle prime q colonne di U e con la matrice diagonale formata dai primi q autovalori di che possono essere considerati ordinati in modo non crescente. La matrice X può allora essere approssimata dalla matrice: Esplicitamente, riprendendo la formula di ricostruzione esatta, poiché si ha che allora 104 La qualità dell’approssimazione può essere allora valutata considerando la quantità: Tenendo conto delle espressioni di X e di s’ottiene: da cui infine: Il coefficiente Essendo: è minore o uguale ad uno ed è detto tasso d’inerzia spiegata. esso viene anche detto percentuale di varianza spiegata dai primi q fattori ed, essendo gli autovalori ordinati in modo non crescente i primi assi spiegheranno una percentuale di varianza maggiore (o uguale) degli assi successivi. 4.3 La trattazione nuova In questo paragrafo si vuole discutere il problema della riduzione delle dimensioni necessaria alla rappresentazione grafica del fenomeno oggetto di studio, utilizzando un 105 approccio nuovo rispetto alla trattazione classica. Come si è detto lo scopo è quello di rappresentare in un unico sottospazio sia i vettoricarattere che i punti-unità. La ricerca di questo sottospazio passa attraverso la riduzione del rango di una generica matrice S dei prodotti scalari tra generatori qualsiasi introdotti a priori e senza alcun legame con la matrice dei dati originaria. Dal punto di vista analitico, il problema si traduce in questi termini: data una matrice A di dimensione n × p e rango K, si cerca una matrice B di rango k < K che meglio approssima la matrice A e lo si chiamerà problema della riduzione del rango. L’approssimazione è fatta nel senso dei minimi quadrati ovvero, definita una norma tra matrici, si cerca di rendere minima la quantità In definitiva, il problema della riduzione del rango sussiste ogni qualvolta l’ordine della matrice simmetrica da cui si parte è strettamente maggiore della dimensione dello spazio minimo in cui si intende rappresentare i vettori e/o punti. Si suppone d’avere uno spazio vettoriale V di dimensione n, su cui sia definito un prodotto scalare che si indicherà con . Fissata una base di V, a tale prodotto rimane associata la matrice che rappresenta il prodotto scalare rispetto ai vettori della base E. Si suppone d’avere un insieme di k generatori di V, , con (dove con (F) s’indica il sottospazio generato da F) e si suppone di conoscere la matrice S (simmetrica) dei prodotti scalari fra di essi: Il problema che ci si pone è di risalire alla dimensione di V senza conoscerla a priori e di determinare una base ortogonale per poter rappresentare i vettori caratteri e/o i punti unità e/o le relazioni tra essi in forma cartesiana. 106 Per ottenere una base ortogonale che sia indipendente dalla scelta dell’ordine di costruzione (cosa che non è vera in Gram Smith) si utilizza il teorema spettrale. Per garantire l’ottimalità della costruzione di tale base si utilizza poi il criterio di approssimazione di Eckart e Young. Procedendo in tale modo, la base ortogonale dello spazio V si identifica con l’insieme degli autovettori associati agli autovalori non nulli ottenuti diagonalizzando S. In particolare il rango della matrice S fornisce la dimensione cercata dello spazio V. Poiché la dimostrazione del teorema di Eckart e Young fa uso di decomposizioni matriciali, proprietà e teoremi vari, per non appesantire il discorso, si articolerà il paragrafo nei seguenti sotto paragrafi: 1. 2. 3. proprietà e nozioni di algebra lineare; Teoremi di decomposizione; Teorema di Eckart e Young. 4.3.1 Proprietà e nozioni di algebra lineare Siano , e tre matrici assegnate di dimensione n × p. Definizione 4.3.1.1 Il prodotto scalare tra A e B è dato dalla seguente funzione numerica dei suoi elementi: Questa funzione ha tutte la proprietà del prodotto scalare tra vettori: • • • • ; ; h è un numero; se < A, A > > 0 se A … 0. Si denota con A e B. Siano: = < A, A > la lunghezza della matrice A e con 107 la distanza tra • • • F, G, U matrici di dimensione n × n; D, E, V matrici di dimensione p × p; A, B matrici di dimensione n × p e A’ e B’ le loro trasposte di dimensione p × n. Si useranno le seguenti proprietà: P1) P2) P3) . . . Dalle P2) e P3) segue che: se U e V sono matrici ortogonali ( ), allora P4) Tornerà utile il seguente lemma : Lemma 4.3.1.1 Data una qualunque matrice quadrata A di ordine n, se vale: per ogni B matrice quadrata di ordine n e antisimmetrica (simmetrica), allora A è simmetrica (antisimmetrica). Dimostrazione: Dire che B è antisimmetrica significa che Dato che: essendo: per l’antisimmetria di B. Sommando membro a membro s’ottiene: 108 dovendo valere per ogni B antisimmetrica dovrà necessariamente essere: e quindi A è simmetrica. Analoga dimostrazione vale scambiando A con B. Teorema 4.3.1.1 Data una matrice A, di dimensioni , risulta: # , ed uno spazio euclideo E di dimensione (28) Teorema 4.3.1.2 Sia A matrice reale di dimensione n × p di rango K. Gli autovalori non nulli delle matrici A’A e AA’ coincidono. Dimostrazione: Siano autovettori di A’A corrispondenti agli autovalori tali da formare una base ortonormale in . Si ha che In altro modo, Confrontando queste ultime due espressioni si ha Quindi, se e soltanto se Poiché si ha che per , il vettore è un autovettore di AA’. Quindi se un autovalore non nullo della matrice A’A è associato all’autovettore , allora lo stesso è autovalore di AA’ ed è associato all’autovettore . Allora, si può concludere che lo spettro della matrice A’A è 109 contenuto in quello della matrice AA’. L’inclusione inversa è ottenuta cambiando il ruolo di A e A’. Poiché nel lemma precedente si è dimostrato che K = rg(A) = rg (A’A) = rg (AA’), ne consegue che gli autovalori coincidenti saranno esattamente K. Teorema 4.3.1.3 Sia U una matrice quadrata di ordine n a valori reali. U è ortogonale se e soltanto se le sue colonne, viste come vettori di base ortonormale in . Dimostrazione: C.N.- Se i vettori colonne di U allora , costituiscono una è una base ortonormale e costituiscono le C.S. - Se U è unitaria, è anche invertibile, e le sue colonne date dai vettori sono linearmente indipendenti, inoltre Questo dimostra che i vettori rappresentano una base ortonormale di . Teorema 4.3.1.4 Se sono autovettori ortonormali di A’A corrispondenti ad autovalori non nulli allora sono autovettori ortogonali di AA’ corrispondenti agli stessi autovalori. Analoga cosa si ottiene sostituendo A con A’. Dimostrazione: Se sono autovettori di A’A allora (29) moltiplicando a destra per A si ha 110 e cioè Poiché allora sono autovettori di AA’. sono ortonormali si ha, considerando la (29) che sono ortogonali. Osservazione: Siano gli autovalori non nulli comuni di A’A e AA’ e sia base ortonormale di A’A corrispondente a questi autovalori. Si è dimostrato che sono autovettori di AA’ corrispondenti agli stessi autovalori. Volendo normalizzare si ha da cui (30) Per la formulazione della metodologia di risoluzione del problema si utilizzeranno anche le seguenti nozioni. Definizione 4.3.1.2 Una trasformazione lineare infinitesima è definita come una trasformazione la cui matrice associata è dove con s’è indicata una quantità infinitesima del primo ordine. Il prodotto di due trasformazioni lineari infinitesime è ancora una trasformazione lineare infinitesima e il prodotto non dipende dall’ordine dei fattori. Infatti se e sono due matrici infinitesime allora: dove s’è tenuto conto del fatto che tale, può essere trascurato. è un infinitesimo d’ordine superiore al primo e, come 111 Inoltre, la matrice inversa d’una matrice infinitesima Infatti: è . dove il termine può essere trascurato e, tenendo conto del fatto che il prodotto non dipende dall’ordine dei fattori, segue anche che . Si supponga ora che la trasformazione lineare infinitesima A debba essere ortogonale. Ovviamente anche l’applicazione trasposta di una trasformazione infinitesima è infinitesima. Imponendo che sia si ricava: da cui segue che: che in termini di singoli elementi della matrice B può essere scritta come: ossia la matrice B dev’essere antisimmetrica. Da ciò segue che la matrice antisimmetrica. sarà ancora Osservazione 4.3.1.1: Si consideri ora una matrice ortogonale X e si suppone che essa subisca un incremento infinitesimo in modo da trasformarsi in una matrice ortogonale. In base alle considerazioni precedenti la matrice B dovrà essere antisimmetrica e quindi, l’incremento subito dalla matrice X sarà: dove S è una matrice infinitesimale antisimmetrica. ~ 4.3.2 Teoremi di decomposizione Teorema 4.3.2.1 (di decomposizione a valori singolari) Sia A una matrice di dimensione n × p e di rango K. Esistono allora una matrice ortogonale U di dimensione n × n, una matrice ortogonale V di dimensione p × p ed una matrice diagonale 3 di dimensione n × p, tali che: 3 Una matrice . quadrata o rettangolare si dice diagonale se 112 (31) dove gli elementi della diagonale di possono essere permutati in modo da essere non crescenti; ogni elemento della diagonale di è non negativo ed esattamente K di essi sono strettamente positivi. Gli elementi della diagonale sono detti valori singolari della matrice A. Dimostrazione: Si ricorda innanzi tutto che A’A e AA’ matrici quadrate di ordine n e p rispettivamente, hanno gli stessi autovalori non nulli (teorema 4.3.1.2) e, senza perdere di generalità, si suppone che K < n # p. Siano gli autovalori comuni di A’A e AA’ e siano e basi ortonormali, rispettivamente di A’A e AA’. Dall’osservazione al teorema 4.3.1.4 si ha (32) mentre dal teorema 1.3.1.3 si può affermare che colonne delle matrici ortogonali Dalla (32) si ha con e rappresentano le dove si è posto cioè Teorema 4.3.2.2 Siano A e B due matrici reali quadrate simmetriche di ordine n. Condizione necessaria e sufficiente affinché AB = BA è che esista una matrice ortogonale U di ordine n ed esistono due matrici diagonali reali di ordine n, tali che 113 Dimostrazione: C.N. - Poiché per ipotesi si ha allora da cui essendo , in quanto e sono diagonali. C.S. - Siano AB = BA e x un autovettore di B relativo all’autovalore , sia cioè Bx = x. Moltiplicando a sinistra per A si ottiene ABx = xA; per ipotesi AB = BA, quindi BAx = Ax, cioè Ax è autovettore di B associato allo stesso autovalore . A questo punto si distinguono due casi: • • Se è autovalore di molteplicità 1, l’autospazio associato a ha dimensione 1 e quindi gli autovettori ad esso corrispondenti sono tutti multipli tra loro. Ne segue che Ax = cx, dove c è un coefficiente di proporzionalità non nullo, cioè x è anche autovettore di A; Se ha molteplicità h, sia una base dell’autospazio corrispondente, formata da autovettori di B: per i = 1, ... , h. Ricordando che x e Ax sono autovettori di B associati a si ha: (33) dove per l’arbitrarietà di x i coefficienti possono essere scelti tutti non nulli. Moltiplicando l’ultima espressione per A si ha: (34) Poiché gli autovettori sono indipendenti, dal confronto della prima nella (33) e della (34) si ha , per ogni i, da cui 114 Si conclude quindi che ogni è anche autovettore della matrice A, associato all’autovalore Teorema 4.3.2.3 Siano A e B due matrici reali di dimensione n × p. Condizione necessaria e sufficiente affinché AB’ e B’A siano entrambe simmetriche è che esistano: 1. una matrice ortogonale U di ordine n; 2. una matrice ortogonale V di ordine p; 3. due matrici diagonali di dimensione n × p; tali che Dimostrazione: C.N. - Se e allora Poiché allora AB’ = BA’ e cioè la matrice AB’ è simmetrica. Analogamente risulta simmetrica la matrice B’A. C.S. - Per ipotesi AB’ e B’A sono simmetriche, per cui risulta: AB’= BA’ e B’A = A’B. Si considerino le seguenti uguaglianze: AA’BB’= A(A’B)B’= A(B’A)B’= (AB’)(AB’) = (BA’)(BA’)= B(A’B)A’= B(B’A)A’= BB’AA’ quindi le matrici AA’ e BB’ commutano. Per il teorema precedente esiste una matrice ortogonale U di ordine n ed esistono due matrici diagonali di ordine n × p tali che: (35) 115 Allo stesso modo A’A e B’B commutano e quindi esiste una matrice ortogonale V di ordine p tale che: (36) dove sono le stesse matrici diagonali che decompongono AA’ e BB’ (perché AA’ e A’A hanno gli stessi autovalori non nulli come pure BB’ e B’B, vedi teorema 4.3.1.2). Dunque si deduce, applicando il teorema 4.3.2.1, che . Per una diversa dimostrazione di questo teorema si rimanda il lettore interessato a Eckart e Young, 1939. 4.3.3 Il teorema di Eckart e Young Teorema di Eckart e Young 4.3.3.1 Sia A una matrice a coefficienti reali di dimensione n × p e rango K e sia la sua decomposizione a valori singolari dove i sono ordinati in modo decrescente. Allora la matrice B di rango k < K tale che è data da • • • con ,data dalle prime k colonne di U ; , data dalle prime k righe e colonne di , data dalle prime k righe di V’. ; Dimostrazione: Si chiameranno elementi di una matrice le sue righe o colonne. La distanza di B da A è data da (37) Gli elementi di B non sono tutti indipendenti poiché si richiede che il suo rango sia minore del numero delle sue righe e delle sue colonne, ma anche strettamente minore del rango della matrice A. Il teorema di decomposizione a valori singolari ci permette di non considerare gli 116 elementi dipendenti: si suppone di scrivere B nella forma data dal teorema 4.3.2.1 (38) con matrice diagonale di dimensione n × p e U e V matrici ortogonali di ordine n e p rispettivamente. Allora il rango di B sarà k se e soltanto se ha rango k cioè, se soltanto k degli elementi diagonali di sono diversi dallo zero; gli elementi non nulli di saranno indipendenti. Comunque, gli elementi di U o V non saranno indipendenti, poiché queste matrici devono essere ortogonali. L’ incremento della matrice U ortogonale è dato da (39) dove S è una matrice antisimmetrica i cui elementi sono infinitesimali ma arbitrari. Dalla proprietà P4) del paragrafo 4.3.1 e dall’equazione (38), l’equazione (37) diventa Poiché deve essere un minimo, segue che con l’incremento di U dato dalla (39). Quindi Poiché S è un’arbitraria matrice antisimmetrica segue che AB’deve essere simmetrica (lemma 4.3.1.1). Calcolando l’incremento di V, alla stessa maniera, si troverà che anche B’A deve essere simmetrica, e quindi, dal teorema 4.3.2.1, le matrici ortogonali possono essere determinate in modo tale che l’equazione (38) e (40) sono entrambe valide. Allora l’equazione (37) diventa 117 dove t = min (n, p) > k, sono gli elementi diagonali delle corrispondenti matrici. Rimane da determinare la matrice in modo tale che il quadrato di sia minimo, soggetto alla condizione che solo k degli siano differenti da zero, perché si vuole un’approssimazione di rango k. Si può supporre che allora l’ovvia soluzione del problema è Questa è anche la sola soluzione a meno che e la soluzione non sarebbe unica. Se si potrebbe scegliere anche La procedura per trovare B può essere riassunta nel seguente modo: 1. 2. 3. si esprime A mediante la decomposizione a valori singolari; si sostituiscono con zeri tutti gli elementi della diagonale di , tranne k, cominciando dai più piccoli e continuando in ordine di grandezza crescente; la matrice risultante è , mentre B è data dall’equazione (38). La soluzione è unica a meno di ; il valore minimo di è Osservazione 4.3.3.1 1. L’obiettivo dell’approssimazione è stato quindi raggiunto ma un’ulteriore importante conclusione è che se B è la migliore approssimazione (di rango k) per A, allora BB’ (B’B) sarà anche la migliore approssimazione (di rango k) per AA’ (A’A), giacché hanno gli stessi autovalori. Quindi se la migliore approssimazione B della matrice A è stata trovata allora la matrice B’B sarà la migliore approssimazione della matrice A’A; 2. Se S è simmetrica e definita positiva V = U, la decomposizione a valori singolari di S coincide con la decomposizione spettrale; 118 3. 4. Supponendo che S sia definita positiva , le colonne della matrice U rappresentano le componenti degli autovettori rispetto ai generatori, mentre le righe sono le componenti di ogni generatore rispetto agli autovettori in quanto U è unitaria e quindi la sua matrice trasposta coincide con la sua inversa e realizza il cambiamento di coordinate inverso; Dal fatto che le righe di U rappresentano le componenti di ogni generatore si ha che dove con si è indicato il generatore i-esimo e è la riga i-esima di U. Contributo relativo Si definisce contributo relativo dell’autovettore al generatore la quantità e la radice quadrata di tale quantità definisce il coseno dell’angolo tra il generatore e l’autovettore Coordinate e Qualità della rappresentazione considerando X Se si considera la matrice dei dati X e si considerano le sue righe come le coordinate delle unità su ogni generatore (carattere), le coordinate di tali unità sugli autovettori saranno date dalle righe della matrice XU. Si definisce qualità della rappresentazione sull’i-esimo asse la quantità dove è l’i-esimo autovettore nonché l’i-esimo asse fattoriale. Osservazione Se S è definita a partire dalla matrice X e cioè, si può scegliere S = X’X , la base del sottospazio sarà costituita dagli autovettori della matrice ridotta ovvero dalle colonne della matrice ortogonale secondo la decomposizione a valori singolari di 119 4.4 Limiti e vantaggi nelle due trattazioni La trattazione classica, sebbene risulti vantaggiosa ai fini interpretativi (come mostrato più avanti), presenta tuttavia delle limitazioni, dovute sostanzialmente al fatto che non c’è a priori alcuna giustificazione per associare gli assi ortogonali di uno spazio cartesiano multidimensionale ad unità o caratteri, dal momento che essi che non sono in genere indipendenti. Caratteri diversi possono essere infatti correlati in modo tale da concorrere ad uno stesso effetto nel fenomeno studiato; il carattere reddito, ad esempio, ed il carattere consumi non sono indipendenti, nel senso che a redditi più elevati corrispondono consumi maggiori: nello studio del tenore di vita degli abitanti di una città, i due caratteri daranno un tipo di informazione fortemente correlato. L’assunzione di indipendenza è invece accettabile per le unità, poiché in un campionamento le unità statistiche devono essere scelte rispettando il criterio secondo cui non devono esistere fra esse relazioni di alcun tipo, se non quelle che le caratterizzano come appartenenti alla stessa popolazione oggetto di studio. L’analisi è quindi intesa ad evidenziare le eventuali relazioni di dipendenza esistenti tra i caratteri, ed a stabilire in quale misura essi concorrano al fenomeno studiato, nell’ipotesi di indipendenza delle unità. Da una parte, quindi, si può conservare il modello ortogonale per la rappresentazione dei caratteri in uno spazio cartesiano in cui ogni asse coordinato è associato ad una unità; eventuali relazioni di dipendenza (spaziale, temporale...) tra le unità non vengono comunque considerate. Dall’altra parte, sembra invece più corretto un punto di vista secondo il quale, gli p caratteri vengono associati ad un sistema di generatori di un sottospazio di , e non una sua base ortogonale. Nella trattazione nuova, si suppone inizialmente di non conoscere la matrice dei dati, ma le mutue posizioni dei vettori associati ai caratteri attraverso una matrice S quadrata di ordine p di prodotti scalari di rango , simmetrica e semidefinita positiva, tale che il coseno dell’angolo formato dai vettori corrispondenti ai caratteri i-mo e j-mo e dato da , avendo indicato con l’elemento generico della matrice S. La matrice S ammette una decomposizione spettrale con e ; in base al teorema di Eckart-Young, tale 120 decomposizione è ottima nel senso che, fissato , la matrice con è la migliore approssimazione di rango k per la matrice S. Le direzioni individuate dalle prime colonne della matrice U, corrispondenti agli autovettori di S e dette assi fattoriali, sono cioè le direzioni ottimali di rappresentazione, nell’ordine di importanza decrescente dato dai rispettivi autovalori e ortogonali per costruzione. Ne segue che il miglior sottospazio k-dimensionale per la rappresentazione dei dati, nel quale sia minima la perdita di informazione, è quello generato dagli autovettori di S associati ai primi k autovalori più grandi. Ogni vettore-riga della matrice U viene associata ad un carattere; poiché gli assi fattoriali sono due a due ortogonali, ogni vettore-carattere si decompone nella somma delle sue proiezioni sui diversi assi fattoriali. Il coseno dell’angolo formato da un vettore-riga (associato ad un carattere) ed un asse fattoriale (un autovalore) assume quindi il senso di contributo del fattore a quel carattere Si è definito quindi contributo del k-esimo autovettore al generatore i-esimo la quantità, che esprime il quadrato del coseno dell’angolo formato dal vettore-riga i-esimo con l’autovettore k-esimo avendo indicato con la riga i-ma della matrice U (generatore iesimo). Dalla conoscenza della sola matrice S dei prodotti scalari tra i caratteri non è possibile ricavare ulteriori informazioni oltre alle direzioni ottimali di rappresentazione ed ai contributi relativi; in particolare non è possibile ricavare alcuna informazione riguardo alle unità. Si supponga ora che invece sia nota la matrice dei dati X; è allora possibile ottenere, dalle righe della matrice , le componenti dei vettori che rappresentano le unità rispetto agli assi fattoriali. Come detto in precedenza, si ha che la qualità della rappresentazione delle unità sull’asse fattoriale k-esimo è data dalla quantità avendo indicato con X). (per ) la k-esima colonna della matrice U (autovettore di 121 Se poi si assume come prodotto scalare la matrice , che si origina dai dati stessi, si ottiene di nuovo, come caso particolare, il modello ortogonale descritto all’inizio. Ha senso allora parlare di contributi assoluti dei vettori-caratteri agli assi fattoriali, in quanto ogni autovettore unitario di S corrispondente ad una colonna della matrice U, si decompone in maniera ortogonale rispetto ai vettori-caratteri; in un modello in cui i caratteri siano associati a vettori non ortogonali, invece, non ha senso definire i contributi assoluti rispetto ad un insieme di direzioni linearmente dipendenti, associate a caratteri più o meno correlati tra loro e che concorrono ad uno stesso effetto. Più esattamente, come si è detto prima, il contributo assoluto del carattere i-esimo all’asse fattoriale k-esimo è dato da (dove si è indicato con il peso assegnato al carattere i-esimo), che esprime il coseno dell’angolo formato dal vettore associato al carattere i-esimo e dall’autovettore j-esimo. È interessante, infine, osservare che, considerando la matrice (in luogo della ) che esprime i prodotti scalari tra le unità, allo stesso modo si definiscono i contributi assoluti delle unità agli assi fattoriali, visti però non più nello spazio dei caratteri, ma nello spazio delle unità. Poter definire i contributi assoluti dei caratteri (o delle unità) agli assi fattoriali è utile ai fini dell’interpretazione dei risultati. possono infatti essere individuati quegli elementi che maggiormente pesano nella costruzione di un asse fattoriale, al quale può quindi essere attribuito un certo significato, in base alla natura dei dati in esame. Se, però, un elemento risulta avere un contributo molto forte ad un asse fattoriale, si può concludere che quell’asse rappresenta soltanto quell’elemento, e non un’informazione comune a diversi elementi. L’elemento in questione può dunque essere escluso dall’analisi, o dotato di un peso molto piccolo, per osservare come si comportano gli altri elementi in sua assenza. 122