E:\Università\Tesi\Rosa Maulucci\Capitoli tesi\Capitolo 4.wpd

$E:\Università\Tesi\Rosa Maulucci\Capitoli tesi\Capitolo 4.wpd$

CAPITOLO 4
L’ANALISI DELLE COMPONENTI PRINCIPALI
4.1 L’analisi generale dei dati
Secondo la logica delle riduzione delle dimensioni dell’analisi delle componenti
principali e quindi di sintesi dell’informazione contenuta nei dati di partenza, si può
procedere descrivendo la tecnica secondo due punti di vista differenti e quindi distinguendo
l’approccio classico da un approccio nuovo.
I due tipi di approcci hanno in comune il fatto di voler rappresentare i caratteri e le unità
in uno spazio di riferimento ottimale dove poter rilevare le relazioni più significative. Tale
riferimento è un sottospazio di dimensione ridotta rispetto a quello di partenza.
Il primo considera separatamente due spazi affini
e
dove rappresentare
rispettivamente le nuvole dei caratteri e delle unità; l’obiettivo è quindi quello di cercare i
due sottospazi, che forniscono la migliore approssimazione delle nuvole, separatamente,
risolvendo due problemi di massimo o minimo vincolato e vedendo poi quali sono le
relazioni che legano i due sottospazi in questione.
Con il nuovo approccio si cerca invece di rappresentare, nello stesso spazio V, sia i
caratteri che le unità partendo da una generica matrice S di prodotti scalari tra generatori
qualsiasi di V, quindi simmetrica e semidefinita positiva, tramite la quale si potranno ricavare
le posizioni dei vettori caratteri e dei punti unità e, la matrice approssimata S* di S di rango
minimo, è la matrice da diagonalizzare da cui dedurre la base di autovettori che costituisce
il sottospazio ottimale.
4.2 La trattazione classica
4.2.1 La matrice dei dati
In un’analisi fattoriale si considera un insieme d’osservazioni effettuate su un certo
sistema. Le informazioni possono essere raccolte in una tabella a due dimensioni. Si è soliti
67
disporre la prima dimensione sulle righe della tavola di dati ed assegnargli il nome di unità
statistiche, individui o osservazioni mentre le colonne prendono il nome di caratteri o
variabili.
L’insieme di osservazioni effettuate su n individui relativamente a p caratteri sarà allora
rappresentato da una matrice X reale di dimensioni
:
dove l’elemento rappresenta il valore assunto dal carattere j sull'unità i.
Uno degli scopi dell’analisi è quello di trovare una rappresentazioni grafica dei dati
raccolti.
Nella trattazione classica si può pensare di associare ogni colonna della matrice X ad
un vettore. Questi p vettori genereranno un sottospazio vettoriale che può essere pensato
come la giacitura di uno spazio affine
(detto spazio delle variabili), la cui dimensione
è pari al rango della metrica che si vorrà adottare. A questo punto i valori in colonna si
considerano come coordinate di un punto lungo la retta individuata dal vettore considerato
ed ognuna delle n righe della matrice potrà essere considerata come l’insieme delle
coordinate di un punto (unità) nello spazio delle variabili. Sarà quindi possibile rappresentare
graficamente in questo sottospazio sia le unità, come punti, che i caratteri, come vettori.
L’i-esimo individuo si può allora identificare con il vettore
di coordinate
. L’insieme degli n punti individua quindi una nuvola detta nuvola degli
individui:
Si potrebbero trattare le informazioni contenute nella matrice X in modo duale.
Precisamente, le righe di X possono essere pensate come vettori che genereranno uno spazio
affine
(detto spazio degli individui), avente la stessa dimensione, perché essa dipende dal
rango della metrica che verrà adottata. In tale spazio affine le colonne di X potranno essere
pensate allora come coordinate di punti (caratteri) e sarà possibile rappresentarle
graficamente.
Il j-esimo carattere si può identificare con il vettore di coordinate
.
L’insieme dei p punti individua quindi una nuvola detta nuvola dei caratteri:
68
4.2.2 L’analisi generale
Lo scopo è al solito quello di riuscire a determinare un sottospazio dello spazio (affine
o euclideo) di partenza, in cui l’informazione contenuta nei dati possa essere rappresentata
in maniera semplice, in modo da consentire la descrizione e l’interpretazione del fenomeno
a cui i dati si riferiscono.
Si affronteranno ora tutti i problemi legati alla determinazione di tale sottospazio.
Bisogna specificare che, nella trattazione classica, la riduzione dello spazio di
rappresentazione di un insieme di dati comporta la risoluzione d’un problema di massimo o
di minimo vincolato, ossia è necessario definire una funzione obiettivo di cui s’intende
calcolare il massimo o il minimo, in m odo che risultino verificate alcune condizioni (vincoli).
Si tradurrà la classica analisi statistica in termini puramente matematici considerando
le righe e le colonne della tavola dei dati rispettivamente come punti (unità) e vettori
(caratteri) nello spazio affine dei caratteri
(o come vettori e punti nello spazio affine
delle unità) che si è definito in precedenza. Ques ti spazi affini verranno poi dotati di metriche
opportune, legate alla matrice dei dati, in modo tale da farlo divenire uno spazio euclideo.
È evidente che se n o p sono maggiori di tre questo tipo di rappresentazione grafica non
ha molto senso. Da qui nasce l’esigenza di una rappresentazione approssimata in sottospazi
ottimali di dimensione ridotta che saranno proprio gli assi fattoriali.
Lo scopo dell’analisi è allora quello di selezionare fra i caratteri (o le unità) quelli che
caratterizzano maggiormente la tavola dei dati, dato che fra essi ve ne potrebbero essere
alcuni fortemente dipendenti dagli altri o esservene alcuni indipendenti. A tal fine s’introduce
nei due spazi affini
e
una struttura euc lidea, definendo due matrici dei prodotti scalari
M ed N fra i vettori delle rispettive basi, d’ordine rispettivamente p ed n. Le due matrici
saranno allora quadrate, simmetriche e definite positive. Oltre al prodotto scalare fra due
vettori in tali spazi saranno allora definite la distanza fra due punti e la norma di un vettore:
Prima di esporre le più comuni scelte delle matrici M ed N per i prodotti scalari nei due
spazi verranno presentate alcune grandezze caratteristiche delle variabili.
69
4.2.2.1 Matrici di associazione tra individui e caratteri
Il concetto di carattere è ovviamente inseparabile dal concetto di unità: quest’ultimo
quindi influenza tutte le grandezze relative ai caratteri. A questo riguardo ha senso associare
ad ogni unità i un certo peso pi (i = 1, ... , n), che dà una misura del suo grado di importanza:
infatti decidendo il valore di questi pesi si può scegliere di puntare l’attenzione su alcune
unità piuttosto che su altre, oppure di considerarle tutte allo stesso modo assegnando, ad
esempio, a ciascuna un peso pi=1/n. I pesi, che devono sempre essere tali che:
possono essere considerati come gli elementi di una matrice diagonale di ordine n:
Una grandezza, che dà una prima indicazione sul comportamento di un carattere è
costituita dal suo valore medio, che rappresenta la somma pesata sulle unità dei valori assunti
dal j-esimo carattere. Infatti, dato un carattere , il suo valor medio su n unità statistiche è
dato da:
Si definisce baricentro o centro di gravità della nuvola dei punti-unità il punto le cui
p coordinate sono i valori medi delle variabili:
La media tuttavia non dà indicazioni sufficienti sulla distribuzione di un carattere, in
quanto variabili molto diverse possono avere la stessa media.
Un’altra grandezza, che dà ulteriori indicazioni sul comportamento di un carattere, è
la varianza, quantità che esprime una misura della dispersione dei valori che un carattere
70
assume intorno alla sua media. Il legame tra due caratteri è espresso invece dalla covarianza.
Dati due caratteri
rispettivamente come:
e
si definiscono la varianza di
e la covarianza fra
e
La varianza è dunque tanto maggiore quanto più i valori di un carattere sono dispersi
attorno al loro valore medio. Inoltre, se la covarianza tra due caratteri è 0, essi si dicono non
correlati: la conoscenza del comportamento di uno non fornisce indicazioni su quello
dell'altro; viceversa, un valore elevato della covarianza indica una significativa reciproca
dipendenza lineare nel comportamento dei due caratteri. La covarianza di un carattere con
sé stesso coincide ovviamente con la varianza.
Le covarianze tra tutte le coppie di caratteri formano la matrice di varianza-covarianza
V di ordine (p×p):
Essendo:
V risulta essere una matrice simmetrica. Inoltre, se si trasforma la matrice dei dati in modo
tale che gli n punti siano centrati intorno al baricentro, si ottiene la matrice degli scarti
,
il cui generico elemento, ricordiamo, è dato dal corrispondente elemento della matrice non
centrata X meno la media del j-esimo carattere, cioè:
.
Dalle definizioni di matrice di varianza-covarianza e di covarianza si ottiene:
.
Si indica come scarto quadratico medio o deviazione standard di un carattere
quantità:
71
la
Un’altra misura del legame tra due caratteri, legata alla covarianza, è data dal
coefficiente di correlazione:
Il vantaggio di questa misura rispetto alla covarianza consiste nel fatto che il
coefficiente di correlazione non dipende dalle unità di misura usate per i caratteri, in quanto
le varianze che compaiono al denominatore costituiscono un fattore di normalizzazione.
Inoltre, mentre la covarianza può assumere valori grandi quanto si vuole (positivi e negativi),
si dimostra che il coefficiente di correlazione è una quantità compresa tra -1 e 1. Si ha poi
ovviamente
per ogni j. Il valore assoluto del coefficiente di correlazione si
può quindi considerare come un indice di similarità (per ulteriori approfondimenti relativi
agli indici di similarità, si rimanda il lettore al capitolo 5), cioè una misura che è tanto
maggiore quanto più gli oggetti in questione sono simili. Non altrettanto si può dire in
generale per i prodotti scalari (in particolare per la covarianza), perché il prodotto scalare tra
un carattere e sé stesso può essere più piccolo di quello tra due caratteri diversi; in questo
caso per ricondursi ad un indice di somiglianza si può dividere ogni carattere per la sua
norma: in questo modo il prodotto scalare coincide con il coseno dell’angolo tra i due
caratteri (cioè tra i due vettori che li rappresentano) e quindi è una misura di similarità perché
vale 1 solo quando i caratteri coincidono, altrimenti è minore di 1.
I coefficienti di correlazione tra tutte le coppie di caratteri formano la matrice di
correlazione R , che è una matrice simmetrica di dimensione p×p:
dove quindi sulla diagonale compaiono le unità, poiché
.
Un carattere
si dirà standardizzato quando ha media 0 e varianza 1. Si definisce
matrice dei dati standardizzati la matrice Z che ha come elemento generico:
72
Quindi, denotando con:
la matrice diagonale degli inversi degli scarti quadratici medi standard, riesce:
Inoltre, si ottiene la seguente relazione tra la matrice di varianza-covarianza e quella
di correlazione:
e ancora ricordando l’espressione di V tramite la matrice degli scarti si ottiene:
4.2.2.2 Scelta delle metriche in
ed
La scelta della matrice M è equivalente alla scelta di una metrica nello spazio
dei
caratteri e quindi alla decisione di come misurare le distanze delle unità. Nello spazio fisico,
come è noto, per misurare la distanza tra due punti, si usa la metrica euclidea classica
73
che corrisponde a scegliere come matrice M dei prodotti scalari la matrice unità I; gli assi del
riferimento risultano dunque ortogonali tra loro. Questo modo di procedere è giustificato dal
fatto che le dimensioni dello spazio fisico sono tutte della stessa natura, in quanto sono
lunghezze che si misurano con la stessa unità; non altrettanto si può dire in un'analisi di tipo
statistico dove ciascun asse del riferimento ha un diverso significato in quanto corrisponde
ad una variabile ed ogni variabile è caratterizzata da una sua particolare unità di misura. In
tal caso la scelta di un prodotto scalare risulta del tutto arbitraria, ed è arbitraria anche la
scelta di considerare perpendicolari o no gli assi del riferimento. La distanza euclidea perde
dunque il suo ruolo privilegiato, così come lo pe rde qualsiasi distanza definita da una matrice
M diagonale. Tuttavia, proprio per il fatto che la scelta di un prodotto scalare si riconduce
a fissare una convenzione, conviene fare in modo che la matrice M dei prodotti scalari abbia
una forma particolarmente semplice: di solito si sceglie una matrice diagonale:
e quindi il prodotto scalare fra due caratteri x ed y assume la forma particolarmente semplice:
mentre la norma dei caratteri
sarà pari a:
Si vuole ora far vedere che effettuando una trasformazione della matrice dei dati è
possibile ricondurre il prodotto scalare definito da M a quello classico associato alla metrica
euclidea. Bisogna però sottolineare che si tratta di una notazione e che non s’intende dotare
lo spazio affine dei caratteri della metrica euclidea standard.
Si definisce la matrice
nel modo seguente:
74
e si moltiplica la matrice X dei dati per questa matrice, ottenendo così la matrice Y:
Risulta:
quindi le distanze tra unità standardizzate, misurate rispetto alla metrica I e le distanze fra le
unità non standardizzate, misurate rispetto alla metrica M, hanno gli stessi valori.
L’utilità della notazione consiste allora nel fatto che i calcoli sono notevolmente
semplificati. Restano ora da scegliere i coefficienti . Una scelta particolarmente opportuna
è quella di porre:
dove con s’è indicata lo scarto quadratico medio del i-esimo carattere. Dato che in tal caso
risulta
, ogni carattere ha un peso pari al suo scarto quadratico medio.
Se si considera la matrice centrata dei dati
e la si trasforma tramite la matrice
,i
caratteri che si ottengono risultano essere standardizzati, ossia con media 0 e varianza 1.
Infatti, considerando il carattere trasformato:
75
Essendo per ipotesi
essendo
si ha:
, si ha:
dunque è un carattere standardizzato.
Rispetto alla metrica
, la distanza fra due unità
e
, risulta essere pari a:
quindi la scelta
è equivalente alla standardizzazione di ognuno dei caratteri; le
distanze fra le unità standardizzate possono essere calcolate come se la metrica nello spazio
dei carattere fosse I.
Ricordando che la matrice di correlazione di X è pari a
, si ha:
dove con N s’è indicata la matrice dei pesi delle unità. Quindi R si può anche interpretare
come la matrice di varianza-covarianza relativa a Y, dove le variabili sono standardizzate.
Vi sono dunque due punti di vista equivalenti per quanto riguarda i prodotti scalari tra
le unità:
1. la matrice dei dati è X, la matrice di varianza-covarianza è V, la metrica è definita da
76
2.
;
la matrice dei dati è Y, cioè X centrata e standardizzata, la matrice di varianzacovarianza è R, la metrica è definita da I.
Nel seguito si supporrà che nello spazio delle unità si sia introdotta una struttura
euclidea definita da una matrice M di prodotti scalari senza nessun’altra ipotesi particolare
sulla forma della matrice tranne il fatto di essere simmetrica e definita positiva. I risultati
finora ottenuti possono essere generalizzati ad una metrica qualunque in quanto si è
dimostrato nel capitolo 3 (Teorema 3.1.21) che per ogni matrice simmetrica definita positiva
M esiste1 una matrice T tale che
.
Il prodotto scalare definito da M, si può allora scrivere come:
Dunque usare una metrica M per certi dati equivale a trasformare questi ultimi per
mezzo della matrice T, cioè a sostituire la tabella X con
e ad eseguire i calcoli come
se la metrica nello spazio fosse I.
Nello spazio delle unità
viene invece introdotta la metrica definita dalla matrice:
che corrisponde ai pesi delle unità introdotti nella definizione di media di un carattere con
la condizione che
. I valori sono le masse dei punti
in
.
La scelta fatta porta a interessanti interpretazioni geometriche degli indici statistici che
1
(
La decomposizione di M come prodotto di una matrice per la sua trasposta non è unica. Se infatti P è una qualunque matrice ortonormale
) si ha che
Dato che però si tratta comunque di matrici ortogonali, questo significa che una matrice H tale che
è definita a meno di una rotazione nello
spazio.
Inoltre, dato che la matrice W è definita a partire da una base ortonormale d’autovettori, essa non sarà, in generale, unica. Se esiste un autovalore
che ha molteplicità maggiore di 1, è sempre possibile trovare un’altra base ortonormale di autovettori per il sottospazio associato a , e quindi per
l’intero spazio V. In realtà ciò è vero anche se gli autovalori sono tutti semplici perché ogni autovalore è definito a meno di una costante moltiplicativa
e quindi se la base dev’essere ortonormale ogni autovettore è definito a meno dell’orientamento.
77
si sono introdotti. Supponendo che i caratteri siano centrati (ossia a media nulla) si ha infatti:
da cui segue che:
dove
è l’angolo formato dai vettori e .
Inoltre la matrice di varianza - covarianza, ossia la matrice di dispersione dei p caratteri
rispetto alle n unità, è data da:
4.2.2.3 Criteri di ottimizzazione e direzioni di massima dispersione
Come già osservato in precedenza, una matrice di dati X individua due nuvole di punti
, rispettivamente nello spazio dei caratteri e delle unità. L’insieme delle distanze fra
le coppie di punti individua la forma della nuvola, che può essere immaginata come un
volume corrispondente all’inviluppo dell’insieme dei punti. La forma della nuvola
caratterizza la natura e l’intensità delle relazioni fra i punti. Essa rivela quindi la struttura
dell’informazione contenuta nei dati.
Figura 1
78
Se ad esempio la nuvola si disperde maggiormente lungo una direzione (forma
allungata, la prima di figura 1) ciò significa che esiste un supporto lineare lungo il quale i
punti sono disposti. Se la nuvola ha invece una forma parabolica (la seconda di figura 1)
questa traduce il fatto che vi è una relazione non lineare fra i punti mentre una nuvola di
forma sferica (la terza di figura 1) ha il significato di assenza di relazione fra i punti. Altre
forme classiche di nuvole come le nuvole triangolari o nuvole composte da più gruppi di
punti.
Figura 2
Nella maggior parte dei casi però non è facile riconoscere la forma della nuvola dato
che l’ordine (n, p) della matrice dei dati è maggiore di tre.
Data infatti una tavola di dati X di dimensioni
, se si considera ad esempio la nuvola
degli n punti - unità nello spazio
, per rappresentare completamente i dati si devono
utilizzare n A p numeri, ma non sempre tutti questi valori sono realmente necessari. Se infatti
gli n punti non sono sparsi nello spazio, ma giacciono in un sottospazio
di
, di
dimensione q < p, allora per individuare un punto saranno necessarie solo q coordinate.
Servono però n A q numeri per rappresentare tutti i punti di
e p A q numeri per definire le
coordinate dei vettori della base di
in
. In questo caso particolare comunque un
cambiamento di riferimento permette di ridurre le dimensione della tavola dei dati
senz’alcuna perdita d’informazione.
Si è però detto che quasi sempre esistono delle direzioni privilegiate, ossia lungo le
quali la nuvola di punti si disperde maggiormente. L’idea è allora di ricercare un sottospazio
che non contenga esattamente i punti ma tale che, proiettando su di esso i punti, si ottenga
la miglior rappresentazione possibile. Se si proiettano ad esempio i punti su di un piano ,
le distanze fra le proiezioni dei punti non potranno coincidere con le distanze della
rappresentazione iniziale: si ha infatti un effetto di distorsione, dovuto al fatto che i punti non
giacciono esattamente su e quindi le nuove distanze saranno ridotte. Facendo variare il
piano nello spazio si riesce a trovarne uno che minimizza la somma delle distorsioni. Questo
criterio non è valido solo nel caso di un piano ma vale per un sottospazio di dimensioni
qualunque.
79
Il metodo consiste nella ricerca di un sottospazio ad una dimensione H che meglio
approssimi la nuvola dei punti ossia che massimizzi la somma dei quadrati delle distanze tra
le proiezioni su H di tutte le coppie di punti
:
Se si considera che ad ogni punto sia associato un peso si dovrà invece massimizzare
la quantità
Nel caso di analisi delle componenti principali si vedrà che questo criterio equivale a
dove G è il baricentro della nuvola di punti.
Spesso si è però interessati non solo alla forma della nuvola dei punti come nel caso
dell’analisi delle componenti principali, ma anche alla sua posizione rispetto all’origine. E’
questo l’obiettivo dell’analisi generale dei dati.
Una volta che si è trovata la retta di miglior approssimazione, si cerca un sottospazio
di dimensione 2 che meglio si adatta alla nuvola di punti. Si dimostra che tale nuovo
sottospazio dovrà necessariamente contenere quello di dimensione 1. Il procedimento
prosegue nella ricerca di sottospazi di dimensione sempre maggiore che man mano daranno
una rappresentazione migliore ma con una quantità di dati via via maggiore. È necessario
allora trovare un compromesso: arrestare il procedimento ad un numero di dimensioni
abbastanza piccolo in modo da ridurre le dimensioni della matrice dei dati ma che fornisca
una buona approssimazione della configurazione dei dati di partenza.
Il problema che ci si propone di risolvere è allora un problema di riduzione puramente
numerico, ovvero di riduzione dei dati. Per esporre questa tecnica di riduzione fattoriale è
necessario considerare separatamente i due spazi
e
e vedere poi quali sono le
relazioni che legano i due sottospazi che forniscono la miglior approssimazione delle nuvole.
4.2.2.4 Ricerca del sottospazio ottimale per le unità nello spazio dei caratteri
Sia X la matrice dei dati. Si suppone d’aver dotato lo spazio affine dei caratteri
di
una metrica M definita positiva e che le unità della nuvola
siano dotate di peso tramite una
80
matrice diagonale N d’ordine n.
Si inizia con il ricercare una retta r di
, passante per l’origine degli assi che
riproduca nel migliore dei modi la nuvola . Per poterla individuare basterà definire un
versore che ne individui la direzione. Sia allora u tale versore; esso dovrà soddisfare la
condizione
La proiezione ortogonale
pari a
dell’i-esima unità
sulla retta r di versore u sarà
(22)
dove lo scalare
, ovviamente, è la misura della proiezione del punto su r. La
proiezione di tutti gli n punti su r dà luogo ad un vettore
che, in forma
matriciale assume la seguente espressione:
Osservazione: Si ricorda che, dato un generico versore u e la retta da esso generata r, il
momento di inerzia rispetto a
è dato dall’espressione:
avendo considerato la scomposizione
su r e
proiezione di su .
Dalla (22) si ha:
del vettore
e dunque:
81
con
proiezione di
Quest’ultima quantità può essere interpretata come il quadrato della norma in
del
vettore c, in quanto in
il prodotto scalare è definito dalla matrice dei pesi . Ne segue
che:
(23)
dove
è per definizione la matrice di varianza-covarianza. L’espressione
precedente dimostra, quindi, che il momento di inerzia è una forma quadratica e MVM è la
matrice ad essa associata.
~
Fra i criteri d’adattamento d’un sottospazio ad una nuvola di n punti, quello che
conduce a calcoli più semplici è il criterio dei minimi quadrati. Questo criterio consiste nel
ricercare la retta di massima dispersione della nuvola dei punti, e che cioè rende minima la
somma dei quadrati delle distanze dei punti da essa; la quantità da rendere minima sarà:
Essendo la proiezione della nuvola di punti
ortogonale alla retta cercata, per il
teorema di Pitagora (applicato a ciascuno degli n rettangoli del tipo
) si ha:
Poiché
minimizzare
è una quantità data, indipendentemente dal vettore u cercato,
equivale a massimizzare
.
82
Figura 3 - Metrica M in
Quindi, tenuto conto del criterio d’adattamento, si vuole trovare il vettore u che rende
massima la somma ponderata dei quadrati delle proiezioni:
(24)
dove si è posto
. Si nota che se i pe si
che tirano la retta verso di loro.
non sono uniformi ci saranno dei punti
Dall’osservazione precedente, se S è un sottospazio qualsiasi, si ha che la (24) diventa:
Considerando
il sistema (24) si scrive sinteticamente come:
Dalla simmetria di M e dal fatto che N è una matrice diagonale si ha che anche la
matrice A è una matrice simmetrica, infatti:
e quindi
è una forma quadratica.
83
La ricerca del versore u è stata quindi ricondotta alla ricerca del massimo della forma
quadratica
, sottoposta al vincolo che u abbia norma 1 (sistema (24)).
Sia
il versore per il quale si ha il valore massimo per la forma quadratica. Per il
teorema d’incapsulamento dei sottospazi ad inerzia massima, il sottospazio bidimensionale
che meglio riproduce la nuvola degli individui, dovrà necessariamente contenere il
sottospazio generato da . Più in generale, se si è trovato il sottospazio k-dimensionale che
meglio s’adatta alla nuvola, generato dai versori
, il sottospazio di dimensione
k+1, che verifica la stessa condizione, per il teorema suddetto, li dovrà contenere.
Questo però fornisce un metodo per ricercare il versore successivo: basterà cercare un
versore
, M-ortogonale a
, che massimizzi la forma quadratica
:
Derivando questa quantità rispetto alle p componenti del vettore u, si vede che il vettore
delle derivate parziali di u’Au si scrive sotto forma matriciale:
Analogamente:
Per ricercare il massimo della forma quadratica sottoposta al vincolo di
normalizzazione del vettore u rispetto alla metrica M bisogna imporre la condizione di
annullamento delle derivate della funzione di Lagrange:
dove
è un moltiplicatore di Lagrange. Poiché riesce:
84
se ne deduce che:
Premoltiplicando entrambi i membri di questa relazione per
:
si ricava, tenendo conto del vincolo:
Si ha quindi che è il valore cercato per il massimo. Inoltre, essendo M definita
positiva, sarà anche invertibile; moltiplicando la relazione prima ottenuta per l’inversa di M
si ha:
da cui segue che u è l’autovettore della matrice
massimo .
La ricerca del sottospazio
che corrisponde all’autovalore
si riconduce a risolvere il sistema:
e cioè il problema di massimo vincolato è equivalente ad un problema agli autovalori.
Ricordando l’espressione di
data dalla (23) e che A = MVM, si ha che:
Corollario: Se u verifica il sistema precedente, con
, si ottiene:
ovvero l’inerzia spiegata dalla retta r è pari a
proiezione su r della nuvola.
Indicando con
tale autovettore e con
85
;
rappresenta dunque l’inerzia della
l’autovalore corrispondente si cerca ora un
versore
, ortogonale ad
e che massimizzi la forma quadratica
, ossia tale che:
Tale ricerca conduce questa volta ad annullare le derivate della lagrangiana
dove
e
sono due moltiplicatori di Lagrange.
La condizione di massimo vincolato sarà allora espressa da:
Moltiplicando a sinistra entrambi i membri di questa relazione per
si ha:
e, ricordando le condizioni imposte, si ricava:
da cui segue
.
Sostituendo nella condizione di massimo si ricava come prima:
Quindi, essendo M invertibile,
sarà il secondo autovalore di
, relativo al secondo
più grande autovalore .
Proseguendo la dimostrazione considerando il caso di un versore
per
,
ortogonale a tutti quello trovati precedentemente e che massimizzi la forma quadratica
,
ossia:
86
Imponendo le condizioni di massimo si ricaverà nuovamente
ed essendo M invertibile
Questo conclude la dimostrazione che, nel caso di metrica M qualunque e di punti dotati
di peso, lo spazio S in cui verrà descritta l’informazione contenuta nei dati ha per base gli
autovettori relativi agli autovalori della matrice
.
Osservazioni:
•
Nel caso particolare di metrica M = I e di punti privi di massa si avrà in particolare che
il sottospazio a q dimensioni che meglio approssima la nuvola di punti nel senso dei
minimi quadrati sarà generato dai primi più grandi autovettori della matrice
l’equazione agli autovalori che dovrà essere risolta sarà allora:
•
L’analisi sarà quindi basata sulla diagonalizzazione della matrice
e alla ricerca
della base rispetto alla quale la matrice di partenza assume forma diagonale.
Geometricamente questo corrisponde ad effettuare una rotazione degli assi attorno
all’origine O e fornisce un sistema di coordinate i cui assi passano il più vicino
possibile attorno alla nuvola di punti;
In
,
è l’ -esimo asse fattoriale; il vettore delle coordinate
delle unità su
quest’asse è:
e costituisce l’ -esima componente principale o fattore dello spazio dei caratteri;
87
•
Si è detto che la quantità
rappresenta l’inerzia della nuvola dei punti pesati lungo
l’asse di massima dispersione, l’asse fattoriale u. I p autovettori di A definiscono gli
assi principali d’inerzia della nuvola dei punti e la somma degli autovalori, ossia la
traccia di A, fornisce quindi l’inerzia totale della nuvola:
Poiché VM è una matrice M-simmetrica, vale a dire
, i suoi autovalori
sono reali e, se si assume che sia semidefinita positiva, sono anche non negativi. Si indichino
con:
tali autovalori posti in ordine decrescente e con:
gli autovalori differenti tra di loro cui competono le rispettive molteplicità:
A ciascun autovalore
corrisponde il rispettivo autospazio
E’ dunque possibile determinare una base ortonormale di
di dimensione
, da cui:
:
scegliendo arbitrariamente, da ogni autospazio
versori M-ortogonali.
Ovviamente, lo scopo di questa analisi è di individuare fra tutte le possibili basi quella che
sia costituita da quei vettori fra i quali i primi q spieghino la massima inerzia, o per meglio
dire, i primi q autovettori che riescono a riassumere la maggiore informazione contenuta nei
dati.
88
4.2.2.5 Ricerca del sottospazio ottimale nello spazio delle unità
Ci si pone ora nello spazio
delle unità. In questo spazio la tavola dei dati X è
rappresentata dai p punti - caratteri le cui coordinate sono le colonne della matrice. Come nel
caso di
, dopo aver dotato lo spazio di una metrica N, si cerca un sottospazio di
, di
dimensione
, che meglio approssimi la nuvola di punti nel senso dei minimi quadrati
Questo equivale ad effettuare lo stesso procedimento eseguito nello spazio
sulla
matrice . Si arriverà allora a dover rendere massimi i quadrati delle p proiezioni dei punti
su v, ossia le p componenti del vettore
. Si deve allora cercare:
avendo posto
.
L’equazione agli autovalori si esprimerà allora come:
Nel caso particolare di metrica N = I e di punti privi di massa si avrà in particolare che
il sottospazio a q dimensioni che meglio approssima la nuvola di punti nel senso dei minimi
quadrati sarà generato dai primi più grandi autovettori della matrice
l’equazione
agli autovalori che dovrà essere risolta sarà allora:
L’analisi sarà quindi basata sulla diagonalizzazione della matrice
di dimensione
n × n, e alla ricerca della base rispetto alla quale la matrice di partenza assume forma
diagonale.
In
, è l’ -esimo asse fattoriale e le coordinate dei caratteri
su tale asse sono:
ossia l’ -esima componente principale dello spazio delle unità.
Osservazioni:
1. L’orientamento degli assi che deriva dalla costruzione è puramente arbitrario in quanto
gli autovettori sono definiti a meno del segno. La figura, che riguarda il caso di tre
89
2.
punti, mostra che, in ogni caso, le orientazioni dei fattori rispettano la forma della
nuvola e quindi anche le distanze fra i punti. Pertanto, ai fini dell’analisi si avrà sempre
un’interpretazione corretta dell’informazione contenuta nella tavola dei dati.
I vettori delle coordinate delle unità e dei caratteri rispettivamente in
e
, hanno
per norma:
(25)
e
4.2.2.6 Elementi supplementari o non attivi
Gli elementi (caratteri e unità) che entrano a far pare della costruzione del sottospazio
di rappresentazione dei dati vengono detti elementi attivi. Può però essere utile rappresentare
in tale sottospazio altri elementi, sia caratteri che unità, detti non attivi o supplementari.
Vengono anche chiamati elementi illustrativi o fuori analisi in quanto, non
partecipando all’analisi, non contribuiscono alla determinazione della soluzione ottimale, ma
saranno utili per l’interpretazione delle nuove dimensioni fattoriali. Infatti, gli elementi
supplementari non intervengono nei calcoli di approssimazione e non partecipano dunque
alla formazione degli assi fattoriali, ma intervengono a posteriori per caratterizzare gli assi.
Allo scopo di posizionare gli elementi illustrativi nella nuvola delle unità o in quella dei
caratteri sarà necessario calcolare a posteriori le loro coordinate sugli assi fattoriali.
Indicata con
la matrice delle unità supplementari e con
la matrice dei caratteri
supplementari, dopo aver determinato gli assi fattoriali
e a partire dalla matrice X delle
unità attive, le coordinate di questi nuovi elementi saranno date da:
Gli elementi attivi, utilizzati per costruire il sottospazio ottimale di rappresentazione
dei dati, devono formare un insieme omogeneo, cioè devono essere sia della stessa natura continui o nominali (perché abbia senso definire la distanza tra due elementi), sia relativi ad
uno stesso tema (si confrontano gli oggetti secondo un certo punto di vista e non utilizzando,
senza differenziazione tutti gli attributi conosciuti). Gli elementi illustrativi non sono invece
90
sottoposti a queste condizioni d’omogeneità.
4.2.3 Analisi in Componenti Principali
L’analisi in componenti principali presenta numerose varianti, a seconda delle
trasformazioni apportate alla tavola dei dati: la nuvola dei punti-unità può essere centrata o
no, ridotta o no. Tra queste varianti, l’analisi in componenti principali normata (nuvola
centrata-ridotta) è certamente la più utilizzata ed è quella che verrà descritta.
Si è detto che ciò è equivalente a scegliere come metrica M la matrice diagonale
, i cui elementi diagonali sono gli inversi delle varianze dei caratteri.
Si indicherà con R la matrice dei dati e con X la matrice trasformata, ottenuta a partire
da R. Per quanto prima dimostrato, le distanze fra le unità standardizzate, potranno essere
calcolate come se lo spazio fosse dotato della metrica I, ossia:
4.2.3.1 Analisi della nuvola delle unità
D’ora in poi si considererà la nuvola delle n unità non ponderata ossia la matrice dei
pesi sarà la matrice identità. Si cerca nello spazio dei caratteri, di approssimare la nuvola
delle n unità con un sottospazio ad una, poi a due dimensioni, in modo tale da ottenere su un
grafico, al più bidimensionale, una rappresentazione, la più fedele possibile, delle prossimità
esistenti tra le n unità rispetto ai p caratteri.
4.2.3.2 Principio di approssimazione
Lo scopo dell’analisi in questo caso non è quello di massimizzare la somma dei quadrati
delle distanze dall’origine, ma la somma dei quadrati delle distanze fra tutte le coppie
d’unità:
Ciò significa che la direzione di massima dispersione
non deve necessariamente passare
dall’origine, come invece accadeva per la retta
nell’analisi generale.
91
Figura 4 - Retta d’adattamento di una nuvola di n punti
Si vuole far vedere che, tramite un’opportuna trasformazione dei dati, ci si riduce
nuovamente all’analisi generale. Siano e
i valori delle due proiezioni dei punti-unità
su . Considerando la quantità che deve essere massimizzata si ha:
dove
indica la media delle proiezioni delle n unità, cioè:
e, per semplicità, s’è indicata con d la metrica associata ad I. Tale punto corrisponde alla
proiezione su
del centro di gravità G della nuvola di punti, la cui j - esima coordinata
vale:
Figura 5 - Proiezione su
92
Si avrà allora:
Il criterio di massimizzazione sarà allora equivalente a:
Dato che la matrice X è la matrice dei dati standardizzati, il baricentro G coincide con
l’origine del sistema di riferimento. La quantità da massimizzare sarà nuovamente la somma
dei quadrati delle distanze dall’origine e ci si è quindi ricondotti all’analisi generale in
.
4.2.3.3 Metrica di
Si considera il caso in cui si voglio far giocare un ruolo identico ad ogni carattere nella
definizione di distanza fra le unità; dovrà allora essere effettuata un’analisi normata, ossia
in cui la matrice dei dati sarà centrata e ridotta. In tal caso la distanza adottata sarà:
dove
indica lo scarto quadratico medio del carattere j:
e
è il termine generale della matrice trasformata. In tal modo tutti i caratteri sono confrontabili
ed hanno tutti varianza 1.
Tale trasformazione, a livello geometrico, è equivalente ad effettuare una traslazione
dell’origine portandola nel baricentro (mantenendo l’orientamento degli assi) e ad un
93
cambiamento di scala su tutti gli assi.
L’analisi generale della tavola X trasformata prosegue ora con la diagonalizzazione
della matrice
il cui termine generale
è:
ossia:
Ricordando il valore del coefficiente di correlazione empirico tra i caratteri
e
si ha che:
e quindi la matrice A da diagonalizzare non è altro che la matrice di correlazione.
Osservazione: Se si considera il caso di un’analisi non normata in cui la nuvola delle unità
pesanti nello spazio
sia centrata nel baricentro G, la tabella iniziale dei dati R verrà
sottoposta a diverse trasformazioni: si costruisce la matrice X dei dati centrati ed a ogni unità
si attribuisce un peso attraverso gli elementi non nulli di una matrice diagonale N.
La matrice dei dati su cui verrà effettuata l’analisi sarà allora la matrice Z:
dove con
si intende la matrice diagonale i cui elementi sono le radici quadrate degli
elementi di N. La matrice da diagonalizzare diverrà allora la matrice d’inerzia:
il cui termine generale è pari a:
In particolare se le masse rappresentano delle frequenze, allora la matrice da
94
diagonalizzare altro non è che la matrice delle covarianze.
4.2.3.4 Coordinate delle unità sugli assi fattoriali
Come nel caso dell’analisi generale le coordinate degli n punti sull’ -esimo asse
fattoriale
saranno date dal vettore:
o, esplicitamente per ogni unità:
Essendo i caratteri centrati, la media su un fattore risulta essere nulla
varianza è pari a
.
e la
Osservazione: Nel caso di analisi centrata ma non ridotta (analisi non normata) le
componenti di ogni unità sull’ -esimo asse saranno date da:
e si avrà (si vedano le relazioni nel paragrafo 4.2.2.4) :
4.2.3.5 Analisi della nuvola dei caratteri
Nell’analisi generale si è visto che effettuando la ricerca delle direzioni di massima
dispersione in uno spazio, implicitamente si effettua la ricerca anche nell’altro ed si era
sottolineato la simmetria delle due analisi. Nel caso di analisi normata però la trasformazione
dei dati viene effettuata solo in base ai caratteri e quindi non ci sarà più simmetria di ruoli
fra le righe e le colonne della matrice.
Si vuole ora vedere come si riflette nello spazio
l’aver scelto l’origine delle
coordinate nel baricentro.
95
4.2.3.6 Metrica di
Anche in tal caso, essendo i dati standardizzati, la metrica N diviene la metrica I e
quindi la distanza fra due caratteri
e
è data da:
e, ricordando che:
si ha:
dove con
si è indicato il coefficiente di correlazione fra i due caratteri. Da questo segue
la relazione che lega la distanza in
fra due punti carattere e il coefficiente di correlazione
fra i caratteri stessi:
che implica:
96
Figura 6 - Sistema d’associazioni tra due punti caratteri
Nel caso di analisi normalizzata le varianze dei caratteri sono unitarie e quindi i vettori
ad essi associati sono a distanza 1 dall’origine degli assi. Nello spazio
i punti ad essi
associati saranno situati quindi su un’ipersfera di raggio 1. È per tale motivo che l’analisi
nello spazio delle unità viene effettuata rispetto all’origine e non rispetto al baricentro.
Dalla definizione di prodotto scalare fra due vettori segue inoltre che il coseno
dell’angolo fra due vettori - caratteri è pari al loro coefficiente di correlazione, infatti:
La distanza fra due punti varierà allora fra 0 e 2, in funzione del valore del coseno
dell’angolo e quindi in funzione della loro correlazione.
Si deduce quindi che due caratteri fortemente correlati sono molto vicini (
) se
la relazione che le lega è diretta oppure sono al massimo della distanza se la relazione è
inversa (
). Se invece sono incorrelati, e quindi ortogonali (
), allora si trovano
a distanza media. Le prossimità tra punti - carattere s’interpretano dunque in termini di
correlazione.
97
Figura 7 - Correlazioni e distanze tra punti - caratteri
In questo caso l’analisi non si fa rispetto al baricentro della nuvola dei punti - carattere,
ma contrariamente a quanto fatto in precedenza, si fa rispetto all’origine.
La distanza d’un carattere dall’origine O è espressa da:
Tutti i punti-caratteri sono, come già detto, su una ipersfera di raggio 1 centrata nell’origine
degli assi, la sfera delle correlazioni.
I piani fattoriali intersecheranno la sfera secondo grandi cerchi (di raggio 1), i cerchi
delle correlazioni, all’interno dei quali si troveranno le proiezioni dei punti-caratteri.
Figura 8 - Rappresentazione della sfera e del cerchio di correlazione
Osservazione: La trasformazione dei dati
geometrici profondamente differenti.
ha nei due spazi significati
98
Si considera per semplicità la trasformazione che porta ad avere dati centrati
In
questa trasformazione è equivalente ad una traslazione dell’origine degli assi nel
baricentro della nuvola delle unità.
Figura 9 - Trasformazione in Ap
In
, invece, questa trasformazione è una proiezione parallelamente alla prima
bisettrice degli assi sull’iperpiano ad essa ortogonale2.
Trasformazione in
Osservazione: Nel caso di analisi centrata la matrice su cui verrà fatta l’analisi è la matrice
Z il cui termine generico è:
dove:
2
La matrice P associata a questa trasformazione ha per termine generale
dove
ortogonale.
99
è il simbolo di Kronecker. P è una matrice
La distanza indotta fra due caratteri sarà allora data da:
Essa è quindi funzione della varianza dei due caratteri (aumenta all’aumentare di esse)
e della loro covarianza (diminuisce all’aumentare di essa).
Inoltre la distanza di un carattere dall’origine degli assi è pari alla sua varianza:
Conseguentemente, per l’analisi in componenti principali non normate, la sfera di
correlazione non è più lo spazio di partenza.
4.2.3.7 Coordinate dei caratteri sugli assi fattoriali
Nello spazio generato dai caratteri la componente dell’i-esimo carattere sull’ -esimo
asse fattoriale sarà pari a:
4.2.3.8 Unità supplementari
È spesso utile convalidare l’interpretazione della struttura individuata nella matrice dei
dati con l’ausilio di elementi illustrativi. Il loro utilizzo ha diverse implicazioni; in particolare
consente di integrare l’analisi basata su informazioni quantitative con informazioni di tipo
qualitativo.
La tavola R dei dati viene allora completata in riga dalla matrice delle unità illustrative
di dimensioni
. Dato che sulla tavola R si è effettuata una trasformazione altrettanto
dovrà essere fatto su , in modo da rendere i dati confrontabili. La tavola ottenuta verrà
indicata con .
100
Per poter rappresentare gli individui illustrativi nello spazio
è necessario
posizionarli rispetto al baricentro della nuvola e dividere le loro coordinate per lo scarto
quadratico medio (precedentemente calcolati per le n unità). La trasformazione da effettuare
sarà quindi:
e quindi le coordinate dei nuovi punti-unità saranno le righe del vettore:
Per ottenere le coordinate di tutte le unità (attive e non) si può definire la matrice
e quindi le coordinate delle unità saranno date da
.
4.2.3.9 Relazione fra gli autovalori delle due matrici d’inerzia
Nel caso dell’analisi delle componenti principali, le due matrici d’inerzia A e B,
divengono:
e quindi le due equazioni agli autovalori saranno:
(26)
dove con U e V si sono indicate le matrici degli autovettori rispettivamente di
e
mentre e sono le matrici che hanno sulle diagonali principali gli autovalori di
ordinati in modo non crescente.
Moltiplicando a sinistra la seconda delle relazioni (26) per
s’ottiene:
101
,
e
Questa relazione mostra che ad ogni autovettore di
, relativo all’autovalore non nullo
, corrisponde l’autovettore
della matrice
relativo allo stesso autovalore .
Analogamente, moltiplicando a sinistra la prima delle relazioni (26) per X s’ottiene:
Come prima, si osserva che
è un’autovettore della matrice
relativamente
all’autovalore .
Ciò significa che le due matrici hanno gli stessi autovalori (con la stessa molteplicità) ed
essendo ordinati in modo non crescente in entrambe le matrici e , si avrà:
Ricordando che il vettore
ha per norma
(vedi (25)), il vettore unitario
corrispondente allo stesso autovalore
è allora facilmente calcolabile in funzione di
. Si hanno infatti le seguenti formule di transizione :
cioè:
poiché
.
4.2.3.10 Il modello di ricostruzione dei dati
(a) Ricostruzione esatta
Si considera l’equazione agli autovalori
nello spazio delle variabili. Dato
che U è una matrice ortogonale, moltiplicando a destra l’equazione agli autovalori per ,
si ha:
102
Se s’indica con
la matrice
dato che risulta
:
si ha che:
Questa formula, detta formula di ricostruzione dei dati, permette allora di ricostruire
la tavola dei dati di partenza attraverso gli autovalori
e gli autovettori
ad esso
associati.
Esplicitamente tale cosa si descrive considerando la prima delle precedenti formule di
transizione scritta come:
Postmoltiplicando entrambi i membri della precedente espressione per
e sommando su tutti i valori di
si ha:
si ha
L’espressione nelle parentesi graffe rappresenta il prodotto scalare tra due vettori ortonormali
103
per cui la formula di ricostruzione diventa:
(27)
(b) Ricostruzione approssimata
Nel caso dell’analisi delle componenti principali normata, la matrice d’inerzia nello
spazio dei caratteri è pari a:
Dato che la traccia di A rappresenta l’inerzia totale della nuvola delle unità e che
,
l’idea è d’approssimare A con una matrice S di rango
.
Si consideri la decomposizione a valori singolari (il teorema verrà enunciato e dimostrato
successivamente) della matrice A:
dove le matrici U e , sono entrambe quadrate d’ordine p. Supponendo di aver ricavato la
miglior approssimazione, con il teorema di Eckart e Young (il teorema verrà enunciato e
dimostrato successivamente), di rango q d’una matrice è data da:
dove con
s’è indicata la matrice composta dalle prime q colonne di U e con
la matrice
diagonale formata dai primi q autovalori di
che possono essere considerati ordinati in
modo non crescente. La matrice X può allora essere approssimata dalla matrice:
Esplicitamente, riprendendo la formula di ricostruzione esatta, poiché si ha che
allora
104
La qualità dell’approssimazione può essere allora valutata considerando la quantità:
Tenendo conto delle espressioni di X e di
s’ottiene:
da cui infine:
Il coefficiente
Essendo:
è minore o uguale ad uno ed è detto tasso d’inerzia spiegata.
esso viene anche detto percentuale di varianza spiegata dai primi q fattori ed, essendo gli
autovalori ordinati in modo non crescente i primi assi spiegheranno una percentuale di
varianza maggiore (o uguale) degli assi successivi.
4.3 La trattazione nuova
In questo paragrafo si vuole discutere il problema della riduzione delle dimensioni
necessaria alla rappresentazione grafica del fenomeno oggetto di studio, utilizzando un
105
approccio nuovo rispetto alla trattazione classica.
Come si è detto lo scopo è quello di rappresentare in un unico sottospazio sia i vettoricarattere che i punti-unità. La ricerca di questo sottospazio passa attraverso la riduzione del
rango di una generica matrice S dei prodotti scalari tra generatori qualsiasi introdotti a priori
e senza alcun legame con la matrice dei dati originaria.
Dal punto di vista analitico, il problema si traduce in questi termini: data una matrice
A di dimensione n × p e rango K, si cerca una matrice B di rango k < K che meglio
approssima la matrice A e lo si chiamerà problema della riduzione del rango.
L’approssimazione è fatta nel senso dei minimi quadrati ovvero, definita una norma tra
matrici, si cerca di rendere minima la quantità
In definitiva, il problema della riduzione del rango sussiste ogni qualvolta l’ordine della
matrice simmetrica da cui si parte è strettamente maggiore della dimensione dello spazio
minimo in cui si intende rappresentare i vettori e/o punti.
Si suppone d’avere uno spazio vettoriale V di dimensione n, su cui sia definito un
prodotto scalare che si indicherà con
. Fissata una base
di V, a tale
prodotto rimane associata la matrice
che rappresenta il prodotto scalare rispetto ai vettori della base E. Si suppone d’avere un
insieme di k generatori di V,
, con
(dove con (F) s’indica il
sottospazio generato da F) e si suppone di conoscere la matrice S (simmetrica) dei prodotti
scalari fra di essi:
Il problema che ci si pone è di risalire alla dimensione di V senza conoscerla a priori
e di determinare una base ortogonale per poter rappresentare i vettori caratteri e/o i punti
unità e/o le relazioni tra essi in forma cartesiana.
106
Per ottenere una base ortogonale che sia indipendente dalla scelta dell’ordine di
costruzione (cosa che non è vera in Gram Smith) si utilizza il teorema spettrale.
Per garantire l’ottimalità della costruzione di tale base si utilizza poi il criterio di
approssimazione di Eckart e Young.
Procedendo in tale modo, la base ortogonale dello spazio V si identifica con l’insieme
degli autovettori associati agli autovalori non nulli ottenuti diagonalizzando S. In particolare
il rango della matrice S fornisce la dimensione cercata dello spazio V.
Poiché la dimostrazione del teorema di Eckart e Young fa uso di decomposizioni
matriciali, proprietà e teoremi vari, per non appesantire il discorso, si articolerà il paragrafo
nei seguenti sotto paragrafi:
1.
2.
3.
proprietà e nozioni di algebra lineare;
Teoremi di decomposizione;
Teorema di Eckart e Young.
4.3.1 Proprietà e nozioni di algebra lineare
Siano
,
e
tre matrici assegnate di dimensione n × p.
Definizione 4.3.1.1
Il prodotto scalare tra A e B è dato dalla seguente funzione numerica dei suoi elementi:
Questa funzione ha tutte la proprietà del prodotto scalare tra vettori:
•
•
•
•
;
;
h è un numero;
se
< A, A > > 0 se A … 0.
Si denota con
A e B.
Siano:
= < A, A > la lunghezza della matrice A e con
107
la distanza tra
•
•
•
F, G, U matrici di dimensione n × n;
D, E, V matrici di dimensione p × p;
A, B matrici di dimensione n × p e A’ e B’ le loro trasposte di dimensione
p × n.
Si useranno le seguenti proprietà:
P1)
P2)
P3)
.
.
.
Dalle P2) e P3) segue che:
se U e V sono matrici ortogonali (
), allora
P4)
Tornerà utile il seguente lemma :
Lemma 4.3.1.1
Data una qualunque matrice quadrata A di ordine n, se vale:
per ogni B matrice quadrata di ordine n e antisimmetrica (simmetrica), allora A è simmetrica
(antisimmetrica).
Dimostrazione: Dire che B è antisimmetrica significa che
Dato che:
essendo:
per l’antisimmetria di B.
Sommando membro a membro s’ottiene:
108
dovendo valere per ogni B antisimmetrica dovrà necessariamente essere:
e quindi A è simmetrica.
Analoga dimostrazione vale scambiando A con B.
Teorema 4.3.1.1
Data una matrice A, di dimensioni
, risulta:
#
, ed uno spazio euclideo E di dimensione
(28)
Teorema 4.3.1.2
Sia A matrice reale di dimensione n × p di rango K.
Gli autovalori non nulli delle matrici A’A e AA’ coincidono.
Dimostrazione: Siano
autovettori di A’A corrispondenti agli autovalori
tali da formare una base ortonormale in
. Si ha che
In altro modo,
Confrontando queste ultime due espressioni si ha
Quindi,
se e soltanto se
Poiché
si ha che per
, il vettore
è un autovettore di AA’. Quindi se un autovalore non nullo
della matrice A’A è associato all’autovettore , allora lo stesso è autovalore di AA’ ed
è associato all’autovettore
. Allora, si può concludere che lo spettro della matrice A’A è
109
contenuto in quello della matrice AA’. L’inclusione inversa è ottenuta cambiando il ruolo di
A e A’.
Poiché nel lemma precedente si è dimostrato che K = rg(A) = rg (A’A) = rg (AA’), ne
consegue che gli autovalori coincidenti saranno esattamente K.
Teorema 4.3.1.3
Sia U una matrice quadrata di ordine n a valori reali.
U è ortogonale se e soltanto se le sue colonne, viste come vettori di
base ortonormale in
.
Dimostrazione: C.N.- Se i vettori
colonne di U allora
, costituiscono una
è una base ortonormale e costituiscono le
C.S. - Se U è unitaria, è anche invertibile, e le sue colonne date dai vettori
sono linearmente indipendenti, inoltre
Questo dimostra che i vettori
rappresentano una base ortonormale di
.
Teorema 4.3.1.4
Se
sono autovettori ortonormali di A’A corrispondenti ad autovalori non nulli
allora
sono autovettori ortogonali di AA’ corrispondenti agli stessi
autovalori. Analoga cosa si ottiene sostituendo A con A’.
Dimostrazione: Se
sono autovettori di A’A allora
(29)
moltiplicando a destra per A si ha
110
e cioè
Poiché
allora
sono autovettori di AA’.
sono ortonormali si ha, considerando la (29) che
sono ortogonali.
Osservazione: Siano
gli autovalori non nulli comuni di A’A e AA’ e sia
base ortonormale di A’A corrispondente a questi autovalori. Si è dimostrato che
sono autovettori di AA’ corrispondenti agli stessi autovalori.
Volendo normalizzare
si ha
da cui
(30)
Per la formulazione della metodologia di risoluzione del problema si utilizzeranno anche le
seguenti nozioni.
Definizione 4.3.1.2
Una trasformazione lineare infinitesima è definita come una trasformazione la cui matrice
associata è
dove con
s’è indicata una quantità infinitesima del primo ordine.
Il prodotto di due trasformazioni lineari infinitesime è ancora una trasformazione
lineare infinitesima e il prodotto non dipende dall’ordine dei fattori. Infatti se
e
sono due matrici infinitesime allora:
dove s’è tenuto conto del fatto che
tale, può essere trascurato.
è un infinitesimo d’ordine superiore al primo e, come
111
Inoltre, la matrice inversa d’una matrice infinitesima
Infatti:
è
.
dove il termine
può essere trascurato e, tenendo conto del fatto che il prodotto non
dipende dall’ordine dei fattori, segue anche che
.
Si supponga ora che la trasformazione lineare infinitesima A debba essere ortogonale.
Ovviamente anche l’applicazione trasposta di una trasformazione infinitesima è infinitesima.
Imponendo che sia
si ricava:
da cui segue che:
che in termini di singoli elementi della matrice B può essere scritta come:
ossia la matrice B dev’essere antisimmetrica. Da ciò segue che la matrice
antisimmetrica.
sarà ancora
Osservazione 4.3.1.1: Si consideri ora una matrice ortogonale X e si suppone che essa
subisca un incremento infinitesimo in modo da trasformarsi in una matrice
ortogonale. In base alle considerazioni precedenti la matrice B dovrà essere antisimmetrica
e quindi, l’incremento subito dalla matrice X sarà:
dove S è una matrice infinitesimale antisimmetrica.
~
4.3.2 Teoremi di decomposizione
Teorema 4.3.2.1 (di decomposizione a valori singolari)
Sia A una matrice di dimensione n × p e di rango K. Esistono allora una matrice
ortogonale U di dimensione n × n, una matrice ortogonale V di dimensione p × p ed una
matrice diagonale 3 di dimensione n × p, tali che:
3
Una matrice
.
quadrata o rettangolare si dice diagonale se
112
(31)
dove gli elementi della diagonale di possono essere permutati in modo da essere non
crescenti; ogni elemento della diagonale di
è non negativo ed esattamente K di essi sono
strettamente positivi.
Gli elementi della diagonale sono detti valori singolari della matrice A.
Dimostrazione: Si ricorda innanzi tutto che A’A e AA’ matrici quadrate di ordine n e p
rispettivamente, hanno gli stessi autovalori non nulli (teorema 4.3.1.2) e, senza perdere di
generalità, si suppone che K < n # p.
Siano
gli autovalori comuni di A’A e AA’ e siano
e
basi ortonormali, rispettivamente di A’A e AA’.
Dall’osservazione al teorema 4.3.1.4 si ha
(32)
mentre dal teorema 1.3.1.3 si può affermare che
colonne delle matrici ortogonali
Dalla (32) si ha
con
e
rappresentano le
dove si è posto
cioè

Teorema 4.3.2.2
Siano A e B due matrici reali quadrate simmetriche di ordine n. Condizione necessaria
e sufficiente affinché AB = BA è che esista una matrice ortogonale U di ordine n ed esistono
due matrici diagonali reali
di ordine n, tali che
113
Dimostrazione: C.N. - Poiché per ipotesi si ha
allora
da cui
essendo
, in quanto
e
sono diagonali.
C.S. - Siano AB = BA e x un autovettore di B relativo all’autovalore , sia cioè Bx = x.
Moltiplicando a sinistra per A si ottiene ABx = xA; per ipotesi AB = BA, quindi BAx =
Ax, cioè Ax è autovettore di B associato allo stesso autovalore .
A questo punto si distinguono due casi:
•
•
Se è autovalore di molteplicità 1, l’autospazio associato a ha dimensione 1 e quindi
gli autovettori ad esso corrispondenti sono tutti multipli tra loro. Ne segue che Ax = cx,
dove c è un coefficiente di proporzionalità non nullo, cioè x è anche autovettore di A;
Se ha molteplicità h, sia
una base dell’autospazio corrispondente, formata
da autovettori di B:
per i = 1, ... , h. Ricordando che x e Ax sono autovettori
di B associati a si ha:
(33)
dove per l’arbitrarietà di x i coefficienti possono essere scelti tutti non nulli.
Moltiplicando l’ultima espressione per A si ha:
(34)
Poiché gli autovettori sono indipendenti, dal confronto della prima nella (33) e della (34)
si ha
, per ogni i, da cui
114
Si conclude quindi che ogni
è anche autovettore della matrice A, associato all’autovalore

Teorema 4.3.2.3
Siano A e B due matrici reali di dimensione n × p. Condizione necessaria e sufficiente
affinché AB’ e B’A siano entrambe simmetriche è che esistano:
1. una matrice ortogonale U di ordine n;
2. una matrice ortogonale V di ordine p;
3. due matrici diagonali
di dimensione n × p;
tali che
Dimostrazione: C.N. - Se
e
allora
Poiché
allora AB’ = BA’ e cioè la matrice AB’ è simmetrica.
Analogamente risulta simmetrica la matrice B’A.
C.S. - Per ipotesi AB’ e B’A sono simmetriche, per cui risulta: AB’= BA’ e B’A = A’B.
Si considerino le seguenti uguaglianze:
AA’BB’= A(A’B)B’= A(B’A)B’= (AB’)(AB’)
= (BA’)(BA’)= B(A’B)A’= B(B’A)A’= BB’AA’
quindi le matrici AA’ e BB’ commutano. Per il teorema precedente esiste una matrice
ortogonale U di ordine n ed esistono due matrici diagonali
di ordine n × p tali che:
(35)
115
Allo stesso modo A’A e B’B commutano e quindi esiste una matrice ortogonale V di ordine
p tale che:
(36)
dove
sono le stesse matrici diagonali che decompongono AA’ e BB’ (perché AA’ e
A’A hanno gli stessi autovalori non nulli come pure BB’ e B’B, vedi teorema 4.3.1.2).
Dunque si deduce, applicando il teorema 4.3.2.1, che
.

Per una diversa dimostrazione di questo teorema si rimanda il lettore interessato a
Eckart e Young, 1939.
4.3.3 Il teorema di Eckart e Young
Teorema di Eckart e Young 4.3.3.1
Sia A una matrice a coefficienti reali di dimensione n × p e rango K e sia
la sua
decomposizione a valori singolari dove i
sono ordinati in modo decrescente. Allora la
matrice B di rango k < K tale che
è data da
•
•
•
con
,data dalle prime k colonne di U ;
, data dalle prime k righe e colonne di
, data dalle prime k righe di V’.
;
Dimostrazione: Si chiameranno elementi di una matrice le sue righe o colonne. La distanza
di B da A è data da
(37)
Gli elementi di B non sono tutti indipendenti poiché si richiede che il suo rango sia
minore del numero delle sue righe e delle sue colonne, ma anche strettamente minore del
rango della matrice A.
Il teorema di decomposizione a valori singolari ci permette di non considerare gli
116
elementi dipendenti: si suppone di scrivere B nella forma data dal teorema 4.3.2.1
(38)
con matrice diagonale di dimensione n × p e U e V matrici ortogonali di ordine n e p
rispettivamente. Allora il rango di B sarà k se e soltanto se ha rango k cioè, se soltanto k
degli elementi diagonali di sono diversi dallo zero; gli elementi non nulli di saranno
indipendenti. Comunque, gli elementi di U o V non saranno indipendenti, poiché queste
matrici devono essere ortogonali.
L’ incremento della matrice U ortogonale è dato da
(39)
dove S è una matrice antisimmetrica i cui elementi sono infinitesimali ma arbitrari.
Dalla proprietà P4) del paragrafo 4.3.1 e dall’equazione (38), l’equazione (37) diventa
Poiché
deve essere un minimo, segue che
con l’incremento di U dato dalla (39). Quindi
Poiché S è un’arbitraria matrice antisimmetrica segue che AB’deve essere simmetrica (lemma
4.3.1.1).
Calcolando l’incremento di V, alla stessa maniera, si troverà che anche B’A deve essere
simmetrica, e quindi, dal teorema 4.3.2.1, le matrici ortogonali possono essere determinate
in modo tale che l’equazione (38) e
(40)
sono entrambe valide.
Allora l’equazione (37) diventa
117
dove t = min (n, p) > k,
sono gli elementi diagonali delle corrispondenti matrici.
Rimane da determinare la matrice in modo tale che il quadrato di
sia minimo,
soggetto alla condizione che solo k degli
siano differenti da zero, perché si vuole
un’approssimazione di rango k.
Si può supporre che
allora l’ovvia soluzione del problema è
Questa è anche la sola soluzione a meno che
e la soluzione non sarebbe unica.
Se
si potrebbe scegliere anche
La procedura per trovare B può essere riassunta nel seguente modo:
1.
2.
3.
si esprime A mediante la decomposizione a valori singolari;
si sostituiscono con zeri tutti gli elementi della diagonale di , tranne k, cominciando
dai più piccoli e continuando in ordine di grandezza crescente;
la matrice risultante è , mentre B è data dall’equazione (38).
La soluzione è unica a meno di
; il valore minimo di
è

Osservazione 4.3.3.1
1. L’obiettivo dell’approssimazione è stato quindi raggiunto ma un’ulteriore importante
conclusione è che se B è la migliore approssimazione (di rango k) per A, allora BB’
(B’B) sarà anche la migliore approssimazione (di rango k) per AA’ (A’A), giacché hanno
gli stessi autovalori. Quindi se la migliore approssimazione B della matrice A è stata
trovata allora la matrice B’B sarà la migliore approssimazione della matrice A’A;
2. Se S è simmetrica e definita positiva V = U, la decomposizione a valori singolari di S
coincide con la decomposizione spettrale;
118
3.
4.
Supponendo che S sia definita positiva
, le colonne della matrice U
rappresentano le componenti degli autovettori rispetto ai generatori, mentre le righe
sono le componenti di ogni generatore rispetto agli autovettori in quanto U è unitaria
e quindi la sua matrice trasposta coincide con la sua inversa e realizza il cambiamento
di coordinate inverso;
Dal fatto che le righe di U rappresentano le componenti di ogni generatore si ha che
dove con
si è indicato il generatore i-esimo e
è la riga i-esima di U.
Contributo relativo
Si definisce contributo relativo dell’autovettore
al generatore
la quantità
e la radice quadrata di tale quantità definisce il coseno dell’angolo tra il generatore e
l’autovettore
Coordinate e Qualità della rappresentazione considerando X
Se si considera la matrice dei dati X e si considerano le sue righe come le coordinate
delle unità su ogni generatore (carattere), le coordinate di tali unità sugli autovettori saranno
date dalle righe della matrice XU.
Si definisce qualità della rappresentazione sull’i-esimo asse la quantità
dove
è l’i-esimo autovettore nonché l’i-esimo asse fattoriale.
Osservazione
Se S è definita a partire dalla matrice X e cioè, si può scegliere S = X’X , la base del
sottospazio sarà costituita dagli autovettori della matrice ridotta
ovvero dalle colonne
della matrice ortogonale secondo la decomposizione a valori singolari di
119
4.4 Limiti e vantaggi nelle due trattazioni
La trattazione classica, sebbene risulti vantaggiosa ai fini interpretativi (come mostrato
più avanti), presenta tuttavia delle limitazioni, dovute sostanzialmente al fatto che non c’è
a priori alcuna giustificazione per associare gli assi ortogonali di uno spazio cartesiano
multidimensionale ad unità o caratteri, dal momento che essi che non sono in genere
indipendenti.
Caratteri diversi possono essere infatti correlati in modo tale da concorrere ad uno
stesso effetto nel fenomeno studiato; il carattere reddito, ad esempio, ed il carattere consumi
non sono indipendenti, nel senso che a redditi più elevati corrispondono consumi maggiori:
nello studio del tenore di vita degli abitanti di una città, i due caratteri daranno un tipo di
informazione fortemente correlato.
L’assunzione di indipendenza è invece accettabile per le unità, poiché in un
campionamento le unità statistiche devono essere scelte rispettando il criterio secondo cui
non devono esistere fra esse relazioni di alcun tipo, se non quelle che le caratterizzano come
appartenenti alla stessa popolazione oggetto di studio.
L’analisi è quindi intesa ad evidenziare le eventuali relazioni di dipendenza esistenti
tra i caratteri, ed a stabilire in quale misura essi concorrano al fenomeno studiato, nell’ipotesi
di indipendenza delle unità.
Da una parte, quindi, si può conservare il modello ortogonale per la rappresentazione
dei caratteri in uno spazio cartesiano in cui ogni asse coordinato è associato ad una unità;
eventuali relazioni di dipendenza (spaziale, temporale...) tra le unità non vengono comunque
considerate. Dall’altra parte, sembra invece più corretto un punto di vista secondo il quale,
gli p caratteri vengono associati ad un sistema di generatori di un sottospazio di
, e non
una sua base ortogonale.
Nella trattazione nuova, si suppone inizialmente di non conoscere la matrice dei dati, ma
le mutue posizioni dei vettori associati ai caratteri attraverso una matrice S quadrata di ordine
p di prodotti scalari di rango
, simmetrica e semidefinita positiva, tale che il coseno
dell’angolo
formato dai vettori corrispondenti ai caratteri i-mo e j-mo e dato da , avendo
indicato con
l’elemento generico della matrice S.
La matrice S ammette una decomposizione spettrale
con
e
; in base al teorema di Eckart-Young, tale
120
decomposizione è ottima nel senso che, fissato
, la matrice
con
è la migliore approssimazione di rango k per la matrice S. Le
direzioni individuate dalle prime colonne della matrice U, corrispondenti agli autovettori di
S e dette assi fattoriali, sono cioè le direzioni ottimali di rappresentazione, nell’ordine di
importanza decrescente dato dai rispettivi autovalori e ortogonali per costruzione. Ne segue
che il miglior sottospazio k-dimensionale per la rappresentazione dei dati, nel quale sia
minima la perdita di informazione, è quello generato dagli autovettori di S associati ai primi
k autovalori più grandi.
Ogni vettore-riga della matrice U viene associata ad un carattere; poiché gli assi fattoriali
sono due a due ortogonali, ogni vettore-carattere si decompone nella somma delle sue
proiezioni sui diversi assi fattoriali. Il coseno dell’angolo formato da un vettore-riga
(associato ad un carattere) ed un asse fattoriale (un autovalore) assume quindi il senso di
contributo del fattore a quel carattere
Si è definito quindi contributo del k-esimo autovettore al generatore i-esimo la quantità,
che esprime il quadrato del coseno dell’angolo formato dal vettore-riga i-esimo con
l’autovettore k-esimo avendo indicato con
la riga i-ma della matrice U (generatore iesimo).
Dalla conoscenza della sola matrice S dei prodotti scalari tra i caratteri non è possibile
ricavare ulteriori informazioni oltre alle direzioni ottimali di rappresentazione ed ai contributi
relativi; in particolare non è possibile ricavare alcuna informazione riguardo alle unità.
Si supponga ora che invece sia nota la matrice dei dati X; è allora possibile ottenere,
dalle righe della matrice
, le componenti dei vettori che rappresentano le unità rispetto
agli assi fattoriali.
Come detto in precedenza, si ha che la qualità della rappresentazione delle unità
sull’asse fattoriale k-esimo è data dalla quantità
avendo indicato con
X).
(per
) la k-esima colonna della matrice U (autovettore di
121
Se poi si assume come prodotto scalare la matrice
, che si origina dai dati
stessi, si ottiene di nuovo, come caso particolare, il modello ortogonale descritto all’inizio.
Ha senso allora parlare di contributi assoluti dei vettori-caratteri agli assi fattoriali, in quanto
ogni autovettore unitario di S corrispondente ad una colonna della matrice U, si decompone
in maniera ortogonale rispetto ai vettori-caratteri; in un modello in cui i caratteri siano
associati a vettori non ortogonali, invece, non ha senso definire i contributi assoluti rispetto
ad un insieme di direzioni linearmente dipendenti, associate a caratteri più o meno correlati
tra loro e che concorrono ad uno stesso effetto.
Più esattamente, come si è detto prima, il contributo assoluto del carattere i-esimo
all’asse fattoriale k-esimo è dato da
(dove si è indicato con
il peso assegnato al carattere i-esimo), che esprime il coseno
dell’angolo formato dal vettore associato al carattere i-esimo e dall’autovettore j-esimo.
È interessante, infine, osservare che, considerando la matrice
(in luogo della
) che esprime i prodotti scalari tra le unità, allo stesso modo si definiscono i
contributi assoluti delle unità agli assi fattoriali, visti però non più nello spazio dei caratteri,
ma nello spazio delle unità.
Poter definire i contributi assoluti dei caratteri (o delle unità) agli assi fattoriali è utile
ai fini dell’interpretazione dei risultati. possono infatti essere individuati quegli elementi che
maggiormente pesano nella costruzione di un asse fattoriale, al quale può quindi essere
attribuito un certo significato, in base alla natura dei dati in esame. Se, però, un elemento
risulta avere un contributo molto forte ad un asse fattoriale, si può concludere che quell’asse
rappresenta soltanto quell’elemento, e non un’informazione comune a diversi elementi.
L’elemento in questione può dunque essere escluso dall’analisi, o dotato di un peso molto
piccolo, per osservare come si comportano gli altri elementi in sua assenza.
122