Analisi lineari: ACP

Analisi lineari: ACP
Loredana Cerbara
Analisi fattoriali
L’analisi fattoriale appartiene a una famiglia di metodi che utilizza le cosiddette
variabili latenti. Spesso, in particolar modo nelle scienze sociali, non si è in grado di
misurare le grandezze di interesse.
Esempi di tali concetti sono l’intelligenza, l’orientamento politico, lo stato socioeconomico. Sebbene nelle scienze sociali si trattino tali grandezze al pari di
qualunque altra variabile, queste si differenziano perché non possono essere
osservate ed è per questo motivo che sono dette latenti. In alcuni casi, un concetto
può essere rappresentato da un’unica variabile latente, ma spesso essi sono di
natura multidimensionale e per questo motivo possono coinvolgere più di una
variabile latente. Queste variabili latenti sono anche chiamate fattori.
Analisi fattoriali
Nella pratica, può accadere che i metodi di analisi fattoriali non siano adatti ad alcuni
insiemi di dati e, in ogni caso, è il ricercatore stesso a decidere se un’analisi
fattoriale risulta interessante o no. Quindi, l’analisi fattoriale presenta alcuni
aspetti soggettivi per cui tra gli statistici ci sono opinioni contrastanti sulla sua
validità. Talvolta, si individua un numero ridotto di fattori e tali fattori sono di facile
interpretazione. Per altri dati, invece, non sono chiari né il numero dei fattori, né la
loro interpretazione. Quindi normalmente, come peraltro accade anche per altri
metodi di analisi, si procede per tentativi successivi, cercando il sottoinsieme dei
dati migliore possibile (eliminando perciò unità o variabili di distrubo) fino ad
ottenere una situazione chiara e comprensibile. Altrimenti si opta per un altro tipo
di analisi dei dati.
Analisi fattoriali
Nelle scienze sociali esistono alcune situazioni caratteristiche particolarmente adatte a
questo tipo di analisi.
●
●
L’intelligenza. Essa è concepita come un’importante caratteristica dell'individuo posseduta in una certa
misura, grande o piccola che sia. Tuttavia non si tratta di qualche cosa simile al peso o all’età per i quali ci
sono già degli strumenti di misura. Si presume che i valori ottenuti ad una serie di test siano correlati con
una variabile latente che può essere individuata con un’analsi fattoriale.
L’orientamento politico. Descriviamo gli individui come tendenzialmente di destra o di sinistra, oppure
più a destra/sinistra di altri. Implicitamente, in questo linguaggio c’è l’idea che esista una scala lungo la
quale gli individui possano essere posizionati andando dall’estrema sinistra all’estrema destra. Questa è
una scala latente e se si desidera costruire una simile scala saranno necessari opportuni indicatori che
possono essere determinati, per esempio, da un’indagine in cui viene chiesto quali sono gli
atteggiamenti riguardo ad alcune questioni politiche quali la sanità privata, l’educazione privata e i
sindacati.
Analisi fattoriali
●
●
Lo stato socio-economico. Ad esempio per una famiglia, è possibile raccogliere informazioni riguardo a
reddito, occupazione e livello di istruzione dei membri della famiglia, tutti correlati con uno status sociale
che però è latente.
Atteggiamento verso fenomeni sociali e demografici. Si può fare una batteria di domande, ad esempio di
opinione o di comportamento riguardo alcune situazioni reali allo scopo di rilevare la misura di
atteggiamenti non direttamente misurabili.
In ciascuno di questi esempi si può partire da un’idea della variabile latente di
interesse per identificare alcune variabili manifeste che, si crede, rivelino qualche
cosa riguardo la sottostante variabile latente. Talvolta si procede nella direzione
opposta: si parte da un set di dati ampio e si cerca di ridurlo ad un numero più
piccolo di dimensioni senza perdere informazioni essenziali. Quindi l’idea di cosa
rappresenti la variabile latente si forma a posteriori, dopo l’applicazione dell’analisi
fattoriale. Questo secondo approccio è tipico dell’ACP.
Analisi lineari: ACP
Le analisi lineari dei dati, a differenza della cluster analysis, si basano su una
combinazione lineare delle variabili originarie per ottenere delle nuove variabili,
sintesi delle prime, che consentono una specifica interpretazione dei dati. Si
ottengono q variabili a partire dalle k variabili di partenza, dove q<k, perdendo
meno informazione possibile.
Accade spesso, soprattutto nella ricerca sociale, che vengano rilevate molte variabili e
si senta la necessità di sintetizzarle in qualche modo. Quello che ottiene è un
insieme di variabili fittizie, non rilevate direttamente, che però possono essere
interpretate attraverso i risultati dell’applicazione delle analisi lineari.
Il metodo dell’Analisi in Componenti Principali (ACP) è una di queste analisi lineari ed è
stato proposto per primo da Pearson (1901) e affinato da Hotelling (1933)
Analisi lineari: ACP
In termini pratici, si applica ai dati un algoritmo di ACP (presente sui più comuni
software per analisi statistiche) e si generano nuove variabili dette fattori.
L’algoritmo produce anche una matrice di pesi fattoriali rispetto alle variabili
originarie. Tali pesi aiutano ad interpretare i fattori ottenuti in modo da
comprenderne il significato. Inoltre viene prodotta una matrice di coefficienti di
correlazione tra i piani principali e i fattori.
Alcuni software, ad esempio SPSS, forniscono anche le comunalità rappresentano la
quota di varianza di ciascuna variabile spiegata dalle prime k componenti fattoriali
(fattori) e che si ricavano come somma dei quadrati per riga delle correlazioni tra
variabili e fattori.
Analisi lineari: ACP
L’ACP può basarsi sulla matrice delle varianze e covarianze oppure su quella di
correlazione. I risultati saranno diversi a meno che non si parta da variabili
standardizzate. Però la standardizzazione è raccomandata soprattutto quando si
hanno variabili espresse in unità di misura diverse. Quando invece le variabili sono
omogenee ed espresse nella stessa unità di misura è conveniente partire dalla
matrice di varianze e covarianze anche senza standardizzare i dati.
Nelle applicazioni pratiche della ricerca sociale l’ACP, come anche altri metodi analoghi
di analisi fattoriale, il risultato dell’analisi produce la proiezione su piani fattoriali
determinati dai fattori sia delle variabili che hanno effettivamente partecipato alla
determinazione dei fattori stessi, sia di altre variabili che non sono state
considerate ma che erano presenti nella matrice dei dati iniziale. Queste variabili,
quasi sempre di tipo anagrafico e strutturale, si dicono supplementari.
Analisi lineari: ACP
Le variabili dunque si distinguono in variabili attive, che cioè sono utilizzate per la
determinazione dei fattori, e supplementari, o anche dette illustrative, che pur
essendo presenti nella matrice dei dati sono proiettate sui piani fattoriali solo in un
secondo momento.
Questo fatto ha due motivazioni:
● permette di ridurre il numero di variabili effettivamente utilizzate aiutando la
determinazione di fattori dalla struttura più forte ed omogenea;
● consente di sfruttare le informazioni meno determinanti per il fenomeno oggetto
di studio per specificare meglio il significato dei fattori individuati.
Oltre a ciò questa distinzione delle variabili in due tipologie, consente di comprendere
tra le illustrative anche variabili qualitative, escluse dall’ACP, ma proiettabili a
posteriori sui piani fattoriali.
Analisi lineari: ACP
Le componenti principali Yi sono una combinazione lineare delle k variabili (X1, X2, …,
Xk) con coefficienti uguali alle componenti del vettore caratteristico associate agli
autovalori della matrice di varianze e covarianze. Tutti i fattori individuati sono
ortogonali tra loro. Questo vuol dire che i vettori di componenti così determinati
possono essere rappresentati, presi a due a due, su con un piano cartesiano in cui i
due assi sono due dei fattori e sul piano sono proiettati come punti in uno spazio
bidimensionale le variabili originarie.
I fattori principali si individuano sotto il vincolo che la varianza da essi rappresentata
(cioè l’informazione originaria che essi riescono a riassumere) sia massima,
cosicché otteniamo una successione di fattori che rappresentano via via, dal primo
fattore al k-mo, una quantità di varianza originaria sempre inferiore. Si dice che i
fattori spiegano una certa quantità di varianza, ossia di informazione originaria.
Analisi lineari: ACP
AUTOVALORI E AUTOVETTORI
Data la matrice quadrata A di ordine n il prodotto Ax=λ individua un numero
detto autovalore e un vettore x, detto autovettore.
La relazione precedente si può scrivere anche come (A-λI)x=0 che è verificata se e solo
se il determinante della matrice del sistema è nullo e cioè se e solo se (A-λI)=0 che è
detta equazione caratteristica. Essa è un’equazione di grado n nell’incognita λ e gli
autovalori sono le n soluzioni di questa equazione.
2 − λ −2
3
2 −2 3
Esempio. Data la matrice 𝐴 = 1
1
1−λ
1
1 1 l’equazione caratteristica è 𝐴 − λ𝐼 =
−1
1
3
1
3
−1 − λ
Si calcola il determinante che è −λ3 + 2λ2 + 5λ − 6=-(λ-1)(λ+2)(λ-3)=0
Gli autovalori sono le soluzioni di questa equazione cioè λ1 = 1, λ2 = −2, λ3 = 3
Analisi lineari: ACP
Il numero di autovalori è pari al numero di variabili originarie, cosicché l’ACP può
fornire una completa trasformazione della matrice originaria in un insieme di variabili
tutte ortogonali tra loro derivanti dalla combinazione lineare delle variabili di
partenza. Ovviamente ciò ha poco senso, ma tutto assume una validità se si pensa di
considerare solo una parte dei fattori generati da questo algoritmo.
In generale si considerano solo i fattori i cui autovalori sono maggiori di 1
Inoltre si considera un numero di fattori tali che la variabilità spiegata non sia troppo
bassa
Infine si osserva il grafico degli autovalori e si tengono tutti quelli che si trovano prima
che la curva si stabilizzi intorno al valore più basso.
Analisi lineari: ACP
Il momento più delicato è quello dell’interpretazione dei fattori. Infatti, dopo
l’applicazione dell’algoritmo ai dati è essenziale comprendere cosa rappresenti
ogni fattore individuato. Per fare ciò ci si basa su diversi dati:
● si considera la correlazione tra ciascun fattore e le variabili di partenza
● si proiettano sui piani fattoriali anche altre variabili, non inserite nell’analisi, ma
utili per descrivere i fattori e che sono dette variabili supplementari per
distinguerle da quelle attive che formano i fattori
Notiamo che la riduzione delle variabili non ha senso se le variabili rappresentano la
stessa informazione. Per questo spesso si analizza prima di tutto la matrice delle
correlazioni per vedere se ci sono variabili fortemente correlate che rappresentano
la stessa informazione per cui sarebbe più corretto mantenerne solo una. D’altra
parte anche l’assenza di correlazione rende inutile l’ACP
Analisi lineari: ACP
Consideriamo un caso di studio. Supponiamo di avere la seguente rilevazione di performance aziendale su 10
famose aziende
● ECON.PRO -> economic profit,
differenziale tra rendimento del0
capitale investito ed il suo costo
● CASH -> cash flow sul fatturato
in %
● LAVOR.VA -> costo del lavoro
sul valore aggiunto, in%
● ROE -> return on equity, utile
netto sul patrimonio, in%
● INDE.CAP -> indebitamento
sul capitale proprio
● FATTURATO
Analisi lineari: ACP
Dal momento che i dati sono espressi in unità di misura molto diverse, passiamo alla matrice dei dati
standardizzata
Anche l'osservazione della matrice di correlazione è una fase importante: se tutte le variabili fossero non
correlate tra di loro non avrebbe senso procedere con un metodo fattoriale, infatti si avrebbero tante
componenti quante variabili osservate. Se invece alcune sono molto correlate se ne deve prendere una sola.
Dalla tabella si evince come il ROE sia correlato positivamente col Cash Flow e la variabile economic profit,
tuttavia le consideriamo nell’analisi
Analisi lineari: ACP
Si calcolano autovalori, autovettori e si analizzala percentuale di varianza spiegata dagli autovalori attraverso un
istogramma.
Gli autovalori maggiori di 1 in questo caso spiegano il 74,9% della varianza originaria
Analisi lineari: ACP
Per comprendere il ruolo giocato da ogni
variabile nella costruzione dei fattori, e quindi
per avere materiale su cui riflettere per
comprendere il significato degli assi, si può
analizzare la comunalità, che ci dice quanto
ciascuna variabile è correlata con l’asse.
Si può notare che le variabili maggiormente
correlate tra loro sono quelle che determinano
il primo asse. Tale asse è il più importante
perché è quello che riassume la massima
variabilità. E la quantità di variabilità spiegata è influenzabile dalla correlazione tra le variabili orignarie. Le
variabili correlate con il primo asse suggeriscono di interpretare lo stesso come una sintesi di redditività: a
destra vi è una redditività alta, a sinistra una redditività bassa.
Il secondo asse discrimina sull’indebitamento: in alto si posizioneranno le aziende ad alto tasso di
indebitamento, in basso quelle che sono meno indebitate
Analisi lineari: ACP
Sul piano cartesiano i
primi due fattori
rappresentano gli
assi mentre le
variabili sono
proiettate sul piano.
Esse si trovano più
vicine ai fattori a
seconda di quanto
hanno contribuito a
determinarli.
Analisi lineari: ACP
L’interpretazione: Alcune di esse si posizionano in zone diametralmente opposte:
● in basso a destra c’è la Ferrero che risulta essere l’azienda più sana, poiché ha un
indebitamento negativo, quindi fa fronte agli impegni finanziari col capitale proprio, e
una discreta redditività
● nel quadrante in alto a destra, si distingue la Plasmon che se pur fortemente indebitata
ha un’altissima redditività.
● nel quadrante in basso a sinistra sono presenti quelle aziende che operano in mercati
saturi in cui sono leader; inoltre, trovandosi vicino all’origine degli assi fattoriali,
mostrano di aver sotto controllo la situazione finanziaria, ed avendo un indebitamento
negativo hanno a disposizione riserve di capitali pronte per essere utilizzate per far
fronte alle esigenze del mercato o per intraprendere azioni di penetrazioni in business
ad alta redditività
Analisi lineari: ACP
● Infine, in alto a sinistra, troviamo la Parmalat: questa mostra di avere la situazione
peggiore. Ha un forte indebitamento e una redditività negativa, quindi, tale impresa
deve necessariamente ripensare al suo sistema di business per evitare il rischio di
insolvenza
Il caso del crac finanziario della Parmalat, poteva essere evitato o ridimensionato se ci fosse
stata una seria condotta da parte degli analisti finanziari. Infatti, è bastata una semplice
ACP per comprendere il disastro economico e finanziario verso cui la Parmalat si stava
avviando.