Analisi lineari: ACP Loredana Cerbara Analisi fattoriali L’analisi fattoriale appartiene a una famiglia di metodi che utilizza le cosiddette variabili latenti. Spesso, in particolar modo nelle scienze sociali, non si è in grado di misurare le grandezze di interesse. Esempi di tali concetti sono l’intelligenza, l’orientamento politico, lo stato socioeconomico. Sebbene nelle scienze sociali si trattino tali grandezze al pari di qualunque altra variabile, queste si differenziano perché non possono essere osservate ed è per questo motivo che sono dette latenti. In alcuni casi, un concetto può essere rappresentato da un’unica variabile latente, ma spesso essi sono di natura multidimensionale e per questo motivo possono coinvolgere più di una variabile latente. Queste variabili latenti sono anche chiamate fattori. Analisi fattoriali Nella pratica, può accadere che i metodi di analisi fattoriali non siano adatti ad alcuni insiemi di dati e, in ogni caso, è il ricercatore stesso a decidere se un’analisi fattoriale risulta interessante o no. Quindi, l’analisi fattoriale presenta alcuni aspetti soggettivi per cui tra gli statistici ci sono opinioni contrastanti sulla sua validità. Talvolta, si individua un numero ridotto di fattori e tali fattori sono di facile interpretazione. Per altri dati, invece, non sono chiari né il numero dei fattori, né la loro interpretazione. Quindi normalmente, come peraltro accade anche per altri metodi di analisi, si procede per tentativi successivi, cercando il sottoinsieme dei dati migliore possibile (eliminando perciò unità o variabili di distrubo) fino ad ottenere una situazione chiara e comprensibile. Altrimenti si opta per un altro tipo di analisi dei dati. Analisi fattoriali Nelle scienze sociali esistono alcune situazioni caratteristiche particolarmente adatte a questo tipo di analisi. ● ● L’intelligenza. Essa è concepita come un’importante caratteristica dell'individuo posseduta in una certa misura, grande o piccola che sia. Tuttavia non si tratta di qualche cosa simile al peso o all’età per i quali ci sono già degli strumenti di misura. Si presume che i valori ottenuti ad una serie di test siano correlati con una variabile latente che può essere individuata con un’analsi fattoriale. L’orientamento politico. Descriviamo gli individui come tendenzialmente di destra o di sinistra, oppure più a destra/sinistra di altri. Implicitamente, in questo linguaggio c’è l’idea che esista una scala lungo la quale gli individui possano essere posizionati andando dall’estrema sinistra all’estrema destra. Questa è una scala latente e se si desidera costruire una simile scala saranno necessari opportuni indicatori che possono essere determinati, per esempio, da un’indagine in cui viene chiesto quali sono gli atteggiamenti riguardo ad alcune questioni politiche quali la sanità privata, l’educazione privata e i sindacati. Analisi fattoriali ● ● Lo stato socio-economico. Ad esempio per una famiglia, è possibile raccogliere informazioni riguardo a reddito, occupazione e livello di istruzione dei membri della famiglia, tutti correlati con uno status sociale che però è latente. Atteggiamento verso fenomeni sociali e demografici. Si può fare una batteria di domande, ad esempio di opinione o di comportamento riguardo alcune situazioni reali allo scopo di rilevare la misura di atteggiamenti non direttamente misurabili. In ciascuno di questi esempi si può partire da un’idea della variabile latente di interesse per identificare alcune variabili manifeste che, si crede, rivelino qualche cosa riguardo la sottostante variabile latente. Talvolta si procede nella direzione opposta: si parte da un set di dati ampio e si cerca di ridurlo ad un numero più piccolo di dimensioni senza perdere informazioni essenziali. Quindi l’idea di cosa rappresenti la variabile latente si forma a posteriori, dopo l’applicazione dell’analisi fattoriale. Questo secondo approccio è tipico dell’ACP. Analisi lineari: ACP Le analisi lineari dei dati, a differenza della cluster analysis, si basano su una combinazione lineare delle variabili originarie per ottenere delle nuove variabili, sintesi delle prime, che consentono una specifica interpretazione dei dati. Si ottengono q variabili a partire dalle k variabili di partenza, dove q<k, perdendo meno informazione possibile. Accade spesso, soprattutto nella ricerca sociale, che vengano rilevate molte variabili e si senta la necessità di sintetizzarle in qualche modo. Quello che ottiene è un insieme di variabili fittizie, non rilevate direttamente, che però possono essere interpretate attraverso i risultati dell’applicazione delle analisi lineari. Il metodo dell’Analisi in Componenti Principali (ACP) è una di queste analisi lineari ed è stato proposto per primo da Pearson (1901) e affinato da Hotelling (1933) Analisi lineari: ACP In termini pratici, si applica ai dati un algoritmo di ACP (presente sui più comuni software per analisi statistiche) e si generano nuove variabili dette fattori. L’algoritmo produce anche una matrice di pesi fattoriali rispetto alle variabili originarie. Tali pesi aiutano ad interpretare i fattori ottenuti in modo da comprenderne il significato. Inoltre viene prodotta una matrice di coefficienti di correlazione tra i piani principali e i fattori. Alcuni software, ad esempio SPSS, forniscono anche le comunalità rappresentano la quota di varianza di ciascuna variabile spiegata dalle prime k componenti fattoriali (fattori) e che si ricavano come somma dei quadrati per riga delle correlazioni tra variabili e fattori. Analisi lineari: ACP L’ACP può basarsi sulla matrice delle varianze e covarianze oppure su quella di correlazione. I risultati saranno diversi a meno che non si parta da variabili standardizzate. Però la standardizzazione è raccomandata soprattutto quando si hanno variabili espresse in unità di misura diverse. Quando invece le variabili sono omogenee ed espresse nella stessa unità di misura è conveniente partire dalla matrice di varianze e covarianze anche senza standardizzare i dati. Nelle applicazioni pratiche della ricerca sociale l’ACP, come anche altri metodi analoghi di analisi fattoriale, il risultato dell’analisi produce la proiezione su piani fattoriali determinati dai fattori sia delle variabili che hanno effettivamente partecipato alla determinazione dei fattori stessi, sia di altre variabili che non sono state considerate ma che erano presenti nella matrice dei dati iniziale. Queste variabili, quasi sempre di tipo anagrafico e strutturale, si dicono supplementari. Analisi lineari: ACP Le variabili dunque si distinguono in variabili attive, che cioè sono utilizzate per la determinazione dei fattori, e supplementari, o anche dette illustrative, che pur essendo presenti nella matrice dei dati sono proiettate sui piani fattoriali solo in un secondo momento. Questo fatto ha due motivazioni: ● permette di ridurre il numero di variabili effettivamente utilizzate aiutando la determinazione di fattori dalla struttura più forte ed omogenea; ● consente di sfruttare le informazioni meno determinanti per il fenomeno oggetto di studio per specificare meglio il significato dei fattori individuati. Oltre a ciò questa distinzione delle variabili in due tipologie, consente di comprendere tra le illustrative anche variabili qualitative, escluse dall’ACP, ma proiettabili a posteriori sui piani fattoriali. Analisi lineari: ACP Le componenti principali Yi sono una combinazione lineare delle k variabili (X1, X2, …, Xk) con coefficienti uguali alle componenti del vettore caratteristico associate agli autovalori della matrice di varianze e covarianze. Tutti i fattori individuati sono ortogonali tra loro. Questo vuol dire che i vettori di componenti così determinati possono essere rappresentati, presi a due a due, su con un piano cartesiano in cui i due assi sono due dei fattori e sul piano sono proiettati come punti in uno spazio bidimensionale le variabili originarie. I fattori principali si individuano sotto il vincolo che la varianza da essi rappresentata (cioè l’informazione originaria che essi riescono a riassumere) sia massima, cosicché otteniamo una successione di fattori che rappresentano via via, dal primo fattore al k-mo, una quantità di varianza originaria sempre inferiore. Si dice che i fattori spiegano una certa quantità di varianza, ossia di informazione originaria. Analisi lineari: ACP AUTOVALORI E AUTOVETTORI Data la matrice quadrata A di ordine n il prodotto Ax=λ individua un numero detto autovalore e un vettore x, detto autovettore. La relazione precedente si può scrivere anche come (A-λI)x=0 che è verificata se e solo se il determinante della matrice del sistema è nullo e cioè se e solo se (A-λI)=0 che è detta equazione caratteristica. Essa è un’equazione di grado n nell’incognita λ e gli autovalori sono le n soluzioni di questa equazione. 2 − λ −2 3 2 −2 3 Esempio. Data la matrice 𝐴 = 1 1 1−λ 1 1 1 l’equazione caratteristica è 𝐴 − λ𝐼 = −1 1 3 1 3 −1 − λ Si calcola il determinante che è −λ3 + 2λ2 + 5λ − 6=-(λ-1)(λ+2)(λ-3)=0 Gli autovalori sono le soluzioni di questa equazione cioè λ1 = 1, λ2 = −2, λ3 = 3 Analisi lineari: ACP Il numero di autovalori è pari al numero di variabili originarie, cosicché l’ACP può fornire una completa trasformazione della matrice originaria in un insieme di variabili tutte ortogonali tra loro derivanti dalla combinazione lineare delle variabili di partenza. Ovviamente ciò ha poco senso, ma tutto assume una validità se si pensa di considerare solo una parte dei fattori generati da questo algoritmo. In generale si considerano solo i fattori i cui autovalori sono maggiori di 1 Inoltre si considera un numero di fattori tali che la variabilità spiegata non sia troppo bassa Infine si osserva il grafico degli autovalori e si tengono tutti quelli che si trovano prima che la curva si stabilizzi intorno al valore più basso. Analisi lineari: ACP Il momento più delicato è quello dell’interpretazione dei fattori. Infatti, dopo l’applicazione dell’algoritmo ai dati è essenziale comprendere cosa rappresenti ogni fattore individuato. Per fare ciò ci si basa su diversi dati: ● si considera la correlazione tra ciascun fattore e le variabili di partenza ● si proiettano sui piani fattoriali anche altre variabili, non inserite nell’analisi, ma utili per descrivere i fattori e che sono dette variabili supplementari per distinguerle da quelle attive che formano i fattori Notiamo che la riduzione delle variabili non ha senso se le variabili rappresentano la stessa informazione. Per questo spesso si analizza prima di tutto la matrice delle correlazioni per vedere se ci sono variabili fortemente correlate che rappresentano la stessa informazione per cui sarebbe più corretto mantenerne solo una. D’altra parte anche l’assenza di correlazione rende inutile l’ACP Analisi lineari: ACP Consideriamo un caso di studio. Supponiamo di avere la seguente rilevazione di performance aziendale su 10 famose aziende ● ECON.PRO -> economic profit, differenziale tra rendimento del0 capitale investito ed il suo costo ● CASH -> cash flow sul fatturato in % ● LAVOR.VA -> costo del lavoro sul valore aggiunto, in% ● ROE -> return on equity, utile netto sul patrimonio, in% ● INDE.CAP -> indebitamento sul capitale proprio ● FATTURATO Analisi lineari: ACP Dal momento che i dati sono espressi in unità di misura molto diverse, passiamo alla matrice dei dati standardizzata Anche l'osservazione della matrice di correlazione è una fase importante: se tutte le variabili fossero non correlate tra di loro non avrebbe senso procedere con un metodo fattoriale, infatti si avrebbero tante componenti quante variabili osservate. Se invece alcune sono molto correlate se ne deve prendere una sola. Dalla tabella si evince come il ROE sia correlato positivamente col Cash Flow e la variabile economic profit, tuttavia le consideriamo nell’analisi Analisi lineari: ACP Si calcolano autovalori, autovettori e si analizzala percentuale di varianza spiegata dagli autovalori attraverso un istogramma. Gli autovalori maggiori di 1 in questo caso spiegano il 74,9% della varianza originaria Analisi lineari: ACP Per comprendere il ruolo giocato da ogni variabile nella costruzione dei fattori, e quindi per avere materiale su cui riflettere per comprendere il significato degli assi, si può analizzare la comunalità, che ci dice quanto ciascuna variabile è correlata con l’asse. Si può notare che le variabili maggiormente correlate tra loro sono quelle che determinano il primo asse. Tale asse è il più importante perché è quello che riassume la massima variabilità. E la quantità di variabilità spiegata è influenzabile dalla correlazione tra le variabili orignarie. Le variabili correlate con il primo asse suggeriscono di interpretare lo stesso come una sintesi di redditività: a destra vi è una redditività alta, a sinistra una redditività bassa. Il secondo asse discrimina sull’indebitamento: in alto si posizioneranno le aziende ad alto tasso di indebitamento, in basso quelle che sono meno indebitate Analisi lineari: ACP Sul piano cartesiano i primi due fattori rappresentano gli assi mentre le variabili sono proiettate sul piano. Esse si trovano più vicine ai fattori a seconda di quanto hanno contribuito a determinarli. Analisi lineari: ACP L’interpretazione: Alcune di esse si posizionano in zone diametralmente opposte: ● in basso a destra c’è la Ferrero che risulta essere l’azienda più sana, poiché ha un indebitamento negativo, quindi fa fronte agli impegni finanziari col capitale proprio, e una discreta redditività ● nel quadrante in alto a destra, si distingue la Plasmon che se pur fortemente indebitata ha un’altissima redditività. ● nel quadrante in basso a sinistra sono presenti quelle aziende che operano in mercati saturi in cui sono leader; inoltre, trovandosi vicino all’origine degli assi fattoriali, mostrano di aver sotto controllo la situazione finanziaria, ed avendo un indebitamento negativo hanno a disposizione riserve di capitali pronte per essere utilizzate per far fronte alle esigenze del mercato o per intraprendere azioni di penetrazioni in business ad alta redditività Analisi lineari: ACP ● Infine, in alto a sinistra, troviamo la Parmalat: questa mostra di avere la situazione peggiore. Ha un forte indebitamento e una redditività negativa, quindi, tale impresa deve necessariamente ripensare al suo sistema di business per evitare il rischio di insolvenza Il caso del crac finanziario della Parmalat, poteva essere evitato o ridimensionato se ci fosse stata una seria condotta da parte degli analisti finanziari. Infatti, è bastata una semplice ACP per comprendere il disastro economico e finanziario verso cui la Parmalat si stava avviando.