Il Modello della Analisi Fattoriale Esplorativa e i Metodi di Classificazione Automatica (Analisi di Raggruppamento) Se all’interno di un insieme di informazioni articolato in una matrice di dati X si vogliono scoprire quali siano le relazioni significative fra gli elementi messi in gioco dalle righe e dalle colonne della matrice, risulta utile applicare un’analisi fattoriale di tipo esplorativo. Se all’interno di un insieme di informazioni articolato in una matrice di dati X vogliamo costruire delle partizioni degli elementi, cioè costruire dei raggruppamenti con questi elementi, risulta utile applicare le tecniche di classificazione automatica di cluster analysis. Consideriamo p rilevazioni fatte su n modelli di automobili e costruiamo una matrice in cui sulle righe ci siano i modelli e sulle colonne i valori rilevati. Ad esempio, se p=3, potremmo avere per la matrice dei dati X: cilindrata consumo potenza auto 1 2200 10 95 auto 2 2800 12 125 ……. ….. ….. ….. auto n 1400 11 70 1 Visualizziamo adesso le n auto con n punti in uno spazio R³: Ma se le variabili da misurare per ciascuna delle n auto sono p > 3 come possiamo vedere gli n punti? • L’idea potrebbe essere quella di proiettare in uno spazio di dimensione l ≤ 3, così da poter vedere gli aggregati di punti. • Tuttavia, proiettare deforma e semplifica l’insieme iniziale. • Allora, come ridurre la dimensione dello spazio senza perdere in modo significativo l’informazione iniziale, cioè le relazioni tra i dati contenute nella matrice X? Analisi fattoriale Tuttavia, prima di provare a studiare le relazioni tra le variabili, oppure, eventualmente, dopo averlo fatto, può essere utile • ridurre i dati in forma grafica semplice • tentare una classificazione delle unità. Cluster analysis 2 X ≡ X n , p ≡ ( xij ) matrice unità-variabili In generale, uno studio multidimensionale sarà definito da una matrice dei dati X, da un vettore di pesi (o masse) delle unità D e da un criterio di riponderazione delle variabili espresso con una matrice M. xi xj 3 4 5 con : ∞ d hk = lim λ d λ →∞ hk = max i xhi − xki Esempio di cluster analysis In una ricerca condotta in Thailandia (Chapman & Hall 1986) sono stati esaminati reperti ossei di canidi preistorici e di canidi attuali. Lo scopo era di vedere se il cane di epoca preistorica (circa 3500 anni A.C.) è da considerarsi vicino al cane attuale tipico di quella regione o, eventualmente, più vicino ad altri canidi. Sono state misurate 6 variabili: X 1 =larghezza della mandibola X 2 =altezza della mandibola, sotto il primo molare X 3 =lunghezza del primo molare X 4 =larghezza del primo molare X 5 =distanza fra il primo ed il terzo molare (inclusi) X 6 =distanza fra il primo ed il quarto premolare (inclusi) 6 variabili X1 X2 X3 X4 X5 X6 unità cane moderno 9.7 21.10 19.4 7.7 32.0 36.5 sciacallo dorato 8.1 16.7 18.3 7.0 30.3 32.9 lupo cinese 13.5 27.3 26.8 10.6 41.9 48.1 lupo indiano 11.5 24.3 24.5 9.3 40.0 44.6 cuone 10.7 23.5 21.4 8.5 28.8 37.6 dingo cane preistorico 9.6 10.3 22.6 22.1 21.1 19.1 8.3 8.1 34.4 32.3 43.1 35.0 Elaborazione in Matlab con il Toolbox Statistics (la matrice X dei dati è nel file canide.mat, X1, X2, ecc. sono vettori riga uguali alle colonne) utilizzando le tecniche della cluster analysis. Analisi in componenti principali (ACP) Fra le analisi fattoriali di tipo esplorativo ci sono due tecniche fondamentali: •l’analisi in componenti principali (variabili quantitative) •l’analisi delle corrispondenze (variabili qualitative) Qui studieremo l’analisi in componenti principali (in inglese Principal Component Analysis, PCA; Pearson 1901, Wishart 1928, Hotelling 1933), il cui obbiettivo principale è: sostituire alle p variabili di partenza un numero l < p di nuove variabili (dette componenti - o fattori- principali), combinazioni lineari delle variabili originali, che siano fra loro incorrelate (od ortogonali o indipendenti), in modo che queste l variabili rappresentino il più fedelmente e semplicemente possibile l’agglomerato delle osservazioni iniziali contenuto nella matrice X dei dati. 7 In sostanza, con queste nuove variabili, che sono combinazioni lineari delle variabili osservate originali, fatte in modo da mantenerne il massimo possibile di variabilità: •riduciamo la multidimensionalità della matrice dei dati X, in quanto operiamo con un numero minore di nuove variabili (componenti principali), che, però, contengono (quasi) tutte le informazioni utili, •costruiamo delle dimensioni sintetiche ed inosservabili (assi fattoriali), che ci forniscono un nuovo modello teorico per interpretare il fenomeno, che ci può condurre ad attribuire a variabili meno evidenti, ma più profonde, la causa da cui derivano le variabili che sono direttamente oggetto di misura, •proiettiamo i dati su sottospazi (in genere, di R², al massimo di R³) formati da queste dimensioni latenti, ottenendo delle nuvole di punti che possiamo vedere e da cui ricaviamo informazioni sulle relazioni sia fra le unità, sia fra le variabili. Prima di procedere con la trattazione matematica dell’ACP, cerchiamo di visualizzare il concetto di buona proiezione di un oggetto. Una buona proiezione 2-D può mantenere tutte le informazioni essenziali di un oggetto 3-D, come, ad esempio, una golden eagle: Oppure, pensiamo alla proiezione delle ombre di una ciambellina su un muro: possono essere più o meno rappresentative dell’oggetto e si ottengono o ruotando la ciambellina, o ruotando le torce. Nel caso della ACP i dati rimangono fermi e muoviamo gli assi, vale a dire è come se muovessimo le torce in questo esempio. 8 In questo esempio reale vediamo le infinite proiezioni di un insieme 3-D di dati antropometrici, presi su un campione di uomini (punti neri) e donne (punti rossi): Quale proiezione dei dati scegliereste? Ecco la soluzione che ci propone l’ACP: 9 OH i = x u = ' i p j =1 xij u j 10 11 Spazio delle unità: proiezioni dei punti unità sull’α α-esimo asse fattoriale 12 Dalle precedenti formule si ricava che: Ad esempio, dalla prima si ha che le coordinate (cα )i dei punti cα = λα vα cα ∈ R n cα* = λα uα cα* ∈ R p unità su un asse fattoriale in R p sono proporzionali alle componenti (vα )i dell' asse fattoriale vα ∈ R n , corrispondenti allo stesso autovalore λα cα collineare a vα 13 Si noti che per gli autovalori (non negativi) l’indice sarà dato da: α = 1, 2, …, min(n,p) 14 migliore approssimazione di rango 1 della matrice X migliore approssimazione di rango α della matrice X ricostruzione della matrice X con gli autovalori λα e gli autovettori associati uα e vα 15