L’analisi delle corrispondenze semplici (AC) e multiple (ACM) La CA costituisce uno dei più noti ed efficaci strumenti per il trattamento multidimensionale di dati qualitativi Obiettivi: • Rappresentazione grafica • Sintesi della struttura di associazione tra due (o più) variabili qualitative Struttura dei dati: La tabella di contingenza Notazione – dati in una tabella ca Profili riga e colonna Tabella di contingenza P1 P2 P3 P4 Totale A 69 37 7 5 118 B 148 45 14 22 229 C 170 65 12 29 276 D 159 57 12 28 256 E 122 26 6 18 172 F 106 21 5 23 155 G 40 7 1 14 62 814 258 57 139 1268 Totale DATI: La tabella riporta l’acquisto di 4 prodotti P1, P2, P3, P4 da parte di 7 categorie di clienti A, B, C, D, E, F, G OBIETTIVO: Studiare la struttura di interdipendenza tra la variabile X (tipo di cliente) e la variabile Y (tipo di prodotto), analizzando la corrispondenza tra gli elementi dei due insiemi di caratteri Tabella profili riga P1 P2 P3 P4 Tot A 58,5 31,4 5,9 4,2 100,0 B 64,6 19,7 6,1 9,6 100,0 C 61,6 23,6 4,3 10,5 100,0 D 62,1 22,3 4,7 10,9 100,0 E 70,9 15,1 3,5 10,5 100,0 F 68,4 13,5 3,2 14,8 100,0 G 64,5 11,3 1,6 22,6 100,0 profilo medio 64,4 19,5 4,2 11,9 Dalla tabella dei profili riga si vede, ad esempio, che il 64,6% dei clienti della categoria B preferisce il prodotto P1… Il profilo medio ci dice che, indipendentemente dalla categoria, che oltre il 64% dei clienti ha acquistato il prodotto P1 e solo il 4% ha acquistato il prodotto P3 Tabella profili colonna P1 P2 P3 P4 Profilo medio A 8,5 14,3 12,3 3,6 9,7 B 18,2 17,4 24,6 15,8 19,0 C 20,9 25,2 21,1 20,9 22,0 D 19,5 22,1 21,1 20,1 20,7 E 15,0 10,1 10,5 12,9 12,1 F 13,0 8,1 8,8 16,5 11,6 G 4,9 2,7 1,8 10,1 4,9 Totale 100 100 100 100 Cosa possiamo leggere dai profili colonna? Dal punto di vista geometrico Ogni profilo può essere considerato come un vettore in uno spazio multidimensionale. La nube degli r profili riga relativi alla variabile X nello spazio R C generato dalle c modalità della variabile Y. A differenza di quanto visto per l’ACP, dove ciascun individuo aveva un peso costante pari a 1/n, nell’analisi delle corrispondenze ciascun punto (profilo riga e colonna) è munito di una massa pari al rapporto tra il rispettivo marginale ed il totale della tabella, in modo da conservare l’informazione relativa delle singole righe e colonne Tabella profili, masse e profilo medio P1 P2 P3 P4 MASSE A 87,6 148,2 126,9 37,2 X 0,093 B 95,7 83,3 X 0,181 C 94,9 114,5 95,7 94,8 X 0,218 D 94,3 106,7 101,7 97,3 X 0,202 91,8 129,2 E 123,5 83,0 86,7 106,7 X 0,136 F 112,1 70,0 75,5 142,4 X 0,122 G 101,0 55,8 36,1 207,1 X 0,049 profilo medio 101,3 95,7 93,1 109,8 Inerzia e distanza del 2 • L’inerzia di una tabella di contingenza è 2=2/n • La statistica 2=i j(fij - fi.f.j)2/fi.f.j misura la discrepanza tra le frequenze osservate e attese sotto l’ipotesi di indipendenza in una tabella di contingenza • il 2 misura anche la lontananza di un profilo (riga o colonna) dal suo profilo medio 2= ifi.j1/f.j (fij/fi. - f.j)2= j f.j i 1/fi.(fij/fi. - fi.)2 • la nozione di lontananza suggerisce la definizione di una distanza fra profili: Distanza del 2 Distanza del 2 - 1 • la distanza euclidea è quella che implicitamente fra due punti i e i’: d22(i,i’)=j(xij - xi’j)2 si assume • la distanza del 2 differisce da quella euclidea poiché ciascuna distanza è divisa per la radice quadrata del corrispondente elemento del profilo medio: d2(i,i’)=j(1/f.j)(fij/fi. - fi’j /fi’.)2 poiché f.j1, la trasformazione ingrandisce il valore delle coordinate, in particolare di quelle coordinate relative a modalità rare Distanza del 2 - 2 • L’inerzia (2 = 2/n ) può essere riscritta come la media ponderata delle distanze del 2 fra profili (riga o colonna) e il profilo medio • Inerzia (e 2) possono essere rappresentati geometricamente come il grado di dispersione dell’insieme di punti profilo (riga o colonna), intorno alla loro media, utilizzando l’appropriato sistema di pesi Riduzione di dimensionalità In genere i profili sono rappresentati da una nube di punti in uno spazio multidimensionale Per rappresentarli graficamente occorre identificare un sottospazio prossimo ai punti profilo cosicché la loro proiezione sia la migliore approssimazione (nel senso dei minimi quadrati) della nube osservata Individuare l’asse corrispondente alla direttrice di massima inerzia della nube dei punti e poi il secondo (ortogonale) e così via Decomposizione in valori singolari di una matrice X (n,p; n>p) ECKART&YOUNG(1936) p X = =1 v u' = V 1 2U' dove , generico elemento della matrice diagonale è l' - esimo autovalore di X' X e di XX' u e v , colonne di U e di V, sono gli autovettori corrispond enti a rispettivamente in X' X e XX' u' u = v ' v = 1 X =1 v1 u1 +...+ p vp up Ricostruzione approssimata Ricostruzione approssimata di X mediante una matrice di rango ridotto 1 2 Q p 0 "trascurabi li" X X* = Q =1 v u' • L’accuratezza dell’approssimazione di un sottospazio fattoriale Q-dimensionale è misurata dal tasso di inerzia: TIQ = con M = min(I, J) 1 Q =1 M =1 Le coordinate fattoriali Si dimostra che, per rappresentare gli n punti-riga: ˆ 1 = Xu1 = 1 v1 n,1 è la migliore approssimazione della nube di su una retta ˆ 1, ˆ 2 è la migliore approssima zione sul piano, con ˆ2 n,1 = Xu2 = 2 v2 E così via per sottospazi di dimensioni maggiori. Analogamente, per i punti colonna: ˆ 1 = X'v1 = 1 u1 ; ˆ 1 , ˆ 2 ; p,1 Le matrici dell’AC N (I,J) tabella di contingenza [nij] (i= 1, …, I; j=1, …, J) F (I,J) matrice delle frequenze relative [fij= nij/n ], I J con i =1 j =1 ni j = n DI (I,I) matrice diagonale [fi.], marginale di riga fi. = Jj =1 fi j DJ (J,J) matrice diagonale [f.j], marginale di colonna f. j = iI=1 fi j DI-1 F (I,J) matrice dei profili riga F DJ-1 (I,J) matrice dei profili colonna L’AC • La matrice da analizzare è la matrice dei profili riga DI-1F • L’uso della distanza del 2 si esprime nel vincolo di normalizzazione U’ DJ-1U=I • Analogamente, considerando la matrice dei profili colonna FDJ-1, con il vincolo V’DI-1V=I • L’AC dal punto di vista dei profili-riga (rispetto ai verticicolonna) e quella dei profili-colonna (rispetto ai vertici-riga) sono equivalenti dal punto di vista dell’inerzia, della dimensionalità e della perdita di informazione LA TRASFORMAZIONE : LE COORDINATE FATTORIALI Le coordinate sull’-esimo asse nei due spazi: ˆ = DI F 1 dove = DJ v è l' - esimo fattore 1 ( I ,1) ˆ = DJ1F' dove = DI1u è l' - esimo fattore ( J ,1) Da cui derivano le cosiddette formule di transizione che consentono di rappresentare i punti dello spazio delle righe nello spazio delle colonne e viceversa: 1 1 ˆ = ˆ DI F e 1 1 ˆ ˆ = DJ F Contributi ad un asse fattoriale • L’inerzia totale di una tabella misura la disomogeneità dei profili riga e dei profili colonna. Ogni riga e ogni colonna contribuiscono in relazione al loro allontanarsi dalla situazione di indipendenza, espressa dai marginali • Il contributo ai singoli assi esprime l’importanza di una modalità nei confronti di del fattore. Si interpreta più facilmente in relazione all’importanza () del fattore. E’ molto importante per interpretare gli assi. Per l’i-esima riga è dato da: ˆ 2i fi. c (i) = • analogamente per la j-esima colonna: ˆ 2i f.j c (j) = Qualche ulteriore aiuto alla lettura •I contributi relativi (o coseni quadrati) esprimono quanto un punto è deformato dalla proiezione sull’asse fattoriale. Misurano la qualità della rappresentazione e variano fra 0 e 1 l L* • I punti supplementari sono righe (colonne) aggiuntive, proiettate nel sottospazio identificato dagli elementi attivi, per facilitarne l’interpretazione. • I contributi relativi si calcolano anche per i punti supplementari, quelli assoluti solo per gli attivi Perché l’Analisi delle Corrispondenze Multiple? Studio di un fenomeno sociale Variabili qualitative ANALISI DELLE CORRISPONDENZE MULTIPLE • variabili demografiche di base • variabili binarie • variabili che rilevano opinioni, atteggiamenti, comportamenti • Guttman • Burt e Hayashi • Benzecri • Masson L’analisi delle corrispondenze multiple (ACM) Consente di operare una sintesi sulle variabili qualitative con lo scopo di individuare i fattori soggiacenti alla struttura dei dati. Variabili attive che corrispondono alle variabili d’interesse della ricerca. Variabili illustrative che corrispondono alle variabili demografiche di base. MATRICE DEI DATI (n unità e p variabili) Matrice logicodisgiuntiva completa (n unità x q modalità) Tavola di frequenze relative (n unità x q modalità) Matrice profili-riga o di profili-colonna Matrice di Burt MATRICE LOGICO-DISGIUNTIVA COMPLETA: Per ogni unità statistica (riga della matrice dei dati) si assegna una colonna a ciascuna modalità e si attribuisce valore 0 se l’unità non presenta quella modalità, 1 altrimenti. Tavola di frequenze relative MATRICE PROFILI-RIGA O PROFILI-COLONNA : si divide ciascun elemento per il rispettivo totale di riga o di colonna a seconda dei casi. MATRICE DI BURT: si incrociano tra loro le q modalità della tavola di frequenze relative. Otteniamo una matrice di dimensioni qxq. I risultati dell’analisi condotta sui due tipi di tabelle sono equivalenti. Costruzione della matrice Matrice di Burt La matrice originaria nxp Età Reddito 65 18 23 50 32 50 28 17 19 46 18 1 5 8 10 3 7 3 1 2 5 3 0 0 0 0 0 0 0 0 0 0 0 Professione 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 L'analisi delle corrispondenze multiple 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 16/05/2011 1a Trasformazione Età in classi 16-20 21-45 46-65 2a Trasformazione Reddito in classi 1-2 3-5 6-7 8-10 Pagina 27 La matrice logico disgiuntiva completa Età 0 0 1 0 0 1 0 0 0 1 0 0 0 1 1 0 1 0 0 0 1 0 .. .. .. 4 3 11 1 0 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 0 1 0 0 0 .. 4 2 Reddito Professione 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 .. .. .. .. .. .. .. .. .. .. 3 3 3 0 0 3 2 2 3 1 11 3 3 3 3 3 3 3 3 3 3 3 3 numero delle variabili 11 numero dei casi L'analisi delle corrispondenze multiple 16/05/2011 Pagina 28 La matrice di Burt 16-20 21-45 46-65 1-2 3-5 6-7 8-10 a b c d e f g 16-20 4 0 0 1 1 2 0 0 0 1 1 0 2 0 Età Reddito Professione 21-45 46-65 1-2 3-5 6-7 8-10 a b c d e f 0 0 3 0 0 4 0 1 2 0 0 0 1 1 0 3 0 0 0 1 0 0 3 0 2 1 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 1 1 1 0 0 3 0 0 0 1 1 1 0 0 0 0 0 2 0 2 0 0 1 0 1 0 0 0 0 2 0 1 1 0 2 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 L'analisi delle corrispondenze multiple 16/05/2011 g 0 0 0 0 0 3 0 0 0 0 0 0 0 1 Pagina 29 La matrice di profili riga e profili colonna trasposti 16-20 21-45 46-65 1-2 3-5 6-7 8-10 a b c d e f g 16-20 0,36 0 0 0,5 0,333 0,667 0 0 0 0,33 0,5 0 0,667 0 Età Reddito Professione 21-45 46-65 1-2 3-5 6-7 8-10 a b c d e f g 0 0 0,25 0,25 0,50 0,00 0,27 0 0 0,33 0 0,67 0 0,36 0,25 0,25 0,25 0,25 0 0,5 0,18 0 0 0 0,33 0,33 0 0,27 0 0 0 0,33 0 0 0,27 0 0,67 0,33 0 0 0 0,27 0 0 0 0 0 0 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0 0 0 0 0 0 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0 0,67 0 0,33 0,33 0,33 0,00 0,00 0,27 0,00 0,00 0,00 0,00 0 0,5 0,5 0,5 0 0 0,00 0,00 0,00 0,18 0,00 0,00 0,00 1 0 0 0,5 0 0,5 0,00 0,00 0,00 0,00 0,18 0,00 0,00 0 0,33 0,33 0 0,67 0 0,00 0,00 0,00 0,00 0,00 0,27 0,00 1 0 0 0 0 1 0,00 0,00 0,00 0,00 0,00 0,00 0,09 0,36= 4/11 (frequenza relativa distribuzione semplice carattere età) 0,5= 1/2 (frequenza relativa profilo di riga trasposto) 0,25= 1/4 (frequenza relativa profilo di colonna trasposto) L'analisi delle corrispondenze multiple 16/05/2011 Pagina 30 Obiettivo dell’ACM: Individuare k nuove variabili (chiamate fattori) ottenute come combinazioni lineare di quelle di iniziali, ortogonali tra loro, tali da spiegare la maggior parte della variabilità interna ai dati di partenza. Il problema è ottimizzato dagli autovettori calcolati sulla Matrice di Burt. La somma degli autovalori λj coincide con l’inerzia totale dei dati iniziali. j Proporzione di inerzia spiegata dal fattore j. j Visione pessimista j 2 p 1 j 'j = p p 1 2 Benzecri propone una rivalutazione per i soli autovalori maggiori di 1\p ' j j ' j Numero dei fattori da considerare: Si individua il fattore oltre il quale l’inerzia cumulativa spiegata inizia ad aumentare molto lentamente, per esempio al di sotto del 10% per ogni successivo fattore aggiunto. INTERPRETAZIONE DEGLI ASSI FATTORIALI: Coordinate fattoriali: Le modalità con valori più alti (sia positivi che negativi) contribuiscono maggiormente alla formazione degli assi. Indicatori statistici: Contributi assoluti: i valori più elevati individuano le modalità che più caratterizzano il fattore. Contributi relativi: i valori più elevati individuano le modalità meglio rappresentate sul piano fattoriale. Fattore di correzione E CODIFICA DISGIUNTIVA I tassi di inerzia sono una misura pessimistica dell’effettivo potere esplicativo dei fattori, perché “la codifica disgiuntiva dei fattori, imponendo una relazione di ortogonalità tra le modalità di una stessa variabile, introduce una sorta di sfericità artificiale alla nube di punti. Per correggere questa distorsione Benzecrì (1979) ha introdotto la seguente espressione: p ( ) = p 1 2 1 p 2 Lambda è il valore che assume l’autovalore e p sono le variabili Riepilogo su ACP ed ACM ACP ACM Tipo di dati Dati quantitativi (dati ecologici, demografici, economici…) Dati qualitativi (nominali e ordinali) e quantitativi (da ricodificare in classi) Fonti dei dati Dati amministrativi, banche dati ufficiali, etc.. Questionari, surveys I precedenti in letteratura Principi teorici delineati da K.Pearson (1901) e definiti successivamente da Hotelling (1933) - Anticipazione dei principi di fondo in Guttman (1941), Burt (1950) – Trova riferimenti in proposte più vicine come l’Homogeneity Analysis della scuola olandese (1970), il Dual scaling (Nishisato, 1980) e l’analisi canonica generalizzata (Carrol, 1968). Matrici di riferimento Matrice delle correlazioni e/o delle covarianze Matrice logico disgiuntiva completa e matrice di Burt (Tavole di contingenza) L'analisi delle corrispondenze multiple Pagina 34 ….segue ACP Statistica di riferimento per l’analisi delle relazioni tra le variabili Coefficiente di correlazione lineare r di Pearson Indicatori da considerare nell’interpretazione delle componenti/assi fattoriali Autovalore o valor proprio (λ) Varianza spiegata e cumulata Factor loading (contributi ai fattori) Comunalità Factor scoring (punteggi fattoriali) Coordinate fattoriali ACM Metrica del Chi2 Test KMO (Kaiser-Meyer-Olkin) e di sfericità di Bartlett L'analisi delle corrispondenze multiple 16/05/2011 Massa o peso relativo di ogni modalità Indice di distorsione (di distanza dall’origine) di ogni modalità Contributo assoluto di ogni variabile e modalità Coseno quadrato (contributo relativo) Coordinate fattoriali Pagina 35 Analisi delle corrispondenze in R Le seguenti librerie consentono di sviluppare un’analisi delle corrispondenze semplici e multiple: • anacor (de Leeuw and mair) • ca (Nenadic and Greenacre) • ade4 (Chessel) • vegan (Dixon) • homals (de Leeuw) • FactoMineR (Husson et al.) L’analisi delle corrispondenze in R con la libreria ca In R le funzioni corresp() e mca() (libreria MASS) consentono di implementare l’analisi delle corrispondenze semplici e multiple, ma presentano dei limiti. Per esempio, la funzione per analisi delle corrispondenze semplici non consente di includere variabili supplementari. La libreria ca permette di sviluppare: Simple CA: – Computation: ca() – Printing e Summaries: print() e summary() – Plotting: plot.ca() e plot3d.ca() MCA : – Computation: mjca() – Printing e Summaries: print() e summary() – Plotting: plot.mjca() e plot3d.mjca() Dataset: – smoke, author and wg93 Dataset Dataset «smoke» contiene l’abitudine al fumo (nessuno, leggera, media e dipendenti pesanti) di un gruppo di dipendenti in una società X (dirigenti, quadri, dipendenti senior, junior e segretari). Dataset wg93 (tratte da the International Social Survey Programme 1993, see http://www.issp.org/). Il dataset è composto da 871 individui e 7 variabili 3 di tipo demografico: Sex: male, female Age (six groups): 16–24, 25–34, 35–44, 45–54, 55–64, 65 e + Education (six groups): 1=primary incomplete, 2=primary completed, 3=secondary incomplete, 4=secondary completed, 5=tertiary incomplete, 6=tertiary completed Dataset wg93 4 variabili attive How much do you agree or disagree with each of these statements? A.We believe too often in science, and not enough in feelings and faith. B. Overall, modern science does more harm than good. C. Any change humans cause in nature — no matter how scientific — is likely to make things worse. D. Modern science will solve our environmental problems with little change to our way of life. Each question has five possible response categories: 1. Agree strongly 2. Agree 3. Neither agree nor disagree 4. Disagree 5. Disagree strongly Usiamo R Commander Da strumenti, cliccare su carica il plug-in Dopo aver caricato la libreria ca, da «dati presenti nei pacchetti», cliccare su «leggi dati da un pacchetto caricato» e selezionare il dataset «smoke» Selezionare le modalità dei due caratteri, selezionare le opzioni grafiche e salvare gli output su un file .csv Principali risultati CA Principal inertias 1 Value 0.074759 Percentage 87.76% (eigenvalues): 2 3 0.010017 0.000414 11.76% 0.49% Rows: SM JM SE JE SC Mass 0.056995 0.093264 0.264249 0.455959 0.129534 ChiDist 0.216559 0.356921 0.380779 0.240025 0.216169 Inertia 0.002673 0.011881 0.038314 0.026269 0.006053 Dim. 1 -0.240539 0.947105 -1.391973 0.851989 -0.735456 Dim. 2 -1.935708 -2.430958 -0.106508 0.576944 0.788435 Columns: none Mass 0.316062 ChiDist 0.394490 Inertia 0.049186 Dim. 1 -1.438471 Dim. 2 -0.304659 light 0.233161 0.173996 0.007059 0.363746 1.409433 medium heavy 0.321244 0.129534 0.198127 0.355109 0.012610 0.016335 0.718017 1.074445 0.073528 -1.975960