Tecniche di riduzione della dimensionalità (parte2) A. Iodice Tecniche di riduzione della dimensionalità (parte2) Analisi statistica e matematico-finanziaria II Alfonso Iodice D’Enza [email protected] Università degli studi di Cassino e del Lazio Meridionale Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Outline Tecniche di riduzione della dimensionalità (parte2) A. Iodice 1 Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple 2 Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Analisi Delle Corrispondenze Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Analisi multidimensionale di dati qualitativi L’Analisi delle Corrispondenze rappresenta uno strumento per lo studio delle relazioni tra due caratteri statistici qualitativi. La sua generalizzazione al caso di più variabili qualitative si definisce Analisi delle Corrispondenze Multiple. La matrice dei dati L’Analisi delle Corrispondenze si applica a coppie di variabili qualitative:i risultati dell’osservazione dei caratteri su un collettivo di n unità vengono riportati in una tabella a doppia entrata. Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tabella a doppia entrata Si considerino due caratteri qualitativi A e B aventi rispettivamente k e q modalità osservate su n unità statistiche. Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tabella a doppia entrata Si considerino due caratteri qualitativi A e B aventi rispettivamente k e q modalità osservate su n unità statistiche. Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tabella a doppia entrata Si considerino due caratteri qualitativi A e B aventi rispettivamente k e q modalità osservate su n unità statistiche. Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tabella a doppia entrata Si considerino due caratteri qualitativi A e B aventi rispettivamente k e q modalità osservate su n unità statistiche. Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tabella a doppia entrata Si considerino due caratteri qualitativi A e B aventi rispettivamente k e q modalità osservate su n unità statistiche. Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tabella a doppia entrata Si considerino due caratteri qualitativi A e B aventi rispettivamente k e q modalità osservate su n unità statistiche. Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tabella a doppia entrata Si considerino due caratteri qualitativi A e B aventi rispettivamente k e q modalità osservate su n unità statistiche. Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tabella a doppia entrata Si considerino due caratteri qualitativi A e B aventi rispettivamente k e q modalità osservate su n unità statistiche. Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tabella a doppia entrata Si considerino due caratteri qualitativi A e B aventi rispettivamente k e q modalità osservate su n unità statistiche. Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Indipendenza A. Iodice Analisi delle Corrispondenze Se le componenti di una variabile doppia (X, Y ) sono indipendenti vale la seguente relazione n̂ij = ni. n.j n.. con i = 1, . . . , k; j = 1, . . . , h Pertanto, data una distribuzione doppia di frequenze, il legame tra le due componenti (mutabile) varierà tra una situazione di indipendenza (assenza di legame) e un qualche grado di connessione Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Indice quadratico di connessione (X 2 ) Gli indici per la misura della connessioni sono basati sulle differenze tra le frequenze osservate sul collettivo nij e le frequenze teoriche n̂ij , che si osserverebbero sul collettivo se le mutabili considerate fossero indipendenti. Indice quadratico di connessione (X 2 ) è dato dalla seguente relazione k X h X (nij − n̂ij )2 X2 = n̂ij i=1 j=1 in caso di indipendenza, essendo nij = n̂ij , risulta X 2 = 0 il massimo valore dell’indice è dato dalla seguente espressione: n × min(k − 1, q − 1) Informazione limitata L’utilizzo di una misura unica è utile a quantificare il legame complessivo tra le variabili qualitative considerate. Tuttavia non consente di descrivere la struttura delle relazioni che caratterizzano le k modalità di A e le q modalità di B. Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Analisi delle Corrispondenze per visualizzare tabelle di frequenza Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Un istogramma presenta un insieme di dati in una forma diversa. Allo stesso modo l’Analisi delle Corrispondenze trasforma una matrice in una rappresentazione grafica (. . .). (Greenacre, 1985) Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Un semplice esempio A. Iodice Analisi delle Corrispondenze Si considerino due variabili qualitative motivo del viaggio meta del viaggio Norway Canada Greece Germany Sum vacanza 6 1 4 2 13 vacanza/lavoro 1 3 25 2 31 lavoro 11 11 0 20 42 Sum 18 15 29 24 86 Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Un semplice esempio A. Iodice Distribuzioni condizionate della variabile motivi del viaggio rispetto alle modalità della variabile “meta del viaggio”: rappresentano il tipo di viaggio in ciascun paese indipendentemente dal totale dei viaggi fatti in quel paese. Norway Canada Greece Germany Sum vacanza 0.330 0.070 0.140 0.080 0.150 vacanza/lavoro 0.060 0.200 0.860 0.080 0.360 lavoro 0.610 0.730 0.000 0.830 0.490 Sum 1 1 1 1 1 Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Triangular map Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tabella di frequenze assolute: un esempio Tecniche di riduzione della dimensionalità (parte2) A. Iodice Si consideri la tabella di frequenze N che rappresenta le preferenze di 7 tipologie di consumatori rispetto a 4 differenti prodotti. tipo A tipo B tipo C tipo D tipo E tipo F tipo G Sum item.1 69 148 170 159 122 106 40 814 item.2 37 45 65 57 26 21 7 258 item.3 7 14 12 12 6 5 1 57 item.4 5 22 29 28 18 23 14 139 Sum 118 229 276 256 172 155 62 1268 Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Tabella di frequenze relative A. Iodice Per passare dalla tabella di frequenze assolute alla tabella F delle frequenze relative dividendo gli elementi di N per il totale di tabella n. F= tipo A tipo B tipo C tipo D tipo E tipo F tipo G Sum item.1 0.054 0.117 0.134 0.125 0.096 0.084 0.032 0.642 item.2 0.029 0.035 0.051 0.045 0.021 0.017 0.006 0.203 item.3 0.006 0.011 0.009 0.009 0.005 0.004 0.001 0.045 item.4 0.004 0.017 0.023 0.022 0.014 0.018 0.011 0.110 Sum 0.093 0.181 0.218 0.202 0.136 0.122 0.049 1 Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Le tabelle dei profili Dalla tabella di frequenze relative è possibile passare alla tabella dei profili riga e dei profili colonna. In particolare profili riga: si ottiengono dividendo ciascun elemento di F per il rispettivo marginale (totale) di riga, fij , i = 1, . . . , k, j = 1, . . . , q fi. profili colonna: si ottiengono dividendo ciascun elemento di F per il rispettivo marginale (totale) di colonna, fij , i = 1, . . . , k, j = 1, . . . , q f.j Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Tabella dei profili riga La tabella dei profili riga consente, ad esempio, di confrontare le scelte delle diverse tipologie di consumatori relativamente ai prodotti considerati, indipendentemente dal numero di prodotti acquistati da ciascuna tipologia di consumatore. Il profilo riga medio corrisponde al vettore dei marginali di colonna della tabella F. Corrisponde alla media dei profili riga ponderati per le rispettive masse Le masse dei profili riga sono date dalla colonna dei marginali di riga di F. D−1 r F= tipo A tipo B tipo C tipo D tipo E tipo F tipo G profilo riga medio item.1 0.585 0.646 0.616 0.621 0.709 0.684 0.645 0.642 item.2 0.314 0.197 0.236 0.223 0.151 0.135 0.113 0.203 item.3 0.059 0.061 0.043 0.047 0.035 0.032 0.016 0.045 item.4 0.042 0.096 0.105 0.109 0.105 0.148 0.226 0.110 Sum 1 1 1 1 1 1 1 1 A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Tabella dei profili colonna La tabella dei profili colonna consente di confrontare le distribuzioni delle vendite di prodotti tra le diverse tipologie di consumatori , indipendentemente dal numero delle vendite di complessive di ciascun prodotto. Il profilo colonna medio corrisponde al vettore dei marginali di diga della tabella F. Corrisponde alla media dei profili colonna ponderati per le rispettive masse Le masse dei profili colonna sono date dalla riga dei marginali di colonna di F. FD−1 c = tipo A tipo B tipo C tipo D tipo E tipo F tipo G sum item.1 0.085 0.182 0.209 0.195 0.150 0.130 0.049 1 item.2 0.143 0.174 0.252 0.221 0.101 0.081 0.027 1 item.3 0.123 0.246 0.211 0.211 0.105 0.088 0.018 1 item.4 0.036 0.158 0.209 0.201 0.129 0.165 0.101 1 Sum 0.093 0.181 0.218 0.202 0.136 0.122 0.049 1 A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Interpretazione geometrica dei profili Tecniche di riduzione della dimensionalità (parte2) A. Iodice Da un punto di vista geometrico un profilo corrisponde ad un vettore in uno spazio multidimensionale. Tuttavia, i profili sono espressi in termini relativi, ed è quindi necessario ponderare i singoli profili attraverso le masse per non perdere l’informazione di partenza. Notazione matriciale Siano Dr e Dc matrici diagonali i cui elementi sono rispettivamente i marginali di riga e di colonna della matrice F. profili riga: D−1 r F profili colonna: FD−1 c Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Distanza tra punti profilo In ACP la distanza che caratterizza i punti nello spazio di riferimento è la metrica euclidea. Tuttavia questa distanza tende a dare eccessiva importanza alle modalità della variabile che presentano le frequenze più elevate, trascurando le relazioni tra le modalità caratterizzate da frequenze basse. distanza euclidea tra profili Si considerino i profili A e B D−1 r F= tipo A tipo B tipo C tipo D tipo E tipo F tipo G profilo riga medio item.1 0.585 0.646 0.616 0.621 0.709 0.684 0.645 0.642 item.2 0.314 0.197 0.236 0.223 0.151 0.135 0.113 0.203 item.3 0.059 0.061 0.043 0.047 0.035 0.032 0.016 0.045 distanza euclidea: v uX u q f1j f2j 2 d(A, B) = t − 1. 2. j=1 item.4 0.042 0.096 0.105 0.109 0.105 0.148 0.226 0.110 Sum 1 1 1 1 1 1 1 1 Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Distanza tra punti profilo distanza euclidea tra i profili riga A e B Tecniche di riduzione della dimensionalità (parte2) A. Iodice v uX u q f1j f2j 2 d(A, B) = t − = 1. 2. j=1 q = (.585 − .646)2 + (.314 − .197)2 + (.059 − .061)2 + (.042 − .096)2 = .143 È necessario pertanto un sistema di pesi nel calcolo della distanza per rendere omogeneo il contributo di ciasuna modalità alla determinazione della distanza tra i profili. Si rende necessario adottare la distanza del chi-quadrato. distanza del chi-quadrato tra i profili riga A e B v uX u q 1 f1j f2j 2 d(A, B) = t − = f 1. 2. j=1 .j s (.585 − .646)2 (.314 − .197)2 (.059 − .061)2 (.042 − .096)2 = + + + = .316 .642 .203 .045 0.110 Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Matrice da analizzare, scelta della distanza, scelta dei pesi Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Una tecnica di analisi multidimensionale, è identificata da tre elementi: matrice di dati,la metrica e pesi delle unità. Analisi in componenti principali matrice di dati: tabella individui per variabili X centrata e standardizzata metrica: distanza euclidea tra i punti nello spazio di rappresentazione pesi delle unità:tutte le unità hanno 1 peso uguale a n Analisi delle Corrispondenze matrice di dati: tabelle dei profili riga −1 D−1 r F (colonna FDc ) metrica: distanza del chi-quadrato D−1 tra i punti profilo riga (D−1 c r tra i punti profilo colonna) pesi delle unità: ciascun punto ha un peso pari alla propria massa: Dr per i punti riga, Dc per i punti colonna. Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Interpretazione dell’inerzia A. Iodice Interpretazione dell’Inerzia L’inerzia della nube dei profili riga è data dalla somma ponderata delle distanze al quadrato di ciascun profilo dal baricentro (profilo riga medio). I pesi della somma pi = fi. sono le masse dei profili. Inerzia = h X i=1 fi. × |{z} pesi 2 k X fij 1 − f.j f fi. j=1 .j | {z } distanza del chi-quadro tra profili e centroide = h X k X (fij − fi. f.j )2 = fi. f.j i=1 j=1 φ2 |{z} indice di connessione questa relazione mostra che la rappresentazione grafica dei profili riga rappresenta una decomposizione dell’indice quadratico di connessione χ2 (ricordando che φ2 = χ2 ) n Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Matrice dei residui standardizzati Tecniche di riduzione della dimensionalità (parte2) A. Iodice Per ottenere una soluzione della CA è possibile analizzare la tabella dei residui standardizzati. tabella delle contingenze La tabella delle frequenze relative (F) A B C D E F G P1 0.05 0.12 0.13 0.13 0.10 0.08 0.03 P2 0.03 0.04 0.05 0.04 0.02 0.02 0.01 P3 0.01 0.01 0.01 0.01 0.00 0.00 0.00 P4 0.00 0.02 0.02 0.02 0.01 0.02 0.01 Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Matrice dei residui standardizzati A. Iodice Analisi delle Corrispondenze vettori dei marginali (totali) di riga A B C D E F G r 0.09 0.18 0.22 0.20 0.14 0.12 0.05 vettore dei marginali (totali) di colonna P1 P2 P3 P4 c 0.64 0.20 0.04 0.11 Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Matrice dei residui standardizzati A. Iodice Per ottenere una soluzione della CA è possibile analizzare la tabella dei residui standardizzati. centratura la centratura della matrice F si ottiene sottraendo a ciascun valore il prodotto dei marginali di riga e di colonna ad esso corrispondenti, formalmente fij − fi. f.j . Da un punto di vista algebrico questo corrisponde a F − rcT = A B C D E F G P1 -0.0053 0.0008 -0.0057 -0.0042 0.0091 0.0051 0.0002 P2 0.0102 -0.0013 0.0070 0.0039 -0.0071 -0.0083 -0.0044 P3 0.0013 0.0029 -0.0003 0.0004 -0.0014 -0.0016 -0.0014 P4 -0.0063 -0.0024 -0.0010 -0.0000 -0.0007 0.0047 0.0057 Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Matrice dei residui standardizzati A. Iodice Per ottenere una soluzione della CA è possibile analizzare la tabella dei residui standardizzati. standardizzazione dopo aver effettuato la centratura della matrice F si procede alla standardizzazione, formalmente fij −fi. f.j q . Da un punto di vista fi. f.j −1/2 −1/2 (F − rcT )Dc = S = Dr S= −1/2 Dr (F − rc T algebrico questo corrisponde a −1/2 )Dc = A B C D E F G P1 -0.0218 0.0023 -0.0151 -0.0117 0.0310 0.0183 0.0009 P2 0.0745 -0.0066 0.0331 0.0191 -0.0427 -0.0527 -0.0444 P3 0.0207 0.0324 -0.0032 0.0041 -0.0175 -0.0209 -0.0301 P4 -0.0620 -0.0174 -0.0064 -0.0003 -0.0055 0.0409 0.0776 Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Matrice dei residui standardizzati Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Ottenuta la tabella S dei residui standardizzati, per ottenere la soluzione si effettua la decomposizione in valori singolari, (SVD) decomposizione in valori singolari SV D(S) = UDα VT dove U e l’autovettore di sinistra e rappresenta lo spazio delle righe, V e l’autovettore di destra e rappresenta lo spazio delle colonne, Dα è la matrice diagonale dei valori singolari, che sono la radice quadrata degli autovalori. Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Relazione tra EVD ed SVD La decomposizione in valori singolari (SVD) è uno dei risultati dell’algebra lineare più utilizzati in assoluto. La SVD consente di riscrivere una generica matrice X come prodotto tra matrici UDα VT . Le matrici in questione sono in stretta relazione con autovalori e autovettori. In particolare, se X = UDα UT XT X = EV D(XT X) = EV D(VDα UT UDα VT ) = VD2α VT T T T T XX = EV D(XX ) = EV D(UDα V VDα U ) = UD2α UT i vettori singolari di destra (V) della matrice X corrispondono agli autovettori della matrice XT X i vettori singolari di sinistra (U) della matrice X corrispondono agli autovettori della matrice XXT i valori singolari della matrice X corrispondono alla radice quadrata degli autovalori non nulli delle matrici XT X e XXT A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Matrice dei residui standardizzati Ottenuta la tabella S dei residui standardizzati, per ottenere la soluzione si effettua la decomposizione in valori singolari, (SVD) 1 2 3 4 1 0.1611 0.0000 0.0000 0.0000 2 0.0000 0.0617 0.0000 0.0000 3 0.0000 0.0000 0.0324 0.0000 A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema valori singolari Dα = Tecniche di riduzione della dimensionalità (parte2) 4 0.0000 0.0000 0.0000 0.0000 Analisi Corrispondence Multiple vettori singolari 1 2 3 4 5 6 7 1 -0.6267 -0.0937 -0.1815 -0.1059 0.2331 0.4470 0.5478 U 2 0.0888 -0.3761 0.3513 0.2401 -0.6108 -0.0937 0.5364 vettori singolari 3 0.2293 -0.7776 0.2252 -0.0882 0.5227 0.0611 -0.0853 4 -0.1885 0.1390 0.7076 -0.2089 -0.1655 0.5070 -0.3411 1 2 3 4 1 0.2067 -0.6946 -0.2839 0.6279 V 2 -0.5036 0.5269 -0.2269 0.6460 3 0.2485 0.1910 -0.9072 -0.2807 4 -0.8012 -0.4511 -0.2120 -0.3311 Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Matrice dei residui standardizzati Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Calcolo delle coordinate dei profili riga e colonna coordinate delle righe standard coords = Dr−1/2 U coordinate delle colonne standard coords = D−1/2 V c principal coords = Dr−1/2 UDα principal coords = Dc−1/2 VDα Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Rappresentazione grafica Tecniche di riduzione della dimensionalità (parte2) A. Iodice Figura: Principal Coords righe, Standard Coords colonne Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Rappresentazione grafica Tecniche di riduzione della dimensionalità (parte2) A. Iodice Figura: Standard Coords righe, Principal Coords colonne Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Rappresentazione grafica Tecniche di riduzione della dimensionalità (parte2) A. Iodice Figura: Principal Coords righe, Principal Coords colonne Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Analisi Delle Corrispondenze Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Analisi multidimensionale di dati qualitativi L’Analisi delle Corrispondenze Multiple rappresenta uno strumento per lo studio delle relazioni tra p caratteri statistici qualitativi, ognuno caratterizzato da mj modalità (j=1,. . . ,p). Un applicazione molto comune per l’ACM consiste nell’utilizzo di tale metodo per visualizzare i risultati di una indagine via questionario (domande in forma chiusa). Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Analisi Delle Corrispondenze A. Iodice La matrice dei dati Si considerino i seguenti risultati di un’indagine riguardante gli sbocchi occupazionali di un campione di 389 laureati a cui sono state sottoposte 12 domande in forma chiusa. Si riporta un esempio delle prime 5 righe ed 8 colonne della matrice di dati 1 2 3 4 5 1 2 3 4 5 Genere maschio femmina maschio maschio maschio Diploma maturità scientifica maturità scientifica maturità classica maturità scientifica maturit‡ scientifica Residenza altre province altre province Napoli provincia di Napoli altre province Voto.di.diploma voto tra 43 e 48 voto tra 36 e 42 voto tra 43 e 48 voto tra 49 e 54 voto tra 36 e 42 Voto.di.laurea voti tra 96 e 105 voti tra 96 e 105 voti tra 96 e 105 voti tra 96 e 105 voti minori di 96 Frequenza.ai.corsi meno del 30% meno del 30% tra il 30% ed il 50% tra il 30% ed il 50% tra il 30% ed il 50% Età.attuale tra 26 e 30 anni oltre 30 anni tra 26 e 30 anni tra 26 e 30 anni tra 26 e 30 anni Materia.della.tesi.di.laurea materie economiche altre materie materie economiche materie giuridiche materie giuridiche Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Tabelle di dati A. Iodice Tabella in codifica ridotta Un tipo di codifica di dati relativi a n unità statistiche su cui sono osservate p variabili qualitative consiste nella costruzione della tabella di codifica ridotta R . n righe corrispondenti alle unità p colonne quante sono le variabili il generico elemento rij della matrice R è tale che rij → numero della modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Tabelle di dati A. Iodice Analisi delle Corrispondenze Tabella in codifica ridotta 1 2 3 4 5 1 2 3 4 5 Diploma 2 2 1 2 2 Genere 1 2 1 1 1 Residenza 3 3 1 2 3 Voto.di.diploma 2 1 2 3 1 Voto.di.laurea 2 2 2 2 1 Frequenza.ai.corsi 2 2 3 3 3 Età.attuale 2 3 2 2 2 Materia.della.tesi.di.laurea 1 5 1 2 2 Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tabelle di dati Tecniche di riduzione della dimensionalità (parte2) A. Iodice Tabella in codifica disgiuntiva completa Un tipo di codifica di dati relativi a n unità statistiche su cui sono osservate p variabili qualitative consiste nella costruzione della tabella di codifica disgiuntiva completa Z . n righe corrispondenti alle unità s colonne quante sono le modalità delle p variabili il generico elemento zij della matrice Z è tale che zij = 1 se l’unità i è caratterizzata dalla modalità associata alla colonna j; zij = 0 altrimenti Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Tabelle di dati A. Iodice Analisi delle Corrispondenze Tabella in codifica disgiuntiva completa 1 2 3 4 5 1 2 3 4 5 maschio 1 0 1 1 1 femmina 0 1 0 0 0 voti minori di 96 0 0 0 0 1 Napoli 0 0 1 0 0 voti tra 96 e 105 1 1 1 1 0 provincia di Napoli 0 0 0 1 0 voti tra 106 e 110 0 0 0 0 0 altre province 1 1 0 0 1 voto 110 e lode 0 0 0 0 0 Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tabelle di dati Tecniche di riduzione della dimensionalità (parte2) Tabella di Burt A. Iodice Ottenuta la tabella in codifica disgiuntiva completa Z è si ricava la tabella di Burt B = ZT Z una tabella a blocchidi dimensioni s × s blocchi diagonali: ciascun blocco diagonale è una matrice diagonale i cui valori rappresentano le frequenze delle modalità della variabile cui il blocco è associato. blocchi extra-diagonali: ciascun blocco extra-diagonale rappresenta una tabella a doppia entrata che incrocia due delle p variabili considerate Tabella D Si definisce inoltre D la matrice diagonale i cui elementi corrispondono agli elementi diagonali della tabella di Burt. Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tabelle di dati Tabella di Burt Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tabelle di dati Tabella di Burt Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tabelle di dati Tabella di Burt Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Tabelle di dati È possibile formalizzare il problema in maniera analoga al caso di due variabili, per fare questo occorre definire opportunamente le matrici F, Dn , Ds . A. Iodice Analisi delle Corrispondenze Tabella F,Dn , Ds F= 1 n×p Z dove n × p rappresenta il totale di tabella della matrice Z: la somma degli elementi di ciascuna delle n righe è infatti uguale a p. Matrice diagonale dei marginali di riga della matrice F Dn = 1 n In dove In rappresenta la matrice identità di dimensioni n × n. Matrice diagonale dei marginali di colonna della matrice F Ds = 1 n×p D Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Tabelle di dati A. Iodice Analisi delle Corrispondenze Matrice F 1 2 3 4 5 maschio 0.0002 0.0000 0.0002 0.0002 0.0002 1 2 3 4 5 femmina 0.0000 0.0002 0.0000 0.0000 0.0000 voti tra 96 e 105 0.0002 0.0002 0.0002 0.0002 0.0000 Napoli 0.0000 0.0000 0.0002 0.0000 0.0000 provincia di Napoli 0.0000 0.0000 0.0000 0.0002 0.0000 voti tra 106 e 110 0.0000 0.0000 0.0000 0.0000 0.0000 altre province 0.0002 0.0002 0.0000 0.0000 0.0002 voto 110 e lode 0.0000 0.0000 0.0000 0.0000 0.0000 Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Tabelle di dati A. Iodice Analisi delle Corrispondenze Matrice F 1 2 3 4 5 1 2 3 4 5 minore di 26 anni 0.0000 0.0000 0.0000 0.0000 0.0000 maturità classica 0.0000 0.0000 0.0002 0.0000 0.0000 tra 26 e 30 anni 0.0002 0.0000 0.0002 0.0002 0.0002 maturità scientifica 0.0002 0.0002 0.0000 0.0002 0.0002 oltre 30 anni 0.0000 0.0002 0.0000 0.0000 0.0000 diploma tecnico 0.0000 0.0000 0.0000 0.0000 0.0000 altri diplomi 0.0000 0.0000 0.0000 0.0000 0.0000 Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Tabelle di dati A. Iodice Analisi delle Corrispondenze Matrice F voto tra 36 e 42 0.0000 0.0002 0.0000 0.0000 0.0002 1 2 3 4 5 1 2 3 4 5 solo per esami 0.0000 0.0000 0.0000 0.0000 0.0000 voto tra 43 e 48 0.0002 0.0000 0.0002 0.0000 0.0000 meno del 30% 0.0002 0.0002 0.0000 0.0000 0.0000 voto tra 49 e 54 0.0000 0.0000 0.0000 0.0002 0.0000 tra il 30% ed il 50% 0.0000 0.0000 0.0002 0.0002 0.0002 voto tra 55 e 60 0.0000 0.0000 0.0000 0.0000 0.0000 oltre il 50% 0.0000 0.0000 0.0000 0.0000 0.0000 Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Le tabelle dei profili Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze A questo punto è possibile ottenere le tabelle dei profili riga e colonna in maniera del tutto analoga al caso delle Corrispondenze semplici. In questo caso bisogna tenere conto che i profili riga fanno riferimento agli individui, mentre i profili colonna fanno riferimento alle modalità delle p variabili. profili riga: si ottiengono dividendo ciascun elemento di F per il rispettivo marginale (totale) di riga −1 Dn F profili colonna: si ottiengono dividendo ciascun elemento di F per il rispettivo marginale (totale) di colonna, −1 FDs Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Formalizzazione del problema: soluzione in Rs A. Iodice Analogamente al caso bivariato La soluzione nello spazio degli individui Analisi delle Corrispondenze Ricorrendo al metodo dei moltiplicatori di Lagrange, si perviene alla seguente formalizzazione −1 T −1 F Dn FDs u = λu La soluzione si ottiene diagonalizzando la seguente matrice (nello spazio delle modalità) T −1 −1 S = F Dn FDs S=F −1 −1 Dn FDs Z | n×p {z = FT = 1 p T Z ZD −1 = 1 p BD −1 T 1 Z −1 n×pD 1I {z n×p | n } |n{z } | {z } −1 −1 Dn Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple che può essere espressa come segue T Tecniche di riduzione della dimensionalità (parte2) F Ds } = Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Formalizzazione del problema: soluzione in Rn Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Analogamente al caso bivariato La soluzione nello spazio delle modalità Ricorrendo al metodo dei moltiplicatori di Lagrange, si perviene alla seguente formalizzazione T −1 −1 F Ds FDn v = λv La soluzione si ottiene diagonalizzando la seguente matrice (nello spazio delle modalità) T −1 −1 S = F Ds FDn Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Formalizzazione del problema: soluzione in Rn A. Iodice Spazio modalità il versore dell’asse principale è u Analisi delle Corrispondenze Spazio individui Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema asse principale v La proiezione di un vettore sull’asse di versore u secondo la distanza del chi-quadro si ottiene moltiplicando il vettore per il fattore principale −1 Ds u fattore principale Analisi Corrispondence Multiple −1 Dn v le coordinate principali dei profili riga sono date dal prodotto dalla matrice dei profili e il fattore principale coordinata principale −1 T −1 ĉ = Ds F Dn v ĉ = −1 Dn F Tecniche di riduzione della dimensionalità (parte2) × −1 Ds u | {z } | {z } matrice profili riga fattore principale Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Autovalori A. Iodice La matrice Z identifica s punti nello spazio Rn . Tuttavia ognuno dei p blocchi che compongono Z è caratterizzato da un autovalore banale, analogamente a quanto accade nel caso bivariato. Il numero di autovalori Il numero di autovalori non nulli è s1 + (s2 − 1) + (s3 − 1) + . . . + (sp − 1) = s − p + 1 Nell’analisi centrata (baricentro Della nube traslato nell’origine degli assi) il numero di autovalori non nulli s−p Dunque, la percentuale di variabilità spiegata è data da λα Ps−p j=1 λα Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Autovalori A. Iodice Analisi delle Corrispondenze La percentuale di variabilità spiegata λα Ps−p j=1 λα Rappresenta una misura pessimistica del potere esplicativo della sintesi ottenuta. motivo: la codifica disgiuntiva completa impone una sfericità artificiale della nube dei punti. correzione autovalori Benzècri λ 1 per λ > p ∗ = p p−1 2 λ− 1 p 2 Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Formalizzazione MCA residui standardizzati Tecniche di riduzione della dimensionalità (parte2) A. Iodice Per ottenere una soluzione della MCA, in maniera del tutto analoga a quanto detto per la CA, E’ possibile analizzare la tabella dei residui standardizzati. tabella delle contingenze La tabella delle frequenze relative (F) ottenuta a partire da Z 1 2 3 4 5 maschio 0.0002 0.0000 0.0002 0.0002 0.0002 femmina 0.0000 0.0002 0.0000 0.0000 0.0000 Napoli 0.0000 0.0000 0.0002 0.0000 0.0000 provincia di Napoli 0.0000 0.0000 0.0000 0.0002 0.0000 altre province 0.0002 0.0002 0.0000 0.0000 0.0002 Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Formalizzazione MCA residui standardizzati Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze vettori dei marginali (totali) di riga 1 2 3 4 5 x 0.0026 0.0026 0.0026 0.0026 0.0026 vettore dei marginali (totali) di colonna maschio femmina Napoli provincia di Napoli altre province x 0.0490 0.0345 0.0393 0.0249 0.0193 Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Formalizzazione MCA residui standardizzati Tecniche di riduzione della dimensionalità (parte2) A. Iodice Per ottenere una soluzione della CA è possibile analizzare la tabella dei residui standardizzati. centratura la centratura della matrice F si ottiene sottraendo a ciascun valore il prodotto dei marginali di riga e di colonna ad esso corrispondenti, formalmente fij − fi. f.j . Da un punto di vista algebrico questo corrisponde a F − nsT = 1 2 3 4 5 maschio 0.0001 -0.0001 0.0001 0.0001 0.0001 femmina -0.0001 0.0001 -0.0001 -0.0001 -0.0001 Napoli -0.0001 -0.0001 0.0001 -0.0001 -0.0001 provincia di Napoli -0.0001 -0.0001 -0.0001 0.0002 -0.0001 altre province 0.0002 0.0002 -0.0001 -0.0001 0.0002 Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Formalizzazione MCA residui standardizzati Tecniche di riduzione della dimensionalità (parte2) A. Iodice Per ottenere una soluzione della MCA è possibile analizzare la tabella dei residui standardizzati. standardizzazione dopo aver effettuato la centratura della matrice F si procede alla standardizzazione, formalmente fij −fi. f.j q . Da un punto di vista algebrico fi. f.j −1/2 −1/2 (F − nsT )Ds = S = Dn questo corrisponde a −1/2 1 2 3 4 5 maschio 0.0079 -0.0113 0.0079 0.0079 0.0079 Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple −1/2 S = Dn (F − nsT )Ds = femmina Napoli provincia di Napoli -0.0095 -0.0101 -0.0081 0.0134 -0.0101 -0.0081 -0.0095 0.0113 -0.0081 -0.0095 -0.0101 0.0189 -0.0095 -0.0101 -0.0081 Analisi delle Corrispondenze altre province 0.0235 0.0235 -0.0071 -0.0071 0.0235 Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Formalizzazione MCA residui standardizzati Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Ottenuta la tabella S dei residui standardizzati, per ottenere la soluzione si effettua la decomposizione in valori singolari, (SVD) decomposizione in valori singolari SV D(S) = UDα V T dove U e l’autovettore di sinistra e rappresenta lo spazio delle righe, V e l’autovettore di destra e rappresenta lo spazio delle colonne, Dα è la matrice diagonale dei valori singolari, che sono la radice quadrata degli autovalori. Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Tecniche di riduzione della dimensionalità (parte2) Formalizzazione MCA residui standardizzati Ottenuta la tabella S dei residui standardizzati, per ottenere la soluzione si effettua la decomposizione in valori singolari, (SVD) Dα = 1 0.4678 0.0000 0.0000 0.0000 0.0000 2 0.0000 0.3859 0.0000 0.0000 0.0000 vettori singolari 1 2 3 4 5 1 -0.0201 -0.0553 -0.0037 0.0058 -0.0453 U 2 -0.0157 -0.0596 0.0124 -0.0442 -0.0357 3 0.0000 0.0000 0.3572 0.0000 0.0000 4 0.0000 0.0000 0.0000 0.3351 0.0000 5 0.0000 0.0000 0.0000 0.0000 0.3277 Analisi Corrispondence Multiple vettori singolari 3 -0.0197 -0.0235 -0.0174 -0.0379 -0.0913 4 0.0661 -0.0624 0.0805 -0.0271 -0.0380 5 1 0.0068 1 -0.1569 0.0786 2 0.1859 -0.0138 3 0.0662 -0.0683 4 -0.0421 0.0639 5 -0.0481 V 2 0.1573 -0.1870 0.1754 -0.0450 -0.1982 Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema valori singolari 1 2 3 4 5 A. Iodice 3 -0.1237 0.1441 -0.1503 0.3146 -0.1479 4 0.0155 -0.0195 0.2020 -0.1087 -0.1657 Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM 5 -0.2051 0.2456 0.0350 -0.1570 0.1299 Formalizzazione MCA residui standardizzati Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Calcolo delle coordinate dei profili riga e colonna coordinate delle righe standard coords = Dn−1/2 U coordinate delle colonne standard coords = D−1/2 V s principal coords = Dn−1/2 UDα principal coords = Ds−1/2 VDα Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi ACM Autovalori Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Coordinate modalità Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Contributi modalità Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Qualità della rappresentazione delle modalità Tecniche di riduzione della dimensionalità (parte2) A. Iodice Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Altra applicazione Tecniche di riduzione della dimensionalità (parte2) A. Iodice Il data set è estratto dal sondaggio ISSP del 1993, si riferisce a rispondenti della Germania. Il numero di attributi considerati è p = 7, il numero di unità statistiche è n = 871. Ci sono quattro affermazioni rispetto alle quali si richiede agli intervistati di dare un giudizio. Ci sono inoltre tre attributi di tipo demografico come genere, età and titolo di studio. Le affermazioni A Crediamo troppo nella scienza e troppo poco in fede e sentimenti. B In generale, la scienza moderna comporta più problemi che vantaggi. C Ogni intervento dell’uomo sulla natura non fa altro che peggiorare le cose. D La scienza ci aiuterà a risolvere i problemi ambientali determinando pochi cambiamenti nel nostro stile di vita. Modalità degli attributi A-D 1. condivido fortemente, 2. condivido abbastanza, 3. indifferente, 4. non condivido, 5. non condivido affatto. genere Due modalità. età Sei modalità. titolo di studio Sei modalità. Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM Risultati analisi MCA Tecniche di riduzione della dimensionalità (parte2) A. Iodice Rappresentazione delle modalità Analisi delle Corrispondenze Definizione a matrice dei dati Misura di connessione Trasformazioni sulla tabella a doppia entrata Interpretazioni geometriche Formalizzazione del problema Analisi Corrispondence Multiple Collegamento con il caso bivariato Formalizzazione del problema Formalizzazione MCA residui standardizzati Risultati analisi ACM