Document

annuncio pubblicitario
L’analisi delle corrispondenze
semplici (AC) e multiple (ACM)
La CA costituisce uno dei più noti ed efficaci
strumenti per il trattamento
multidimensionale di dati qualitativi
Obiettivi:
• Rappresentazione grafica
• Sintesi della struttura di associazione tra due
(o più) variabili qualitative
Struttura dei dati:
La tabella di contingenza
Notazione – dati in una tabella ca
Profili riga e colonna
Tabella di contingenza
P1
P2
P3
P4
Totale
A
69
37
7
5
118
B
148
45
14
22
229
C
170
65
12
29
276
D
159
57
12
28
256
E
122
26
6
18
172
F
106
21
5
23
155
G
40
7
1
14
62
814
258
57
139
1268
Totale
DATI: La tabella riporta l’acquisto di 4 prodotti P1, P2, P3, P4 da parte di 7
categorie di clienti A, B, C, D, E, F, G
OBIETTIVO: Studiare la struttura di interdipendenza tra la variabile X
(tipo di cliente) e la variabile Y (tipo di prodotto), analizzando la
corrispondenza tra gli elementi dei due insiemi di caratteri
Tabella profili riga
P1
P2
P3
P4
Tot
A
58,5
31,4
5,9
4,2
100,0
B
64,6
19,7
6,1
9,6
100,0
C
61,6
23,6
4,3
10,5
100,0
D
62,1
22,3
4,7
10,9
100,0
E
70,9
15,1
3,5
10,5
100,0
F
68,4
13,5
3,2
14,8
100,0
G
64,5
11,3
1,6
22,6
100,0
profilo medio
64,4
19,5
4,2
11,9
Dalla tabella dei profili riga si vede, ad esempio, che il 64,6% dei clienti
della categoria B preferisce il prodotto P1…
Il profilo medio ci dice che, indipendentemente dalla categoria, che oltre il
64% dei clienti ha acquistato il prodotto P1 e solo il 4% ha acquistato il
prodotto P3
Tabella profili colonna
P1
P2
P3
P4
Profilo medio
A
8,5
14,3
12,3
3,6
9,7
B
18,2
17,4
24,6
15,8
19,0
C
20,9
25,2
21,1
20,9
22,0
D
19,5
22,1
21,1
20,1
20,7
E
15,0
10,1
10,5
12,9
12,1
F
13,0
8,1
8,8
16,5
11,6
G
4,9
2,7
1,8
10,1
4,9
Totale
100
100
100
100
Cosa possiamo leggere dai profili colonna?
Dal punto di vista geometrico
Ogni profilo può essere considerato come un vettore in
uno spazio multidimensionale. La nube degli r profili riga
relativi alla variabile X nello spazio R C generato dalle c
modalità della variabile Y.
A differenza di quanto visto per l’ACP, dove ciascun
individuo aveva un peso costante pari a 1/n, nell’analisi
delle corrispondenze ciascun punto (profilo riga e
colonna) è munito di una massa pari al rapporto tra il
rispettivo marginale ed il totale della tabella, in modo da
conservare l’informazione relativa delle singole righe e
colonne
Tabella profili, masse e profilo medio
P1
P2
P3
P4
MASSE
A
87,6 148,2 126,9
37,2
X
0,093
B
95,7
83,3
X
0,181
C
94,9 114,5
95,7
94,8
X
0,218
D
94,3 106,7 101,7
97,3
X
0,202
91,8 129,2
E
123,5
83,0
86,7 106,7
X
0,136
F
112,1
70,0
75,5 142,4
X
0,122
G
101,0
55,8
36,1 207,1
X
0,049
profilo medio
101,3
95,7
93,1 109,8
Inerzia e distanza del 2
• L’inerzia di una tabella di contingenza è 2=2/n
• La statistica 2=i j(fij - fi.f.j)2/fi.f.j misura
la
discrepanza tra le frequenze osservate e attese sotto
l’ipotesi di indipendenza in una tabella di contingenza
• il 2 misura anche la lontananza di un profilo (riga o
colonna) dal suo profilo medio
2= ifi.j1/f.j (fij/fi. - f.j)2= j f.j i 1/fi.(fij/fi. - fi.)2
• la nozione di lontananza suggerisce la definizione di
una distanza fra profili:
Distanza del
2
Distanza del 2 - 1
• la distanza euclidea è quella che
implicitamente fra due punti i e i’:
d22(i,i’)=j(xij - xi’j)2
si
assume
• la distanza del 2 differisce da quella euclidea
poiché ciascuna distanza è divisa per la radice
quadrata del corrispondente elemento del profilo
medio:
d2(i,i’)=j(1/f.j)(fij/fi. - fi’j /fi’.)2
poiché f.j1, la trasformazione ingrandisce il valore
delle coordinate, in particolare di quelle coordinate
relative a modalità rare
Distanza del 2 - 2
• L’inerzia (2 = 2/n ) può essere riscritta come
la media ponderata delle distanze del 2 fra
profili (riga o colonna) e il profilo medio
• Inerzia (e 2) possono essere rappresentati
geometricamente come il grado di dispersione
dell’insieme di punti profilo (riga o colonna),
intorno
alla
loro
media,
utilizzando
l’appropriato sistema di pesi
Riduzione di dimensionalità
In genere i profili sono rappresentati da una nube di
punti in uno spazio multidimensionale
Per rappresentarli graficamente occorre identificare un
sottospazio prossimo ai punti profilo cosicché la loro
proiezione sia la migliore approssimazione (nel senso dei
minimi quadrati) della nube osservata
Individuare l’asse corrispondente alla direttrice di massima inerzia della
nube dei punti e poi il secondo (ortogonale) e così via
Decomposizione in valori singolari
di una matrice X (n,p; n>p) ECKART&YOUNG(1936)
p
X =   =1   v  u' = V 1 2U'
dove
   , generico elemento della matrice diagonale  è
l' - esimo autovalore di X' X e di XX'
 u e v  , colonne di U e di V, sono gli autovettori
corrispond enti a   rispettivamente in X' X e XX'
 u' u = v ' v  = 1
X
=1
v1
u1
+...+
p
vp
up
Ricostruzione
approssimata
Ricostruzione approssimata di X
mediante una matrice di rango ridotto
1   2     Q     p  0


"trascurabi li"
X  X* = 
Q
 =1
 v u'



• L’accuratezza dell’approssimazione di un sottospazio fattoriale Q-dimensionale è misurata dal
tasso di inerzia:
 
TIQ  =
con M = min(I, J)  1
 
Q
 =1

M
 =1

Le coordinate fattoriali
Si dimostra che, per rappresentare gli n punti-riga:

ˆ 1 = Xu1 = 1 v1
n,1 
è la migliore approssimazione della nube di su una retta
ˆ 1, ˆ 2  è la migliore approssima zione sul piano,
con 
ˆ2
n,1 
= Xu2 = 2 v2
E così via per sottospazi di dimensioni maggiori. Analogamente, per i punti
colonna:
ˆ
1 = X'v1 = 1 u1 ; ˆ
1 , ˆ
2 ; 
p,1 
Le matrici dell’AC
N (I,J) tabella di contingenza [nij] (i= 1, …, I; j=1, …, J)
F (I,J) matrice delle frequenze relative [fij= nij/n ],
I
J
con i =1  j =1 ni j = n
DI (I,I) matrice diagonale [fi.], marginale di riga
fi. = Jj =1 fi j
DJ (J,J) matrice diagonale [f.j], marginale di colonna
f. j = iI=1 fi j
DI-1 F (I,J) matrice dei profili riga
F DJ-1 (I,J) matrice dei profili colonna
L’AC
• La matrice da analizzare è la matrice dei profili riga DI-1F
• L’uso della distanza del 2 si esprime nel vincolo di
normalizzazione U’ DJ-1U=I
• Analogamente, considerando la matrice dei profili colonna
FDJ-1, con il vincolo V’DI-1V=I
• L’AC dal punto di vista dei profili-riga (rispetto ai verticicolonna) e quella dei profili-colonna (rispetto ai vertici-riga)
sono equivalenti dal punto di vista dell’inerzia, della
dimensionalità e della perdita di informazione
LA TRASFORMAZIONE :
LE COORDINATE FATTORIALI
Le coordinate sull’-esimo asse nei due spazi:
ˆ  = DI F

1
dove
 = DJ v è l' - esimo fattore
1
( I ,1)
ˆ  = DJ1F' 
dove
  = DI1u
è l' - esimo fattore
( J ,1)
Da cui derivano le cosiddette formule di transizione che consentono di
rappresentare i punti dello spazio delle righe nello spazio delle colonne e
viceversa:
1 1
ˆ =
ˆ

DI F

e
1 1
ˆ
ˆ  =
DJ F

Contributi ad un asse fattoriale
• L’inerzia totale di una tabella misura la disomogeneità
dei profili riga e dei profili colonna. Ogni riga e ogni
colonna contribuiscono in relazione al loro allontanarsi
dalla situazione di indipendenza, espressa dai marginali
• Il contributo ai singoli assi esprime l’importanza di una
modalità nei confronti di del fattore. Si interpreta più
facilmente in relazione all’importanza () del fattore.
E’ molto importante per interpretare gli assi.
Per l’i-esima riga è dato da:
ˆ 2i fi.  
c (i) = 
• analogamente per la j-esima colonna:
ˆ 2i f.j  
c (j) = 
Qualche ulteriore aiuto alla lettura
•I contributi relativi (o coseni
quadrati) esprimono quanto un
punto è deformato dalla
proiezione sull’asse fattoriale.
Misurano la qualità della
rappresentazione e variano
fra 0 e 1
l
L*
• I punti supplementari sono righe (colonne) aggiuntive,
proiettate nel sottospazio identificato dagli elementi
attivi, per facilitarne l’interpretazione.
• I contributi relativi si calcolano anche per i punti
supplementari, quelli assoluti solo per gli attivi
Perché l’Analisi delle Corrispondenze Multiple?
Studio di un
fenomeno sociale
Variabili
qualitative
ANALISI DELLE
CORRISPONDENZE
MULTIPLE
• variabili demografiche
di base
• variabili binarie
• variabili che rilevano
opinioni, atteggiamenti,
comportamenti
• Guttman
• Burt e Hayashi
• Benzecri
• Masson
L’analisi delle corrispondenze multiple (ACM)
Consente di operare una sintesi
sulle variabili qualitative con lo
scopo di individuare i fattori
soggiacenti alla struttura dei dati.
 Variabili attive che
corrispondono alle variabili
d’interesse della ricerca.
 Variabili illustrative che
corrispondono alle variabili
demografiche di base.
MATRICE DEI DATI
(n unità e p variabili)
Matrice logicodisgiuntiva completa
(n unità x q modalità)
Tavola di frequenze relative
(n unità x q modalità)
Matrice profili-riga o di
profili-colonna
Matrice di Burt
MATRICE LOGICO-DISGIUNTIVA COMPLETA:
Per ogni unità statistica (riga della matrice dei dati) si assegna una colonna
a ciascuna modalità e si attribuisce valore 0 se l’unità non presenta quella
modalità, 1 altrimenti.
Tavola di frequenze
relative
MATRICE PROFILI-RIGA O
PROFILI-COLONNA :
si divide ciascun elemento per
il rispettivo totale di riga o di
colonna a seconda dei casi.
MATRICE DI BURT:
si incrociano tra loro le q
modalità della tavola di
frequenze relative. Otteniamo
una matrice di dimensioni qxq.
I risultati dell’analisi condotta sui due tipi di
tabelle sono equivalenti.
Costruzione della matrice
Matrice di Burt
La matrice originaria nxp
Età
Reddito
65
18
23
50
32
50
28
17
19
46
18
1
5
8
10
3
7
3
1
2
5
3
0
0
0
0
0
0
0
0
0
0
0
Professione
0 0 0 0
0 0 0 0
0 0 0 1
0 1 0 0
0 0 0 0
0 1 0 0
0 0 0 1
0 0 1 0
0 0 0 0
0 0 1 0
0 1 0 0
L'analisi delle corrispondenze multiple
1
1
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
0
0
16/05/2011
1a Trasformazione
Età in classi
16-20
21-45
46-65
2a Trasformazione
Reddito in classi
1-2
3-5
6-7
8-10
Pagina 27
La matrice logico disgiuntiva
completa
Età
0 0
1 0
0 1
0 0
0 1
0 0
0 1
1 0
1 0
0 0
1 0
.. .. ..
4 3
11
1
0
0
1
0
1
0
0
0
1
0
1
0
0
0
0
0
0
1
0
0
0
..
4
2
Reddito
Professione
0 0 0
0
0
0
0
0 1
0
0 1 0
0
0
0
0
0 1
0
0 0 1
0
0
0
0
1 0
0
0 0 1
0
0
1
0
0 0
0
0 0 1
0
0
0
0
0 0
1
0 1 0
0
0
1
0
0 0
0
1 0 0
0
0
0
0
1 0
0
0 0 0
0
0
0
1
0 0
0
0 1 0
0
0
0
0
0 1
0
1 0 0
0
0
0
1
0 0
0
1 0 0
0
0
1
0
0 0
0
.. .. .. ..
..
..
..
..
.. ..
3 3 3
0
0
3
2
2 3
1
11
3
3
3
3
3
3
3
3
3
3
3
3
numero delle
variabili
11
numero dei
casi
L'analisi delle corrispondenze multiple
16/05/2011
Pagina 28
La matrice di Burt
16-20
21-45
46-65
1-2
3-5
6-7
8-10
a
b
c
d
e
f
g
16-20
4
0
0
1
1
2
0
0
0
1
1
0
2
0
Età
Reddito
Professione
21-45 46-65 1-2 3-5 6-7 8-10 a b c d e f
0
0
3
0
0
4
0
1
2 0 0
0
1
1
0 3 0
0
0
1
0 0 3
0
2
1
0 0 0
3
0
0
0 0 0
0 0 0 0 0 0
0
0
0 0 0
0 0 0 0 0 0
0
2
0 1 1
1 0 0 3 0 0
0
1
1 1 0
0 0 0 0 2 0
2
0
0 1 0
1 0 0 0 0 2
0
1
1 0 2
0 0 0 0 0 0
1
0
0 0 0
1 0 0 0 0 0
L'analisi delle corrispondenze multiple
16/05/2011
g
0
0
0
0
0
3
0
0
0
0
0
0
0
1
Pagina 29
La matrice di profili riga e profili colonna trasposti
16-20
21-45
46-65
1-2
3-5
6-7
8-10
a
b
c
d
e
f
g
16-20
0,36
0
0
0,5
0,333
0,667
0
0
0
0,33
0,5
0
0,667
0
Età
Reddito
Professione
21-45 46-65 1-2 3-5 6-7 8-10 a
b
c
d
e
f
g
0
0 0,25 0,25 0,50 0,00
0,27
0
0 0,33
0 0,67
0 0,36 0,25 0,25 0,25 0,25
0
0,5 0,18
0
0
0
0,33 0,33
0 0,27
0
0
0 0,33
0
0 0,27
0
0,67 0,33
0
0
0 0,27
0
0
0
0
0
0 0,00 0,00 0,00 0,00 0,00 0,00 0,00
0
0
0
0
0
0 0,00 0,00 0,00 0,00 0,00 0,00 0,00
0 0,67
0 0,33 0,33 0,33 0,00 0,00 0,27 0,00 0,00 0,00 0,00
0
0,5 0,5 0,5
0
0 0,00 0,00 0,00 0,18 0,00 0,00 0,00
1
0
0 0,5
0 0,5 0,00 0,00 0,00 0,00 0,18 0,00 0,00
0 0,33 0,33
0 0,67
0 0,00 0,00 0,00 0,00 0,00 0,27 0,00
1
0
0
0
0
1 0,00 0,00 0,00 0,00 0,00 0,00 0,09
0,36= 4/11 (frequenza relativa distribuzione semplice carattere età)
0,5= 1/2 (frequenza relativa profilo di riga trasposto)
0,25= 1/4 (frequenza relativa profilo di colonna trasposto)
L'analisi delle corrispondenze multiple
16/05/2011
Pagina 30
Obiettivo dell’ACM:
Individuare k nuove variabili (chiamate fattori) ottenute come
combinazioni lineare di quelle di iniziali, ortogonali tra loro, tali da
spiegare la maggior parte della variabilità interna ai dati di partenza.
Il problema è ottimizzato dagli autovettori calcolati
sulla Matrice di Burt.
La somma degli autovalori λj coincide con l’inerzia totale dei dati iniziali.
j
Proporzione di inerzia
spiegata dal fattore j.
 j
Visione
pessimista
j
2
 p  
1
   j  
'j = 
p
 p 1  
2
Benzecri propone una rivalutazione
per i soli autovalori maggiori di 1\p
' j
 j ' j
Numero dei fattori da considerare:
Si individua il fattore oltre il quale l’inerzia cumulativa spiegata inizia ad
aumentare molto lentamente, per esempio al di sotto del 10% per ogni
successivo fattore aggiunto.
INTERPRETAZIONE DEGLI ASSI FATTORIALI:
Coordinate fattoriali:
Le modalità con valori più alti
(sia positivi che negativi)
contribuiscono maggiormente
alla formazione degli assi.
Indicatori statistici:
 Contributi assoluti: i valori
più elevati individuano le
modalità che più
caratterizzano il fattore.
 Contributi relativi: i valori
più elevati individuano le
modalità meglio
rappresentate sul piano
fattoriale.
Fattore di correzione E CODIFICA DISGIUNTIVA
I tassi di inerzia sono una misura pessimistica dell’effettivo
potere esplicativo dei fattori, perché “la codifica
disgiuntiva dei fattori, imponendo una relazione di
ortogonalità tra le modalità di una stessa variabile,
introduce una sorta di sfericità artificiale alla nube di
punti. Per correggere questa distorsione Benzecrì (1979)
ha introdotto la seguente espressione:
 p 
 ( ) = 

 p 1
2

1
  
p

2
Lambda è il valore che assume l’autovalore e p sono le variabili
Riepilogo su ACP ed ACM
ACP
ACM
Tipo di dati
Dati quantitativi (dati ecologici, demografici,
economici…)
Dati qualitativi (nominali e ordinali) e
quantitativi (da ricodificare in classi)
Fonti dei dati
Dati amministrativi, banche dati ufficiali, etc..
Questionari, surveys
I precedenti in letteratura
Principi teorici delineati da K.Pearson (1901)
e definiti successivamente da Hotelling
(1933) -
Anticipazione dei principi di fondo in Guttman
(1941), Burt (1950) – Trova riferimenti in
proposte più vicine come l’Homogeneity
Analysis della scuola olandese (1970), il Dual
scaling (Nishisato, 1980) e l’analisi canonica
generalizzata (Carrol, 1968).
Matrici di riferimento
Matrice delle correlazioni e/o delle covarianze
Matrice logico disgiuntiva completa e matrice
di Burt
(Tavole di contingenza)
L'analisi delle corrispondenze multiple
Pagina 34
….segue
ACP
Statistica di riferimento per
l’analisi delle relazioni tra le
variabili
Coefficiente di correlazione lineare r di
Pearson
Indicatori da considerare
nell’interpretazione delle
componenti/assi fattoriali
Autovalore o valor proprio (λ)
Varianza spiegata e cumulata
Factor loading (contributi ai fattori)
Comunalità
Factor scoring (punteggi fattoriali)
Coordinate fattoriali
ACM
Metrica del Chi2
Test KMO (Kaiser-Meyer-Olkin) e di sfericità
di Bartlett
L'analisi delle corrispondenze multiple
16/05/2011
Massa o peso relativo di ogni modalità
Indice di distorsione (di distanza dall’origine)
di ogni modalità
Contributo assoluto di ogni variabile e
modalità
Coseno quadrato (contributo relativo)
Coordinate fattoriali
Pagina 35
Analisi delle corrispondenze in R
Le seguenti librerie consentono di sviluppare
un’analisi delle corrispondenze semplici e multiple:
• anacor (de Leeuw and mair)
• ca (Nenadic and Greenacre)
• ade4 (Chessel)
• vegan (Dixon)
• homals (de Leeuw)
• FactoMineR (Husson et al.)
L’analisi delle corrispondenze in R
con la libreria ca
In R le funzioni corresp() e mca() (libreria MASS)
consentono di implementare l’analisi delle corrispondenze
semplici e multiple, ma presentano dei limiti. Per esempio, la
funzione per analisi delle corrispondenze semplici non
consente di includere variabili supplementari.
La libreria ca permette di sviluppare:
Simple CA:
– Computation: ca()
– Printing e Summaries: print() e summary()
– Plotting: plot.ca() e plot3d.ca()
MCA :
– Computation: mjca()
– Printing e Summaries: print() e summary()
– Plotting: plot.mjca() e plot3d.mjca()
Dataset:
– smoke, author and wg93
Dataset
Dataset «smoke» contiene l’abitudine al fumo (nessuno, leggera,
media e dipendenti pesanti) di un gruppo di dipendenti in una
società X (dirigenti, quadri, dipendenti senior, junior
e segretari).
Dataset wg93 (tratte da the International Social Survey
Programme 1993, see http://www.issp.org/).
Il dataset è composto da 871 individui e 7 variabili
3 di tipo demografico:
Sex: male, female
Age (six groups): 16–24, 25–34, 35–44, 45–54, 55–64, 65 e +
Education (six groups): 1=primary incomplete, 2=primary
completed, 3=secondary incomplete, 4=secondary completed,
5=tertiary incomplete, 6=tertiary completed
Dataset wg93
4 variabili attive
How much do you agree or disagree with each of these statements?
A.We believe too often in science, and not enough in feelings
and faith.
B. Overall, modern science does more harm than good.
C. Any change humans cause in nature — no matter how scientific
— is likely to make things worse.
D. Modern science will solve our environmental problems
with little change to our way of life.
Each question has five possible response categories:
1. Agree strongly
2. Agree
3. Neither agree nor disagree
4. Disagree
5. Disagree strongly
Usiamo R Commander
Da strumenti,
cliccare su carica il
plug-in
Dopo aver caricato la libreria
ca, da «dati presenti nei
pacchetti»,
cliccare
su
«leggi dati da un pacchetto
caricato» e selezionare il
dataset
«smoke»
Selezionare le modalità
dei
due
caratteri,
selezionare le opzioni
grafiche e salvare gli
output su un file .csv
Principali risultati
CA
Principal inertias
1
Value
0.074759
Percentage 87.76%
(eigenvalues):
2
3
0.010017 0.000414
11.76%
0.49%
Rows:
SM
JM
SE
JE
SC
Mass
0.056995 0.093264 0.264249 0.455959 0.129534
ChiDist 0.216559 0.356921 0.380779 0.240025 0.216169
Inertia 0.002673 0.011881 0.038314 0.026269 0.006053
Dim. 1 -0.240539 0.947105 -1.391973 0.851989 -0.735456
Dim. 2 -1.935708 -2.430958 -0.106508 0.576944 0.788435
Columns:
none
Mass
0.316062
ChiDist 0.394490
Inertia 0.049186
Dim. 1 -1.438471
Dim. 2 -0.304659
light
0.233161
0.173996
0.007059
0.363746
1.409433
medium
heavy
0.321244 0.129534
0.198127 0.355109
0.012610 0.016335
0.718017 1.074445
0.073528 -1.975960
Scarica