“Analisi di dati categoriali”
Corso di Laurea in Sociologia
Facoltà di Sociologia
Università Milano-Bicocca
Ottobre 2009
Simone Sarti
1
Gli odds ratio
Le relazioni tra variabili possono essere
analizzate in termini probabilistici.
L’odds ratio è una misura
dell’associazione tra due variabili.
L’odds è un rapporto di probabilità.
L’odds ratio è un rapporto di odds.
2
Odds
Un odds è un rapporto di frequenze tra osservazioni
che appartengono ad una data categoria e
osservazioni che non appartengono ad una data
categoria.
Esempio: distribuzione di freq. in base alla variabile “diploma di laurea”
Freq.
Laureati
471
Non laureati
685
Tot.
1156
Odd= 471/685 = 0,688 (in decimali)
Prob.= 471/1156 = 0,407 = 40,7%
Le probabilità variano da 0 a 1
Gli odds variano da 0 a +inf.
3
Gli odds assumono valori inferiori ad 1 se la
probabilità che si verifichi un dato evento è
inferiore alla probabilità che non si verifichi
Gli odds assumono valori superiori ad 1 se la
probabilità che si verifichi un dato evento è
superiore alla probabilità che non si verifichi
Gli odds assumono valore 1 se la probabilità che
un evento si verifichi è pari alla probabilità che
non si verifichi.
4
La relazione tra odds e probabilità è la seguente:
pi
Odds i 
1  pi
5
Odds e Odds ratio
SEX * EDUC Crosstabulation
EDUC
SEX
male
female
Total
Count
% within SEX
Count
% within SEX
Count
% within SEX
coll
237
46.7%
234
36.1%
471
40.7%
les s
271
53.3%
414
63.9%
685
59.3%
Total
508
100.0%
648
100.0%
1156
100.0%
6
Odds marginali
L’odds marginale di aver conseguito un’istruzione
superiore piuttosto che inferiore è pari a
471/685=0.688
L’odds marginale inverso sarà 1/0.688=1.454. La
propensione marginale che qualcuno abbia un
livello di istruzione inferiore è circa 1.5 volte
superiore rispetto a quella di avere un livello di
istruzione superiore.
7
Odds condizionali
La distribuzione condizionale del livello di istruzione
mostra che per gli uomini gli odds di raggiungere
un livello di istruzione superiore piuttosto che
inferiore sono 0.875 =237/271.
Per le donne i corrispondenti odds si attestano a
0.565 =234/414
8
Odds ratio
Il modo in cui i due odds condizionali differiscono
l’uno dall’altro può essere espresso dal loro
rapporto:
0.875/0.565=(237/271)/(234/414)=1.547
L’odds ratio indica il rapporto fra il prodotto delle
celle della diagonale principale e il prodotto delle
celle della diagonale secondaria.
L’odds di raggiungere un livello di istruzione
superiore piuttosto che inferiore è 1.5 volte più
favorevole per i maschi che le donne.
9
Y
X
a
b
c
d
Relazione tra probabilità, odds ed
odds ratio e in una tavola due X due:
pa
a pa
Odds1  1  

b pb 1  pa
Oddsratio 1   1
2
a
2
1
ad
b



2 c
bc
d
10
Age -sex- education
Hagenaars model
SEX * EDUC * AGE Crosstabulation
EDUC
AGE
16-34
SEX
male
female
Total
35-57
SEX
male
female
Total
58-91
SEX
male
female
Total
Count
% within SEX
Count
% within SEX
Count
% within SEX
Count
% within SEX
Count
% within SEX
Count
% within SEX
Count
% within SEX
Count
% within SEX
Count
% within SEX
coll
100
54.6%
91
47.4%
191
50.9%
92
48.9%
78
35.5%
170
41.7%
45
32.8%
65
27.5%
110
29.5%
les s
83
45.4%
101
52.6%
184
49.1%
96
51.1%
142
64.5%
238
58.3%
92
67.2%
171
72.5%
263
70.5%
Total
183
100.0%
192
100.0%
375
100.0%
188
100.0%
220
100.0%
408
100.0%
137
100.0%
236
100.0%
373
100.0%
11
Odds ratio di secondo ordine
Calcoliamo gli odds ratio condizionali per ciascun gruppo di
età
Per il gruppo più giovane è pari a 1.337 (100/83)/(91/101)
Per il gruppo di mezzo è 1.745
Per il gruppo più anziano è 1.287
Il modo in cui questi tre odds ratio condizionali differiscono
uno dall’altro può essere espresso dal odds ratio di
secondo ordine che è ottenuto dal rapporto di odds ratio di
primo ordine.
L’odds ratio di secondo ordine esprime in che misura
l’associazione tra due variabili varia in relazione alle
categorie di una terza variabile.
12
Confrontiamo gli odds ratio condizionali dei giovani rispetto ai
soggetti in età centrale e otteniamo
0.766=(1.337/1.745)
Compariamo i giovani con gli anziani
1.039=(1.337/.1287)
Ed infine l’età di mezzo con gli anziani
1.356=(1.745/1.287).
Gli odds ratio condizionali ci indicano che in tutti i tre gruppi
le probabilità di conseguire un alto livello di istruzione sono
più sfavorevoli per le donne rispetto agli uomini.
In più la discrepanza tra le opportunità di istruzione tra
uomini e donne è massima nel gruppo di soggetti in età
centrale
13
ODDS PARZIALI
Gli odds parziali sono medie di odds condizionali,
dove la media geometrica è usata come misura di
tendenza centrale
Partial odds “high/low educ” tab.2.1 =
0,875  0,565  0,703
Tale valore non è identico a 0.688 ottenuto dagli odds
marginali corrispondenti.
14
Odds ratios parziali
I Gli odds ratio parziali sono definiti come una media
geometrica dei corrispondenti odds ratio condizionali.
Partial odds ratio “sex by educ” tab.2.2 =
 3 1,337 1,745 1,287  1,443
Tale valore non è identico a 1.547 ottenuto dal
corrispondente odds ratio marginale.
15
Il problema dell’asimmetria
Quando interpretiamo la forza degli odds e degli odds ratio
dobbiamo ricordare che i valori degli odds sono
asimmetricamente situati attorno ad 1, che è il valore
dell’assenza di differenza.
Il limite massimo negativo è 0 mentre il limite massimo
positivo è +infinito. L’asimmetria scompare quando
lavoriamo con i logaritmi naturali degli odds e degli odds
ratios. Il limite negativo diventa -infinito, quello positivo +
infinito
Il logaritmo naturale dell’odds riceve la denominazione di
logit.
16
 i 

LOGIT  ln 
1  i 
LOGIT  ln ODDS 
17
Il problema dell’asimmetria
y
y
Effetto
positivo
Effetto
positivo
Assenza
di effetto
Assenza
1
Effetto
negativo
0
logit(π)
0
0,5
1
Effetto
negativo
logit (-∞,+∞)
odds (0,+∞)
y=logit(π)
y= π /(1- π)
0<π <1
0<π<1
18
π
Effetti assoluti ed effetti relativi
Le differenze percentuali (o di probabilità)
danno una misura assoluta della relazione
tra modalità di due variabili, mentre gli odds
ratio danno una misura relativa.
Ciò significa che anche in presenza di odds
ratio elevati possiamo avere effetti, in
termini assoluti, sostanzialmente deboli.
19
Effetti assoluti ed effetti relativi: esempio
% condizionate
Genere e
soddisfazione per la democrazia
No Si tot
M
104
6
110
F
405
35
440
tot
509
41
550
No
Si
tot
M
0,945
0,055
1
F
0,920
0,080
1
tot
0,925
0,075
1
dyx= + 0,025
1
2
a  d 104  35


 1,5
b  c 405  6
20
21
LOGICA TRIVARIATA
CONTROLLO PER UNA
TERZA VARIABILE
22
Logica trivariata
Quando ad una relazione bivariata
aggiungiamo una terza variabile
operiamo un’analisi trivariata.
23
Perché considerare una terza variabile?
Quando consideriamo un’ipotesi causale tra
due fenomeni ed empiricamente
corroboriamo l’esistenza di una relazione,
non possiamo tuttavia escludere che i
due fenomeni non siano dovuti ad un
terzo che non abbiamo preso in
considerazione.
24
La causa di un fenomeno in senso generico può
essere definita come la somma totale delle
condizioni , la totalità delle contingenze alla cui
realizzazione segue invariabilmente il
conseguente. (Campelli 1999)
Tuttavia, “Nulla può meglio mostrare l’assenza di
qualsiasi fondamento scientifico per la
distinzione fra la causa d’un fenomeno e le sue
condizioni della maniera capricciosa in cui
scegliamo fra le condizioni quella che preferiamo
chiamare causa “ (J.S.Mill)
25
Cause ed effetti ?
1.Il numero di pompieri impegnati nello
spegnere un incendio è correlato con la
stima finale dei danni provocati
dall’incendio stesso.
2.I bambini nelle cui case vi sono più
finestre mostrano migliori rendimenti
scolastici.
26
Presenza di un effetto SPURIO, cioè di una
terza variabile, antecedente alle due, che è la
“vera” causa della relazione!
1. Considerando le dimensioni dell’incendio,
la relazione tra numero di vigili del fuoco
e stima dei danni sparisce.
2.Considerando la ricchezza patrimoniale
dei genitori, la relazione tra numero di
finestre e rendimento scolastico sparisce.
27
Posizione delle variabili
Una volta ipotizzata una relazione tra due
variabili X “indipendente” e Y “dipendente”,
l’altra o le altre variabili considerate possono
assumere quattro posizioni:
variabili antecedenti,
variabili intervenienti,
variabili susseguenti,
variabili concomitanti.
28
Variabili antecedenti
Quelle variabili che nell’ordine causale
precedono sia X che Y.
A
X
Y
29
LOGICA degli effetti
EFFETTO SPURIO:
X
Y
l’inserimento di una
variabile di controllo Z,
annulla la relazione tra
X e Y.
Z
X
Y
30
LOGICA degli effetti
EFFETTO SOPPRESSO:
X
Y
l’inserimento di una
variabile di controllo Z,
rende palese la
relazione tra X e Y.
Z
X
Y
31
SCOMPOSIZIONE degli effetti
Variabili categoriali e
differenze di probabilità
32
Esempio 1
ESEMPIO 1. tra variabili dicotomiche.
Incrocio tra titolo di studio e fiducia
nel sistema giudiziario …
X
Y
X
Titolo di studio (L – H)
Y
Fiducia nel sistema giudiziario (S – N)
33
Esempio 1
… controllato per la variabile
antecedente Z
Z
X
Z
Y
Coorte di nascita (G – A)
34
Esempio 1
Effetto bivariato XY= Effetto causale netto + Effetto spurio
=
dyx
dyx.z +
d(yx)z
Z
d(yx)z
dyx
X
Y
X
Y
dyx.z
35
Esempio 1
Tavola di contingenza educ * fidu
fidu
educ
1 Medio-bas sa
2 Alta
Totale
Conteggio
% entro educ
Conteggio
% entro educ
Conteggio
% entro educ
1 Si
231
43.6%
90
58.1%
321
46.9%
2 No
299
56.4%
65
41.9%
364
53.1%
Totale
530
100.0%
155
100.0%
685
100.0%
Fonte: EB 60.1 Italia (30 e più anni)
36
Esempio 1
dyx
Effetto bivariato: educaz. e fiducia giustizia
In un incrocio dicotomico l’effetto bivariato è
misurabile attraverso una semplice differenza di
probabilità (equivale al coefficiente di regressione quando le
variabili sono 0 e 1) .
dyx equivale alla differenza di probabilità
sull’avere fiducia nella giustizia dato l’avere un
titolo di studio alto piuttosto che basso.
37
Esempio 1
dyx
Effetto bivariato: educaz. e fiducia giustizia
Pr (Y=1 | X=2) – Pr (Y=1 | X=1)
Equivale alla probabilità che la variabile Y assuma
valore y, dato che la variabile X assume valore x:
Pr (Y=y | X=x)
La categoria di riferimento è la “SI” (Y=1).
dyx = 0,581 - 0,436 = 0,145
38
Esempio 1
dyx = 0,581 - 0,436 = 0,145
La relazione tra possesso della laurea (piuttosto
che un titolo di studio inferiore) e fiducia nella
giustizia (“si” piuttosto che “no”) è positiva.
39
Esempio 1
GIOVANI Z=1
Tavola di contingenza educ * fidua
fidu
educ
1 Medio-bas sa
2 Alta
Totale
Conteggio
% entro educ
Conteggio
% entro educ
Conteggio
% entro educ
1 Si
119
42.5%
64
59.3%
183
47.2%
2 No
161
57.5%
44
40.7%
205
52.8%
Totale
280
100.0%
108
100.0%
388
100.0%
2 No
138
55.2%
21
44.7%
159
53.5%
Totale
250
100.0%
47
100.0%
297
100.0%
a. eta = 1 Giovani
ANZIANI Z=2
Tavola di contingenza educ * fidua
fidu
educ
1 Medio-bas sa
2 Alta
Totale
Conteggio
% entro educ
Conteggio
% entro educ
Conteggio
% entro educ
1 Si
112
44.8%
26
55.3%
138
46.5%
a. eta = 2 Anziani
40
Esempio 1
Effetti condizionati di Z
Considerando Z, troviamo diversi effetti di X su Y.
dyx|z=1 = 0,593 -0,425 = 0,168
dyx|z=2 = 0,553 -0,448 = 0,105
41
Esempio 1
Effetto condizionato complessivo di Z
Considerando che le numerosità in Z tra giovani
ed anziani sono diverse, occorre ponderare gli
effetti condizionati.
Giovani= 388/685 = 0,567
quota di giovani (qg)
Anziani= 297/685 = 0,433
quota di anziani (1 - qg)
dyx.z = (0,168*0,567) + (0,105*0,433) = 0,141
42
Esempio 1
Effetto bivariato = Effetto causale + Effetto spurio
dyx = dyx.z + d(yx)z
d(yx)z Effetto spurio
d(yx)z =dyx – dyx.z = 0,145 – (0,141) = 0,004
43
Esempio 1
L’effetto della variabile Z è sostanzialmente
nullo, ossia la relazione tra titolo di studio e
fiducia nella giustizia permane immutata anche a
parità di fascia d’età. Non c’è effetto SPURIO.
Z
~0
~0
X
+
Y
44
45
L’effetto di interazione
46
L’effetto di interazione
Quando l’effetto causale esercitato dalla variabile
indipendente X sulla variabile indipendente Y si manifesta in
modi diversi a seconda del valore assunto dalla variabile di
controllo Z.
Z
X
Y
47
Pr (Y=0 | X=1) – Pr (Y=0 | X=0)
Y=0 Y=1
X=0
X=1
100 100
100 300
Z=0
Z=1
Y=0 Y=1
X=0
X=1
dyx= - 0,25
10
90
Y=0 Y=1
90
50
dyx|z=0= +0,54
X=0 90
X=1 10
10
250
dyx|z=1= -0,86
48
Y
Effetto di
interazione di Z
(dicotomica) su
X e Y (cardinali)
β>0
X
Z=0
Z=1
Y
Y
βz=0>0
X
βz=1<0
X
49
Esempi di effetti di interazione (titolo*età)
50
51
SCOMPOSIZIONE degli effetti
Se le variabili sono dicotomiche ed
attribuiamo i valori 0 e 1 alle modalità di
ciascuna, la relazione tra le due può
essere misurata con il coefficiente di
correlazione di Pearson (r), che in una
tavola 2x2 è equivalente al V di Cramer.
52
Ipotizziamo che la variabile Z influenzi la
relazione tra Y e X.
Come misurare l’effetto di X su Y al netto di Z ?
Z
X
rYX
Y
X
rYX .Z
Y
53
Correlazioni tra le variabili:
SYX
rYX 
SY S X
rXZ
S XZ

SZ S X
SYZ
rYZ 
S Z SY
Matrice di correlazione, r.. osservati
Z
X
X
rYX .Z
Y
Z
X
1
Z
.453
Y
.322 .596
Y
.453 .322
1
.596
1
54
E’ possibile calcolare il coefficiente di correlazione
parziale tra X e Y “tenendo costante” Z:
rYX .Z 
rYX  rXZ rYZ
1  R 1  R 
2
XZ
2
YZ
NB: rxy.z non tiene conto degli effetti di interazione !
55
Coefficiente di correlazione parziale tra X e Y “tenendo
costante” Z:
Correlazione bivariata
Correlazione di Z su X e Y
Misura quanto Z spiega di X eY
rYX .Z 
rYX  rXZ rYZ
1  R 1  R 
2
XZ
Residui di Z-X e Z-Y
2
YZ
Più la Z spiega X eY, più
grande è il denominatore
56
E’ possibile calcolare il coefficiente di correlazione
parziale tra X e Y “tenendo costante” Z:
rYX .Z 
rYX  rXZ rYZ
1  R 1  R 
2
XZ
Matrice di correlazione, r.. osservati
Z
X
2
YZ
 0,073
rYX .Z
rYX  0,322
rYX .Z  0,073
X
Y
Z
X
1
Z
.453
Y
.322 .596
Y
.453 .322
1
.596
1
57
La correlazione tra X e Y
tenendo sotto controllo Z
diventa molto piccola.
Z
X
rYX .Z
Y
rYX  0,322
C’è effetto spurio!
rYX .Z  0,073
Effetto bivariato = Effetto causale + Effetto spurio
ryx =
ryx.z + r(yx)z
58
Parziale effetto
spurio
rYX  0,13
rYZ  0,53
rXZ  0,23
rYX .Z  0,01
Parziale effetto
soppresso
rYX  0,12
rYZ  0,19
rXZ  0,82
rYX .Z  0,49
Effetto di Z
quasi nullo
rYX  0,44
rYZ  0,18
rXZ  0,15
rYX .Z  0,42
59
Correlazioni fra tre variabili (dicotomizzate 0/1)
Correlations
eta
ascoli Anni di scolarità
reddito Reddito
mens ile (euro)
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
reddito
Reddito
ascoli Anni
mens ile
eta
di s colarità
(euro)
1
-.247**
.168**
.
.000
.000
1414
1414
1414
-.247**
1
.211**
.000
.
.000
1414
1414
1414
.168**
.211**
1
.000
.000
.
1414
1414
1414
**. Correlation is s ignificant at the 0.01 level (2-tailed).
Calcolare la correlazione parziale tra anni di scolarità e reddito
60