70
A
3000
.
Capitolo Terzo
p.
A
2500
B
1500
C
1000
D
S.
2000
B
C
D
500 1000 1500 2000 2500 3000 3500
br
A
i
500
(b)
(a)
li
Fig. 1 - Ortogramma a colonne (a) e ortogramma a nastri (b)
4. MISURE DI ASSOCIAZIONE E DI COGRADUAZIONE
C
op
yr
ig
ht
©
Es
se
Per misurare la forza o intensità della relazione tra due variabili la statistica ha approntato delle misure; a tal proposito si distingue:
— se le variabili sono nominali, si parla di misure di associazione;
— se le variabili sono ordinali, si parla di misure di cograduazione.
La distinzione non è tassativa in quanto le misure di associazione possono essere applicate anche alle variabili ordinali.
Per misurare la forza di tale relazione andiamo ad analizzare il concetto
di indipendenza in statistica.
È noto dalla matematica che una variabile Y si dice indipendente da una
variabile X se la prima rimane costante al variare dei valori assunti dalla
seconda. In caso contrario si dice che Y è funzione di X.
Per analizzare l’indipendenza tra variabili ci serviremo di un esempio,
basta solo premettere che gli indici statistici in grado di evidenziare l’indipendenza di una variabile da un’altra sono basati sulle frequenze osservate
e attese o teoriche, ed esprimono la forza della relazione tra le stesse. Essi
assumono valori tanto più piccoli quanto più esiste indipendenza tra i caratteri investigati.
71
A
.
Analisi bivariata
p.
Sia data la seguente tabella a doppia entrata:
Tabella delle frequenze osservate
Totale
Y2
Y3
2
5
15
X2
4
14
10
X3
7
6
12
Totale
13
25
37
22
28
25
75
Tabella 2
li
br
Y1
X1
S.
Variabile Y
i
Variabile X
Es
se
Nella tabella, nella cella all’incrocio della modalità Y1 di Y e della modalità X1 di X è riportato il valore numerico 2; lo stesso sta a indicare che 2
sono le unità che presentano simultaneamente la modalità Y1 di Y e la modalità X1 di X. Il valore numerico 2 è una frequenza osservata fo effettivamente. Andiamo a calcolare la corrispondente frequenza attesa fe sotto l’ipotesi
di indipendenza tra variabili.
Essa si ottiene dalla seguente proporzione:
fe : 13 = 22 : 75
C
op
yr
ig
ht
©
dove:
— 13 è una frequenza marginale e sta a indicare il numero di unità che
presentano la modalità Y1 di Y a prescindere da X;
— 22 è una frequenza marginale e sta a indicare il numero di unità che
presentano la modalità X1 di X a prescindere da Y;
— 75 è il totale generale e indica il numero totale di unità statistiche.
Pertanto, il valore della frequenza attesa è:
fe =
13 ⋅ 22
= 3, 813
75
72
A
.
Capitolo Terzo
p.
In maniera analoga sono calcolate le restanti frequenze attese riportate
nella tabella seguente:
Variabile X
S.
Tabella delle frequenze teoriche
Variabile Y
Totale
Y1
Y2
Y3
X1
3,813
7,333
10,853
X2
4,853
9,333
13,813
X3
4,333
8,333
12,333
25
Totale
13
25
37
75
28
Tabella 3
li
br
i
22
L’indice chi-quadrato, o χ , elaborato da Karl Pearson (1857-1936),
costituisce un criterio di valutazione della differenza esistente tra frequenze
teoriche e frequenze osservate; la sua espressione analitica è la seguente:
se
2
∑
(f
Es
χ2 =
o
− fe )
2
fe
Con riferimento alla distribuzione riportata nella tabella, esso assume valore:
( 2 − 3, 813) + (5 − 7, 333)
2
χ2 =
(6 − 8,3333) + (12 − 12, 333)
2
2
2
©
= 9, 029
3, 813
7, 333
8, 333
12, 333
Le applicazioni dell’indice in statistica sono molteplici. È un indice assoluto, ammette valore minimo 0 se esiste indipendenza tra le variabili, ma
non ammette valore massimo in senso matematico, ovvero ammette il massimo relativo che dipende dalla numerosità dei casi. È proprio questo un
limite all’applicabilità dell’indice nel confronto tra distribuzioni diverse,
per ovviare ad un simile inconveniente si ricorre ad indici che costituiscono
delle trasformazioni dell’indice di Pearson.
L’indice normalizzato di Cramer si ottiene dalla radice quadrata seguente:
op
yr
ig
ht
+ ... +
V=
χ2
N ( k − 1)
C
dove k è uguale al minore tra il numero r di righe e numero c di colonne
nella tabella.
73
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
L’indice varia tra 0 (indipendenza) e 1 (dipendenza massima).
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
p.
Quali sono i valori minimo e massimo dell’indice?
○
A
○
.
Analisi bivariata
○
○
○
○
○
○
S.
Con riferimento alla distribuzione in tabella, l’indice assume valore:
9, 029
= 0, 245
75 ( 3 − 1)
V=
br
i
Il valore trovato indica una prossimità all’indipendenza tra le variabili.
se
li
4.1 Associazione tra variabili dicotomiche
Quanto esposto finora si riferiva al caso in cui i dati sperimentali fossero
classificati secondo due criteri, rispettivamente, con r e c livelli. Nelle situazioni pratiche, nella ricerca sociale, si ha a che fare con dati classificati
secondo due livelli, ossia con variabili dicotomiche.
In questo caso i dati sono rappresentati mediante tabelle doppie del tipo:
Y
Es
X
1
2
a
2
c
Totale
a+c
b
a+b
d
c+d
b+d
N=a+b+c+d
©
1
ht
Tabella 4
ig
2
In questo caso, l’espressione del χ è la seguente:
χ2 =
N ( ad − bc )
2
( a + b ) (c + d ) ( a + c ) ( b + d )
C
op
yr
L’indice di Cramer sarà:
V=
Totale
χ2
=
N
ad − bc
( a + b ) (c + d ) ( a + c ) ( b + d )
74
A
.
Capitolo Terzo
p.
ESEMPIO
Laureati
Non laureati
Occupati
30
6
Non occupati
17
12
Totale
47
18
S.
Volendo valutare la relazione tra possesso di un diploma di laurea e occupazione,
nella tabella seguente sono riportati i dati relativi a 65 individui, raggruppati in base
al possesso o meno del diploma di laurea e allo stato occupazionale.
Totale
36
br
i
29
65
Tabella 5
li
Calcoliamo l’indice di Cramer per misurare l’associazione tra diploma di laurea e
occupazione.
se
2
Il valore del χ è:
65 ⋅ ( 30 ⋅ 12 − 6 ⋅ 17 )
2
(30 + 6) (17 + 12) (30 + 17) (6 + 12)
per cui l’indice di Cramer è:
= 4, 899
Es
χ2 =
©
V =
4, 899
= 0, 275
65
C
op
yr
ig
ht
4.2 Misure di cograduazione
Si è già detto che, se entrambe le variabili sono ordinali, esistono altre
misure atte a valutare la forza della relazione tra le stesse: le misure di cograduazione.
Esse sono basate sui valori assunti dalle variabili X e Y su tutte le possibili coppie di casi. In particolare, una coppia di casi si dice concordante se
su un caso i valori delle variabili X e Y sono entrambi maggiori (o minori)
dei valori di entrambe sull’altro caso. Analogamente, una coppia si dice
discordante se una variabile assume, rispetto a un caso, un valore minore
mentre l’altra variabile assume un valore minore rispetto ai valori assunti
sull’altro caso.
75
A
.
Analisi bivariata
p.
Tra queste misure riteniamo degna di attenzione, il gamma (γ ) di Go-
γ =
S.
odman e Kruskal (1954), che è una misura simmetrica della differenza tra
numero di coppie concordanti (C) e numero di coppie discordanti (D) e la
cui espressione analitica è la seguente:
C−D
C+D
li
br
i
Gamma assume:
— valore minimo – 1 nel caso di perfetta relazione negativa;
— valore massimo + 1 nel caso di perfetta relazione positiva.
Esso assume valore 0 se non esiste relazione.
se
5. RAPPORTI DI PROBABILITÀ E ODDS RATIO
ig
ht
©
Es
Si è visto ampiamente che una proporzione (o frequenza relativa) è
data dal rapporto tra una data frequenza e il numero totale dei casi; a questo
punto introduciamo un rapporto tra frequenze, il rapporto di probabilità
(odds), indicato con la lettera greca omega ω , esso si istituisce tra la frequenza di una data categoria e la frequenza di una categoria alternativa per
una variabile dicotomica, oppure tra la probabilità che un’unità della popolazione appartenga a una data categoria e la probabilità che non appartenga
alla stessa.
Un esempio può essere il seguente: se una distribuzione di frequenza è
fondata su una variabile Diploma di laurea si può stabilire un rapporto tra
laureati e non laureati.
In simboli si ha:
Rapporto di probabilità ( odds ) = ω =
pi
f1
=
f2 1 − pi
C
op
yr
dove:
— f1 è la frequenza di una data categoria;
— f2 è la frequenza della categoria alternativa;
— pi è la probabilità della i – esima unità di appartenere a una data categoria;
— 1 – pi è la probabilità della i-esima unità di non appartenere a quella
categoria.
76
A
.
Capitolo Terzo
se
li
br
i
S.
p.
Mentre le probabilità variano tra 0 e 1, gli odds assumono valore minimo 0 ma non ammettono valore massimo.
Un rapporto di probabilità assume valore 1 se la probabilità che un evento si verifichi è pari alla probabilità che non si verifichi. Inoltre, assume:
— valori inferiori a 1 se la probabilità che si verifichi un evento è inferiore
alla probabilità che non si verifichi;
— valori superiori a 1 se la probabilità che si verifichi un evento è superiore
alla probabilità che non si verifichi.
È particolarmente usato in medicina nello studio casi/controlli.
Il rapporto di probabilità può essere riferito anche a due variabili ed è
una misura dell’associazione tra le stesse.
Con riferimento alla tabella 5 istituiamo i rapporti di probabilità condizionati (o odds condizionati):
ω1 =
Es
Laureati:
Non laureati:
ω2 =
a 30
=
= 1, 765
c 17
b 6
=
= 0, 5
d 12
©
Mentre, le corrispondenti probabilità condizionate (percentuali di riga
e di colonna) sono:
ht
Laureati:
a
30
=
= 0, 638
a + c 47
p2 =
6
b
=
= 0, 333
b + d 18
ig
Non laureati:
p1 =
op
yr
Il rapporto tra gli odds condizionati si chiama odds ratio e può essere
tradotto in italiano come rapporto di associazione; è pari a:
Rapporto di associazione ( odds ratio ) =
=
ω 1 a c ad 30 ⋅ 12
= 3, 529
=
=
=
ω 2 b d bc 6 ⋅ 17
C
Il suo significato è il seguente: posto pari a 1 il rapporto occupati/disoccupati tra coloro che posseggono un diploma di laurea, esso assume valore
77
A
.
Analisi bivariata
S.
p.
3,529 tra coloro che non posseggono il diploma di laurea. È più del triplo il
rapporto occupati/disoccupati dei possessori di diploma di laurea rispetto a
quelli che non ne sono in possesso.
Il rapporto di associazione può assumere valore minimo pari a 0 e valore
massimo pari a +∞. Se assume valore 1 si verifica indipendenza tra le variabili.
i
Glossario
C
op
yr
ig
ht
©
Es
se
li
br
Correlazione: grado di dipendenza lineare tra due variabili X e Y, per cui al variare di X
varia anche Y e viceversa. La forza di tale legame si misura con il coefficiente di correlazione lineare. Si parla di correlazione multipla quando si vuole indicare la dipendenza di una
variabile da più altre; di correlazione parziale per indicare la dipendenza di una variabile
da un’altra al netto delle eventuali relazioni lineari esistenti tra le rimanenti.