L 11 analisi dei dati in tabelle di contingenza

Università del Piemonte Orientale
Corso di laurea in biotecnologia
Corso di Statistica Medica
Analisi dei dati in tabelle di contingenza
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
1
I metodi di analisi che vedremo sono utilizzati per il confronto di proporzioni in
due o più diversi gruppi.
L’analisi delle tavole di contingenza appartiene al capitolo dedicato all’analisi dei
dati categorici.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
2
La tabella seguente presenta la frequenza di osservazioni, categorizzate
secondo due variabili.
Risultato
Farmaco
Curato
Non curato
Totale
Proporzione curati
A
a
b
a+b
a/(a+b)
B
c
d
c+d
c/(c+d)
a+c
b+d
a+b+c+d
TOTALE
La notazione usata è semplice ma non è generalizzabile a tabelle di maggiori
dimensioni.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
3
La seguente notazione è più generale e si applica a tabelle di qualsiasi
dimensione
Risultato
Farmaco
Curato
Non curato
Totale
Proporzione
curati
A
n11
n12
n1.
n11 / n1.
B
n21
n22
n2.
n21 / n2.
TOTALE
n.1
n.2
n..
n.1/ n..
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
4
Talvolta la tabella viene costruita indicando non le frequenze ma le
corrispondenti proporzioni.
Risultato
Farmaco
Curato
Non curato
Totale
A
p11
p12
p1.
B
p21
p22
p2.
TOTALE
p.1
p.2
p..
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
5
Si noti che i totali marginali della tabella (totali di riga e di colonna) sono definiti
dal disegno dello studio e dai suoi risultati principali.
Ad esempio: uno studio clinico include 200 pazienti, divisi in due gruppi di
eguale dimensione trattati con due diversi farmaci.
Il primo risultato dello studio sarà dato dal numero di pazienti che hanno
mostrato un risultato favorevole del trattamento (120 risultati favorevoli, 80 con
risultato non favorevole).
La tabella completata relativamente ai totali marginali è:
risultato
Farmaco
Curato
Non curato
Totale
A
n11
n12
100
B
n21
n22
100
TOTALE
120
80
200
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
6
Si noti che, una volta definito un valore per una delle quattro celle, resta definito
anche il valore delle celle restanti, poiché i totali marginali sono fissati.
In altri termini, in una tabella 2*2 una sola delle celle è libera di assumere
qualsiasi valore, le restanti sono fissate dai totali marginali.
Il numero di celle libere corrisponde al numero di gradi di libertà (g.l. o d.f.).
Il numero di gradi di libertà in una tabella r * c è dato da:
g.l. = (r-1) * (c-1)
Le tabelle 2*2 hanno un grado di libertà.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
7
Abbiamo già incontrato il numero di gradi di libertà nel calcolo della Deviazione
Standard
n
Dev.St. =
(
∑ xi − X
i =1
)
2
(n − 1)
n-1 è il numero di gradi di libertà per il calcolo della deviazione standard: dato il
valore della media, il valore dell’nesima osservazione è definito, noto il valore delle
n-1 osservazioni precedenti.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
8
L’analisi di una tabella di contingenza prevede:
- il calcolo di indicatori di associazione tra le due variabili;
- la valutazione della probabilità di osservare la tabella in esame data l’ipotesi
nulla (test di significatività).
Esaminiamo dapprima il caso delle tabelle 2*2 (2 righe * 2 colonne)
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
9
Indicatori di associazione:
Malattia
Esposizione
Caso
Controllo
Totale
Presente
a
b
a+b
Assente
c
d
c+d
a+c
b+d
a+b+c+d
Totale
La misura di associazione usata più frequentemente è l’ Odds Ratio
(Rapporto Crociato), abbreviato con OR.
Come Odd intendiamo il rapporto: (probabilità a favore / probabilità contrarie).
Per la spiegazione seguiamo la notazione della tabella alla pagina precedente.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
10
L’odd di malattia tra i soggetti con esposizione è il rapporto tra le due probabilità
condizionate: p(Malattia|Esposizione) e p(Non_malattia|Esposizione).
Odd(M|E)= [a/(a+b)] / [b/(a+b)] = a/b
In modo analogo si ottiene l’odd di malattia tra i soggetti senza esposizione:
p(Malattia|Non_Esposizione) e p(Non_malattia|Non_esposizione).
Odd(M|Non_E)=[c/(c+d)] / [d/(c+d)] = c/d
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
11
Odds Ratio (OR) è il rapporto tra i due odds:
OR = (a/b)/(c/d) = (a*d) / (c*b)
‘OR fornisce una stima del rischio di sviluppare un effetto quando è presente un
fattore antecedente’ (Fleiss).
L’intervallo di valori validi per OR è:
0 <= OR <= ∞
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
12
OR è stato sviluppato nell’ambito degli studi di coorte e caso-controllo per fornire
una stima del Rischio Relativo.
Le proprietà ed i limiti di OR quale stimatore del Rischio Relativo saranno
discussi nel corso di Epidemiologia.
Può essere usato anche in tavole di contingenza derivate da altri disegni di
studio ma in tal caso è interpretato semplicemente come un indicatore di
associazione.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
13
Sviluppiamo un esempio derivato dallo studio clinico presentato a fine lezione
sul confronto di due antibiotici nel trattamento delle infezioni in pazienti affetti da
neoplasia.
Febbre
Farmaco
Curato
Non curato
Totale
Meropenem
79
56
135
Ceftazidima
49
65
114
TOTALE
128
121
249
OR (Meropenem vs. Ceftazidima) = (79 * 65) / (49 * 56) = 1,87
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
14
Interpretazione:
le due variabili sembrano associate: la probabilità di essere trattati con successo
per i pazienti trattati con meropenem è 1,87 volte maggiore che per i pazienti
trattati con ceftazidime.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
15
Per calcolare l’intervallo di confidenza nel caso dell’OR dobbiamo utilizzare la seguente
formula poiché la distribuzione di OR è asimmetrica (va da 0 a + ∞):
IC (ln(OR)) = ln(OR) ± Zα/2 * ES(ln(OR))
ln(OR) = logaritmo naturale dell’ Odds Ratio
ES (ln(OR )) =
1 1 1 1
+ + +
a b c d
Quindi:
ln( OR ) ±
IC (OR ) = e
Ζ α2 *ES (ln( OR ))
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
16
ES(ln(OR))= √(1/79 + 1/ 56 + 1/49 +1/65) = 0,2575
95% -> α = 0,05 da distribuire nelle due code (intervallo di confidenza bilaterale)
Z(α/2) = Z(0,025 nella coda superiore)
l_inf IC(95%) OR = exp(0,6267 - 1,96 * 0,2575) = 1,1297
l_sup IC(95%) OR = exp(0,6267 + 1,96 * 0,2575) = 3,0999
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
17
Esaminiamo i risultati di uno studio eziologico in un gruppo di tossicodipendenti
sull'associazione tra positività al test della tubercolina ed uso promiscuo di
siringhe per l'iniezione di stupefacenti.
test della tubercolina
Uso di siringhe
Positivo
Negativo
Totale
Promiscuo
24
73
97
Non Promiscuo
28
133
161
TOTALE
52
206
258
L'associazione tra il risultato del test alla tubercolina e l'uso promiscuo delle
siringhe è misurato dall'Odds Ratio.
OR = (24 * 133) / (73 * 28) = 1,56
Interpretazione: ?
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
18
ES(ln(OR))= 0,3140
95% -> α = 0,05 da distribuire nelle due code (intervallo di confidenza bilaterale)
Z(α/2) = Z(0,025 nella coda superiore)
l _ inf IC(95% )OR = e (0, 445739−1,96*0,314004 ) = 0,8439
l _ supIC(95% )OR = e (0, 445739+1,96*0,314004 ) = 2,8898
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
19
Test di ipotesi.
Nell' analisi di tabelle di contingenza l'ipotesi di lavoro di solito corrisponde
all'associazione tra le due variabili mentre l'ipotesi nulla corrisponde all'assenza
di associazione.
Il test dell’ipotesi viene condotto secondo quanto spegato nelle lezioni
precedenti
H1: le variabili sono associate (quindi OR#1)
H0: le variabili non sono associate (quindi OR=1)
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
20
Il test statistico misura la probabilità di osservare una tabella come quella data
(o più estrema) se vale l'ipotesi nulla.
Il test adottato è il Chi-quadro (χ2).
Questo test fornisce la probabilità (data l’ipotesi nulla) di osservare una tabella
come quella in esame o una tabella più ‘estrema’.
Esamineremo dapprima la formula approssimata di questo test, che si basa
sulla misura della differenza tra il numero di osservazioni in ciascuna cella della
tabella ed il corrispondente numero di osservazioni attese, data l’ipotesi nulla.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
21
Calcolo del numero di osservazioni attese
H0: Le due variabili non sono associate.
Se due eventi sono indipendenti
P(B|A) = P(B)
Quindi
La probabilità del realizzarsi congiunto di due eventi è data dal prodotto della
probabilità di ciascuno di essi.
P(A ∩ B) = P(A) P(B)
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
22
Osservati:
Febbre
Farmaco
Curato
Non curato
Totale
Meropenem
79
56
135
Ceftazidima
49
65
114
TOTALE
128
121
249
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
23
Calcolo degli attesi:
Febbre
Farmaco
Curato
Non curato
Totale
Meropenem
E(a) =
E(b) =
a+b
(a+b)*(a+c)/T
(a+b)*(b+d)/T
E(c ) =
E(d) =
(c+d)*(a+c)/T
(c+d)*(b+d)/T
a+c
b+d
Ceftazidima
TOTALE
c+d
T
E(a) = ((a+b)/T)*((a+c)/T)*T=(a+b)*(a+c)/T
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
24
Febbre
attesi
Curato
69.398
58.602
128
Meropenem
Ceftazidima
Totale
Non curato
65.602
55.398
121
Totale
135
114
249
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
25
(oss −att )
=∑
2
χ
2
Χ
att
2
2
2
2
2
(
a − E ( a ) ) (b − E (b) ) (c − E ( c ) ) (d − E ( d ) )
=
+
+
+
Dove
E (a )
E ( b)
E (c)
E (d )
E(a) = [(a+b)/T] * [(a+c)/T] * T = (a+b) * (a+c)/T
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
26
(O-A)^2/A
Febbre
Curato
Non curato
Meropenem
1.329
1.406
Ceftazidima
1.573
1.664
chi2= 1.329 + 1.406 +1.573 + 1.664
=
5.972
Si tratta di una formula approssimata che è valida quando il numero di
osservazioni non è troppo piccolo (ogni cella Atteso >1; non più del 20% delle
celle con atteso < 5).
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
27
Come si usa il valore χ2 ?
Il valore di probabilità corrispondente al valore della statistica χ2 si legge su
apposite tabelle, dato il valore di χ2 ed il numero di gradi di libertà.
La probabilità viene letta su una sola coda della distribuzione χ2.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
28
5.972
29
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
di χ2 e ∞.
Le tavole forniscono l’area della distribuzione compresa tra un dato valore
Il grafico presenta la curva della distribuzione χ con 1 gradi di libertà. Il valore di χ è sulle ascisse.
2
2
L’area verde corrisponde al 5% della distribuzione.
Probabilità corrispondente al valore chi_quadro
g.l.
0,500
0,400
0,300
0,250
1
0,455
0,708
1,074
1,323
2
1,386
1,833
2,408
2,773
3
2,366
2,946
3,665
4,108
4
3,357
4,045
4,878
5,385
5
4,351
5,132
6,064
6,626
6
5,348
6,211
7,231
7,841
7
6,346
7,283
8,383
9,037
8
7,344
8,351
9,524
10,219
9
8,343
9,414
10,656
11,389
10
9,342
10,473
11,781
12,549
11
10,341
11,530
12,899
13,701
12
11,340
12,584
14,011
14,845
13
12,340
13,636
15,119
15,984
14
13,339
14,685
16,222
17,117
15
14,339
15,733
17,322
18,245
16
15,338
16,780
18,418
19,369
17
16,338
17,824
19,511
20,489
18
17,338
18,868
20,601
21,605
19
18,338
19,910
21,689
22,718
20
19,337
20,951
22,775
23,828
21
20,337
21,992
23,858
24,935
22
21,337
23,031
24,939
26,039
23
22,337
24,069
26,018
27,141
24
23,337
25,106
27,096
28,241
25
24,337
26,143
28,172
29,339
26
25,336
27,179
29,246
30,435
27
26,336
28,214
30,319
31,528
28
27,336
29,249
31,391
32,620
29
28,336
30,283
32,461
33,711
30
29,336
31,316
33,530
34,800
40
39,335
41,622
44,165
45,616
50
49,335
51,892
54,723
56,334
60
59,335
62,135
65,226
66,981
70
69,334
72,358
75,689
77,577
80
79,334
82,566
86,120
88,130
90
89,334
92,761
96,524
98,650
100
99,334
102,946
106,906
109,141
110
109,334
113,121
117,269
119,608
120
119,334
123,289
127,616
130,055
0,100
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412
29,615
30,813
32,007
33,196
34,382
35,563
36,741
37,916
39,087
40,256
51,805
63,167
74,397
85,527
96,578
107,565
118,498
129,385
140,233
0,050
3,841
5,991
7,815
9,488
11,070
12,592
14,067
15,507
16,919
18,307
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
32,671
33,924
35,172
36,415
37,652
38,885
40,113
41,337
42,557
43,773
55,758
67,505
79,082
90,531
101,879
113,145
124,342
135,480
146,567
0,025
5,024
7,378
9,348
11,143
12,832
14,449
16,013
17,535
19,023
20,483
21,920
23,337
24,736
26,119
27,488
28,845
30,191
31,526
32,852
34,170
35,479
36,781
38,076
39,364
40,646
41,923
43,195
44,461
45,722
46,979
59,342
71,420
83,298
95,023
106,629
118,136
129,561
140,916
152,211
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
30
0,010
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
38,932
40,289
41,638
42,980
44,314
45,642
46,963
48,278
49,588
50,892
63,691
76,154
88,379
100,425
112,329
124,116
135,807
147,414
158,950
0,001
10,827
13,815
16,266
18,466
20,515
22,457
24,321
26,124
27,877
29,588
31,264
32,909
34,527
36,124
37,698
39,252
40,791
42,312
43,819
45,314
46,796
48,268
49,728
51,179
52,619
54,051
55,475
56,892
58,301
59,702
73,403
86,660
99,608
112,317
124,839
137,208
149,449
161,582
173,618
0,050
3,841
0,025
5,024
0,010
6,635
0,001
10,827
n..*(n11* n22 - n12* n21) 2
p compresa tra 0,01 e 0,025
0,100
2,706
T*(ad-bc) 2
chi^2 = 5,972
Probabilità corrispondente al valore chi_quadro
g.l.
0,500
0,400
0,300
0,250
1
0,455
0,708
1,074
1,323
32
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
Questa informazione è sufficiente per rifiutare H0 con
n1.*n2.*n.1*n.2
χ 2=
(a+b)(a+c)(b+c)(c+d)
χ 2=
α=0,05
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
31
Formula abbreviata (valida solo per tabelle 2 x 2)
Un altro esempio
test della tubercolina
Uso di siringhe
Positivo
Negativo
Totale
Promiscuo
24
73
97
Non Promiscuo
28
133
161
TOTALE
52
206
258
(O-A)^2/A
test della tubercolina
Uso di siringhe
Positivo
Negativo
Promiscuo
1,012719
0,255638
Non Promiscuo
0,610148
0,154018
chi^2 = 2,032523
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
chi^2 = 2,032523
33
p compresa tra 0,1 e 0,25
Probabilità corrispondente al valore chi_quadro
g.l.
0,500
0,400
0,300
0,250
1
0,455
0,708
1,074
1,323
0,100
2,706
0,050
3,841
0,025
5,024
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
0,010
6,635
0,001
10,827
34
Per stimare, attraverso l'interpolazione lineare, la probabilità incognita, corrispondente ad
un determinato valore del test statistico:
P = Probabilità incognita
T = Valore ottenuto dal test statistico
P1 = Probabilità immediatamente inferiore
T1 = Valore del test statistico a P1
P2 = Probabilità immediatamente superiore T2= Valore del test statistico a P2
P = P1 + (P2 - P1) * [(T - T1) / (T2 - T1)]
Calcolo relativo all’esempio precedente:
P= 0,100+(0,250-0,100)*(2,033-2,706)/(1,323-2,706)
=0,100+(0,150)*(-0,773)/(-1,483)
=0,100+(0,150)*(0,521)
=0.178
Il valore esatto di p per chi^2 = 2,032523 é p=0.154
la differenza è dovuta al fatto che siamo in una regione della curva chi^2 in cui la
variazione di p non è esattamente lineare.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
35
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
36
Correzione per la continuità (Yates).
I valori osservati in una tabella di contingenza sono frequenze, quindi possono
assumere solo valori interi. La distribuzione χ2 è invece una distribuzione
continua.
E’ stata quindi proposta una correzione, applicabile alle tabelle 2*2, che ha
l’effetto di ridurre il valore di χ2 (effetto conservativo).
2
1

 oss − att − 
2
χ = ∑
att
2
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
37
oppure
n..* (|n11* n22 - n12* n21|-1/2n..) 2
χ 2=
n1.*n2.*n.1*n.2
oppure
T*(|ad-bc|-1/2T) 2
χ 2=
(a+b)(a+c)(b+c)(c+d)
|ad-bc|
è il valore assoluto di (ad-bc)
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
38
Sviluppiamo un esempio utilizzando dati relativi ad uno studio storico sul
trattamento dell'ulcera peptica
L’errore di primo tipo era stato fissato a 0,05.
La tabella dei valori osservati è:
Ulcera Peptica
Farmaco
Curato
Non curato
Totale
Pirenzepina
23
7
30
Tritiozina
18
13
31
TOTALE
41
20
61
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
39
OR (pirenzepina vs. tritiozina) = 2,37
IC95%(OR): 0,7847 <= OR <=7,1766
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
40
Il calcolo dei valori attesi porta a questi risultati.
Ulcera Peptica
Farmaco
Curato
Non curato
Totale
Pirenzepina
20,16
9,84
30
Tritiozina
20,84
10,16
31
TOTALE
41
20
61
Il calcolo della statistica χ2
(|23-20,16|-1/2)2
(|7-9,84|-1/2)2
(|18-20,84|-1/2) 2
+
+
20,16
9,84
20,84
χ 2=
+
(|13-10,16|-1/2) 2
10,16
=
= 0,272 + 0,566 + 0,263 +0,539 = 1,6298
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
41
Interpretazione:
Il valore di χ2 , letto dall’apposita tabella, dato 1 grado di libertà corrisponde ad
un valore di probabilità compreso tra 0,10 e 0,25
0,10 <probabilità < 0,25.
Poiché l’errore α era stato fissato a 0,05, non rifiuto l’ipotesi nulla.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
42
Posso anche calcolare il valore di probabilità utilizzando una funzione di Excel:
dato χ2 = 1,629752 ed 1 grado di libertà calcolo:
p= 0,201737.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
43
Analysis for 2 by 2 Crosstabulation (pivot) Tables
Levels and Sample Counts
H
H1
V
H2
V2
12
7
V1
Odds Ratio
OR 6,571428571
Confidence Interval
for Odds Ratio
Continuity correction
Chi-square Test
Continuity correction
H0: Variables are independent
H1: Variables are not independent
Chi-square 8,833393829
p-value = 0,002957678
6
23
Fisher's Exact Test
H0: 1 - 2 = 0
Alternative
>
≠
<
H1: 1 - 2 ≠ 0
p-value = 0,00751
Level 0,95
Lower
Upper
1,898676662 22,7440903
n.b. è compreso negli Extra Tools
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
44
χ2 esatto
La formula approssimata è valida quando il numero di osservazioni non è troppo
piccolo (ogni cella Atteso >1; non più del 20% delle celle con atteso < 5).
Quando il numero di soggetti nella tabella è piccolo si suggerisce di utilizzare la
formula del χ2 esatto, sviluppata da Fischer.
Il test si basa sul calcolo della probabilità associata alla tabella osservata ed a
ciascuna delle tabelle ‘più estreme’.
Il test è stato sviluppato a partire dalla funzione di probabilità ipergeometrica.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
45
Costruzione delle tabelle ‘più estreme’ (cioè con indicatore di associazione
maggiore di quello osservato nella tabella data).
Esempio. La tabella riporta il numero di pazienti trattati in due reparti con
intervento per frattura collo del femore ed il relativo numero di complicanze.
Tab 1
Reparto
Complicanza A
B
Totale
SI
2
6
8
NO
18
14
32
TOTALE
20
20
40
OR= (2*14)/(6*18)=0.26
p= (n1.!* n2.!* n.1!* n.2!) / (n..! * n11!* n12!* n21!* n22!)
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
46
Altre possibili tabelle
Tab 2
Complicanza A
Reparto
B
Totale
SI
1
7
8
NO
19
13
32
TOTALE
20
20
40
OR= ?
Tab 3
Complicanza A
Reparto
B
Totale
SI
0
8
8
NO
20
12
32
TOTALE
20
20
40
OR= ?
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
47
p(tab 1)= 8!32!20!20!/40!2!6!18!14! = 0,095760
p(tab 2)= 8!32!20!20!/40!1!7!19!13! = 0,020160
p(tab 3)= 8!32!20!20!/40!0!8!20!12! = 0,001638
p totale = 0,117558
Il test fornisce direttamente il valore di probabilità.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
48
Test di Mc Nemar per dati appaiati
Frequentemente il disegno dello studio prevede l’appaiamento tra due soggetti o
l’analisi dello stesso soggetto in condizioni diverse.
Immaginiamo di trattare un gruppo di soggetti con due diversi antidolorifici.
Ciascun soggetto riceve prima un farmaco e poi l'altro, secondo una sequenza
casuale.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
49
In questo caso la tabella, gli indicatori di associazione ed il calcolo di χ2
diventano:
Migliorato
Trattamento B
Non migliorato
Totale
Migliorato
k
r
k+r
Non migliorato
s
m
s+m
k+s
r+m
N
Trattamento A
TOTALE
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
50
OR(McNemar) = r/s
Il χ2 di McNemar, calcolato con la correzione per la continuità è:
χ
2
1 gl
=
( r − s − 1)
2
r+s
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
51
Test di Mc Nemar, sviluppo di un esempio.
E’ stato condotto uno studio con l’obbiettivo di confrontare due farmaci
antiinfiammatori , che indichiamo come A e B. Non siamo in grado di prevedere
quale dei due farmaci darà i migliori risultati. Sono inclusi 347 pazienti affetti da
artrite. Ciascun paziente riceve, in sequenza casuale, i due diversi farmaci.
Confronto quindi le risposte ai due farmaci calcolando l’Odds Ratio.
L’errore di primo tipo è fissato a 0,05.
Il test statistico appropriato è il test di Mc Nemar, con correzione per la
continuità.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
52
Migliorato
Trattamento B
Non migliorato
Totale
Migliorato
87
112
199
Non migliorato
79
69
148
TOTALE
166
181
347
Trattamento A
OR(McNemar) (modalità A vs. modalità B)= r/s = 1,42
χ21g.l.= 5,36
p < 0,025
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
53
Interpretazione:
La probabilità di ottenere un non miglioramento per i pazienti trattati con il
farmaco A è 1,42 volte più elevata che per i pazienti trattati con il farmaco B.
La probabilità di osservare un risultato come quello osservato o più estremo è
inferiore al valore prefissato per il rifiuto dell’ipotesi nulla, che viene quindi
respinta.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
54
Tabelle R x C
L’estensione del calcolo di χ2 a tabelle con un maggior numero di righe e di
colonne è semplice e si basa sulla formula approssimata:
(oss −att )
=∑
2
χ
2
att
Il numero di gradi di libertà si calcola come (righe-1)*(colonne-1).
La correzione per la continuità non viene applicata.
Non sono disponibili formule per il calcolo del χ2 esatto in tabelle con
dimensione maggiore di 2x2.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
55
Tabelle 2*n
Costituiscono un caso particolare delle tabelle R*C
Il calcolo di χ2 si basa sulla formula approssimata:
(oss −att )
=∑
2
χ
2
att
Il numero di gradi di libertà si calcola come (righe-1)*(colonne-1).
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
56
Un esempio di impiego del test χ2
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
57
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
58
Un esempio di impiego del test esatto di Fischer2
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
59
Esaminiamo alcune curve con la distribuzione X^2 per un diverso numero di gradi di
libertà.
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
60
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
61
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
62
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
63
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
64
Esercizi dal testo
p 273 n 1
p 273 n 3
p 274 n 6
p 274 n 9
p 274 n 10
p 276 n 16
Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza
65