Università del Piemonte Orientale Corsi di laurea triennale di area

Università del Piemonte Orientale
Corsi di laurea triennale di area tecnica
Corso di Statistica Medica
Analisi dei dati in tabelle di contingenza
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
1
L’analisi delle tavole di contingenza appartiene al capitolo
dedicato all’analisi dei dati categorici.
I metodi di analisi che vedremo sono utilizzati per il confronto di
proporzioni in due o più gruppi diversi.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
2
1
La tabella seguente presenta la frequenza di osservazioni,
categorizzate secondo due variabili.
Risultato
Farmaco
Curato
Non curato
Totale
Proporzione
curati
A
a
b
a+b
a/(a+b)
B
c
d
c+d
c/(c+d)
TOTALE
a+c
b+d
a+b+c+d
La notazione usata è semplice ma non è generalizzabile a tabelle
di maggiori dimensioni.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
3
La seguente notazione è più generale e si applica a tabelle di
qualsiasi dimensione
Risultato
Farmaco
Curato
Non curato
Totale
Proporzione
curati
A
n11
n12
n1.
n11/n1.
B
n21
n22
n2.
n21/n2.
TOTALE
n.1
n.2
n..
n.1/n..
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
4
2
Talvolta la tabella viene costruita indicando non le frequenze ma
le corrispondenti proporzioni.
Risultato
Farmaco
Curato
Non curato
Totale
A
p11
p12
p1.
B
p21
p22
p2.
TOTALE
p.1
p.2
p..
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
5
I totali marginali della tabella (totali di riga e di colonna) sono
definiti dal disegno dello studio e dai suoi risultati principali.
Ad esempio: uno studio clinico include 200 pazienti, divisi in
due gruppi di eguale dimensione trattati con due diversi farmaci.
Il primo risultato dello studio sarà dato dal numero di pazienti
che hanno mostrato un risultato favorevole del trattamento
(120 risultati favorevoli, 80 con risultato non favorevole).
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
6
3
La tabella completata relativamente ai totali marginali è:
Risultato
Farmaco
Curato
Non curato
Totale
A
n11
n12
100
B
n21
n22
100
TOTALE
120
80
200
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
7
Una volta definito un valore per una delle quattro celle, resta
definito anche il valore delle celle restanti, poiché i totali marginali
sono fissati.
In altri termini, in una tabella 2*2 una sola delle celle è libera di
assumere qualsiasi valore, le restanti sono fissate dai totali
marginali.
Il numero di celle libere corrisponde al numero di gradi di libertà
(g.l. o d.f.).
Il numero di gradi di libertà in una tabella r * c è dato da:
g.l. = (r-1) * (c-1)
Le tabelle 2*2 hanno 1 grado di libertà.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
8
4
Abbiamo già incontrato il numero di gradi di libertà nel calcolo
della Deviazione Standard
n
Dev.St. =
(
∑ xi − X
i =1
)
2
(n − 1)
n-1 è il numero di gradi di libertà per il calcolo della deviazione
standard: dato il valore della media, il valore dell’nesima
osservazione è definito, noto il valore delle n-1 osservazioni
precedenti.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
9
L’analisi di una tabella di contingenza prevede:
• il calcolo di indicatori di associazione tra le due variabili
• la valutazione della probabilità di osservare la tabella in
esame data l’ipotesi nulla (test di significatività)
Esaminiamo dapprima il caso delle tabelle 2*2
(2 righe * 2 colonne)
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
10
5
Indicatori di associazione:
Esposizione
Presente
Assente
Totale
Malattia
Caso
a
c
a+c
Controllo
b
d
b+d
Totale
a+b
c+d
a+b+c+d
La misura di associazione usata più frequentemente è l’
Odds Ratio (Rapporto Crociato), abbreviato con OR.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
11
Odds Ratio (OR) è il rapporto tra i due odds:
OR = (a/b)/(c/d) = (a*d) / (c*b)
‘OR fornisce una stima del rischio di sviluppare un effetto
quando è presente un fattore antecedente rispetto al
corrispondente rischio quando il fattore è assente’ (Fleiss).
L’intervallo di valori validi per OR è:
0 <= OR <= ∞
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
12
6
Sviluppiamo un esempio derivato dallo studio clinico
presentato a fine lezione sul confronto di due antibiotici nel
trattamento delle infezioni in pazienti affetti da neoplasia.
Febbre
Farmaco
Curato Non curato
Totale
Meropenem
79
56
135
Ceftazidima
49
65
114
TOTALE
128
121
249
OR (Meropenem vs. Ceftazidima) = (79 * 65) / (49 * 56) = 1,87
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
13
Interpretazione:
le due variabili sembrano associate: la probabilità di essere
trattati con successo per i pazienti trattati con meropenem è
1,87 volte maggiore rispetto ai pazienti trattati con
ceftazidime.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
14
7
Per calcolare l’intervallo di confidenza nel caso dell’OR
dobbiamo utilizzare la seguente formula poiché la
distribuzione di OR è asimmetrica (va da 0 a + ∞):
IC (ln(OR)) = ln(OR) ± Zα/2 * ES(ln(OR))
ln(OR) = logaritmo naturale dell’ Odds Ratio
1 1 1 1
+ + +
a b c d
ES (ln(OR)) =
Quindi:
ln( OR ) ±
IC (OR ) = e
Ζ α2 *ES (ln( OR ))
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
15
1
1
1
 1
ES (ln(OR )) =  + +
+  = 0,2575
 79 56 49 65 
95% -> α = 0,05 da distribuire nelle due code poiché l’
intervallo di confidenza è bilaterale
l _ inf IC(95%)OR = e(0,6267−1,96*0, 2575) = 1,1297
l _ sup IC(95%)OR = e (0,6267+1,96*0, 2575) = 3,0999
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
16
8
Risultati di uno studio in un gruppo di tossicodipendenti
sull'associazione tra positività al test della tubercolina ed uso
promiscuo di siringhe per l'iniezione di stupefacenti.
Test della tubercolina
Uso di siringhe
Positivo
Negativo
Totale
Promiscuo
24
73
97
Non Promiscuo
28
133
161
TOTALE
52
206
258
L'associazione tra il risultato del test alla tubercolina e l'uso
promiscuo delle siringhe è misurato dall'Odds Ratio.
OR = (24 * 133) / (73 * 28) = 1,5616
Interpretazione: ?
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
17
ES(ln(OR))= 0,314004
95% -> α = 0,05 da distribuire nelle due code poiché l'
intervallo di confidenza è bilaterale
Z(α/2) = Z(0,025 nella coda superiore) = 1,96
l _ inf IC(95% )OR = e(0, 445739−1,96*0,314004 ) = 0,8439
l _ supIC(95% )OR = e(0, 445739+1,96*0,314004 ) = 2,8898
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
18
9
Test di ipotesi
Nell' analisi di tabelle di contingenza l'ipotesi di lavoro di solito
corrisponde all'associazione tra le due variabili mentre l'ipotesi
nulla corrisponde all'assenza di associazione.
H0: le variabili non sono associate (quindi OR=1)
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
19
Il test statistico misura la probabilità di osservare una tabella
come quella data (o più estrema) se vale l'ipotesi nulla.
Il test adottato è il Chi-quadro (χ2).
Questo test fornisce la probabilità (data l’ipotesi nulla) di
osservare una tabella come quella in esame o una tabella
più ‘estrema’.
Esamineremo dapprima la formula approssimata di questo
test, che si basa sulla misura della differenza tra il numero
di osservazioni in ciascuna cella della tabella ed il
corrispondente numero di osservazioni attese, data l’ipotesi
nulla.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
20
10
Calcolo del numero di osservazioni attese
H0: Le due variabili non sono associate.
Se due eventi sono indipendenti
P(B|A) = P(B)
Quindi
La probabilità del realizzarsi congiunto di due eventi è data
dal prodotto della probabilità di ciascuno di essi.
P(A ∩ B) = P(A) P(B)
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
21
Osservati:
Febbre
Farmaco
Curato
Non curato
Totale
Meropenem
79
56
135
Ceftazidima
49
65
114
TOTALE
128
121
249
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
22
11
Calcolo degli attesi:
Febbre
Farmaco
Curato
Non curato
Totale
Meropenem
E(a) =
(a+b)*(a+c)/T
E(b) =
(a+b)*(b+d)/T
a+b
Ceftazidima
E(c ) =
(c+d)*(a+c)/T
E(d) =
(c+d)*(b+d)/T
c+d
a+c
b+d
T
TOTALE
E(a) = ((a+b)/T)*((a+c)/T)*T=(a+b)*(a+c)/T
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
23
Febbre
attesi
Curato
Non curato
Totale
Meropenem
69.398
65.602
135
Ceftazidima
58.602
55.398
114
Totale
128
121
249
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
24
12
(oss−att )
2
χ
χ
2
2
=∑
att
2
2
2
2
(
(
(
(
a − E (a ))
b − E (b ))
c − E (c ))
d − E (d ))
=
+
+
+
E (a )
E (b )
E (c )
E (d )
Dove E(a) = [(a+b)/T] * [(a+c)/T] * T = (a+b) * (a+c)/T
Il valore atteso delle restanti celle viene calcolato in modo
analogo o per differenza dai totali marginali.
La formula è approssimata ed è valida quando il numero di
osservazioni non è troppo piccolo (ogni cella Atteso >1;
non più del 20% delle celle con atteso < 5).
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
(O-A)^2/A
25
Febbre
Curato
Non curato
Meropenem
1.329
1.406
Ceftazidima
1.573
1.664
chi2= 1.329 + 1.406 +1.573 + 1.664
=
5.972
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
26
13
Formula abbreviata (valida solo per tabelle 2 x 2)
χ2 =
T * (ad − bc )
(a + b )(a + c )(b + c )(c + d )
χ2 =
2
n.. * (n11 * n22 − n12 * n21 )
n1. * n2. * n.1 * n.2
2
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
27
Come si usa il valore χ2 ?
Il valore di probabilità corrispondente al valore della
statistica χ2 si legge su apposite tabelle, dato il valore di
χ2 ed il numero di gradi di libertà.
La probabilità viene letta su una sola coda della
distribuzione χ2 ma il test è bilaterale.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
28
14
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
29
5.972
Il grafico presenta la curva della distribuzione χ2 con 1 gradi di libertà. Il valore di χ2 è sulle ascisse.
L’area verde corrisponde al 5% della distribuzione.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
30
15
Correzione per la continuità (Yates).
I valori osservati in una tabella di contingenza sono
frequenze, quindi possono assumere solo valori interi. La
distribuzione χ2 è invece una distribuzione continua.
E’ stata quindi proposta una correzione, applicabile alle
tabelle 2*2, che ha l’effetto di ridurre il valore di χ2 (effetto
conservativo).
2
1

 oss − att − 
2
χ = ∑
att
2
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
31
Sviluppiamo un esempio utilizzando dati relativi ad uno studio
storico sul trattamento dell'ulcera peptica
L’errore di primo tipo era stato fissato a 0,05.
La tabella dei valori osservati è:
Ulcera peptica
Farmaco
Curato
Non curato
Totale
Pirenzepina
23
7
30
Tritiozina
18
13
31
TOTALE
41
20
61
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
32
16
OR (pirenzepina vs. tritiozina) = 2,37
IC95%(OR): 0,7847 <= OR <=7,1766
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
33
Il calcolo dei valori attesi porta a questi risultati.
Ulcera peptica
Farmaco
Curato
Non curato
Totale
Pirenzepina
20,16
9,84
30
Tritiozina
20,84
10,16
31
TOTALE
41
20
61
Il calcolo della statistica χ2
( 23 − 20,16 − 1 / 2) + ( 7 − 9,84 − 1 / 2) + (18 − 20,84 − 1 / 2) + (13 − 10,16 − 1 / 2)
=
2
χ
2
20,16
2
9,84
2
20,84
2
10,16
= 0,272 + 0,566 + 0,263 +0,539 = 1,6298
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
34
17
Interpretazione:
Il valore di χ2 , letto dall’apposita tabella, dato 1 grado di
libertà corrisponde ad un valore di probabilità compreso tra
0,10 e 0,25
0,10 <probabilità < 0,25
Poiché l’errore α era stato fissato a 0,05, non rifiuto l’ipotesi
nulla.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
35
Posso anche calcolare il valore di probabilità utilizzando una
funzione di Excel:
dato χ2 = 1,629752 ed 1 grado di libertà calcolo:
p= 0,201737.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
36
18
χ2 esatto
Quando il numero di soggetti nella tabella è piccolo si
suggerisce di utilizzare la formula del χ2 esatto, sviluppata da
Fischer.
Il test si basa sul calcolo della probabilità associata alla
tabella osservata ed a ciascuna delle tabelle ‘più estreme’.
Il test è stato sviluppato a partire dalla funzione di probabilità
ipergeometrica.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
37
Costruzione delle tabelle ‘più estreme’ (cioè con indicatore di
associazione maggiore di quello osservato nella tabella data).
Esempio. La tabella riporta il numero di pazienti trattati in due
reparti con intervento per frattura collo del femore ed il numero
di complicanze osservate in ciascun reparto (dati fittizi).
Tab. 1
Reparto
Complicanza
A
B
Totale
Si
2
6
8
No
18
14
32
Totale
20
20
40
p= (n1.!* n2.!* n.1!* n.2!) / (n..! * n11!* n12!* n21!* n22!)
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
38
19
Altre possibili tabelle
Tab. 2
Complicanza
Reparto
A
B
Totale
Si
1
7
8
No
19
13
32
Totale
20
20
40
Tab. 3
Reparto
Complicanza
A
B
Totale
Si
0
8
8
No
20
12
32
Totale
20
20
40
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
39
P(tab 1)= 8!32!20!20!/40!2!6!18!14! = 0,095760
P(tab 2)= 8!32!20!20!/40!1!7!19!13! = 0,020160
P(tab 3)= 8!32!20!20!/40!0!8!20!12! = 0,001638
P totale = 0,117558
Il test fornisce direttamente il valore di probabilità.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
40
20
Test di Mc Nemar per dati appaiati
Frequentemente il disegno dello studio prevede l’appaiamento
tra due soggetti o l’analisi dello stesso soggetto in condizioni
diverse.
Immaginiamo di trattare un gruppo di soggetti con due diversi
antidolorifici.
Ciascun soggetto riceve prima un farmaco e poi l'altro,
secondo una sequenza casuale.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
41
In questo caso la tabella, gli indicatori di associazione ed il
calcolo di χ2 diventano:
Trattamento B
Trattamento A
Migliorato Non migliorato
Totale
Migliorato
k
r
k+r
Non migliorato
s
m
s+m
k+s
r+m
N
Totale
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
42
21
OR(McNemar) = r/s
Il χ2, calcolato con la correzione per la continuità è:
(r − s −1)
=
2
χ
2
1 gl
r+s
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
43
Test di Mc Nemar, sviluppo di un esempio.
E’ stato condotto uno studio con l’obiettivo di confrontare due
farmaci antiinfiammatori , che indichiamo come A e B. Non
siamo in grado di prevedere quale dei due farmaci darà i migliori
risultati. Sono inclusi 347 pazienti affetti da artrite. Ciascun
paziente riceve, in sequenza casuale, i due diversi farmaci.
Confronto quindi le risposte ai due farmaci
calcolando l’Odds Ratio.
L’errore di primo tipo è fissato a 0,05.
Il test statistico appropriato è il test di Mc Nemar, con
correzione per la continuità.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
44
22
Trattamento B
Trattamento A
Migliorato Non migliorato
Totale
Migliorato
87
112
199
Non migliorato
79
69
148
Totale
166
181
347
OR(McNemar) (modalità A vs. modalità B)= r/s = 1,42
χ2 1g.l. = 5,36
p < 0,025
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
45
Interpretazione:
La probabilità di ottenere un miglioramento per i pazienti
trattati con il farmaco A è 1,42 volte più elevata che per i
pazienti trattati con il farmaco B.
La probabilità di osservare un risultato come quello osservato
o più estremo è inferiore al valore prefissato per il rifiuto
dell’ipotesi nulla, che viene quindi respinta.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
46
23
Tabelle R x C
L’estensione del calcolo di χ2 a tabelle con un maggior
numero di righe e di colonne è semplice e si basa sulla
formula approssimata:
(oss −att )
=∑
2
χ
2
att
Il numero di gradi di libertà si calcola come
(numero di righe-1)*(numero di colonne-1).
La correzione per la continuità non viene applicata.
Non sono disponibili formule per il calcolo del χ2 esatto
in tabelle con dimensione maggiore di 2x2.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
47
Tabelle 2*n
Costituiscono un caso particolare delle tabelle R*C
Il calcolo di χ2 si basa sulla formula approssimata:
(oss −att )
2
χ =∑
2
att
Il numero di gradi di libertà si calcola come (righe-1)*(colonne-1).
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
48
24
Un esempio di impiego del test χ2
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
49
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
50
25
Un esempio di impiego del test esatto di Fischer
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
51
Esaminiamo alcune curve
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
52
26
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
53
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
54
27
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
55
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
56
28
Esercizi consigliati
da: Fowler et al, ed Edises.
•
•
•
•
•
•
Cap 12 (p 230) es 1
Cap 12 (p 230) es 2
Cap 12 (p 230) es 3
Cap 12 (p 230) es 4
Cap 12 (p 230) es 5
Cap 12 (p 231) es 8
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza
57
29