Università del Piemonte Orientale Corso di Laurea in Igiene Dentale

Università del Piemonte Orientale
Corso di Laurea in Igiene Dentale
Corso di Statistica per la ricerca sperimentale e
tecnologica
Analisi dei dati in tabelle di contingenza
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
1
La tabella seguente presenta la frequenza di osservazioni,
categorizzate secondo due variabili.
Risultato
Farmaco
Curato
Non curato
Totale
Proporzione
curati
A
a
b
a+b
a/(a+b)
B
c
d
c+d
c/(c+d)
TOTALE
a+c
b+d
a+b+c+d
La notazione usata è semplice ma non è generalizzabile a tabelle
di maggiori dimensioni.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
2
La seguente notazione è più generale e si applica a tabelle di
qualsiasi dimensione
Risultato
Farmaco
Curato
Non curato
Totale
Proporzione
curati
A
n11
n12
n1.
n11/n1.
B
n21
n22
n2.
n21/n2.
TOTALE
n.1
n.2
n..
n.1/n..
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
3
Talvolta la tabella viene costruita indicando non le frequenze
ma le corrispondenti proporzioni.
Risultato
Farmaco
Curato
Non curato
Totale
A
p11
p12
p1.
B
p21
p22
p2.
TOTALE
p.1
p.2
p..
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
4
I totali marginali della tabella (totali di riga e di colonna) sono
definiti dal disegno dello studio e dai suoi risultati principali.
Ad esempio: uno studio clinico include 200 pazienti, divisi in
due gruppi di eguale dimensione trattati con due diversi
farmaci.
Il primo risultato dello studio sarà dato dal numero di pazienti
che hanno mostrato un risultato favorevole del trattamento
(120 risultati favorevoli, 80 con risultato non favorevole).
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
5
La tabella completata relativamente ai totali marginali è:
Risultato
Farmaco
Curato
Non curato
Totale
A
n11
n12
100
B
n21
n22
100
TOTALE
120
80
200
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
6
Una volta definito un valore per una delle quattro celle, resta
definito anche il valore delle celle restanti, poiché i totali
marginali sono fissati.
In altri termini, in una tabella 2*2 una sola delle celle è libera di
assumere qualsiasi valore, le restanti sono fissate dai totali
marginali.
Il numero di celle libere corrisponde al numero di gradi di
libertà (g.l. o d.f.).
Il numero di gradi di libertà in una tabella r * c è dato da:
g.l. = (r-1) * (c-1)
Le tabelle 2*2 hanno 1 grado di libertà.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
7
L’analisi di una tabella di contingenza prevede:
• il calcolo di indicatori di associazione tra le due variabili
• la valutazione della probabilità di osservare la tabella in
esame data l’ipotesi nulla (test di significatività)
Esaminiamo il caso delle tabelle 2*2 (2 righe * 2 colonne)
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
8
Indicatori di associazione:
Esposizione
Presente
Assente
Totale
Malattia
Caso
a
c
a+c
Controllo
b
d
b+d
Totale
a+b
c+d
a+b+c+d
La misura di associazione usata più frequentemente è l’
Odds Ratio (Rapporto Crociato), abbreviato con OR.
‘OR fornisce una stima del rischio di sviluppare un effetto
quando è presente un fattore antecedente, rispetto al
corrispondente rischio quando il fattore è assente’ (Fleiss).
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
9
Rischio (odd) quando il fattore è presente: (a/b).
Rischio (odd) quando il fattore è assente: (c/d).
Odds Ratio (OR) è il rapporto tra i due odds:
OR = (a/b)/(c/d) = (a*d) / (c*b)
L’intervallo di valori validi per OR è: 0 <= OR <= ∞
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
10
Esempio:
confronto di due antibiotici nel trattamento delle infezioni in
pazienti affetti da neoplasia.
Febbre
Farmaco
Curato
Non curato
Totale
Meropenem
79
56
135
Ceftazidima
49
65
114
TOTALE
128
121
249
OR (Meropenem vs. Ceftazidima) = (79 * 65) / (49 * 56) = 1,87
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
11
Interpretazione:
le due variabili sembrano associate: la probabilità di essere
trattati con successo per i pazienti trattati con meropenem è
1,87 volte maggiore rispetto ai pazienti trattati con
ceftazidime.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
12
Per calcolare l’intervallo di confidenza nel caso dell’OR
dobbiamo utilizzare la seguente formula poiché la
distribuzione di OR è asimmetrica (va da 0 a + ∞):
IC (ln(OR)) = ln(OR) ± Zα/2 * ES(ln(OR))
ln(OR) = logaritmo naturale dell’ Odds Ratio
1 1 1 1
ES (ln(OR )) =
+ + +
a b c d
Quindi:
ln( OR ) ±
IC (OR ) = e
Ζ α2 *ES (ln( OR ))
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
13
1
1
1
 1
ES (ln(OR )) =  + +
+  = 0,2575
 79 56 49 65 
95% -> α = 0,05 da distribuire nelle due code poiché l’
intervallo di confidenza è bilaterale
(0, 6267−1,96*0, 2575 )
= 1,1297
(0, 6267+1,96*0, 2575 )
= 3,0999
l _ inf IC(95%)OR = e
l _ sup IC(95%)OR = e
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
14
Risultati di uno studio in un gruppo di tossicodipendenti
sull'associazione tra positività al test della tubercolina ed uso
promiscuo di siringhe per l'iniezione di stupefacenti.
Test della tubercolina
Uso di siringhe
Positivo
Negativo
Totale
Promiscuo
24
73
97
Non Promiscuo
28
133
161
TOTALE
52
206
258
L'associazione tra il risultato del test alla tubercolina e l'uso
promiscuo delle siringhe è misurato dall'Odds Ratio.
OR = (24 * 133) / (73 * 28) = 1,56
Interpretazione: ?
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
15
ES(ln(OR))= 0,3140
95% -> α = 0,05 da distribuire nelle due code poiché l'
intervallo di confidenza è bilaterale
Z(α/2) = Z(0,025 nella coda superiore) = 1,96
l _ inf IC(95% )OR = e (0, 4457−1,96*0,3140 ) = 0,8439
l _ supIC(95% )OR = e (0, 4457+1,96*0,3140 ) = 2,2898
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
16
Test di ipotesi
Nell' analisi di tabelle di contingenza l'ipotesi di lavoro di solito
corrisponde all'associazione tra le due variabili mentre l'ipotesi
nulla corrisponde all'assenza di associazione.
H0: le variabili non sono associate (quindi OR=1)
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
17
Il test statistico misura la probabilità di osservare una tabella
come quella data (o più estrema) se vale l'ipotesi nulla.
Il test adottato è il Chi-quadro (χ2).
Il principio di base di questo test consiste nel confronto tra
le frequenze osservate e quelle attese per ogni cella.
La formula approssimata di questo test si basa appunto
sulla misura della differenza tra il numero di osservazioni in
ciascuna cella della tabella ed il corrispondente numero di
osservazioni attese, data l’ipotesi nulla.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
18
Esempio: viene ripreso il confronto di due antibiotici nel
trattamento delle infezioni in pazienti affetti da neoplasia.
H0: Le due variabili non sono associate.
Valori osservati:
Febbre
Farmaco
Curato
Non curato
Totale
Meropenem
79
56
135
Ceftazidima
49
65
114
TOTALE
128
121
249
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
19
Calcolo del numero di osservazioni attese
Febbre
Farmaco
Curato
Non curato
Totale
Meropenem
E(a) = (a+b)*(a+c)/T
E(b) = (a+b)*(b+d)/T
a+b
Ceftazidima
E(c ) = (c+d)*(a+c)/T
E(d) = (c+d)*(b+d)/T
c+d
a+c
b+d
T
TOTALE
E(a) = ((a+b)/T)*((a+c)/T)*T=(a+b)*(a+c)/T
Febbre
Curato
Non curato
Totale
Meropenem
69.398
65.602
135
Ceftazidima
58.602
55.398
114
Totale
128
121
249
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
20
(oss −att )
2
χ =∑
2
att
2
2
2
2
(
(
)
)
(
(
)
)
(
(
)
)
(
(
)
)
a
E
a
b
E
b
c
E
c
d
E
d
−
−
−
−
χ2 =
+
+
+
E (a )
E (b )
E (c )
E (d )
Dove E(a) = [(a+b)/T] * [(a+c)/T] * T = (a+b) * (a+c)/T
Il valore atteso delle restanti celle viene calcolato in modo
analogo o per differenza dai totali marginali.
La formula è approssimata ed è valida quando il numero di
osservazioni non è troppo piccolo (ogni cella Atteso >1;
non più del 20% delle celle con atteso < 5).
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
21
(O-A)^2/A
Febbre
Curato
Non curato
Meropenem
1.329
1.406
Ceftazidima
1.573
1.664
chi2= 1.329 + 1.406 +1.573 + 1.664
=
5.972
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
22
Formula abbreviata (valida solo per tabelle 2 x 2)
T * (ad − bc )
2
χ =
(a + b )(a + c )(b + c )(c + d )
2
n.. * (n11 * n22 − n12 * n21 )
2
χ =
n1. * n2. * n.1 * n.2
2
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
23
Come si usa il valore χ2 ?
Il valore di probabilità corrispondente al valore della
statistica χ2 si legge su apposite tabelle, dato il valore di
χ2 ed il numero di gradi di libertà.
La probabilità viene letta su una sola coda della
distribuzione χ2 ma il test è bilaterale.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
24
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
25
5.972
Il grafico presenta la curva della distribuzione χ2 con 1 gradi di libertà. Il valore di χ2 è sulle ascisse.
L’area verde corrisponde al 5% della distribuzione.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
26
Correzione per la continuità (Yates).
I valori osservati in una tabella di contingenza sono
frequenze, quindi possono assumere solo valori interi. La
distribuzione χ2 è invece una distribuzione continua.
E’ stata quindi proposta una correzione, applicabile alle
tabelle 2*2, che ha l’effetto di ridurre il valore di χ2 (effetto
conservativo).
2
1

oss
−
att
−


2
χ = ∑
att
2
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
27
Esempio: studio storico sul trattamento dell'ulcera peptica
L’errore di primo tipo era stato fissato a 0,05.
La tabella dei valori osservati è:
Ulcera peptica
Farmaco
Curato
Non curato
Totale
Pirenzepina
23
7
30
Tritiozina
18
13
31
TOTALE
41
20
61
OR (pirenzepina vs. tritiozina) = 2,37
IC95%(OR): 0,7847 <= OR <=7,1766
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
28
Il calcolo dei valori attesi porta a questi risultati.
Ulcera peptica
Farmaco
Curato
Non curato
Totale
Pirenzepina
20,16
9,84
30
Tritiozina
20,84
10,16
31
TOTALE
41
20
61
Il calcolo della statistica χ2
(
23 − 20,16 − 1 / 2) ( 7 − 9,84 − 1 / 2) (18 − 20,84 − 1 / 2) (13 − 10,16 − 1 / 2)
=
+
+
+
2
χ2
20,16
2
9,84
2
20,84
2
10,16
= 0,272 + 0,566 + 0,263 +0,539 = 1,6298
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
29
Interpretazione:
Il valore di χ2 , letto dall’apposita tabella, dato 1 grado di
libertà corrisponde ad un valore di probabilità compreso tra
0,10 e 0,25
0,10 <probabilità < 0,25
Poiché l’errore α era stato fissato a 0,05, non rifiuto l’ipotesi
nulla.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
30
Posso anche calcolare il valore di probabilità utilizzando una
funzione di Excel:
dato χ2 = 1,629752 ed 1 grado di libertà calcolo:
p= 0,201737.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
31
χ2 ESATTO
Quando il numero di soggetti nella tabella è piccolo si
suggerisce di utilizzare la formula del χ2 esatto, sviluppata da
Fischer.
Il test è stato sviluppato a partire dalla funzione di probabilità
ipergeometrica.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
32
Esempio. La tabella riporta il numero di pazienti trattati in due
reparti con intervento per frattura collo del femore ed il numero
di complicanze osservate in ciascun reparto (dati fittizi).
Tab. 1
Reparto
Complicanza
A
B
Totale
Si
2
6
8
No
18
14
32
Totale
20
20
40
p= (n1.!* n2.!* n.1!* n.2!) / (n..! * n11!* n12!* n21!* n22!)
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
33
Altre possibili tabelle
Tab. 2
Reparto
Complicanza
A
B
Totale
Si
1
7
8
No
19
13
32
Totale
20
20
40
Tab. 3
Reparto
Complicanza
A
B
Totale
Si
0
8
8
No
20
12
32
Totale
20
20
40
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
34
P(tab 1)= 8!32!20!20!/40!2!6!18!14! = 0,095760
P(tab 2)= 8!32!20!20!/40!1!7!19!13! = 0,020160
P(tab 3)= 8!32!20!20!/40!0!8!20!12! = 0,001638
P totale = 0,117558
Il test fornisce direttamente il valore di probabilità.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
35
Test di Mc Nemar per dati appaiati
Frequentemente il disegno dello studio prevede l’appaiamento
tra due soggetti o l’analisi dello stesso soggetto in condizioni
diverse.
Immaginiamo di trattare un gruppo di soggetti con due diversi
antidolorifici.
Ciascun soggetto riceve prima un farmaco e poi l'altro,
secondo una sequenza casuale.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
36
In questo caso la tabella, gli indicatori di associazione ed il
calcolo di χ2 diventano:
Trattamento A
Trattamento B
Migliorato Non migliorato
Totale
Migliorato
k
r
k+r
Non migliorato
s
m
s+m
k+s
r+m
N
Totale
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
37
OR(McNemar) = r/s
Il χ2, calcolato con la correzione per la continuità è:
(
r − s −1)
=
2
χ
2
1 gl
r+s
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
38
Test di Mc Nemar, esempio:
E’ stato condotto uno studio con l’obiettivo di confrontare due
farmaci antiinfiammatori , che indichiamo come A e B. Non
siamo in grado di prevedere quale dei due farmaci darà i migliori
risultati. Sono inclusi 347 pazienti affetti da artrite. Ciascun
paziente riceve, in sequenza casuale, i due diversi farmaci.
Confronto quindi le risposte ai due farmaci calcolando
l’Odds Ratio.
L’errore di primo tipo è fissato a 0,05.
Il test statistico appropriato è il test di Mc Nemar, con
correzione per la continuità.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
39
Trattamento A
Trattamento B
Migliorato Non migliorato
Totale
Migliorato
87
112
199
Non migliorato
79
69
148
Totale
166
181
347
OR(McNemar) (modalità A vs. modalità B)= r/s = 1,42
χ2 1g.l. = 5,36
p < 0,025
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
40
Interpretazione:
La probabilità di ottenere un miglioramento per i pazienti
trattati con il farmaco A è 1,42 volte più elevata che per i
pazienti trattati con il farmaco B.
La probabilità di osservare un risultato come quello osservato
o più estremo è inferiore al valore prefissato per il rifiuto
dell’ipotesi nulla, che viene quindi respinta.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
41
Tabelle R x C
L’estensione del calcolo di χ2 a tabelle con un maggior
numero di righe e di colonne è semplice e si basa sulla
formula approssimata:
(oss −att )
2
χ
2
=∑
att
Il numero di gradi di libertà si calcola come
(numero di righe-1)*(numero di colonne-1).
La correzione per la continuità non viene applicata.
Non sono disponibili formule per il calcolo del χ2 esatto
in tabelle con dimensione maggiore di 2x2.
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
42
Tabelle 2*n
Costituiscono un caso particolare delle tabelle R*C
Il calcolo di χ2 si basa sulla formula approssimata:
(oss −att )
=∑
2
χ
2
att
Il numero di gradi di libertà si calcola come (righe-1)*(colonne-1).
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
43
Esercizi consigliati
da: Fowler et al, ed Edises.
•
•
•
•
•
•
Cap 12 (p 230) es 1
Cap 12 (p 230) es 2
Cap 12 (p 230) es 3
Cap 12 (p 230) es 4
Cap 12 (p 230) es 5
Cap 12 (p 231) es 8
Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza
44