clicka qui per la lezione 13 (associazione dati qualitativi)

METODI STATISTICI PER LO
STUDIO DELL’ASSOCIAZIONE
TRA DATI QUALITATIVI
Le tabelle rxc
Si consideri una popolazione le cui N unità siano
classificate secondo le r modalità di un carattere X
(esempio sesso) e le c modalità di un carattere Y (classi di
età)
Y1
Y2
…
Yj
Yc
X1
p1.
X2
…
Xi
…
Xr
p2.
pij
pi.
pr.
p.1
p.2
p.j
pij  PrX i  Y j 
p.c
1
Estraiamo da questa popolazione un campione di n unità e si ha
nij  freqX i  Y j 
Y1
Y2
…
Yj
Yc
X1
n1.
X2
…
Xi
…
Xr
n2.
nij
ni.
nr.
n.1
n.2
n.j
n.c
1
Sulla base delle osservazioni campionarie vogliamo sapere se i
due caratteri X ed Y sono indipendenti
Esempio:Verificare l’ipotesi nulla di indipendenza
tra reflusso gastro-esofageo e peso corporeo al
livello di significatività dell’1%.
Observed
Peso
Reflusso gastro-esofageo
assenza
presenza
Totale complessivo
normale
67
65
132
sovrappeso
21
23
44
obeso
Totale complessivo
9
97
26
114
35
211
Distribuzione marginale di colonna
p.j
Distribuzione marginale di riga
pi .
Test di indipendenza
H 0 : pij  pi. * p. j
H1 : pij  pi. * p. j
Per la legge del prodotto di due eventi indipendenti, la probabilità
del prodotto pij è uguale al prodotto delle probabilità pi. per p.j
Si utilizza una statistica test
che è una sorta di distanza
tra la tabella delle frequenze
osservate nij e la tabella
delle frequenze attese υij
nell’ipotesi di indipendenza
 
2
r
c

i 1 j 1
n
ij
 ij 
2
 ij
~. 
2
r 1c 1
 ij  n * pi. * p. j
Sotto H0:
Generalmente le probabilità marginali non sono note. Occorre
stimarle:
n
n
pˆ i. 
Allora:
i.
n
;
pˆ . j 
.j
n
ni. n. j ni. * n. j
 ij  n


n n
n
 2 
r
c
i 1
j 1

ni. * n. j 

 nij 

n 

ni. * n. j
n
2
60.682 
132  97
211
expected
23.773 
44 114
211
Reflusso gastro-esofageo
assenza
presenza
Totale complessivo
60.68246445
71.31753555
132
20.22748815
23.77251185
44
16.09004739
18.90995261
35
97
114
211
normale
sovrappeso
obeso
(E-O)^2/E
normale
sovrappeso
obeso
0.657706567
0.029503147
3.124215287
0.559627517
0.025103555
2.658323534
7.054479607
Chi quadrato(2)
non significativo
0.029385915
P-value
v.critico
9.21
Il chi quadro indica la misura in cui le
frequenze osservate in ogni casella della
tabella differiscono dalle frequenze che ci
aspetteremmo se non ci fosse associazione
fra i due caratteri.
I gradi di libertà sono dati dal numero totale delle
celle meno il numero di parametri stimati, ovvero 1
frequenza totale, r frequenze marginali di riga e c
frequenze marginali di colonna:
rc-1-r-c=r(c-1)-(c-1)=(r-1)(c-1)
Affinché si possa utilizzare il chi quadro e'
indispensabile:
a) che i dati siano indipendenti, cioe' nessun soggetto
puo' apparire in più di una cella della tabella;
b) che non più del 20 % delle frequenze attese nella
tabella può essere < 5 (altrimenti si deve usare
il test esatto di Fisher);
c) nessuna cella deve avere una frequenza attesa < 1
(altrimenti si deve usare il test esatto di Fisher).
d) Non c’è alcuna ipotesi di normalità sulla distribuzione
della popolazione di provenienza del campione. Per questo
fa parte della famiglia dei test non parametrici
Abbiamo detto che per una tabella rxc il test si
distribuisce approssimativamente come un Chiquadro. Questa approssimazione è valida purché
vi siano un numero sufficiente di g.l. Per tabelle
2x2, con 1 solo g.l., è meglio utilizzare un fattore
di correzione per la continuità:
Correzione di Yates: consiste nel
sottrarre 0.5 alla differenza tra
frequenze osservate e attese in valore
assoluto
 
2
r
c

i 1 j 1
 n 
ij
ij
 ij
 0.5
 ~. 
2
2
1
Test esatto di Fisher


Quando le dimensioni campionarie sono piccole, è
possibile elencare tutte le possibili combinazioni
delle osservazioni e quindi calcolare le probabilità
esatte associate a ogni possibile combinazione di
dati.
La probabilità totale a una coda o a due code di
ottenere la tabella osservata o una più estrema è il
valore di P associato all’ipotesi che i due caratteri
siano indipendenti
Si consideri il seguente esempio:
Obs b1
b2
a1
1
8
a2
10
4
11
12
Exp
a1
a2
b1
b2
4,3 4,7
6,7 7,3
11
12
9
14
23
9
14
23
Si deve usare il test
esatto di Fisher
. tabi 1 8\10 4, exact
|
col
row |
1
2 | Total
-----------+----------------------+---------1|
1
8|
9
2|
10
4|
14
-----------+----------------------+---------Total |
11
12 |
23
Fisher's exact =
1-sided Fisher's exact =
0.009
0.007
Misure di rischio
L'associazione e' il grado di dipendenza statistica
tra 2 o piu' eventi variabili;
Infatti l'associazione puo' essere:
- causale o eziologica (il fumo di tabacco provoca
il cancro);
- secondaria o indiretta (la bronchite cronica, causata
dal fumo, e' associata al cancro);
- non causale o spuria o artificiale: e' determinata da
una circostanza esterna: o un fattore di confondimento o una distorsione della metodologia
statistica usata.
Misure di rischio
Facciamo l'esempio di due gruppi di soggetti (ad
es. quelli con colesterolo alto e quelli con
colesterolo basso), inizialmente sani, che esposti
ad un fattore di rischio (colesterolemia alta) dopo
un certo tempo sviluppano una malattia
(cardiopatia).
Al termine del periodo di follow-up si avranno 4
categorie di soggetti:
malati esposti (a),
malati non esposti (c),
non malati esposti (b)
non malati non esposti (d):
Si consideri uno studio prospettico (1)
Malato (M+) Non malato (M-) Totale
Esposto (E+)
a=50
b=450
500
Non esposto (E-) c=25
d=475
500
La probabilità che un soggetto esposto sia
malato è detta Incidenza o rischio assoluto:
a/a+b, cioe' 50/500
… oppure i risultati di un Trial (2)

Terapia
tradizionale (TT)
Morti
Non Morti
Totale

35
41
76

Terapia
Sperimentale (TS)
75

49
26
Rischio attribuibile individuale (RA)
o Riduzione del Rischio Assoluto (RRA)
Rappresenta la quantita' di rischio supplementare
attribuibile al fattore di rischio ( o alla terapia tradizionale):
(1) RA = IE+ - IE- = 0.10 - 0.05 = 0.05
(il fattore di rischio aumenta il rischio del 5%)
(2) RA = I(TT) - I(TS) = 0.46 - 0.65= -0.19
(la terapia sperimentale aumenta il rischio di morte
del 19%: si noti il segno negativo di RA)
Rischio Relativo (RR o risk ratio)
Rapporto fra incidenza negli esposti e incidenza
nei non esposti, cioe':
a/(a+b)
RR = ________
c/(c+d)
=
50/500
_______
25/500
0.10
= ___
0.05
=2
(1)
(cioe' gli esposti hanno un rischio doppio dei non
esposti).
Se il valore e' attorno a 1 indica che il fattore non ha
influenza nello sviluppo della malattia;
se e' <1 indica che il fattore ha un ruolo protettivo,
se e' >1 indica che esiste un'associazione tra fattore e
malattia.
Rischio Relativo (RR o risk ratio)
Rapporto fra incidenza negli esposti e incidenza
nei non esposti, cioe':
a/(a+b)
35/76
RR = ________= _______
c/(c+d)
49/75
0.46
= ___
0.65
= 0.71
(2)
(cioe' i pazienti trattati con terapia tradizionale
hanno un rischio minore rispetto ai pazienti trattati
con terapia sperimentale)
Se il valore e' attorno a 1 indica che le due terapie sono
equivalenti;
se e' <1 indica che la terapia al numeratore è più efficace
se e' >1 indica che è meno efficace
Riduzione del Rischio Relativo (RRR)
Rapporto fra incidenza negli esposti e incidenza
nei non esposti, cioe':
RRR = 1-RR
= 1- 0.71=0.29 (2)
(cioe' i pazienti trattati con terapia sperimentale
hanno un rischio del 29% più alto dei pazienti
trattati con terapia tradizionale)
Rischio Relativo (RR o risk ratio)
Gli intervalli di confidenza per RR possono essere ottenuti tramite
una trasformazione logaritmica
1
1
1
1
ES ln RR  

 
a ab c cd
ln RR  z 2 ES ln RR 
Odds ratio o rapporto crociato
(“Crude” OR)
Il RR puo' essere calcolato correttamente solo negli studi
longitudinali (insorgenza di una malattia nel tempo).
Casi
Controlli
Totale
Fattore di rischio
presente
19
3
22
Fattore di rischio
assente
17
11
28
Totale
36
14
50
Odds è il rapporto della probabilità di essere
caso rispetto alla probabilità di essere controllo
Odds ratio o rapporto crociato
(“Crude” OR)
Negli studi caso-controllo si puo' ottenere una stima
del rischio con il c.d. odds ratio:
Odds (f.r.presente)=(19/22)/(3/22)=19/3=6.3
Odds (f.r.assente)=(17/28)/(11/28)=17/11=1.5
OR = Odds (f.r.presente)/Odds (f.r.assente)= (a/b) / (c/d)
= a d/b c =6.3/1.5=4.2
Odds ratio o rapporto crociato
(“Crude” OR)
1 1 1 1
ES ln OR  
  
a b c d
ln OR  z 2 ES ln OR
Statistica di Mantel-Haenszel

Quando nello studio osservazionale
interviene una variabile di confondimento
occorre stratificare casi e controlli in funzione
delle sue categorie.
Tabella di contingenza relativa
all’i-esima categoria della v. di
confounding
D Casi
Tot
E+
D+
ai
Controlli
Dbi
E-
ci
di
ci+di
ai+ci
bi+di
E
ai+bi
Test di omogeneità
Per ogni categoria della variabile di
ai d i
ORi 
confondimento abbiamo un OR
bi ci
Occorre verificare l’ipotesi nulla
H 0 : OR1  OR2  ...  ORk
H1 : ORi  OR j
Si utilizza un test
Chi-quadro:
per
i j
k


wi log ORi
k

2
  wi  log ORi  i 1 k
i 1 
wi

i 1




2



 ~.  (2k 1)



1 1 1 1
con pesi dati dall’inverso
wi     
della varianza stimata del log dell’ORi:
 ai bi ci d i



1
Se il test risulta non significativo,
possiamo calcolare un OR globale
k
 ai di
OR  i 1
ni
k
 bi ci
i 1
ni
Test di associazione:
H 0 : OR  0
H1 : OR  0
Procedura
1.
1. Calcolare
ei 
vi 
ai  bi ai  ci 
ni
ai  bi ci  di ai  ci bi  di 
ni
2.
2. Calcolare
3.


 a  e 
i
i

3. Calcolare 2
 MH   i 1 k i 1  ~.  (21)
vi
k
k



i 1
2