Analisi di tassi e proporzioni: χ 2 –test e test esatto di Fisher

Analisi di tassi e proporzioni:
χ2 –test e test esatto di Fisher
1
Indice
Stima di proporzioni ottenute dai campioni
Verifica di ipotesi per proporzioni
Z-test
Analisi delle tabelle di contingenza (test non
parametrici)
χ2-test
test esatto di Fisher
Misure di associazione tra due variabili nominali
2
Scala nominale
La variabile INDIVIDUO
maschio
femmina
vivo
morto
queste variabili sono misurate su scala
NOMINALE, ovvero non c’è alcuna relazione
matematica tra le differenti classificazioni
Come descrivere le variabili misurate su scala nominale?
Conto in numero di us che presentano quel CARATTERE
con quella MODALITA’ e posso calcolare le percentuali
corrispondenti.
3
Esempio: alotano/morfina
I due anestetici producono una variazione nella
pressione sanguigna ⇒ campionamento casuale
Dal punto di vista clinico: CI SONO DIFFERENZE DI
MORTALITA’?
Dati
l’alotano è associato ad
CAMPIONI
n
MORTI
%
un tasso di mortalità
Alotano
61
8
13.1
inferiore
del 2%
Morfina
67
10
14.9
rispetto alla morfina
Questa differenza è dovuta ad un effetto clinico
reale o alle variazioni casuali?
Trovare METODI per stimare la precisione con cui le
percentuali ottenute dai campioni sono una stima dei
TASSI VERI che si osserverebbero se potessimo
4
esaminare l’intera popolazione
Descrizione di una popolazione sulla base
di un campione
Dati: bambini mancini e destri
n
percentuale
Mancini
50
50/200=0.25=25%
Destri
150
TOTALE
200
CAMPIONI
descrivo
150/200=0.75=75%
100%
Ogniqualvolta ci sono due classi che si escludono
reciprocamente, la struttura della POPOLAZIONE
può essere DESCRITTA con il parametro p:
la percentuale di elementi della popolazione (è anche
la probabilità di estrarre un mancino se si sceglie a
caso un membro della popolazione)
L’altra parte della popolazione è descritta da 1-p.
5
p e media della popolazione
p ha lo stesso ruolo della media della popolazione
Associamo a
Mancini
valore 1
Destri
valore 0
CAMPIONI
n
Mancini
50
Destri
150
TOTALE
200
X 1 + 1 + 1 + ..... + 1 + 0 + 0 + ... + 0 50(1) + 150(0)
∑
µ=
=
=
= 0.25 = p
N
Media della
POPOLAZIONE
200
200
µ=p
6
p e la varianza della popolazione
pmancini=0.25
pmancini=0.05
Mancini
Destri
pmancini=0.50
Mancini
variabilità
massima= 0.5
Destri
pmancini=0
NO variabilità
Mancini
Destri
Associamo a
σ=
2
(
)
−
µ
X
∑
N
Mancini
valore 1
Destri
valore 0
Destri
µ=p
(1 − p)2 + (1 − p)2 + ... + (1 − p)2 + (0 − p)2 + ... + (0 − p)2
M(1 − p) + (N − M )p2
=
N
2
=
=
Mancini
200
M
(1 − p)2 + 1 − M p2 =
N
N

7
=
p e la varianza della popolazione
Essendo
M
=p
N
2
= p (1 − p ) − (1 − p ) p2 =
[p(1 − p) + p ](1 − p) = p(1 − p)
σ =
2
p (1 − p )
σ =0 ⇔ p=0 oppure p=1 cioè tutte o nessuna unita della
popolazione hanno l’attributo studiato
σ =max ⇔ p=0.5 cioè tutte le unità della popolazione hanno
uguale probabilità di avere l’attributo studiato
8
Stima di proporzioni ottenute da campioni
PROBLEMA:
Qual è la precisione con la quale la frazione di
individui con un certo attributo di un campione
riflette la proporzione di individui con lo stesso
attributo nella popolazione?
Esempio
Dalla popolazione di 200 individui ne scelgo 10
(ovvero 5+5)
ovvero
la
metà della popolazione
è mancina!
p̂ = 5 / 10 = 0.5
Mancini
Destri
9
Stima di proporzioni ottenute da campioni
dipende sia dalle caratteristiche della
popolazione sia dallo specifico campione
estratto
p̂
Mancini
Destri
p̂ = 3 / 10 = 0.3
Mancini
p̂ = 1 / 10 = 0.1
Destri
Mancini
Destri
p̂ = 4 / 10 = 0.4
Mancini
Destri
p̂ = 2 / 10 = 0.2
10
Distribuzione di p̂ e SEP
Considero, per es., 20 campioni di 10 us: calcolo
ha la distribuzione campionaria
Valori di
p̂
e si
p̂
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
Per quantificare la VARIABILITA’ di
DEVIAZIONE STANDARD ≅ 14%
p̂
calcolo la
DEF:
Errore Standard della stima di una Proporzione è la
deviazione standard della popolazione di tutti i possibili
valori della proporzione, calcolati in campioni di
σ
SEM (errore
numerosità n
σ p̂ =
standard
n
11
della media)
Errore standard della proporzione
In pratica la stima di p non è accessibile perché
l’intera popolazione non è accessibile, pertanto
sostituiamo a p la stima ottenuta dal campione p̂
σ = p (1 − p )
σ
σ p̂ =
=
n
p (1 − p )
=
n
(
p̂ 1 − p̂
n
)
L’Errore Standard è UTILE per descrivere
l’INCERTEZZA nella stima della proporzione di una
popolazione, perchè la distribuzione di p̂ per campioni
numerosi è approssimativamente normale con media e
p e deviazione standard σ p̂
La distribuzione normale si può
usare quando np̂
>5
n(1 − p̂ )
12
Esempio: alotano/morfina
PROBLEMA:
Ci sono differenze di mortalità?
Dati
sp̂
sp̂
alo
morf
CAMPIONI
n
MORTI
%
Alotano
61
8
13.1
Morfina
67
10
14.9
=
0 . 131 (1 − 0 . 131 )
= 0 . 043 = 43 %
61
=
0 . 149 (1 − 0 . 149 )
= 0 . 044 = 44 %
67
Differenza di
1.8% nel tasso
di mortalità
Questa differenza è dovuta al campionamento casuale
visto che l’errore standard è piccolo.
NON E’ STATO ESEGUITO
ALCUN TEST!!!!!!!!
13
NOTA
Gli esperimenti eseguiti sono detti ESPERIMENTI
BERNOULLIANI INDIPENDENTI nei quali:
ogni singolo esperimento ha solo due possibili esiti
reciprocamente esclusivi
la probabilità p di un certo esito rimane costante
tutti gli esperimenti sono indipendenti
14
Riepilogo
Non è stato eseguito alcun test su proporzioni, solo
errore medio
Il ruolo di p̂ è lo stesso della media campionaria che
conosciamo
Sappiamo calcolare l’Errore Standard
Ricordiamo che la media campionaria e l’errore
standard della media hanno fornito la base per il t-test
E’ possibile costruire l’analogo del t-test per proporzioni :
Z-test
15
Z-test
Formalizzazione Statistica:
z=
differenza tra le proporzioni campionarie
errore standard della differenza tra le proporzioni campionarie
Si Dimostra:
la varianza della differenza (o somma) di due
variabili è uguale alla somma delle varianze delle due
popolazioni dalle quali le variabili sono estratte,
quindi l’errore standard sarà sp̂ −p̂ = sp̂2 + sp̂2
1
z =
p̂ 1 − p̂ 2
=
s p̂ − p̂
1
p̂ 1 − p̂ 2
s p̂2 + s p̂2
2
1
sp̂ =
1
1
2
p̂ 1 − p̂ 2
=
[p̂ (1 − p̂ )/ n ] + [p̂ (1 − p̂ )/ n ]
1
2
p̂1 (1 − p̂1 )
n1
2
sp̂ =
2
1
1
2
2
2
p̂2 (1 − p̂2 )
n2
16
Z-test
Si può aggregare l’informazione dei due campioni in una
sola stima della deviazione standard della popolazione sp̂
z =
p̂ 1 − p̂ 2
=
s p̂ − p̂
1
2
pertanto
p̂ 1 − p̂ 2
s p̂2 + s p̂2
1
=
2
“Media pesata”
sp̂ =
z
n1p̂1 + n2p̂2
n1 + n2
p̂ 1 − p̂ 2
s p̂2
n1
+
s p̂2
n2

n p̂ + n2 p̂2 
1 − 1 1



+
n
n
1
2


=
p̂ 1 − p̂ 2
 1
1 

p̂ ( 1 − p̂ ) 
+
n2 
 n1
poichè
n1p̂1 + n2 p̂2
= p̂
n1 + n2
“Grande” ⇒ rifiuto H0 ovvero i campioni non
provengono dalla medesima popolazione ovvero c’è
differenza tra le proporzioni
“Piccolo” ⇒ accetto H0 ovvero i campioni provengono
dalla medesima popolazione ovvero non c’è
differenza tra le proporzioni
17
Z-test e tabella di valori critici
Quale distribuzione usare per lo Z-test?
Quale tabella utilizzare?
Si usa la DISTRIBUZIONE NORMALE, che è
identica alla distribuzione t con un numero
INFINITO di gradi di libertà
I valori critici saranno letti sulla stessa tabella
utilizzata per il t-test
OSSERVAZIONE:
La normale standard (continua) APPROSSIMA la
distribuzione del test z (discreta) ⇒ risultati distorti ⇒
CORREZIONE per la continuità DI YATES
z =
p̂ 1 − p̂ 2
s p̂ − p̂
1
2
1
−
2
 1
1 

p̂ 1 − p̂ 2
 n + n 
2 
 1
=
 1
1 

p̂ ( 1 − p̂ ) 
+
n2 
 n1
18
Esempio: alotano/morfina
PROBLEMA:
Ci sono differenze di mortalità?
Dati
CAMPIONI
n
MORTI
%
Alotano
61
8
13.1
Morfina
67
10
14.9
Tesi:
Uno dei due anestetici provoca una riduzione rilevabile
della mortalità?
H0:
Non c’è differenza tra i due anestetizzanti.
19
Esempio: alotano/morfina
Risoluzione:
p̂ =
n1 p̂1 + n2 p̂2
8 + 10
=
= 0 .141
n1 + n2
61 + 67
Posso usare
lo Z-test
Verifico che: n1p̂ = 0.141 * 61 = 8.6 > 5
n2p̂ = 0.141 * 67 = 9.4
z =
 1
1

+
n
n mor
 alo
 1
1 

p̂ ( 1 − p̂ ) 
+

n
n
mor 
 alo
p̂ alo − p̂ mor −
1
2


0 . 131 − 0 . 149

 =
1  1
1 
+


2  61
67 
= 0 . 04
1 
 1
0 . 141 ( 1 − 0 . 141 ) 
+

67 
 61
Fisso α=5% ⇒ zc=1.96
−
z < zc
accetto H0
ovvero NON c’è differenza di mortalità associata ai
due anestetici
20
Test e “variabili di processo”
L’esempio precedente è la dimostrazione di come
mostrare semplicemente che un’azione medica
(ANESTETICO) modifica lo stato fisiologico del
paziente non significa che, alla lunga, produca
DIFFERENZE NELLO STATO CLINICO
Fermarsi ad analizzare le VARIABILI DI PROCESSO
(la pressione sanguigna) ci avrebbe fatto concludere
che la morfina è MIGLIORE dell’alotano, mentre in
realtà la scelta del farmaco sembra NON AVERE
EFFETTO sulla variabile più importante:
LA SOPRAVVIVENZA
21
Esempio:
prevenzione della trombosi in persone
sottoposte ad emodialisi
PROBLEMA:
Pazienti con malattie renali possono essere mantenute
in vita mediante dialisi perciò è necessario creare
chirurgicamente una connessione più o meno
permanente che collega la macchina al paziente. Un
metodo consiste nell’inserire uno SHUNT, fra
un’arteria ed una vena del polso o del braccio. Per
diverse ragioni (tecnica chirurgica per collocare la
deviazione, malattie dell’arteria o della vena, infezioni
locali) nello SHUNT tendono a formarsi dei trombi.
Due ricercatori sapevano che l’aspirina tende ad inibire
la coagulazione del sangue e si chiesero se ciò avesse
potuto ridurre la il rischio di trombosi.
22
Esempio:
prevenzione della trombosi in persone
sottoposte ad emodialisi
Dati
CAMPIONI
n. pazienti
Con trombi
Senza trombi
Trattati
Placebo
18
7
25
Aspirina
6
13
19
TOTALE
24
20
44
Tesi:
Questa differenza è più grande di quella che ci
aspetteremmo se l’aspirina agisse come placebo?
H0:
Non c’è differenza tra aspirina e placebo.
23
Esempio:
prevenzione della trombosi in persone
sottoposte ad emodialisi
Risoluzione:
Stima di p̂ per i due gruppi
p̂asp
6
=
= 0.32
19
p̂plac
Verifico che: naspp̂asp = 6
18
=
= 0.72
25
>5
nasp (1 − p̂asp ) = 13
nplacp̂plac = 18
>5

nplac (1 − p̂plac ) = 7
Posso usare
lo Z-test
La popolazione totale che sviluppò trombi:
p̂ =
nasp p̂asp + nplac p̂plac
nasp + nplac
=
6 + 18
= 0 . 55
19 + 25
24
Esempio:
prevenzione della trombosi in persone
sottoposte ad emodialisi
Test Z:
p̂ asp − p̂ plac
z =
1
−
2
 1
1

+
n plac
 n asp
 1
1
+
p̂ ( 1 − p̂ ) 
n plac
 n asp






Fisso α=5% ⇒ zc=1.96
=
0 . 32 − 0 . 72 − 0 . 05
= 2 . 33
0 . 15
z > zc
rifiuto H0
ovvero la somministrazione di aspirina a pazienti
dializzati diminuisce la probabilità di sviluppare trombi
nella deviazione usata per collegarli al rene artificiale.
25
Tabelle di contingenza
Lo Z-test funziona bene quando si devono analizzare
solo due possibili esiti
approccio alternativo alla VERIFICA DI IPOTESI con
dati NOMINALI:
analisi delle TABELLE di CONTINGENZA
ATTENZIONE:
Non si presuppone alcuna condizione circa la natura o i
parametri della popolazione dalla quale i campioni
vengono estratti (metodi NON PARAMETRICI)
26
Esempio:
prevenzione della trombosi in persone
sottoposte ad emodialisi – TABELLE di CONTINGENZA
Dati sperimentali
La gran parte
(tabella di contingenza 2x2)
CAMPIONI
n. pazienti
Con trombi
Senza trombi
Trattati
Placebo
18
7
25
Aspirina
6
13
19
TOTALE
24
20
44
Dati teorici
qualora l’aspirina non avesse effetto
CAMPIONI
n. pazienti
Con trombi
Senza trombi
Trattati
Placebo
13.64
11.36
25
Aspirina
10.36
8.64
19
TOTALE
24
20
44
Come si
ottiene?
dei pazienti si
24 trova
di 44 pazienti
sulla
≅55%) hanno
(24/44≅
⇒
diagonale
sviluppato
trombi tra
associazione
trombi
e
20 trattamento
di 44 pazienti
≅45%)
non
(20/44≅
hanno
sviluppato
trombi
QUINDI
contiene non ha
se Non
il trattamento
disomogeneità
effetto:
che
indicano
il un’associazione
55% dei 25 pazienti
trattati
con placebo sviluppa
fra trattamento
trombi
e formazione di
trombi
e
il 55% dei 19 pazienti
trattati con aspirina sviluppa
27
trombi
Esempio:
prevenzione della trombosi
sottoposte ad emodialisi. χ2 - test
in
persone
Test:
deve indicare la misura in cui le frequenze osservate
in ogni casella della tabella differiscono da quelle
che ci aspetteremmo se non ci fosse associazione
tra i trattamenti e gli esiti.
(freq osserv-freq attesa)2
(O - E)2
χ = somma di
=∑
freq attesa
E
2
(18 − 13 .64 )2 ( 7 − 11 .36)2 (6 − 10 .36)2 (13 − 8 .64 )2
χ =
+
+
+
= 7.10
13 .64
11 .36
10 .36
8 .64
2
GL di χ2
νn=(r-1)(c-1)=1
n. righe
n. colonne
α=1%
χ2c=6.635
χ2 > χ c2 ⇒ RIFIUTIAMO H0 ovvero l’aspirina è
associata ad un tasso più basso di trombi
28
χ2 - test
OSSERVAZIONE 1.:
L’esperimento ha mostrato che le frequenze
osservate hanno una piccola probabilità di
verificarsi se l’aspirina agisce solo come un placebo
OSSERVAZIONE 2.:
Poiché la distribuzione del test statistico χ2 è
continua, mentre la serie di tutti i possibili valori
che χ 2 può assumere nelle situazioni pratiche non lo
è, si potrebbero ottenere dei risultati “viziati”,
ovvero si potrebbero ottenere risultati che portano
ad affermare l’efficacia di un trattamento quando i
dati non la confermano. Ciò è particolarmente
frequente quando ν=1 ⇒ CORREZIONE per la
continuità DI YATES
29
χ2 – test e correzione di Yates
2
1

O−E − 

2
2
χ =∑
E
Nel caso dell’esempio:
( 18 − 13.64 − 0.5)2 ( 7 − 11.36 − 0.5)2 ( 6 − 10.36 − 0.5)2 ( 13 − 8.64 − 0.5)2
χ =
+
+
+
= 5.57
13.64
11.36
10.36
8.64
2
Questo valore è più piccolo del precedente, NON
corretto.
Fissato α=1% :
χ2c=6.635
χ 2 < χc2 ⇒ ACCETTO H0 ovvero non c’è differenza
tre aspirina e placebo rispetto al problema dei
trombi
30
χ2 – test per esperimenti con più di
due trattamenti o esiti
Le donne che praticano la corsa leggera o agonistica
hanno periodi mestruali meno numerosi di quelle che
non la praticano.
PROBLEMA:
Questo cambiamento fisiologico porta le donne a
consultare il loro medico su problemi mestruali?
H0:
Non c’è relazione tra la pratica della corsa e la
probabilità che una donna consulti il suo medico
per un problema mestruale
31
Esempio
Dati sperimentali: visite mediche
(tabella di contingenza 3x2)
CAMPIONI
Si
No
Trattati
Controllo
14
40
54
Dilettanti
9
14
23
Professioniste
46
42
88
TOTALE
69
96
165
qualora lo sport non avesse effetto
Si
No
Trattati
Controllo
22.58
31.42
54
Dilettanti
9.62
13.38
23
36.80
51.20
88
69
96
165
Professioniste
TOTALE
96 di 165 pazienti
non
(96/165=58%)
consultano il medico
QUINDI
Dati teorici
CAMPIONI
69 di 165 pazienti
(69/165=42%)
consultano medico
se l’attività sportiva non
influenzasse la probabilità di
consultare il medico:
il
42%
di
CONTROLLO
medico
54
donne
consulta
il 42% delle 23 dilettanti
consulta il medico
il
42%
professioniste
medico
delle
88
consulta
il
32
Esempio
Test (non uso la correzione di continuità):
χ =
2
∑
( O − E ) 2 (14 − 22 . 58 ) 2 ( 40 − 31 . 42 ) 2 ( 9 − 9 . 26 ) 2 (14 − 13 . 38 ) 2
=
+
+
+
22 . 58
31 . 42
9 . 26
13 . 38
E
( 46 − 36 . 80 ) 2 ( 42 − 51 . 20 ) 2
+
+
= 9 . 23
36 . 80
51 . 20
νn=(r-1)(c-1)=2
α=1%
χ2c=9.210
χ2 > χc2 ⇒ RIFIUTIAMO H0 ovvero c’è una
relazione tra la pratica della corsa e la probabilità
che una donna consulti il suo medico per un
problema mestruale.
OSSERVAZIONE:
Non sappiamo quale/quali gruppi di donne sono
responsabili di questa differenza
33
Riepilogo χ2 - test
Tabulare dati in tabella di contingenza
Addizionare le frequenze in ogni riga e in ogni
colonna e calcolare le corrispondenti percentuali
Utilizzare queste percentuali per calcolare il
numero di persone attese in ogni casella della
tabella se il trattamento non avesse effetto
Calcolare il χ2 test, applicando la correzione di
Yates qualora la tabella di contingenza è 2x2
Calcolare i gradi di libertà e confrontare il valore
trovato del test con quello tabulato
In tabelle 2x2, le frequenze attese devono essere >5
In tabelle più grandi, le frequenze attese non devono
essere inferiori a 1 e non più del 20% di esse deve essere
34 >5
χ2 – test per confronti multipli
Nell’esempio corsa/medico, l’analisi ha rivelato che
esiste verosimilmente una differenza fra le
probabilità che diversi gruppi di donne consultino il
loro medico per problemi mestruali, ma NON HA
INDIVIDUATO I GRUPPI RESPONSABILI.
Gdil<-> Gprof <-> Gcon
Suddividiamo la tabella di contingenza di partenza,
prendendo solo i dati relativi ai due gruppi da
confrontare
35
χ2 – test per confronti multipli
H0:
Non c’è differenza tra il gruppo delle dilettanti e quello
delle professioniste, consultano il medico con la stessa
assiduità
Dati
CAMPIONI
Gdil
Gprof
Si
No
Trattati
9 (11.40)
14 (11.60)
23
46 (43.60)
42 (44.40)
88
55
56
111
TOTALE
2
χ =
( 9 − 11 .40 − 0 .5 ) 2
+
( 14 − 11 .60 − 0 .5 ) 2
+
11 .40
( 42 − 44 .40 − 0 .5 ) 2
44 .40
11 .60
+
( 46 − 43 .60 − 0 .5 ) 2
43 .60
= 0 .79
χ2 < χ2c
Fissato α=1% : χ2c=6.635
Gdil non è differente da Gprof ⇒ combiniamo i due gruppi e
36
li confrontiamo con Gcont
χ2 – test per confronti multipli
H0:
Non c’è differenza tra il gruppo di controllo e quello
delle sportive
Dati
CAMPIONI
Si
No
Trattati
Gcont
14 (22.58)
40 (31.42)
54
Gsportive
55 (46.42)
56 (64.58)
111
69
96
165
TOTALE
2
χ =
( 14 − 22 .58 − 0 .5 ) 2
+
+
22 .58
( 56 − 64 .58 − 0 .5 ) 2
64 .58
Fissato α=1% :
( 40 − 31 .42 − 0 .5 ) 2
31 .42
+
( 55 − 46 .42 − 0 .5 ) 2
46 .42
= 7 .39
χ2c=6.635
χ2 > χ2c
Gcont è differente da Gsportive
37
χ2 – test per confronti multipli
Conclusione:
Avendo
effettuato
DUE
test,
usiamo
la
disuguaglianza di Bonferroni (1%+1%=2%) e
concludiamo che le donne che praticano la corsa
leggera e quella agonistica non differiscono le une
dalle altre nella frequenza con cui consultano il
medico, ma differiscono dalle donne del gruppo di
controllo con un livello di significatività del 2%
38
Test esatto di Fisher
In studi con campioni piccoli quando la frequenza
attesa è inferiore a 5 si usa
TEST ESATTO DI FISHER
PROCEDURA:
Le frequenze vengono riportate in una tabella di
contingenza 2x2 facendo in modo di collocare la
frequenza più esigua nella prima casella in alto a
sinistra
39
Test esatto di Fisher
Tabella di contingenza 2x2
CAMPIONI
--
--
TOTALE
G1
A
B
A+B
G2
C
D
C+D
A+C
B+D
N
TOTALE
La probabilità del verificarsi di una certa distribuzione
di frequenze, una volta stabiliti i totali marginali, è:
P=
(A + B)!(A + C)!(B + D)!(C + D)!
N!A!B!C !D!
La somma di questa probabilità e delle probabilità di
ottenere combinazioni PIU’ ESTREME dei dati in
esame è il P-value
40
Esempio: vaccinazione contro il morbillo
PROBLEMA:
Si vuole testare l’efficacia della vaccinazione contro il
morbillo su due campioni di bambini
Dati
MORBILLO
VACCINAZIONE
SI
NO
Totale
SI
2
13
15
NO
6
3
9
TOTALE
8
16
24
H0:
La vaccinazione non è discriminante rispetto alla
contrazione del morbillo
41
Esempio: vaccinazione contro il morbillo
Risoluzione:
Calcolo la probabilità del “verificarsi della tabella
precedente”:
15 !9!8!16 !
P=
= 0 .0119
24 !2!13 !6!3!
Poiché l’ipotesi H0 prevede la probabilità di tale
risultato o anche di uno più estremo, bisogna
considerare tutte le possibili distribuzioni delle
frequenze all’interno della tabella, FISSATI I
MARGINALI
COSA SIGNIFICA?
42
Esempio: vaccinazione contro il morbillo
Operativamente:
Ridurre di UNO il numero di osservazioni della
frequenza minore (fino a quando la frequenza diventa 0)
e ricalcolare le altre celle della tabella mantenendo
FISSI I MARGINALI, ovvero mantenendo costanti i
TOTALI di RIGHE e COLONNE.
MORBILLO
VACCINAZIONE
SI
NO
Totale
SI
1
14
15
NO
7
2
9
TOTALE
8
16
24
P=
15 !9!8!16 !
= 0 .000734
24 !1!14 !7 !2!
MORBILLO
VACCINAZIONE
SI
NO
Totale
SI
0
15
15
NO
8
1
9
TOTALE
8
16
24
P=
15 !9!8!16 !
= 0 .00001224
24 !0 !15 !8!1!
43
Esempio: vaccinazione contro il morbillo
Quindi il test esatto di Fisher dà un valore
P=0.01192+0.000734+0.00001224=0.012669
P-value
?α
Fissato α=5% ⇒ 0.012669 > 0.05 ⇒ rifiuto H0
Conclusione:
La vaccinazione comporta una diminuzione di casi di
morbillo nell’infanzia
44
Misure di associazione tra due
variabili nominali
PROBLEMA in studi clinici ed epidemiologici:
1. Valutare la significatività delle differenze
2. Misurare l’associazione tra
evento ↔ diversi trattamenti
Come si procede in studi clinici prospettici:
Es. Studio della formazione di trombi in persone
trattate con aspirina.
Il ricercatore assegna a caso
n soggetti al trattamento
(aspirina)
m soggetti al controllo
(placebo)
I soggetti sono seguiti nel tempo per vedere se
45
sviluppano o meno trombi
Rischio relativo (RR)
OBIETTIVO:
Quantificare l’entità dell’associazione tra
trattamento ↔ risposta
DEF:
prob. che si verifichi l'evento nel GRUPPO TRATTATO
RR =
prob. che si verifichi l'evento nel GRUPPO C ONTROLLO
Dati
CAMPIONI
Sviluppano trombi:
n. pazienti
Con trombi
Senza trombi
Trattati
Placebo
18
7
25
Aspirina
6
13
19
TOTALE
24
20
44
18
= 0 .72 = 72 %
25
6
= 0 .32 = 32 %
19
46
probabilità di accadimento
Rischio relativo (RR)
RR =
0.32
= 0 .44
0 .72
Conclusione:
L’aspirina riduce il rischio di formazione di trombi
OSSERVAZIONE 1.:
In studi clinici, RR<1
il trattamento porta a risposte
migliori
47
Misure di associazione tra due
variabili nominali
Come si procede in studi clinici epidemiologici:
Si confronta la probabilità di accadimento di un evento
per us esposte a “fattore di rischio” con la probabilità
delle us non esposte.
I calcoli sono gli stessi degli studi clinici!
48
Dati e RR
OSSERVAZIONE:
Per applicare RR, i dati devono essere raccolti da
soggetti di
studio epidemiologico, con us seguite nel
periodo successivo all’esposizione al fattore di
rischio
studio prospettico, con randomizzazione di us
al trattamento e al controllo
difficili e costosi
si usano studi
retrospettiva
caso-controllo
con
analisi
49
Studi caso-controllo e odds-ratio (OR)
Gli studi caso-controllo si eseguono dopo che si è
verificato l’evento di interesse
CASI
(soggetti che hanno
subito l’evento di
interesse)
DEF:
OR =
CONTROLLI
(soggetti che non
hanno subito l’evento
di
interesse
e
omogenei ai CASI)
ODDS di esposizion e nei CASI
ODDS di esposizion e nei CONTROLLI
50
Schema per il calcolo di OR
CAMPIONI
numerosità
CASI
Totale
Esposti al fattore di rischio
(o trattatamento)
a
b
a+b
Non esposti al fattore di
rischio (o trattamento)
c
d
c+d
a+c
b+d
TOTALE
DEF:
CONTROLLI
a/(a + c)
a
ODDS nei CASI =
=
c /( a + c ) c
b/(b + d)
b
ODDS nei CONTROLLI =
=
d /( b + d) d
a/ c
ad
OR =
=
b/d
bc
OR ≅ 1
significa che il
trattamento o il
fattore di rischio
NON influenzano
il
tasso
di
accadimento 51
Dati e OR
OSSERVAZIONE 1.:
La numerosità dei CONTROLLI dipende dal modo in cui
il ricercatore pianifica lo studio ⇒ in studio casocontrollo non si può usare RR
OSSERVAZIONE 2.:
OR può essere utilizzato sia in studi caso-controllo sia
negli studi prospettici.
OSSERVAZIONE 3.:
OR ≅ RR ⇔ numero di persone affette dalla malattia è
piccolo se confrontato con il numero dei non affetti
52
Esempio: fumo passivo e cancro alla mammella
PROBLEMA:
Si vuole stabilire se l’esposizione al fumo passivo
aumenta il rischio di contrarre il cancro alla mammella
nel corso della vita dei non fumatori.
Dati da studio caso-controllo
CAMPIONI
numerosità
CASI
CONTROLLI
Totale
Esposti al fattore di rischio
(o trattatamento)
50
43
93
Non esposti al fattore di
rischio (o trattamento)
14
35
49
TOTALE
64
78
142
H0:
Il fumo passivo non influenza il cancro alla mammella
53
Esempio: fumo passivo e cancro alla mammella
RISOLUZIONE:
CAMPIONI
numerosità
Prob.di
CASI
Prob.di
CONTR.
CASI
CONTROLLI
Totale
Espsoti al fattore di rischio
(o trattatamento)
50
43
93
50/64=
0.781
43/78=
0.551
Non esposti al fattore di
rischio (o trattamento)
14
35
49
14/64=
0.218
35/78=
0.449
TOTALE
64
78
142
ODDS nei CASI =
0 . 781
= 3 .58
0 . 218
ODDS nei CONTROLLI
=
0 . 551
= 1 . 23
0 . 449
3 . 58
OR =
= 2 . 91
1 . 23
54
Esempio: fumo passivo e cancro alla mammella
Conclusione:
L’esposizione al fumo passivo aumenta l’odds di
contrarre il cancro alla mammella di 2.91 volte nella
popolazione.
L’analisi del χ2 mostra una differenza significativa per
α=0.7%
55
Conclusioni
L’analisi di tassi e proporzioni necessitano strumenti
statistici diversi da quelli utilizzati per l’analisi di dati
in scale ad intervalli.
Z-test, χ2-test e test esatto di Fisher
forniscono un modo per stimare QUANTO le
percentuali ottenute da campioni limitati sono una stima
dei tassi veri che si osserverebbero qualora fosse
possibile esaminare l’intera popolazione.
56
Tabella t-test
57
Tabella χ2-test
58