Università degli Studi di Padova
Facoltà di Medicina e Chirurgia
Corso di Statistica Medica per le Scuole di Specializzazione
A.A. 2008-9
Modulo 2
Inferenza statistica: verifica di
ipotesi
Anna Chiara Frigo
Aula A sede di Igiene
1° giugno 2010
Come determinare se una
associazione è significativa?
„
Significativa è nel contesto della
significatività “statistica”
¾
¾
Valori di p (p-value)
Intervallo di fiducia (confidence interval)
Verifica della significatività
„
„
In genere si è interessati a confrontare
due gruppi (es. risposta nel gruppo
sperimentale e nel gruppo di controllo)
Il test statistico dipende dalla
distribuzione della variabile e dal
disegno di studio
Verifica della significatività
Scelta del test
statistico
Disegno dello studio
Predittore
↓
↓
Modello di indagine
e
Esito
Quesito di ricerca
↓
Variabile dipendente
Variabile indipendente
Scelta del test statistico (1)
Fattori che determinano la scelta del test statistico:
• il tipo di variabile risposta (categoriale, ordinale, quantitaiva, “time-toevent”),
• se i campioni sono appaiati o indipendenti,
• la distribuzione della variabile risposta (e quindi dei dati osservati).
I test statistici possono essere raggruppati in due categorie:
• parametrici (che assumono una particolare distribuzione dei dati, di
solito la Normale),
• non parametrici.
I test parametrici sono usualmente più potenti degli analoghi non parametrici,
se sono soddisfatte le assunzioni circa la distribuzione dei dati.
Ci sono specifici test statistici che verificano se la distribuzione dei dati può
essere ritenuta Normale.
I test non parametrici sono utilizzati quando la variabile è ordinale, o la
numerosità campionaria è piccola (meno di 30), ci sono “outliere” o la
distribuzione è non Normale.
Nel dubbio, è preferibile procedere con un test non parametrico che fornisce
valori di p più conservativi.
Scelta del test statistico (2)
Scelta del test statistico quando …
Esito dicotomico
(sì/no, vivo/morto,…)
Variabile indipendente
dicotomica
(fumo sì vs no)
Il fumo è associato con
l’esito?
Test statistico…
„
Confronto di due proporzioni
„
Chi-quadrato
„
Rischio Relativo
„
…
FUMO
(sì)
FUMO
(no)
ESITO
+
ESITO
-
a
b
(pF+ )
c
(pF- )
d
Scelta del test statistico quando …
Esito dicotomico
(sì/no, vivo/morto,…)
ESITO
+
Quantità di
sigarette fumate
(pacchetti/anno )
x E+
ESITO
-
Variabile indipendente
quantitativa
x E−
Il fumo è associato con
l’esito?
Test statistico…
„
Test t di Student per due
campioni indipendenti o test di
Wilcoxon
Verifica della significatività
Soggetti con IM acuto
Mortalità
con nitrato
EV
πN
„
„
„
?
<
Mortalità
senza nitrato
πC
Supponiamo di condurre una sperimentazione clinica
per rispondere a questa domanda
Anche se il nitrato per via endovenosa non ha effetto
sulla mortalità, è molto improbabile che pN = pC
Qualsiasi differenza osservata tra i gruppi può essere
dovuta al trattamento o ad una coincidenza (il caso)
Passi da seguire nella verifica di ipotesi
1. Formulazione delle ipotesi statistiche
2. Scelta delle regola di decisione adeguata
(scelta di α)
3. Confronto
del
valore
della
statistica
campionaria con la distribuzione della statistica
campionaria sotto H0
4. Accettazione o rifiuto di un’ipotesi in base al
fatto che il valore del test statistico cada, nella
distribuzione specificata sotto H0, in una
particolare regione di valori (determinata da α)
Il valore di p
Numero di morti/n.
randomizzati
Studio
RR
IC 95%
p
Nitrato EV
Controllo
Chiche
3/50
8/45
0,33
(0,09 ; 1,13)
0,08
Bussman
4/31
12/29
0,24
(0,08 ; 0,74)
0,01
Flaherty
11/56
11/48
0,83
(0,33 ; 2,12)
0,70
Jaffe
4/57
2/57
2,04
(0,39 ; 10,71)
0,40
Lis
5/64
10/76
0,56
(0,19 ; 1,65)
0,29
Jugdutt
24/154
44/156
0,48
(0,28 ; 0,82)
0,007
come otteniamo questo valore?
Adattato da: Whitley and Ball. Critical Care; 6(3):222-225, 2002
Ipotesi nulla (H0)
„
Non c’è associazione tra variabile
indipendente e variabile dipendente
¾
„
Base formale per la verifica di ipotesi
Nell’esempio, H0: “La somministrazione
di nitrato per via EV non ha effetto sulla
mortalità dei pazienti con IM acuto”
↓
πN – πC = 0
Esempio
„
„
Sistema di ipotesi
H0 : π N = π C o π N – π C = 0
H1 : π N ≠ π C
Test statistico:
¾
„
Test per due proporzioni
Nello studio Chiche:
¾
pN = 3/50 = 0,06; pC = 8/45 = 0,178
Forma generale del test statistico
valore ipotizzato del
valore osservato della
parametro sotto H0
statistica campionari a
test statistico =
errore standard della distribuzione
della statistica campionari a
Test per il confronto di due
proporzioni
differenza osservata
Z=
( pN − p C ) − ( π N − π C )
⎛ 1
1⎞
⎟⎟
p (1 − p) × ⎜⎜ +
⎝ nN nC ⎠
p=
X
XN + X C
X
, pN = N , p C = C
nN + nC
nN
nC
differenza ipotizzata sotto H0
n. soggetti nel
gruppo nitrato
n. soggetti nel
gruppo di controllo
Possibili decisioni nella verifica di ipotesi
NELLA POPOLAZIONE È VERA
IN BASE AI
DATI
CAMPIONARI
H0
H1
NON SI
RESPINGE H0
DECISIONE CORRETTA
ERRORE 2° TIPO
(PROBABILITÀ 1- α)
(PROBABILITÀ β)
SI RESPINGE
H0
ERRORE 1° TIPO
DECISIONE CORRETTA
(PROBABILITÀ α
LIVELLO DI
SIGNIFICATIVITÀ)
(PROBABILITÀ 1- β
POTENZA DEL TEST)
Verifica della significatività al
livello 0,05 per un test bilaterale
Distribuzione del test sotto H0
Rifiuto H0
-1,96
Rifiuto H0
0
Si respinge H0 se Z < -Zα/2 o Z > Zα/2
+1,96
Esempio (continua)
Z=
( 0,06 − 0,178 ) − 0
1 ⎞
⎛ 1
0,116(1 − 0,116 ) × ⎜
+
⎟
⎝ 50 45 ⎠
= −1,79
3
8
3+8
pN =
= 0,06, pC =
= 0,178, p =
= 0,116
50
45
50 + 45
Esempio (continua)
Test a due code (o bilaterale):
H0: π N – πC = 0
H1: π N – πC ≠ 0
Z=
( 0,06 − 0,178 ) − 0
1 ⎞
⎛ 1
0,116(1 − 0,116 ) × ⎜
+
⎟
⎝ 50 45 ⎠
Poiché -1,79 > -1,96, non si rifiuta
l’ipotesi nulla.
Ma qual è il valore di p?
P (Z< -1,79) + P (Z>1,79) = ?
= −1,79
Distribuzione del test sotto H0
Rifiuto
H0
-1,96
Rifiuto
H0
0
+1,96
0,04
-1,79
0,04
1,79
P (Z< -1,79) + P (Z>1,79) = 0,08
Esempio (continua)
Test ad una coda (o unilaterale):
H0: π N – πC ≥ 0
H1: π N – πC < 0
Z=
( 0,06 − 0,178 ) − 0
1 ⎞
⎛ 1
0,116(1 − 0,116 ) × ⎜
+
⎟
⎝ 50 45 ⎠
Poiché -1,79 < -1,64, si rifiuta l’ipotesi
nulla e p=0,04 < α
= −1,79
Distribuzione del test sotto H0
Rifiuto
H0
-1,64
0
Cosa rappresenta il valore di p ?
„
“p” significa probabilità
¾
¾
„
Probabilità nella/e coda/e basata sull’effetto
osservato
Calcolata come la probabilità di un effetto come
quello osservato o più grande (più estremo nella/e
coda/e della distribuzione del test statistico),
assumendo che l’ipotesi nulla sia vera
Misura la forza dell’evidenza contro l’ipotesi
nulla
¾
Valori piccoli di p indicano una evidenza forte
contro l’ipotesi nulla
Cosa rappresenta il valore di p ?
(continua)
„
Fisher ha suggerito che il livello del 5% (p < 0,05)
potrebbe essere utilizzato come una soglia
scientifica per concludere che esiste una evidenza
abbastanza forte contro H0
¾
¾
¾
„
Non è mai stato inteso come una soglia assoluta
La forza dell’evidenza varia nel continuo
Il contesto scientifico è critico
Per convenzione, valori di p < 0,05 sono spesso
accettati come indicativi di “significatività statistica”
nella letteratura medica, ma è comunque un valore
arbitrario
Cosa rappresenta il valore di p ?
(continua)
„
p < 0,05 è una soglia arbitraria
¾
„
Sarebbe sensato adottare una nuova terapia
perché il valore di p ottenuto in una
sperimentazione controllata e randomizzata è
stato pari a 0,049, e allo stesso tempo
ignorare il risultato ottenuto con un’altra
terapia perché p=0,051?
Quindi è importante riportare l’esatto
valore di p e non ≤ 0,05 o > 0,05.
Il valore di p
Numero di morti/n.
randomizzati
Studio
Nitrato
EV
Controllo
Chiche
3/50
8/45
RR
IC 95%
p
0,33
(0,09 ; 1,13)
0,08
debole evidenza contro H0
Flaherty
11/56
11/48
0,83
(0,33 ; 2,12)
0,70
nessuna evidenza contro H0 … molto probabilmente un risultato dovuto al caso
Jugdutt
24/154
44/156
0,48
(0,28 ; 0,82)
0,007
evidenza molto forte contro H0 … molto poco probabile che il risultato sia
dovuto al caso
Interpretazione del valore di p se
l’ipotesi nulla fosse vera …
Numero di morti/n.
randomizzati
Studio
Nitrato
EV
Controllo
Chiche
3/50
8/45
RR
IC 95%
p
0,33
(0,09 ; 1,13)
0,08
… 8 sperimentazioni su 100 avrebbero indicato una riduzione del rischio relativo del 67%
o più solo per effetto del caso
Flaherty
11/56
11/48
0,83
(0,33 ; 2,12)
0,70
… 70 sperimentazioni su 100 avrebbero mostrato una riduzione del rischio del 17% o più
solo per effetto del caso … molto probabilmente un risultato dovuto al caso
Jugdutt
24/154
44/156
0,48
(0,28 ; 0,82)
molto poco probabile che il risultato sia dovuto al caso
0,007
Interpretazione del valore di p
Numero di morti/n.
randomizzati
Studio
RR
IC 95%
p
Nitrato EV Controllo
Chiche
3/50
8/45
0,33
(0,09 ; 1,13)
0,08
Bussman
4/31
12/29
0,24
(0,08 ; 0,74)
0,01
Flaherty
11/56
11/48
0,83
(0,33 ; 2,12)
0,70
Jaffe
4/57
2/57
2,04
(0,39 ; 10,71)
0,40
Lis
5/64
10/76
0,56
(0,19 ; 1,65)
0,29
Jugdutt
24/154
44/156
0,48
(0,28 ; 0,82)
0,007
„
„
Il valore di p dipende dalla numerosità campionaria
Gli studi di Lis e Jugdutt presentano un effetto simile ( ∼ 50% di
riduzione) … ma lo studio di Jugdutt ha una numerosità
campionaria maggiore
Interpretazione del valore di p
Numero di morti/n.
randomizzati
Studio
„
„
RR
IC 95%
p
Nitrato EV Controllo
Chiche
3/50
8/45
0,33
(0,09 ; 1,13)
0,08
Bussman
4/31
12/29
0,24
(0,08 ; 0,74)
0,01
Flaherty
11/56
11/48
0,83
(0,33 ; 2,12)
0,70
Jaffe
4/57
2/57
2,04
(0,39 ; 10,71)
0,40
Lis
5/64
10/76
0,56
(0,19 ; 1,65)
0,29
Jugdutt
24/154
44/156
0,48
(0,28 ; 0,82)
0,007
La dimensione del valore di p dipende dalla dimensione dell’effetto
(effect size) dell’associazione osservata o della differenza osservata
Gli studi di Chiche e Flaherty hanno circa la stessa numerosità
campionaria, ma la differenza osservata è maggiore nello studio
Chiche
Il valore di p
„
„
„
Il valore di p non fornisce indicazioni
sull’importanza
clinica
dell’associazione
osservata
Uno studio con una grande numerosità
campionaria può fornire un valore molto
piccolo di p con una piccolo effetto che
potrebbe non essere importante quando
trasferito nella pratica clinica
Quindi è importante guardare alla dimensione
dell’effetto a all’intervallo di fiducia …
Valore di p e intervallo di fiducia
„
Il valore di p risponde alla domanda …
¾
„
“C’è una differenza statisticamente significativa tra
i due trattamenti?” Un intervallo di fiducia è un
insieme di valori che cerca di quantificare questa
incertezza
La stima puntuale e l’intervallo di fiducia
rispondono alla domanda …
¾
“Qual è la dimensione della differenza tra i
trattamenti?” e “Qual è la precisione di questo
studio nello stimare la differenza tra i trattamenti?”
Relazione tra valore di p e IC
„
„
Se l’IC al 95% include l’effetto nullo, il
valore di p per un test bilaterale è > 0,05 (e
non rifiutiamo l’ipotesi nulla)
Se l’IC al 95% esclude l’effetto nullo, il
valore di p per un test bilaterale è < 0,05 (e
rifiutiamo l’ipotesi nulla)
Interpretazione del l’intervallo di
fiducia
Numero di morti/n.
randomizzati
Studio
Nitrato
EV
Controllo
Chiche
3/50
8/45
RR
IC 95%
p
0,33
(0,09;1,13)
0,08
Intervallo ampio: suggerisce una riduzione della mortalità del 91% ed un aumento del
13%
Jugdutt
24/154
44/156
0,48
(0,28; 0,82)
0,007
La riduzione di mortalità può essere solo del 18%, ma non vi è evidenza che il nitrato sia nocivo
Attenzione ai confronti multipli
„
„
„
„
Nella verifica di ipotesi, fissare α=0,05 significa che il ricercatore è disposto
ad accettare la possibilità di un errore di I tipo (rifiutare erroneamente H0) nel
5% dei casi.
Se il ricercatore conduce test multipli indipendenti, la probabilità che uno di
questi test risulti significativo per caso aumenta. Esempio: se in uno studio
venissero condotte 10 verifiche di ipotesi indipendenti, la probabilità di
ottenere almeno 1 risultato statisticamente significativo avendo fissato
α=0,05 sarebbe pari a 0,4 (=1- 0,9510), se le verifiche fossero 50 sarebbe
pari a 0,92 (=1- 0,9550), ecc.
Ci sono molti modi per aggiustare il valore di p in modo da tenere conto dei
confronti multipli.
Correzione di Bonferroni: è il metodo più semplice ed utilizzato. La correzione
correzione prevede di dividere il valore di α per il numero di ipotesi
indipendenti da testare. Esempio: se si testano 10 ipotesi, il livello di
significatività passa da 0,05 a 0,05/10=0,005. La correzione è di tipo
conservativo e quindi esistono dei metodi più complicati che si applicano
soprattutto quando si devono considerare molti confronti.
Punti chiave
„
L’intervallo di fiducia
¾
¾
¾
„
Quantifica la fiducia che abbiamo circa il vero
valore del parametro nella popolazione
Indica una miglior precisione con ampie
numerosità campionarie
Corrisponde alla verifica di ipotesi, ma è molto
più informativo del valore di p
Tenere presente l’importanza clinica
quando si interpreta la significatività clinica