Università degli Studi di Padova Facoltà di Medicina e Chirurgia Corso di Statistica Medica per le Scuole di Specializzazione A.A. 2008-9 Modulo 2 Inferenza statistica: verifica di ipotesi Anna Chiara Frigo Aula A sede di Igiene 1° giugno 2010 Come determinare se una associazione è significativa? Significativa è nel contesto della significatività “statistica” ¾ ¾ Valori di p (p-value) Intervallo di fiducia (confidence interval) Verifica della significatività In genere si è interessati a confrontare due gruppi (es. risposta nel gruppo sperimentale e nel gruppo di controllo) Il test statistico dipende dalla distribuzione della variabile e dal disegno di studio Verifica della significatività Scelta del test statistico Disegno dello studio Predittore ↓ ↓ Modello di indagine e Esito Quesito di ricerca ↓ Variabile dipendente Variabile indipendente Scelta del test statistico (1) Fattori che determinano la scelta del test statistico: • il tipo di variabile risposta (categoriale, ordinale, quantitaiva, “time-toevent”), • se i campioni sono appaiati o indipendenti, • la distribuzione della variabile risposta (e quindi dei dati osservati). I test statistici possono essere raggruppati in due categorie: • parametrici (che assumono una particolare distribuzione dei dati, di solito la Normale), • non parametrici. I test parametrici sono usualmente più potenti degli analoghi non parametrici, se sono soddisfatte le assunzioni circa la distribuzione dei dati. Ci sono specifici test statistici che verificano se la distribuzione dei dati può essere ritenuta Normale. I test non parametrici sono utilizzati quando la variabile è ordinale, o la numerosità campionaria è piccola (meno di 30), ci sono “outliere” o la distribuzione è non Normale. Nel dubbio, è preferibile procedere con un test non parametrico che fornisce valori di p più conservativi. Scelta del test statistico (2) Scelta del test statistico quando … Esito dicotomico (sì/no, vivo/morto,…) Variabile indipendente dicotomica (fumo sì vs no) Il fumo è associato con l’esito? Test statistico… Confronto di due proporzioni Chi-quadrato Rischio Relativo … FUMO (sì) FUMO (no) ESITO + ESITO - a b (pF+ ) c (pF- ) d Scelta del test statistico quando … Esito dicotomico (sì/no, vivo/morto,…) ESITO + Quantità di sigarette fumate (pacchetti/anno ) x E+ ESITO - Variabile indipendente quantitativa x E− Il fumo è associato con l’esito? Test statistico… Test t di Student per due campioni indipendenti o test di Wilcoxon Verifica della significatività Soggetti con IM acuto Mortalità con nitrato EV πN ? < Mortalità senza nitrato πC Supponiamo di condurre una sperimentazione clinica per rispondere a questa domanda Anche se il nitrato per via endovenosa non ha effetto sulla mortalità, è molto improbabile che pN = pC Qualsiasi differenza osservata tra i gruppi può essere dovuta al trattamento o ad una coincidenza (il caso) Passi da seguire nella verifica di ipotesi 1. Formulazione delle ipotesi statistiche 2. Scelta delle regola di decisione adeguata (scelta di α) 3. Confronto del valore della statistica campionaria con la distribuzione della statistica campionaria sotto H0 4. Accettazione o rifiuto di un’ipotesi in base al fatto che il valore del test statistico cada, nella distribuzione specificata sotto H0, in una particolare regione di valori (determinata da α) Il valore di p Numero di morti/n. randomizzati Studio RR IC 95% p Nitrato EV Controllo Chiche 3/50 8/45 0,33 (0,09 ; 1,13) 0,08 Bussman 4/31 12/29 0,24 (0,08 ; 0,74) 0,01 Flaherty 11/56 11/48 0,83 (0,33 ; 2,12) 0,70 Jaffe 4/57 2/57 2,04 (0,39 ; 10,71) 0,40 Lis 5/64 10/76 0,56 (0,19 ; 1,65) 0,29 Jugdutt 24/154 44/156 0,48 (0,28 ; 0,82) 0,007 come otteniamo questo valore? Adattato da: Whitley and Ball. Critical Care; 6(3):222-225, 2002 Ipotesi nulla (H0) Non c’è associazione tra variabile indipendente e variabile dipendente ¾ Base formale per la verifica di ipotesi Nell’esempio, H0: “La somministrazione di nitrato per via EV non ha effetto sulla mortalità dei pazienti con IM acuto” ↓ πN – πC = 0 Esempio Sistema di ipotesi H0 : π N = π C o π N – π C = 0 H1 : π N ≠ π C Test statistico: ¾ Test per due proporzioni Nello studio Chiche: ¾ pN = 3/50 = 0,06; pC = 8/45 = 0,178 Forma generale del test statistico valore ipotizzato del valore osservato della parametro sotto H0 statistica campionari a test statistico = errore standard della distribuzione della statistica campionari a Test per il confronto di due proporzioni differenza osservata Z= ( pN − p C ) − ( π N − π C ) ⎛ 1 1⎞ ⎟⎟ p (1 − p) × ⎜⎜ + ⎝ nN nC ⎠ p= X XN + X C X , pN = N , p C = C nN + nC nN nC differenza ipotizzata sotto H0 n. soggetti nel gruppo nitrato n. soggetti nel gruppo di controllo Possibili decisioni nella verifica di ipotesi NELLA POPOLAZIONE È VERA IN BASE AI DATI CAMPIONARI H0 H1 NON SI RESPINGE H0 DECISIONE CORRETTA ERRORE 2° TIPO (PROBABILITÀ 1- α) (PROBABILITÀ β) SI RESPINGE H0 ERRORE 1° TIPO DECISIONE CORRETTA (PROBABILITÀ α LIVELLO DI SIGNIFICATIVITÀ) (PROBABILITÀ 1- β POTENZA DEL TEST) Verifica della significatività al livello 0,05 per un test bilaterale Distribuzione del test sotto H0 Rifiuto H0 -1,96 Rifiuto H0 0 Si respinge H0 se Z < -Zα/2 o Z > Zα/2 +1,96 Esempio (continua) Z= ( 0,06 − 0,178 ) − 0 1 ⎞ ⎛ 1 0,116(1 − 0,116 ) × ⎜ + ⎟ ⎝ 50 45 ⎠ = −1,79 3 8 3+8 pN = = 0,06, pC = = 0,178, p = = 0,116 50 45 50 + 45 Esempio (continua) Test a due code (o bilaterale): H0: π N – πC = 0 H1: π N – πC ≠ 0 Z= ( 0,06 − 0,178 ) − 0 1 ⎞ ⎛ 1 0,116(1 − 0,116 ) × ⎜ + ⎟ ⎝ 50 45 ⎠ Poiché -1,79 > -1,96, non si rifiuta l’ipotesi nulla. Ma qual è il valore di p? P (Z< -1,79) + P (Z>1,79) = ? = −1,79 Distribuzione del test sotto H0 Rifiuto H0 -1,96 Rifiuto H0 0 +1,96 0,04 -1,79 0,04 1,79 P (Z< -1,79) + P (Z>1,79) = 0,08 Esempio (continua) Test ad una coda (o unilaterale): H0: π N – πC ≥ 0 H1: π N – πC < 0 Z= ( 0,06 − 0,178 ) − 0 1 ⎞ ⎛ 1 0,116(1 − 0,116 ) × ⎜ + ⎟ ⎝ 50 45 ⎠ Poiché -1,79 < -1,64, si rifiuta l’ipotesi nulla e p=0,04 < α = −1,79 Distribuzione del test sotto H0 Rifiuto H0 -1,64 0 Cosa rappresenta il valore di p ? “p” significa probabilità ¾ ¾ Probabilità nella/e coda/e basata sull’effetto osservato Calcolata come la probabilità di un effetto come quello osservato o più grande (più estremo nella/e coda/e della distribuzione del test statistico), assumendo che l’ipotesi nulla sia vera Misura la forza dell’evidenza contro l’ipotesi nulla ¾ Valori piccoli di p indicano una evidenza forte contro l’ipotesi nulla Cosa rappresenta il valore di p ? (continua) Fisher ha suggerito che il livello del 5% (p < 0,05) potrebbe essere utilizzato come una soglia scientifica per concludere che esiste una evidenza abbastanza forte contro H0 ¾ ¾ ¾ Non è mai stato inteso come una soglia assoluta La forza dell’evidenza varia nel continuo Il contesto scientifico è critico Per convenzione, valori di p < 0,05 sono spesso accettati come indicativi di “significatività statistica” nella letteratura medica, ma è comunque un valore arbitrario Cosa rappresenta il valore di p ? (continua) p < 0,05 è una soglia arbitraria ¾ Sarebbe sensato adottare una nuova terapia perché il valore di p ottenuto in una sperimentazione controllata e randomizzata è stato pari a 0,049, e allo stesso tempo ignorare il risultato ottenuto con un’altra terapia perché p=0,051? Quindi è importante riportare l’esatto valore di p e non ≤ 0,05 o > 0,05. Il valore di p Numero di morti/n. randomizzati Studio Nitrato EV Controllo Chiche 3/50 8/45 RR IC 95% p 0,33 (0,09 ; 1,13) 0,08 debole evidenza contro H0 Flaherty 11/56 11/48 0,83 (0,33 ; 2,12) 0,70 nessuna evidenza contro H0 … molto probabilmente un risultato dovuto al caso Jugdutt 24/154 44/156 0,48 (0,28 ; 0,82) 0,007 evidenza molto forte contro H0 … molto poco probabile che il risultato sia dovuto al caso Interpretazione del valore di p se l’ipotesi nulla fosse vera … Numero di morti/n. randomizzati Studio Nitrato EV Controllo Chiche 3/50 8/45 RR IC 95% p 0,33 (0,09 ; 1,13) 0,08 … 8 sperimentazioni su 100 avrebbero indicato una riduzione del rischio relativo del 67% o più solo per effetto del caso Flaherty 11/56 11/48 0,83 (0,33 ; 2,12) 0,70 … 70 sperimentazioni su 100 avrebbero mostrato una riduzione del rischio del 17% o più solo per effetto del caso … molto probabilmente un risultato dovuto al caso Jugdutt 24/154 44/156 0,48 (0,28 ; 0,82) molto poco probabile che il risultato sia dovuto al caso 0,007 Interpretazione del valore di p Numero di morti/n. randomizzati Studio RR IC 95% p Nitrato EV Controllo Chiche 3/50 8/45 0,33 (0,09 ; 1,13) 0,08 Bussman 4/31 12/29 0,24 (0,08 ; 0,74) 0,01 Flaherty 11/56 11/48 0,83 (0,33 ; 2,12) 0,70 Jaffe 4/57 2/57 2,04 (0,39 ; 10,71) 0,40 Lis 5/64 10/76 0,56 (0,19 ; 1,65) 0,29 Jugdutt 24/154 44/156 0,48 (0,28 ; 0,82) 0,007 Il valore di p dipende dalla numerosità campionaria Gli studi di Lis e Jugdutt presentano un effetto simile ( ∼ 50% di riduzione) … ma lo studio di Jugdutt ha una numerosità campionaria maggiore Interpretazione del valore di p Numero di morti/n. randomizzati Studio RR IC 95% p Nitrato EV Controllo Chiche 3/50 8/45 0,33 (0,09 ; 1,13) 0,08 Bussman 4/31 12/29 0,24 (0,08 ; 0,74) 0,01 Flaherty 11/56 11/48 0,83 (0,33 ; 2,12) 0,70 Jaffe 4/57 2/57 2,04 (0,39 ; 10,71) 0,40 Lis 5/64 10/76 0,56 (0,19 ; 1,65) 0,29 Jugdutt 24/154 44/156 0,48 (0,28 ; 0,82) 0,007 La dimensione del valore di p dipende dalla dimensione dell’effetto (effect size) dell’associazione osservata o della differenza osservata Gli studi di Chiche e Flaherty hanno circa la stessa numerosità campionaria, ma la differenza osservata è maggiore nello studio Chiche Il valore di p Il valore di p non fornisce indicazioni sull’importanza clinica dell’associazione osservata Uno studio con una grande numerosità campionaria può fornire un valore molto piccolo di p con una piccolo effetto che potrebbe non essere importante quando trasferito nella pratica clinica Quindi è importante guardare alla dimensione dell’effetto a all’intervallo di fiducia … Valore di p e intervallo di fiducia Il valore di p risponde alla domanda … ¾ “C’è una differenza statisticamente significativa tra i due trattamenti?” Un intervallo di fiducia è un insieme di valori che cerca di quantificare questa incertezza La stima puntuale e l’intervallo di fiducia rispondono alla domanda … ¾ “Qual è la dimensione della differenza tra i trattamenti?” e “Qual è la precisione di questo studio nello stimare la differenza tra i trattamenti?” Relazione tra valore di p e IC Se l’IC al 95% include l’effetto nullo, il valore di p per un test bilaterale è > 0,05 (e non rifiutiamo l’ipotesi nulla) Se l’IC al 95% esclude l’effetto nullo, il valore di p per un test bilaterale è < 0,05 (e rifiutiamo l’ipotesi nulla) Interpretazione del l’intervallo di fiducia Numero di morti/n. randomizzati Studio Nitrato EV Controllo Chiche 3/50 8/45 RR IC 95% p 0,33 (0,09;1,13) 0,08 Intervallo ampio: suggerisce una riduzione della mortalità del 91% ed un aumento del 13% Jugdutt 24/154 44/156 0,48 (0,28; 0,82) 0,007 La riduzione di mortalità può essere solo del 18%, ma non vi è evidenza che il nitrato sia nocivo Attenzione ai confronti multipli Nella verifica di ipotesi, fissare α=0,05 significa che il ricercatore è disposto ad accettare la possibilità di un errore di I tipo (rifiutare erroneamente H0) nel 5% dei casi. Se il ricercatore conduce test multipli indipendenti, la probabilità che uno di questi test risulti significativo per caso aumenta. Esempio: se in uno studio venissero condotte 10 verifiche di ipotesi indipendenti, la probabilità di ottenere almeno 1 risultato statisticamente significativo avendo fissato α=0,05 sarebbe pari a 0,4 (=1- 0,9510), se le verifiche fossero 50 sarebbe pari a 0,92 (=1- 0,9550), ecc. Ci sono molti modi per aggiustare il valore di p in modo da tenere conto dei confronti multipli. Correzione di Bonferroni: è il metodo più semplice ed utilizzato. La correzione correzione prevede di dividere il valore di α per il numero di ipotesi indipendenti da testare. Esempio: se si testano 10 ipotesi, il livello di significatività passa da 0,05 a 0,05/10=0,005. La correzione è di tipo conservativo e quindi esistono dei metodi più complicati che si applicano soprattutto quando si devono considerare molti confronti. Punti chiave L’intervallo di fiducia ¾ ¾ ¾ Quantifica la fiducia che abbiamo circa il vero valore del parametro nella popolazione Indica una miglior precisione con ampie numerosità campionarie Corrisponde alla verifica di ipotesi, ma è molto più informativo del valore di p Tenere presente l’importanza clinica quando si interpreta la significatività clinica