Calcolo della dimensione campionaria di uno studio clinico -un approccio basato sulle simulazioni – Lezione I – 12 Aprile 2016 Vincenzo Bagnardi Dipartimento di Statistica e Metodi Quantitativi Università degli Studi di Milano-Bicocca Introduzione La prima domanda che il biostatistico si sente rivolgere da parte dello sperimentatore (e a volte anche l’ultima) è: “Quanti pazienti devo avere nel mio studio?” 2 Introduzione La risposta a questa domanda è fondamentale perché determina la fattibilità dello studio in termini di tempi e risorse impiegate, e quindi di costi. 3 Introduzione Ancora più importante, nell’ambito delle sperimentazioni cliniche, è l’implicazione etica: - uno studio sovradimensionato potrebbe esporre troppi soggetti a un intervento sperimentale di cui non si conosce ancora bene l’efficacia (quindi anche potenzialmente meno efficace dell’intervento standard) - l’inclusione di pochi pazienti potrebbe non evidenziare in modo netto l’effetto benefico di un nuovo intervento, a discapito dei futuri pazienti 4 Introduzione Le informazioni necessarie al calcolo della dimensione campionaria sono di natura statistica. La difficoltà per il biostatistico è riuscire, insieme allo sperimentatore, a definirle nel modo più corretto e realistico possibile. 5 Esempio Si vuole studiare l’efficacia di una nuova terapia, rispetto alla terapia standard, nel migliorare la prognosi di pazienti con cheratosi attinica. Si decide di condurre uno studio clinico controllato randomizzato di superiorità su pazienti che presentano più di 5 lesioni. 6 Esempio Informazioni necessarie per sapere quanti pazienti reclutare nello studio. 1.Variabile di risposta principale dello studio (outcome) e natura dell’outcome (binario? continuo? conteggio?) 2.Differenza dell’outcome tra nuova terapia e terapia standard che può essere ritenuta clinicamente rilevante 3.Variabilità dell’outcome 4.Metodo statistico da utilizzare per valutare la superiorità del nuovo trattamento 7 Esempio Variabile di risposta principale dello studio (outcome) e natura dell’outcome (binario? continuo? conteggio?) -Scomparsa di tutte le lesioni a 90 giorni dall’inizio del trattamento (risposta binaria: Sì/No) -Diminuzione del diametro delle lesioni a 90 gg dall’inizio del trattamento (risposta continua misurata in mm) -Numero di lesioni risolte a 90 giorni dall’inizio del trattamento (risposta conteggio) 8 Esempio Variabile di risposta principale dello studio (outcome) e natura dell’outcome (binario? continuo? conteggio?) -Scomparsa di tutte le lesioni a 90 giorni dall’inizio del trattamento (risposta binaria: Sì/No) -Diminuzione del diametro delle lesioni a 90 gg dall’inizio del trattamento (risposta continua misurata in mm) -Numero di lesioni risolte a 90 giorni dall’inizio del trattamento (risposta conteggio) 9 Esempio Differenza dell’outcome tra nuova terapia e terapia standard che può essere ritenuta clinicamente rilevante Un paziente trattato con terapia standard ha una probabilità di risposta completa a 90 gg del 60% (p1=0.6). Con la nuova terapia si ritiene di migliorarla all’80% (p2=0.8). 10 Esempio Variabilità dell’outcome (varianza σ2 / deviazione standard σ) Nel caso di risposta binaria (v.c. Bernoulli) la varianza attesa della risposta è determinata dalla risposta stessa* ed è data dalla formula [p × (1-p)]. Per un paziente con trattamento standard è: [0.6 × (1-0.6)] Per un paziente con nuovo trattamento è: [0.8 × (1-0.8)] * per variabili continue (con distribuzione normale) non vale lo stesso. Risposta attesa e varianza della risposta sono indipendenti e vanno specificate. 11 Esempio Metodo statistico da utilizzare per valutare la superiorità del trattamento Confronto tra proporzioni mediante test chi-quadrato o test Z sulla differenza tra proporzioni (i due test sono equivalenti) 12 Per i comuni test statistici sono stati proposte formule per il calcolo della dimensione campionaria ottimale (v. più avanti). Quando l’esperimento da condurre è caratterizzato da un disegno non convenzionale e/o quando non sono disponibili formule adatte al metodo statistico scelto per l’analisi, il calcolo della dimensione campionaria può essere basato su uno studio di simulazione. 13 Verifica di ipotesi La logica su cui si basa il calcolo della dimensione campionaria deriva dalla teoria della verifica di ipotesi, proposta da Neyman e Pearson nel 1933. 14 Verifica di ipotesi Per applicare l’approccio di Neyman e Pearson è necessario specificare: un’ipotesi nulla (H0): solitamente è l’uguaglianza in termini di efficacia tra gli interventi proposti: nell’esempio: Ptrattamento standard - P nuovo trattamento = 0% una precisa ipotesi alternativa (H1): nell’esempio: P nuovo trattamento - Ptrattamento standard = 20% (δ) 15 Verifica di ipotesi Date queste premesse si definisce una differenza sopra la quale, dopo aver condotto lo studio, si rifiuterà l’ipotesi nulla (soglia che, come vedremo, potrà essere molto maggiore o molto minore della differenza ipotizzata). La soglia è una funzione della dimensione campionaria dello studio e degli errori che si è disposti tollerare. Gli errori possono essere di due tipi: -falso positivo (rifiuto l’ipotesi nulla quando in realtà è vera) -falso negativo (accetto l’ipotesi nulla quando in realtà è vera l’ipotesi alternativa) 16 Verifica di ipotesi Solitamente si fissa la percentuale di falsi positivi tollerata (l’errore del primo tipo) al 5%. L’errore del secondo tipo è spesso fissato al 10% o al 20%. 17 Simulazione Come calcolare la soglia oltre la quale rifiutare l’ipotesi nulla nell’esempio prima proposto? Supponiamo di non conoscere la formula per il calcolo della dimensione campionaria nel caso di differenze tra proporzioni e conduciamo quindi una simulazione, provando a fissare la soglia sulla base dei risultati della simulazione. 18 19 Introduzione “Learning to simulate data with given characteristics means that one understands those characteristics. Applying statistical methods to simulated data . . . helps us better to understand those methods and the principles underlying them.” Gentle, J. E. (2009), Computational Statistics, New York: Springer-Verlag. 20 Template per simulare dati univariati 21 Template per simulare dati univariati 22 Template per simulare dati univariati 23 Template per simulare dati univariati seed>0 : viene generata SEMPRE LA STESSA SEQUENZA di numeri pseudocasuali seed=0 : OGNI VOLTA viene generata una SEQUENZA DIFFERENTE di numeri pseudo-casuali – seme stabilito sulla base dell’orologio interno della macchina (opzione di default) 24 Template per simulare dati univariati 25 Distribuzione normale standard Se genero un campione sufficientemente grande da una distribuzione casuale mi aspetto che, per esempio, media e varianza del campione siano prossimi a media e varianza della distribuzione teorica da cui sto campionando Come verifico che i dati generati seguono veramente una distribuzione Normale standard? 26 Distribuzione normale standard proc univariate data=sample; var x; histogram x /normal; run; 27 Distribuzione normale standard proc univariate data=sample; var x; histogram x /normal (mu=0, sigma=1); run; 28 Distribuzione normale standard Aumentando a 10000 l’ampiezza campionaria 29 Distribuzione di Bernoulli 30 Distribuzione di Bernoulli proc freq data=sample; tables x; run; proc sgplot data=sample; vbar x; run; 31 Simulazione Riprendiamo l’esempio precedente. Supponiamo di non conoscere la formula per il calcolo della dimensione campionaria nel caso di differenze tra proporzioni e conduciamo quindi una simulazione, provando a fissare la soglia sulla base dei risultati della simulazione. 32 Simulazione con N (numerosità per gruppo) =10 È vera H0 (i due trattamenti hanno la stessa efficacia: 60% di risposte complete). Simuliamo 1 studio a partire da questa ipotesi. 33 Simulazione con N (numerosità per gruppo) =10 PROC FORMAT; VALUE TRT 0="Standard" 1="Nuovo"; VALUE STATO 0="Assenza di risposta" 1="Risposta completa"; RUN; 34 Simulazione con N (numerosità per gruppo) =10 DATA SAMPLE; CALL STREAMINIT(56789); P0=0.6; P1=0.6; DO TRT=0 TO 1; DO PATIENT=1 TO 10; IF TRT=0 THEN STATO=RAND("Bernoulli",P0); IF TRT=1 THEN STATO=RAND("Bernoulli",P1); OUTPUT; FORMAT STATO STATO. TRT TRT.; END; END; RUN; 35 Simulazione con N (numerosità per gruppo) =10 PROC FREQ DATA=SAMPLE; TABLES TRT*STATO / NOCOL NOPCT; RUN; 36 Simulazione con N (numerosità per gruppo) =10 Questo è il risultato dello studio simulato: Differenza osservata: 70%-40%=30% (in realtà sappiamo che i due trattamenti hanno lo stesso effetto. La differenza è dovuta al caso) 37 Simulazione con N (numerosità per gruppo) =10 Simuliamo ora 500 studi a partire da questa ipotesi. 38 Simulazione con N (numerosità per gruppo) =10 DATA SAMPLE; CALL STREAMINIT(56789); P0=0.6; P1=0.6; DO IDSAMPLE=1 TO 500; DO TRT=0 TO 1; DO PATIENT=1 TO 10; IF TRT=0 THEN STATO=RAND("Bernoulli",P0); IF TRT=1 THEN STATO=RAND("Bernoulli",P1); OUTPUT; FORMAT STATO STATO. TRT TRT.; END; END; END; RUN; 39 Simulazione con N (numerosità per gruppo) =10 PROC FREQ DATA=SAMPLE; TABLES TRT*STATO / NOCOL NOPCT RISKDIFF; BY IDSAMPLE; ODS OUTPUT RISKDIFFCOL1=DIFFERENZE_RISCHI(WHERE=(ROW="Difference")); RUN; PROC SGPLOT DATA=DIFFERENZE_RISCHI; HISTOGRAM RISK; RUN; 40 Simulazione con N (numerosità per gruppo) =10 Distribuzione delle differenze osservate tra le proporzioni nei 500 studi simulati H0 vera 41 Simulazione con N (numerosità per gruppo) =10 Quali soglie ci garantiscono di rifiutare H0 con un errore tollerato di dare un risultato falso positivo pari al 5%? PROC UNIVARIATE DATA=DIFFERENZE_RISCHI; VAR RISK; OUTPUT OUT=SOGLIE PCTLPRE=P PCTLPTS=2.5,97.5; RUN; 42 Simulazione con N (numerosità per gruppo) =10 La regola che ci garantisce il 5% di falsi positivi è che, per rifiutare H0, si osservi una differenza tra i due trattamenti superiore al 40% (soglia per il rifiuto di H0) H0 vera 43 Simulazione con N (numerosità per gruppo) =10 Ma cosa succede quando H1 è vera (cioè quando il nuovo trattamento è in realtà più efficace dello standard e migliora del 20% la probabilità di risposte complete)? 44 Simulazione con N (numerosità per gruppo) =10 Questo è il risultato di uno studio simulato: Differenza osservata: 80%-50=30% (in realtà sappiamo che il nuovo trattamento migliora del 20% la probabilità di risposta completa. Il 10% in più è dovuto al caso) 45 Simulazione con N (numerosità per gruppo) =10 Quante volte la soglia di rifiuto (+40%) viene superata quando è vera H1? DATA POWER; SET DIFFERENZE_RISCHI; IF RISK>0.4 THEN REJECTH0=1; ELSE REJECTH0=0; RUN; PROC FREQ DATA=POWER; TABLES REJECTH0; RUN; 46 Simulazione con N (numerosità per gruppo) =10 Simulando sotto questa ipotesi 500 studi, e tenendo fissa la soglia sopra definita, notiamo che solo in 50 studi (≈10%) questa viene superata. Lo studio ha quindi una bassa potenza, ovvero l’errore del secondo tipo è alto. 50/500 Potenza 10% Errore del 2° tipo (Falsi Negativi): (100-10)=90% 47 Simulazione con N (numerosità per gruppo) =10 Nota: la soglia del rifiuto (40%) è il doppio del valore dell’effetto reale del trattamento (+ 20% di risposte complete). Risultano ‘positivi’ studi in cui, casualmente, il trattamento ha un effetto molto più grande di quello reale. 50/500 48 Simulazione con N (numerosità per gruppo) =10 La ‘maledizione’ del vincitore When an underpowered study discovers a true effect, it is likely that the estimate of the magnitude of that effect provided by that study will be exaggerated. This effect inflation is often referred to as the ‘winner’s curse’ and is likely to occur whenever claims of discovery are based on thresholds of statistical significance (for example, p < 0.05) or other selection filters (for example, a Bayes factor better than a given value or a falsediscovery rate below a given value). Effect inflation is worst for small, low-powered studies, which can only detect effects that happen to be large. If, for example, the true effect is medium-sized, only those small studies that, by chance, overestimate the magnitude of the effect will pass the threshold for discovery. Fonte: Button KS, Ioannidis JP et al.; Nature Reviews | Neuroscience, May 2013 50 La ‘maledizione’ del vincitore Suppose that an association truly exists with an effect size that is equivalent to an odds ratio of 1.20, and we are trying to discover it by performing a small (that is, underpowered) study. Suppose also that our study only has the power to detect an odds ratio of 1.20 on average 20% of the time. The results of any study are subject to sampling variation and random error in the measurements of the variables and outcomes of interest. Therefore, on average, our small study will find an odds ratio of 1.20 but, because of random errors, our study may in fact find an odds ratio smaller than 1.20 (for example, 1.10) or an odds ratio larger than 1.20 (for example, 1.60). Odds ratios of 1.10 or 1.20 will not reach statistical significance because of the small sample size Fonte: Button KS, Ioannidis JP et al.; Nature Reviews | Neuroscience, May 2013 51 La ‘maledizione’ del vincitore We can only claim the association as nominally significant in the third case, where random error creates an odds ratio of 1.60. The winner’s curse means, therefore, that the ‘lucky’ scientist who makes the discovery in a small study is cursed by finding an inflated effect. Fonte: Button KS, Ioannidis JP et al.; Nature Reviews | Neuroscience, May 2013 52 La ‘maledizione’ del vincitore Fonte: Replication validity of genetic association studies. Ioannidis JP et al.; Nature Genetics, 29. 2001 53 Simulazione con N (numerosità per gruppo) = 50 Alziamo N da 10 a 50, e simuliamo, come in precedenza, la situazione in cui H0 è vera. La soglia per il rifiuto si è abbassata (ora la differenza tra trattamenti osservata deve essere superiore al 20%). H0 vera 54 Simulazione con N (numerosità per gruppo) = 50 La potenza rimane però ancora troppo bassa (46%). Condurrei uno studio che ha circa una possibilità su due di fallire. 230/500 55 Simulazione con N (numerosità per gruppo) = 100 Con N=100 la soglia diminuisce ulteriormente (ora è pari a 13%) e di conseguenza la potenza aumenta (≈ 85%) 428/500 56 Soglie di rifiuto dell’ipotesi nulla Non è necessario stabilire empiricamente le soglie per il rifiuto dell’ipotesi nulla (le righe verticali rosse nelle precedenti simulazioni) in questa situazione. Sappiamo che la differenza tra proporzioni si distribuisce come una normale, possiamo quindi valutare se in ogni simulazione il test statistico Z sull’uguaglianza tra due proporzioni porta o no al rifiuto di H0 , dato un errore tollerato di primo tipo pari a α *. La frequenza di volte in cui si rifiuta H0 sotto l’ipotesi alternativa H1 nel totale delle n simulazioni ci darà un’idea della potenza dello studio. * Il test Z per l’uguaglianza tra due proporzioni è esattamente la stessa cosa del test chiquadrato di Pearson che valuta l’associazione in una tabella 2x2 (implementato in SAS) 57 http://www.zoology.ubc.ca/~whitlock/kingfisher/ContingencyAnalysis.htm 58 Using simulation to estimate the power of a statistical test http://blogs.sas.com/content/iml/2013/05/30/simulation-power.html http://blogs.sas.com/content/iml/2013/06/05/simulation-power-curve.html v. anche pag 87 Wicklin (Simulating Data with SAS) 59 Esercizio in aula Impostare il problema del confronto tra proporzioni con uno studio di simulazione, utilizzando la logica proposta da Wicklin. [utilizzare il test chi-quadrato di Pearson che valuta l’associazione in una tabella 2x2, test implementato nella PROC FREQ di SAS] 60 Curva di potenza Relazione tra N (numerosità per gruppo) e potenza dello studio, dati H0=0%, H1(δ)=20%, errore di I tipo (α) tollerato Potenza del 5%, test: chi-quadrato. N 61 Curva di della minima differenza individuabile Relazione tra N (numerosità per gruppo) e δ, dati H0=0%, errore di I tipo (α) tollerato del 5%, potenza del 90%, test: chi-quadrato 0.25 δ 0.20 0.15 0.10 0.05 0 N 62 Formalizzazione del calcolo della dimensione campionaria Errore di tipo I (α): probabilità di rifiutare l’ipotesi nulla quando vera Errore di tipo II (β): probabilità di non rifiutare l’ipotesi nulla quando falsa Potenza= 1-β: probabilità di rifiutare l’ipotesi nulla quando falsa σ20 e σ21: varianza della misura dell’effetto sotto l’ipotesi nulla e alternativa (possono essere uguali) μ0 e μ1: valore atteso della misura dell’effetto sotto l’ipotesi nulla e l’ipotesi alternativa n0 e n1: dimensione del campione nei due gruppi (possono essere uguali) 63 Formalizzazione del calcolo della dimensione campionaria Differenza che si vorrebbe evidenziare Standard error. di G.van Belle. Statistical Rules of Thumb (n1=n2=n) 64 Formalizzazione del calcolo della dimensione campionaria Nel caso del confronto tra due gruppi (con n1=n2 e σ20= σ21) si ha che: Risolvendo per n, si ottiene: con α=0.05 z1-α/2=1.96 β=0.20 z1-β=0.84 2*(1.96+0.84)2=15.68 Δ (effect size) 65 Fonte: Biostatistics: A Methodology for the Health Sciences (Wiley) Gerald van Belle, Lloyd Fisher, Patrick J. Heagerty, Thomas Lumley 66 Esercizio Si vuole condurre uno studio randomizzato in pazienti con angina, con durata del follow-up pari a 5 anni. I pazienti vengono randomizzati a un trattamento medico o a un trattamento chirurgico. Si ipotizza che la mortalità a 5 anni con il trattamento medico sia del 10% e si spera che la mortalità con il trattamento chirurgico la riduca della metà (5%). Si decide di utilzzare il test binomiale con approssimazione normale per il confronto tra due proporzioni, con livello di significatività del 5% . Si vuole avere una probabilità del 90% di rifiutare l’ipotesi nulla nel caso il trattamento abbia l’effetto auspicato. Qual è la numerosità richiesta per i due gruppi (stessa dimensione per gruppo)? Per il calcolo della numerosità campionaria, usare il nomogramma presentato nella slide successiva Fonte: Biostatistics: A Methodology for the Health Sciences (Wiley) Gerald van Belle, Lloyd Fisher, Patrick J. Heagerty, Thomas Lumley 67 Nomogramma per il calcolo della dimensione campionaria (confronto tra proporzioni) Fonte: Biostatistics: A Methodology for the Health Sciences (Wiley) Gerald van Belle, Lloyd Fisher, Patrick J. Heagerty, Thomas Lumley 68 Esercizio Si vuole condurre uno studio randomizzato in pazienti con angina, con durata del follow-up pari a 5 anni. I pazienti vengono randomizzati a un trattamento medico o a un trattamento chirurgico. Si ipotizza che la mortalità a 5 anni con il trattamento medico sia del 10% e si spera che la mortalità con il trattamento chirurgico la riduca della metà (5%). Si decide di utilzzare il test binomiale con approssimazione normale per il confronto tra due proporzioni, con livello di significatività del 5% . Si vuole avere una probabilità del 90% di rifiutare l’ipotesi nulla nel caso il trattamento abbia l’effetto auspicato. Qual è la numerosità richiesta per i due gruppi (stessa dimensione per gruppo)? Fonte: Biostatistics: A Methodology for the Health Sciences (Wiley) Gerald van Belle, Lloyd Fisher, Patrick J. Heagerty, Thomas Lumley 69 Esercizio Fonte: Biostatistics: A Methodology for the Health Sciences (Wiley) Gerald van Belle, Lloyd Fisher, Patrick J. Heagerty, Thomas Lumley 70 Esercizio 500+ pz per gruppo Fonte: Biostatistics: A Methodology for the Health Sciences (Wiley) Gerald van Belle, Lloyd Fisher, Patrick J. Heagerty, Thomas Lumley 71 Nomogramma di Altman 72 Nomogramma di Altman 0.05/(sqrt(0.075*0.925))=0.19 73 Nomogramma di Altman 74 Software commerciali: PASS 75 Software commerciali: PASS 76 Software commerciali: PROC POWER SAS proc power; twosamplefreq test=pchi groupproportions = (.10 .05) nullproportiondiff = 0 power = 0.9 npergroup = . alpha=0.05; run; 77 Software commerciali: PROC POWER SAS 78 Funzione power.prop.test in R power.prop.test(n = , power=0.9,p1 = .05, p2 =.10, sig.level=0.05) Two-sample comparison of proportions power calculation n = 581.0821 p1 = 0.05 p2 = 0.1 sig.level = 0.05 power = 0.9 alternative = two.sided NOTE: n is number in *each* group 79 http://www.stat.ubc.ca/~rollin/stats/ssize 80 Esercizio Si voglia pianificare un trial clinico per valutare l’efficacia di un farmaco (rispetto ad un placebo) nell’aumentare il livello del colesterolo HDL in soggetti che presentano valori bassi. Ci si attende che il placebo non porti in media alcun aumento, e si considera interessante da un punto di vista clinico un aumento medio dovuto al nuovo farmaco pari a 3 mg/dl. Sulla base di studi precedenti, si stima una deviazione standard della differenza tra due misurazioni del colesterolo pari a 4 mg/dl. Si è disposti a tollerare un errore del primo tipo pari al 5%, e un errore del secondo tipo pari al 20%. Sulla base di queste informazioni, quanti soggetti è necessario reclutare in ognuno dei due gruppi? 81 Esercizio m0 = 0 m1 = 3 s =4 a = 0.05 b = 0.20 82 http://www.stat.ubc.ca/~rollin/stats/ssize 83 Power by Simulation 84