Simulazione con N (numerosità per gruppo) =10

Calcolo della dimensione campionaria di uno studio
clinico
-un approccio basato sulle simulazioni –
Lezione I – 12 Aprile 2016
Vincenzo Bagnardi
Dipartimento di Statistica e Metodi Quantitativi
Università degli Studi di Milano-Bicocca
Introduzione
La prima domanda che il biostatistico si sente rivolgere da
parte dello sperimentatore (e a volte anche l’ultima) è:
“Quanti pazienti devo avere nel mio studio?”
2
Introduzione
La risposta a questa domanda è fondamentale perché
determina la fattibilità dello studio in termini di tempi e
risorse impiegate, e quindi di costi.
3
Introduzione
Ancora più importante, nell’ambito delle sperimentazioni
cliniche, è l’implicazione etica:
- uno studio sovradimensionato potrebbe esporre troppi
soggetti a un intervento sperimentale di cui non si conosce
ancora bene l’efficacia (quindi anche potenzialmente meno
efficace dell’intervento standard)
- l’inclusione di pochi pazienti potrebbe non evidenziare in
modo netto l’effetto benefico di un nuovo intervento, a
discapito dei futuri pazienti
4
Introduzione
Le informazioni necessarie al calcolo della dimensione
campionaria sono di natura statistica.
La difficoltà per il biostatistico è riuscire, insieme allo
sperimentatore, a definirle nel modo più corretto e realistico
possibile.
5
Esempio
Si vuole studiare l’efficacia di una nuova terapia, rispetto alla
terapia standard, nel migliorare la prognosi di pazienti con
cheratosi attinica.
Si decide di condurre uno studio clinico controllato
randomizzato di superiorità su pazienti che presentano
più di 5 lesioni.
6
Esempio
Informazioni necessarie per sapere quanti pazienti reclutare
nello studio.
1.Variabile di risposta principale dello studio (outcome) e
natura dell’outcome (binario? continuo? conteggio?)
2.Differenza dell’outcome tra nuova terapia e terapia
standard che può essere ritenuta clinicamente rilevante
3.Variabilità dell’outcome
4.Metodo statistico da utilizzare per valutare la superiorità
del nuovo trattamento
7
Esempio
Variabile di risposta principale dello studio (outcome) e
natura dell’outcome (binario? continuo? conteggio?)
-Scomparsa di tutte le lesioni a 90 giorni dall’inizio del
trattamento (risposta binaria: Sì/No)
-Diminuzione del diametro delle lesioni a 90 gg dall’inizio del
trattamento (risposta continua misurata in mm)
-Numero di lesioni risolte a 90 giorni dall’inizio del
trattamento (risposta conteggio)
8
Esempio
Variabile di risposta principale dello studio (outcome) e
natura dell’outcome (binario? continuo? conteggio?)
-Scomparsa di tutte le lesioni a 90 giorni dall’inizio del
trattamento (risposta binaria: Sì/No)
-Diminuzione del diametro delle lesioni a 90 gg dall’inizio del
trattamento (risposta continua misurata in mm)
-Numero di lesioni risolte a 90 giorni dall’inizio del
trattamento (risposta conteggio)
9
Esempio
Differenza dell’outcome tra nuova terapia e terapia standard
che può essere ritenuta clinicamente rilevante
Un paziente trattato con terapia standard ha una
probabilità di risposta completa a 90 gg del 60% (p1=0.6).
Con la nuova terapia si ritiene di migliorarla all’80%
(p2=0.8).
10
Esempio
Variabilità dell’outcome (varianza σ2 / deviazione standard σ)
Nel caso di risposta binaria (v.c. Bernoulli) la varianza attesa
della risposta è determinata dalla risposta stessa* ed è data
dalla formula [p × (1-p)].
Per un paziente con trattamento standard è: [0.6 × (1-0.6)]
Per un paziente con nuovo trattamento è: [0.8 × (1-0.8)]
* per variabili continue (con distribuzione normale) non vale lo stesso. Risposta
attesa e varianza della risposta sono indipendenti e vanno specificate.
11
Esempio
Metodo statistico da utilizzare per valutare la superiorità del
trattamento
Confronto tra proporzioni mediante test chi-quadrato o test
Z sulla differenza tra proporzioni (i due test sono
equivalenti)
12
Per i comuni test statistici sono stati proposte formule per il
calcolo della dimensione campionaria ottimale (v. più
avanti).
Quando l’esperimento da condurre è caratterizzato da un
disegno non convenzionale e/o quando non sono disponibili
formule adatte al metodo statistico scelto per l’analisi, il
calcolo della dimensione campionaria può essere basato su
uno studio di simulazione.
13
Verifica di ipotesi
La logica su cui si basa il calcolo della dimensione
campionaria deriva dalla teoria della verifica di ipotesi,
proposta da Neyman e Pearson nel 1933.
14
Verifica di ipotesi
Per
applicare
l’approccio
di
Neyman
e
Pearson
è
necessario specificare:
un’ipotesi nulla (H0): solitamente è l’uguaglianza in termini di
efficacia tra gli interventi proposti:
nell’esempio: Ptrattamento standard - P nuovo trattamento = 0%
una precisa ipotesi alternativa (H1):
nell’esempio: P nuovo trattamento - Ptrattamento standard = 20% (δ)
15
Verifica di ipotesi
Date queste premesse si definisce una differenza sopra la
quale, dopo aver condotto lo studio, si rifiuterà l’ipotesi nulla
(soglia che, come vedremo, potrà essere molto maggiore o
molto minore della differenza ipotizzata).
La soglia è una funzione della dimensione campionaria dello
studio e degli errori che si è disposti tollerare.
Gli errori possono essere di due tipi:
-falso positivo (rifiuto l’ipotesi nulla quando in realtà è vera)
-falso negativo (accetto l’ipotesi nulla quando in realtà è
vera l’ipotesi alternativa)
16
Verifica di ipotesi
Solitamente si fissa la percentuale di falsi positivi tollerata
(l’errore del primo tipo) al 5%.
L’errore del secondo tipo è spesso fissato al 10% o al 20%.
17
Simulazione
Come calcolare la soglia oltre la quale rifiutare l’ipotesi nulla
nell’esempio prima proposto?
Supponiamo di non conoscere la formula per il calcolo della
dimensione
campionaria
nel
caso
di
differenze
tra
proporzioni e conduciamo quindi una simulazione, provando
a fissare la soglia sulla base dei risultati della simulazione.
18
19
Introduzione
“Learning to simulate data with given characteristics
means that one understands those characteristics.
Applying statistical methods to simulated data . . . helps
us better to understand those methods and the
principles underlying them.”
Gentle, J. E. (2009), Computational Statistics, New York: Springer-Verlag.
20
Template per simulare dati univariati
21
Template per simulare dati univariati
22
Template per simulare dati univariati
23
Template per simulare dati univariati
 seed>0 : viene generata SEMPRE LA STESSA SEQUENZA di numeri pseudocasuali
 seed=0 : OGNI VOLTA viene generata una SEQUENZA DIFFERENTE di
numeri pseudo-casuali – seme stabilito sulla base dell’orologio interno della
macchina (opzione di default)
24
Template per simulare dati univariati
25
Distribuzione normale standard
Se genero un campione sufficientemente grande da una distribuzione casuale mi
aspetto che, per esempio, media e varianza del campione siano prossimi a media e
varianza della distribuzione teorica da cui sto campionando
Come verifico che i dati generati seguono veramente una distribuzione Normale
standard?
26
Distribuzione normale standard
proc univariate data=sample;
var x;
histogram x /normal;
run;
27
Distribuzione normale standard
proc univariate data=sample;
var x;
histogram x /normal (mu=0, sigma=1);
run;
28
Distribuzione normale standard
Aumentando a 10000 l’ampiezza campionaria
29
Distribuzione di Bernoulli
30
Distribuzione di Bernoulli
proc freq data=sample;
tables x;
run;
proc sgplot data=sample;
vbar x;
run;
31
Simulazione
Riprendiamo l’esempio precedente.
Supponiamo di non conoscere la formula per il calcolo della
dimensione
campionaria
nel
caso
di
differenze
tra
proporzioni e conduciamo quindi una simulazione, provando
a fissare la soglia sulla base dei risultati della simulazione.
32
Simulazione con N (numerosità per gruppo) =10
È vera H0 (i due trattamenti hanno la stessa efficacia: 60%
di risposte complete).
Simuliamo 1 studio a partire da questa ipotesi.
33
Simulazione con N (numerosità per gruppo) =10
PROC FORMAT;
VALUE TRT 0="Standard" 1="Nuovo";
VALUE STATO 0="Assenza di risposta" 1="Risposta completa";
RUN;
34
Simulazione con N (numerosità per gruppo) =10
DATA SAMPLE;
CALL STREAMINIT(56789);
P0=0.6;
P1=0.6;
DO TRT=0 TO 1;
DO PATIENT=1 TO 10;
IF TRT=0 THEN STATO=RAND("Bernoulli",P0);
IF TRT=1 THEN STATO=RAND("Bernoulli",P1);
OUTPUT;
FORMAT STATO STATO. TRT TRT.;
END;
END;
RUN;
35
Simulazione con N (numerosità per gruppo) =10
PROC FREQ DATA=SAMPLE;
TABLES TRT*STATO / NOCOL NOPCT;
RUN;
36
Simulazione con N (numerosità per gruppo) =10
Questo è il risultato dello studio simulato:
Differenza osservata:
70%-40%=30%
(in realtà sappiamo che i due
trattamenti hanno lo stesso effetto.
La differenza è dovuta al caso)
37
Simulazione con N (numerosità per gruppo) =10
Simuliamo ora 500 studi a partire da questa ipotesi.
38
Simulazione con N (numerosità per gruppo) =10
DATA SAMPLE;
CALL STREAMINIT(56789);
P0=0.6;
P1=0.6;
DO IDSAMPLE=1 TO 500;
DO TRT=0 TO 1;
DO PATIENT=1 TO 10;
IF TRT=0 THEN STATO=RAND("Bernoulli",P0);
IF TRT=1 THEN STATO=RAND("Bernoulli",P1);
OUTPUT;
FORMAT STATO STATO. TRT TRT.;
END;
END;
END;
RUN;
39
Simulazione con N (numerosità per gruppo) =10
PROC FREQ DATA=SAMPLE;
TABLES TRT*STATO / NOCOL NOPCT RISKDIFF;
BY IDSAMPLE;
ODS OUTPUT
RISKDIFFCOL1=DIFFERENZE_RISCHI(WHERE=(ROW="Difference"));
RUN;
PROC SGPLOT DATA=DIFFERENZE_RISCHI;
HISTOGRAM RISK;
RUN;
40
Simulazione con N (numerosità per gruppo) =10
Distribuzione delle differenze osservate tra le proporzioni nei 500 studi simulati
H0 vera
41
Simulazione con N (numerosità per gruppo) =10
Quali soglie ci garantiscono di rifiutare H0 con un errore
tollerato di dare un risultato falso positivo pari al 5%?
PROC UNIVARIATE DATA=DIFFERENZE_RISCHI;
VAR RISK;
OUTPUT OUT=SOGLIE PCTLPRE=P PCTLPTS=2.5,97.5;
RUN;
42
Simulazione con N (numerosità per gruppo) =10
La regola che ci garantisce il 5% di falsi positivi è che, per
rifiutare H0, si osservi una differenza tra i due trattamenti
superiore al 40% (soglia per il rifiuto di H0)
H0 vera
43
Simulazione con N (numerosità per gruppo) =10
Ma cosa succede quando H1 è vera (cioè quando il nuovo
trattamento è in realtà più efficace dello standard e migliora
del 20% la probabilità di risposte complete)?
44
Simulazione con N (numerosità per gruppo) =10
Questo è il risultato di uno studio simulato:
Differenza osservata:
80%-50=30%
(in realtà sappiamo che il nuovo trattamento
migliora del 20% la probabilità di risposta
completa. Il 10% in più è dovuto al caso)
45
Simulazione con N (numerosità per gruppo) =10
Quante volte la soglia di rifiuto (+40%) viene superata
quando è vera H1?
DATA POWER;
SET DIFFERENZE_RISCHI;
IF RISK>0.4 THEN REJECTH0=1;
ELSE REJECTH0=0;
RUN;
PROC FREQ DATA=POWER;
TABLES REJECTH0;
RUN;
46
Simulazione con N (numerosità per gruppo) =10
Simulando sotto questa ipotesi 500 studi, e tenendo fissa la soglia
sopra definita, notiamo che solo in 50 studi (≈10%) questa viene
superata. Lo studio ha quindi una bassa potenza, ovvero l’errore del
secondo tipo è alto.
50/500
Potenza 10%
Errore del 2° tipo (Falsi Negativi):
(100-10)=90%
47
Simulazione con N (numerosità per gruppo) =10
Nota: la soglia del rifiuto (40%) è il doppio del valore dell’effetto
reale del trattamento (+ 20% di risposte complete). Risultano
‘positivi’ studi in cui, casualmente, il trattamento ha un effetto
molto più grande di quello reale.
50/500
48
Simulazione con N (numerosità per gruppo) =10
La ‘maledizione’ del vincitore
When an underpowered study discovers a true effect, it is likely that
the estimate of the magnitude of that effect provided by that study will
be exaggerated.
This effect inflation is often referred to as the ‘winner’s curse’ and is
likely to occur whenever claims of discovery are based on thresholds
of statistical significance (for example, p < 0.05) or other selection
filters (for example, a Bayes factor better than a given value or a falsediscovery rate below a given value).
Effect inflation is worst for small, low-powered studies, which can only
detect effects that happen to be large. If, for example, the true effect is
medium-sized, only those small studies that, by chance, overestimate
the magnitude of the effect will pass the threshold for discovery.
Fonte: Button KS, Ioannidis JP et al.; Nature Reviews | Neuroscience, May 2013
50
La ‘maledizione’ del vincitore
Suppose that an association truly exists with an effect size that is
equivalent to an odds ratio of 1.20, and we are trying to discover it by
performing a small (that is, underpowered) study.
Suppose also that our study only has the power to detect an odds ratio
of 1.20 on average 20% of the time.
The results of any study are subject to sampling variation and random
error in the measurements of the variables and outcomes of interest.
Therefore, on average, our small study will find an odds ratio of 1.20
but, because of random errors, our study may in fact find an odds ratio
smaller than 1.20 (for example, 1.10) or an odds ratio larger than 1.20
(for example, 1.60). Odds ratios of 1.10 or 1.20 will not reach statistical
significance because of the small sample size
Fonte: Button KS, Ioannidis JP et al.; Nature Reviews | Neuroscience, May 2013
51
La ‘maledizione’ del vincitore
We can only claim the association as nominally significant in the third
case, where random error creates an odds ratio of 1.60.
The winner’s curse means, therefore, that the
‘lucky’ scientist who makes the discovery in a
small study is cursed by finding an inflated
effect.
Fonte: Button KS, Ioannidis JP et al.; Nature Reviews | Neuroscience, May 2013
52
La ‘maledizione’ del vincitore
Fonte: Replication validity of genetic association studies. Ioannidis JP et al.;
Nature Genetics, 29. 2001
53
Simulazione con N (numerosità per gruppo) = 50
Alziamo N da 10 a 50, e simuliamo, come in precedenza, la situazione
in cui H0 è vera.
La soglia per il rifiuto si è abbassata (ora la differenza tra trattamenti
osservata deve essere superiore al 20%).
H0 vera
54
Simulazione con N (numerosità per gruppo) = 50
La potenza rimane però ancora troppo bassa (46%).
Condurrei uno studio che ha circa una possibilità su due
di fallire.
230/500
55
Simulazione con N (numerosità per gruppo) = 100
Con N=100 la soglia diminuisce ulteriormente (ora è pari a
13%) e di conseguenza la potenza aumenta (≈ 85%)
428/500
56
Soglie di rifiuto dell’ipotesi nulla
Non è necessario stabilire empiricamente le soglie per il rifiuto
dell’ipotesi nulla (le righe verticali rosse nelle precedenti
simulazioni) in questa situazione.
Sappiamo che la differenza tra proporzioni si distribuisce come
una normale, possiamo quindi valutare se in ogni simulazione il
test statistico Z sull’uguaglianza tra due proporzioni porta o no al
rifiuto di H0 , dato un errore tollerato di primo tipo pari a α *.
La frequenza di volte in cui si rifiuta H0 sotto l’ipotesi alternativa
H1 nel totale delle n simulazioni ci darà un’idea della potenza
dello studio.
* Il test Z per l’uguaglianza tra due proporzioni è esattamente la stessa cosa del test chiquadrato di Pearson che valuta l’associazione in una tabella 2x2 (implementato in SAS)
57
http://www.zoology.ubc.ca/~whitlock/kingfisher/ContingencyAnalysis.htm
58
Using simulation to estimate the power of a statistical test
http://blogs.sas.com/content/iml/2013/05/30/simulation-power.html
http://blogs.sas.com/content/iml/2013/06/05/simulation-power-curve.html
v. anche pag 87 Wicklin (Simulating Data with SAS)
59
Esercizio in aula
Impostare il problema del confronto tra proporzioni con uno
studio di simulazione, utilizzando la logica proposta da
Wicklin.
[utilizzare il test chi-quadrato di Pearson che valuta
l’associazione in una tabella 2x2, test implementato nella
PROC FREQ di SAS]
60
Curva di potenza
Relazione tra N (numerosità per gruppo) e potenza dello
studio, dati H0=0%, H1(δ)=20%, errore di I tipo (α) tollerato
Potenza
del 5%, test: chi-quadrato.
N
61
Curva di della minima differenza individuabile
Relazione tra N (numerosità per gruppo) e δ, dati H0=0%,
errore di I tipo (α) tollerato del 5%, potenza del 90%, test:
chi-quadrato
0.25
δ
0.20
0.15
0.10
0.05
0
N
62
Formalizzazione del calcolo della dimensione campionaria
Errore di tipo I (α): probabilità di rifiutare l’ipotesi nulla quando vera
Errore di tipo II (β): probabilità di non rifiutare l’ipotesi nulla quando falsa
Potenza= 1-β: probabilità di rifiutare l’ipotesi nulla quando falsa
σ20 e σ21: varianza della misura dell’effetto sotto l’ipotesi nulla e alternativa
(possono essere uguali)
μ0 e μ1: valore atteso della misura dell’effetto sotto l’ipotesi nulla e l’ipotesi
alternativa
n0 e n1: dimensione del campione nei due gruppi (possono essere uguali)
63
Formalizzazione del calcolo della dimensione campionaria
Differenza che si
vorrebbe evidenziare
Standard error. di 
G.van Belle. Statistical Rules of Thumb
(n1=n2=n)
64
Formalizzazione del calcolo della dimensione campionaria
Nel caso del confronto tra due gruppi (con n1=n2 e σ20= σ21) si ha che:
Risolvendo per n, si ottiene:
con
α=0.05 z1-α/2=1.96
β=0.20 z1-β=0.84
2*(1.96+0.84)2=15.68
Δ (effect size)
65
Fonte: Biostatistics:
A Methodology for
the Health Sciences
(Wiley) Gerald van
Belle, Lloyd Fisher,
Patrick J. Heagerty,
Thomas Lumley
66
Esercizio
Si vuole condurre uno studio randomizzato in pazienti con angina, con durata
del follow-up pari a 5 anni.
I pazienti vengono randomizzati a un trattamento medico o a un trattamento
chirurgico.
Si ipotizza che la mortalità a 5 anni con il trattamento medico sia del 10% e si
spera che la mortalità con il trattamento chirurgico la riduca della metà (5%).
Si decide di utilzzare il test binomiale con approssimazione normale per il
confronto tra due proporzioni, con livello di significatività del 5% . Si vuole avere
una probabilità del 90% di rifiutare l’ipotesi nulla nel caso il trattamento abbia
l’effetto auspicato.
Qual è la numerosità richiesta per i due gruppi (stessa dimensione per
gruppo)?
Per il calcolo della numerosità campionaria, usare il nomogramma presentato nella
slide successiva
Fonte: Biostatistics: A Methodology for the Health Sciences (Wiley) Gerald van Belle, Lloyd Fisher, Patrick J. Heagerty, Thomas Lumley
67
Nomogramma per il calcolo della dimensione campionaria
(confronto tra proporzioni)
Fonte: Biostatistics: A
Methodology for the
Health Sciences (Wiley)
Gerald van Belle, Lloyd
Fisher, Patrick J.
Heagerty, Thomas
Lumley
68
Esercizio
Si vuole condurre uno studio randomizzato in pazienti con angina, con durata del follow-up pari a 5
anni.
I pazienti vengono randomizzati a un trattamento medico o a un trattamento chirurgico.
Si ipotizza che la mortalità a 5 anni con il trattamento medico sia del 10% e si spera che la mortalità
con il trattamento chirurgico la riduca della metà (5%).
Si decide di utilzzare il test binomiale con approssimazione normale per il confronto tra due
proporzioni, con livello di significatività del 5% . Si vuole avere una probabilità del 90% di rifiutare
l’ipotesi nulla nel caso il trattamento abbia l’effetto auspicato.
Qual è la numerosità richiesta per i due gruppi (stessa dimensione per gruppo)?
Fonte: Biostatistics: A Methodology for the Health Sciences (Wiley) Gerald van Belle, Lloyd Fisher, Patrick J. Heagerty, Thomas Lumley
69
Esercizio
Fonte: Biostatistics: A Methodology
for the Health Sciences (Wiley)
Gerald van Belle, Lloyd Fisher,
Patrick J. Heagerty, Thomas Lumley
70
Esercizio
500+ pz per gruppo
Fonte: Biostatistics: A Methodology
for the Health Sciences (Wiley)
Gerald van Belle, Lloyd Fisher,
Patrick J. Heagerty, Thomas Lumley
71
Nomogramma di Altman
72
Nomogramma di Altman
0.05/(sqrt(0.075*0.925))=0.19
73
Nomogramma di Altman
74
Software commerciali: PASS
75
Software commerciali: PASS
76
Software commerciali: PROC POWER SAS
proc power;
twosamplefreq test=pchi
groupproportions = (.10 .05)
nullproportiondiff = 0
power = 0.9
npergroup = .
alpha=0.05;
run;
77
Software commerciali: PROC POWER SAS
78
Funzione power.prop.test in R
power.prop.test(n = , power=0.9,p1 = .05, p2 =.10, sig.level=0.05)
Two-sample comparison of proportions power calculation
n = 581.0821
p1 = 0.05
p2 = 0.1
sig.level = 0.05
power = 0.9
alternative = two.sided
NOTE: n is number in *each* group
79
http://www.stat.ubc.ca/~rollin/stats/ssize
80
Esercizio
Si voglia pianificare un trial clinico per valutare l’efficacia di un farmaco
(rispetto ad un placebo) nell’aumentare il livello del colesterolo HDL in soggetti
che presentano valori bassi.
Ci si attende che il placebo non porti in media alcun aumento, e si considera
interessante da un punto di vista clinico un aumento medio dovuto al nuovo
farmaco pari a 3 mg/dl.
Sulla base di studi precedenti, si stima una deviazione standard della differenza
tra due misurazioni del colesterolo pari a 4 mg/dl.
Si è disposti a tollerare un errore del primo tipo pari al 5%, e un errore del
secondo tipo pari al 20%.
Sulla base di queste informazioni, quanti soggetti è necessario reclutare in
ognuno dei due gruppi?
81
Esercizio
m0 = 0
m1 = 3
s =4
a = 0.05
b = 0.20
82
http://www.stat.ubc.ca/~rollin/stats/ssize
83
Power by Simulation
84