Aspetti statistici nella scelta dell`esperimento - Simona

20 Ottobre 2009
Il web a supporto della ricerca biomedica
Aspetti statistici nella scelta
dell’esperimento
Simona Iacobelli
Centro Interdipartimentale di
Biostatistica e Bioinformatica, Università Tor Vergata
Outline
• Obiettivi dell’esperimento ed endpoint
– Richiami: la stima mediante IC e il test di ipotesi
• Gli elementi determinanti il “successo” di un esperimento:
– I “requisiti statistici”
– Le conoscenze “strutturali” ovvero i target (o risultati “attesi”)
– La numerosità campionaria
• Elaborazione delle informazioni per il disegno dell’esperimento
– Vantaggi dell’implementazione via web
• Ulteriori spunti per lo sviluppo di un sistema integrato di
pianificazione degli esperimenti e raccolta dati dalle esperienze
fatte:
– Stopping rules, modelli dose-finding, … Metodi Bayesiani (?)
Obiettivi di un esperimento ed
endpoints
Coerentemente con gli obiettivi dello studio si considerano alcune
grandezze caratterizzanti il fenomeno di interesse, la cui
conoscenza permette di ricostruirlo: gli ENDPOINT. Si può:
• Fornire una quantificazione dell’endpoint  stima (intervallare)
• Fare una verifica di ipotesi sull’endpoint  test
Es: Fenomeno
(Popolazione): dati
numerici continui
Endpoint:
media
X
μ=?
DATI
STIMA
PUNTUALE
X
̂
STIMA
INTERVALLARE
  a, b
VERIFICA di
IPOTESI
Es:
H0: μ = μ0
vs.
H1: μ > μ0
Intervalli di Confidenza
es. IC per la media μ di una popolazione con varianza σ2


 

  X  z 
, X  z 


n
n
2
2


N(0,1)

2
z
Per il teorema del limite centrale
(sotto certe condizioni) la media
estratta da un campione di valori
continui da una popolazione con
media μ e varianza σ2 segue una
legge
2 

 

N ,


n


X
2
Ad es con livello di confidenza 1-α=95%: Questa
“regola” per la costruzione di un intervallo di
stima garantisce che, immaginando di estrarre
infiniti campioni di dati e ripetere ogni volta la
procedura di stima, in 95 casi su100 si ottiene
un intervallo che contiene il parametro che si
vuole stimare
2.5%
2.5%

  1.96  
  1.96   n
n
Verifica delle ipotesi
Si considerano due ipotesi sul parametro:
• L’ipotesi di base (H0) corrisponde ad uno stato di conoscenze “neutro”, ad es:
–
–
•
l’efficacia del nuovo farmaco misurata da θ è pari a quella dei farmaci già noti
non c’è differenza fra i gruppi
L’ipotesi alternativa (H1) corrisponde a quanto si vorrebbe dimostrare; si può
scegliere una ipotesi uni- o bi- direzionale (*), es:
– Pr(Risposta) π: H0: π= π0 vs H1: π>π0
– δ=μ1-μ2 : H0: δ=0 vs H1: δ≠0
•
•
Il principio di base è di mantenere l’ipotesi di base a meno che i dati osservati
non indichino una forte evidenza contraria
I dati si considerano “significativi” ≈ contrari all’ipotesi di base se sono
“estremi” rispetto ad H0, nel senso che se H0 è vera essi si presentano con
probabilità molto bassa. Due approcci:
– Calcolo di questa probabilità: p-value = Pr(Dati osservati o più “estremi”| H0 vera)
– Individuazione della regione di rifiuto avendo fissato un limite α per definire quando
tale probabilità è “bassa”
(*) rispettivamente il test si dice “a una coda” o “a due code” – le formule si modificano di
conseguenza, ripartendo α su una o due code
L’errore di I tipo
es. test su una media, H0: μ=μ0 vs H1: μ>μ0
(*) test a una coda:
per semplicità
H0

es α=5%
statistica
test
t
z
x  0

n
Regione di rifiuto R
R  t : t  z 
 d  z 

d  x  0
n
Questo consente di fissare pari a α la probabilità di commettere
ERRORE di I TIPO: rifiutare H0 quando invece è vera
(α è detto “livello di significatività” del test)
distrib.
sotto H0
N 0,1
 2
N  0,
 n





L’errore di II tipo e la potenza
es. test su una media, H0: μ=μ0 vs H1: μ>μ0
ERRORE di I TIPO: rifiutare H0 quando invece è vera
α = Pr(dati є R | μ=μ0)
ERRORE di II TIPO: accettare H0 quando invece è falsa
β è la probabilità di commettere questo errore.
β = Pr(dati є R | μ=μ1>μ0)
1-β = Pr(Rifiutare H0 quando è falsa) è la potenza del test: esprime la “forza” del
test di individuare la deviazione dall’ipotesi nulla quando questa sussiste.
Il test in uno studio sperimentale
Rifiuto H0
Accetto H0
H0 vera
Errore I tipo
Prob = α
(Insuccesso dello studio)
H0 falsa (H1)
Successo dello studio
Prob = 1-β
Errore II tipo
Prob = β
α deve essere molto piccolo, ad esempio =0.05, meglio 0.01
La potenza 1-β dovrebbe essere alta! Ad es 80% o 90%
Questi sono i “requisiti statistici” dello studio
α può essere fissato a priori definendo la forma
della zona di Rifiuto
La potenza dipende sia da elementi “strutturali” o
“attesi” dell’esperimento, sia dalla numerosità
campionaria
  Pr X  R | H 0 

R : x   0  z 
n
Controllo della potenza
es. test su una media, H0: μ=μ0 vs H1: μ>μ0
 H1: μ=μ1 = μ0+δ, δ>0
δ
0
x
1
Regione di rifiuto R
δ↑
δ
0
1
x
Potenza = p(X є R | μ = μ1)
area sotto la curva blu in
corrispondenza di R
La potenza cresce con la
“distanza” fra ipotesi nulla
e ipotesi alternativa (δ) e
se diminuisce la variabilità
δ
var ↓
0
α= p(X є R | μ= μ0) area
della coda destra della
curva nera in
corrispondenza di R
1
x
Elementi per controllare la potenza
es. test su una media, H0: μ=μ0 vs H1: μ=μ0+δ, δ>0
Variabilità
δ
2
n
δ è l’oggetto dello
studio - incognito
0
1
x
Regione di rifiuto R
La variabilità:
 è direttamente
proporzionale alla
variabilità nella
popolazione σ2
Può essere considerata fissata
dalle caratteristiche
dell’esperimento
 diminuisce
all’aumentare
dell’ampiezza del
campione n
Può essere controllata: posta pari
al minimo numero che garantisce
una certa potenza
 Possiamo avere
un’idea sul valore
“atteso” di δ
 Possiamo mirare ad
un target: δ pari alla
minima differenza
rilevante ai fini degli
obiettivi dello studio
IC negli studi sperimentali
es. IC per la media μ di una popolazione con varianza σ2
In uno studio finalizzato alla
stima:
il requisito è il livello di
confidenza (1-α)


 

  X  z 
, X  z 

n
n 
2
2

 l’obiettivo è di ottenere una
certa precisione δ.
  2  z 
Essa dipende dalla variabilità
2
n
2

n
(Gli IC possono essere usati in alternativa ai test sempre ai fini della
verifica delle ipotesi. In questo caso, valgono considerazioni analoghe
(controllo della potenza, etc) e si giunge alle stesse formule)
Calcolo di n dati i requisiti e gli elementi
strutturali / target
es. test su una media, H0: μ=μ0 vs H1: μ=μ0+δ, δ>0
δ
0
Controllo di α
Controllo di β
statistica
test
x
1
Regione di rifiuto R
d  x   0  z 

 2 

d | H 0  N  0,
 n 


 2 

d | H1  N  ,

n 

n



Pr d  R | H1   Pr  d  z 
| H1   
n






n 
n

Pr  d  z 
| H1   Pr Z  z  
   z  
 z


 

n




 n   z  z  2

d  x  0
Implementazione in pratica (1)
Input: ENDPOINT PRIMARIO e obiettivo (stima o test – uni- o bi- laterale)
Input: elementi strutturali e “attesi”
(Alcuni requisiti: fissati di default)
Output:
es Input: δ atteso, variab attesa σ
1-β
es Input: δ atteso, range di variab attesa
(σ1,σ2)
var σ
α=0.05
α=0.01
n
α=0.05
1-β = 90%
1-β = 80%
σ
n
(questo output permette di valutare costibenefici di un aumento di numerosità)
(questo output permette di
valutare i rischi dell’incertezza
sulla variabilità)
Implementazione in pratica (2)
Input: ENDPOINT PRIMARIO e obiettivo (stima o test – uni- o bi- laterale)
Input: range numerosità utilizzabile
(Alcuni requisiti: fissati di default)
Output:
δ
α=0.05
1-β=0.8
n1
n2
σ
(questo output conduce a valutare la plausibilità delle assunzioni su
parametro δ “atteso” e variabilità necessarie a realizzare un
esperimento con certi requisiti, se la numerosità è fissata)
Vantaggi dell’implementazione via web
(con creazione nel tempo di una banca dati su esperimenti pianificati e risultati
ottenuti – in termini di variabilità osservata, effetti misurati e significatività)
• Per esperimenti “semplici”:
– Il procedimento è rapido e “automatico”, e non richiede conoscenze
approfondite di disegno degli esperimenti, ne’ capacità di calcolo
– L’applicazione sceglie il tipo di test, fornendo anche i riferimenti
bibliografici (utili per la stesura del protocollo)
– Se possibile, l’applicazione evidenzia la possibilità di utilizzare disegni
con stopping rules, per la potenziale riduzione di costi e durata
– La banca dati suggerisce all’utente come perfezionare gli input sulle
grandezze attese
– La banca dati permette anche di aggiornare le procedure utilizzate per il
calcolo – anche eventualmente mediante l’utilizzo di metodi Bayesiani
• Per esperimenti più “complessi”: può rendersi necessaria una
consulenza individualizzata
– Il disegno proposto viene poi inserito nella banca dati delle “esperienze”,
consultabile dagli utenti in fase di pianificazione, per comprendere
problematiche e possibili soluzioni
(spunti)
Stopping rules e disegni sequenziali
Conclusione anticipata dello studio (minore numerosità,
minore durata) senza inflazionare l’errore di I tipo
• Obiettivo: fermare lo studio anticipatamente in caso di evidenza
precocemente raggiunta
– A conferma dell’ipotesi nulla (stop for futility)
– In favore dell’ipotesi alternativa (stop for efficacy)
• Motivazioni: risparmio di costi, di tempo, e ragioni etiche
• Strumenti metodologici disponibili:
– Disegni con “spesa” frazionata o graduale della prob. di Errore di I Tipo
α fissata (per ovviare al problema del multiple testing)
– Metodi bayesiani: si esce dalla logica del test frequentista; la
conoscenza sugli elementi della sperimentazione - variabilità, effetti
attesi, etc - viene formalizzata sotto forma di “distribuzione a priori“, e i
dati acquisiti vengono utilizzati per “aggiornarla”, conducendo a una
distribuzione “a posteriori”
(spunti)
Es: Disegno a 2 stadi di Simon per π
Test su una probabilità, H0: π<π0 vs H1: π> π1
•
•
Target: dimostrare che la probabilità π di “successo” è superiore a un valore
di riferimento π1
In aggiunta: inserire una possibilità di early stop in caso di “bad treatment”:
π<π0 (stop for futility)
Test 1
n1 osserv.
x1 successi
Test 2
x>r: good treatment
x1≤r1: stop, bad
treatement
Esempio H 0 :   0.5
n=n1+n2 osservazioni
x =x1+x2 successi
x≤r: bad treatment
  0.025
1    90 %
H1 :   0.7
Stadio I
n
Stadio II
n.ro successi
Prob. Early
Termination
n
n.ro successi
Disegno a 1 stadio
65
40
0.00
-
-
Disegno a 2 stadi
27
15
0.78
80
48
(spunti)
Dose finding etc
(Es. di contesti o metodi basati sull’inclusione di informazione acquisita
da esperienze nella conduzione degli studi sperimentali)
Es: La tossicità (misurata su
scala continua) è funzione
della dose secondo f, regolata
da un parametro θ incognito.
tox=f(dose;θ)
tox
Target: individuazione della
dose d* tale che tox ≤ δ
dose
Metodo CRM:
dose d0 su n0 unità  stima di θ: θ1
 dose d1 tale che f(d1 ; θ1) ≤ δ
dose d1 su n1 unità  stima di θ: θ2
 dose d2 tale che f(d2 ; θ2) ≤ δ
… finchè la dose non si stabilizza, oppure si è raggiunta
una numerosità complessiva n massima
Questo genere di problemi viene risolto in maniera più “fluida” in
ambito Bayesiano