20 Ottobre 2009 Il web a supporto della ricerca biomedica Aspetti statistici nella scelta dell’esperimento Simona Iacobelli Centro Interdipartimentale di Biostatistica e Bioinformatica, Università Tor Vergata Outline • Obiettivi dell’esperimento ed endpoint – Richiami: la stima mediante IC e il test di ipotesi • Gli elementi determinanti il “successo” di un esperimento: – I “requisiti statistici” – Le conoscenze “strutturali” ovvero i target (o risultati “attesi”) – La numerosità campionaria • Elaborazione delle informazioni per il disegno dell’esperimento – Vantaggi dell’implementazione via web • Ulteriori spunti per lo sviluppo di un sistema integrato di pianificazione degli esperimenti e raccolta dati dalle esperienze fatte: – Stopping rules, modelli dose-finding, … Metodi Bayesiani (?) Obiettivi di un esperimento ed endpoints Coerentemente con gli obiettivi dello studio si considerano alcune grandezze caratterizzanti il fenomeno di interesse, la cui conoscenza permette di ricostruirlo: gli ENDPOINT. Si può: • Fornire una quantificazione dell’endpoint stima (intervallare) • Fare una verifica di ipotesi sull’endpoint test Es: Fenomeno (Popolazione): dati numerici continui Endpoint: media X μ=? DATI STIMA PUNTUALE X ̂ STIMA INTERVALLARE a, b VERIFICA di IPOTESI Es: H0: μ = μ0 vs. H1: μ > μ0 Intervalli di Confidenza es. IC per la media μ di una popolazione con varianza σ2 X z , X z n n 2 2 N(0,1) 2 z Per il teorema del limite centrale (sotto certe condizioni) la media estratta da un campione di valori continui da una popolazione con media μ e varianza σ2 segue una legge 2 N , n X 2 Ad es con livello di confidenza 1-α=95%: Questa “regola” per la costruzione di un intervallo di stima garantisce che, immaginando di estrarre infiniti campioni di dati e ripetere ogni volta la procedura di stima, in 95 casi su100 si ottiene un intervallo che contiene il parametro che si vuole stimare 2.5% 2.5% 1.96 1.96 n n Verifica delle ipotesi Si considerano due ipotesi sul parametro: • L’ipotesi di base (H0) corrisponde ad uno stato di conoscenze “neutro”, ad es: – – • l’efficacia del nuovo farmaco misurata da θ è pari a quella dei farmaci già noti non c’è differenza fra i gruppi L’ipotesi alternativa (H1) corrisponde a quanto si vorrebbe dimostrare; si può scegliere una ipotesi uni- o bi- direzionale (*), es: – Pr(Risposta) π: H0: π= π0 vs H1: π>π0 – δ=μ1-μ2 : H0: δ=0 vs H1: δ≠0 • • Il principio di base è di mantenere l’ipotesi di base a meno che i dati osservati non indichino una forte evidenza contraria I dati si considerano “significativi” ≈ contrari all’ipotesi di base se sono “estremi” rispetto ad H0, nel senso che se H0 è vera essi si presentano con probabilità molto bassa. Due approcci: – Calcolo di questa probabilità: p-value = Pr(Dati osservati o più “estremi”| H0 vera) – Individuazione della regione di rifiuto avendo fissato un limite α per definire quando tale probabilità è “bassa” (*) rispettivamente il test si dice “a una coda” o “a due code” – le formule si modificano di conseguenza, ripartendo α su una o due code L’errore di I tipo es. test su una media, H0: μ=μ0 vs H1: μ>μ0 (*) test a una coda: per semplicità H0 es α=5% statistica test t z x 0 n Regione di rifiuto R R t : t z d z d x 0 n Questo consente di fissare pari a α la probabilità di commettere ERRORE di I TIPO: rifiutare H0 quando invece è vera (α è detto “livello di significatività” del test) distrib. sotto H0 N 0,1 2 N 0, n L’errore di II tipo e la potenza es. test su una media, H0: μ=μ0 vs H1: μ>μ0 ERRORE di I TIPO: rifiutare H0 quando invece è vera α = Pr(dati є R | μ=μ0) ERRORE di II TIPO: accettare H0 quando invece è falsa β è la probabilità di commettere questo errore. β = Pr(dati є R | μ=μ1>μ0) 1-β = Pr(Rifiutare H0 quando è falsa) è la potenza del test: esprime la “forza” del test di individuare la deviazione dall’ipotesi nulla quando questa sussiste. Il test in uno studio sperimentale Rifiuto H0 Accetto H0 H0 vera Errore I tipo Prob = α (Insuccesso dello studio) H0 falsa (H1) Successo dello studio Prob = 1-β Errore II tipo Prob = β α deve essere molto piccolo, ad esempio =0.05, meglio 0.01 La potenza 1-β dovrebbe essere alta! Ad es 80% o 90% Questi sono i “requisiti statistici” dello studio α può essere fissato a priori definendo la forma della zona di Rifiuto La potenza dipende sia da elementi “strutturali” o “attesi” dell’esperimento, sia dalla numerosità campionaria Pr X R | H 0 R : x 0 z n Controllo della potenza es. test su una media, H0: μ=μ0 vs H1: μ>μ0 H1: μ=μ1 = μ0+δ, δ>0 δ 0 x 1 Regione di rifiuto R δ↑ δ 0 1 x Potenza = p(X є R | μ = μ1) area sotto la curva blu in corrispondenza di R La potenza cresce con la “distanza” fra ipotesi nulla e ipotesi alternativa (δ) e se diminuisce la variabilità δ var ↓ 0 α= p(X є R | μ= μ0) area della coda destra della curva nera in corrispondenza di R 1 x Elementi per controllare la potenza es. test su una media, H0: μ=μ0 vs H1: μ=μ0+δ, δ>0 Variabilità δ 2 n δ è l’oggetto dello studio - incognito 0 1 x Regione di rifiuto R La variabilità: è direttamente proporzionale alla variabilità nella popolazione σ2 Può essere considerata fissata dalle caratteristiche dell’esperimento diminuisce all’aumentare dell’ampiezza del campione n Può essere controllata: posta pari al minimo numero che garantisce una certa potenza Possiamo avere un’idea sul valore “atteso” di δ Possiamo mirare ad un target: δ pari alla minima differenza rilevante ai fini degli obiettivi dello studio IC negli studi sperimentali es. IC per la media μ di una popolazione con varianza σ2 In uno studio finalizzato alla stima: il requisito è il livello di confidenza (1-α) X z , X z n n 2 2 l’obiettivo è di ottenere una certa precisione δ. 2 z Essa dipende dalla variabilità 2 n 2 n (Gli IC possono essere usati in alternativa ai test sempre ai fini della verifica delle ipotesi. In questo caso, valgono considerazioni analoghe (controllo della potenza, etc) e si giunge alle stesse formule) Calcolo di n dati i requisiti e gli elementi strutturali / target es. test su una media, H0: μ=μ0 vs H1: μ=μ0+δ, δ>0 δ 0 Controllo di α Controllo di β statistica test x 1 Regione di rifiuto R d x 0 z 2 d | H 0 N 0, n 2 d | H1 N , n n Pr d R | H1 Pr d z | H1 n n n Pr d z | H1 Pr Z z z z n n z z 2 d x 0 Implementazione in pratica (1) Input: ENDPOINT PRIMARIO e obiettivo (stima o test – uni- o bi- laterale) Input: elementi strutturali e “attesi” (Alcuni requisiti: fissati di default) Output: es Input: δ atteso, variab attesa σ 1-β es Input: δ atteso, range di variab attesa (σ1,σ2) var σ α=0.05 α=0.01 n α=0.05 1-β = 90% 1-β = 80% σ n (questo output permette di valutare costibenefici di un aumento di numerosità) (questo output permette di valutare i rischi dell’incertezza sulla variabilità) Implementazione in pratica (2) Input: ENDPOINT PRIMARIO e obiettivo (stima o test – uni- o bi- laterale) Input: range numerosità utilizzabile (Alcuni requisiti: fissati di default) Output: δ α=0.05 1-β=0.8 n1 n2 σ (questo output conduce a valutare la plausibilità delle assunzioni su parametro δ “atteso” e variabilità necessarie a realizzare un esperimento con certi requisiti, se la numerosità è fissata) Vantaggi dell’implementazione via web (con creazione nel tempo di una banca dati su esperimenti pianificati e risultati ottenuti – in termini di variabilità osservata, effetti misurati e significatività) • Per esperimenti “semplici”: – Il procedimento è rapido e “automatico”, e non richiede conoscenze approfondite di disegno degli esperimenti, ne’ capacità di calcolo – L’applicazione sceglie il tipo di test, fornendo anche i riferimenti bibliografici (utili per la stesura del protocollo) – Se possibile, l’applicazione evidenzia la possibilità di utilizzare disegni con stopping rules, per la potenziale riduzione di costi e durata – La banca dati suggerisce all’utente come perfezionare gli input sulle grandezze attese – La banca dati permette anche di aggiornare le procedure utilizzate per il calcolo – anche eventualmente mediante l’utilizzo di metodi Bayesiani • Per esperimenti più “complessi”: può rendersi necessaria una consulenza individualizzata – Il disegno proposto viene poi inserito nella banca dati delle “esperienze”, consultabile dagli utenti in fase di pianificazione, per comprendere problematiche e possibili soluzioni (spunti) Stopping rules e disegni sequenziali Conclusione anticipata dello studio (minore numerosità, minore durata) senza inflazionare l’errore di I tipo • Obiettivo: fermare lo studio anticipatamente in caso di evidenza precocemente raggiunta – A conferma dell’ipotesi nulla (stop for futility) – In favore dell’ipotesi alternativa (stop for efficacy) • Motivazioni: risparmio di costi, di tempo, e ragioni etiche • Strumenti metodologici disponibili: – Disegni con “spesa” frazionata o graduale della prob. di Errore di I Tipo α fissata (per ovviare al problema del multiple testing) – Metodi bayesiani: si esce dalla logica del test frequentista; la conoscenza sugli elementi della sperimentazione - variabilità, effetti attesi, etc - viene formalizzata sotto forma di “distribuzione a priori“, e i dati acquisiti vengono utilizzati per “aggiornarla”, conducendo a una distribuzione “a posteriori” (spunti) Es: Disegno a 2 stadi di Simon per π Test su una probabilità, H0: π<π0 vs H1: π> π1 • • Target: dimostrare che la probabilità π di “successo” è superiore a un valore di riferimento π1 In aggiunta: inserire una possibilità di early stop in caso di “bad treatment”: π<π0 (stop for futility) Test 1 n1 osserv. x1 successi Test 2 x>r: good treatment x1≤r1: stop, bad treatement Esempio H 0 : 0.5 n=n1+n2 osservazioni x =x1+x2 successi x≤r: bad treatment 0.025 1 90 % H1 : 0.7 Stadio I n Stadio II n.ro successi Prob. Early Termination n n.ro successi Disegno a 1 stadio 65 40 0.00 - - Disegno a 2 stadi 27 15 0.78 80 48 (spunti) Dose finding etc (Es. di contesti o metodi basati sull’inclusione di informazione acquisita da esperienze nella conduzione degli studi sperimentali) Es: La tossicità (misurata su scala continua) è funzione della dose secondo f, regolata da un parametro θ incognito. tox=f(dose;θ) tox Target: individuazione della dose d* tale che tox ≤ δ dose Metodo CRM: dose d0 su n0 unità stima di θ: θ1 dose d1 tale che f(d1 ; θ1) ≤ δ dose d1 su n1 unità stima di θ: θ2 dose d2 tale che f(d2 ; θ2) ≤ δ … finchè la dose non si stabilizza, oppure si è raggiunta una numerosità complessiva n massima Questo genere di problemi viene risolto in maniera più “fluida” in ambito Bayesiano