Studi randomizzati

Studi randomizzati,
principio di incertezza e
trasferibilità
alla pratica clinica
Dal quesito alla risposta
Quesito
che trae origine dalla pratica clinica
e che
in base alle attuali conoscenze
principio di incertezza
non ha una risposta adeguata
protocollo di studio
Studi randomizzati
controllati
(RCT)
Tipo
di studio
e di superiorità
suedicaratteristiche
equivalenza
(non inferiorità)
BMJ 2003;327:1459
I paracaduti limitano gli effetti dell’accelerazione di gravità, ma la
loro efficacia non è stata dimostrata con RCT
Cos’è il principio di incertezza
negli Studi Randomizzati Controllati?
il non sapere, a priori, quale trattamento sia il
migliore fra:
⇒ quello standard (in uso)
⇒ il placebo (in assenza di un trattamento standard)
⇒ il nuovo trattamento da studiare
La base etica di questi studi è rappresentata dall’incertezza su
quale trattamento possa essere preferibile o appropriato in ogni
singolo paziente reclutato nello studio. Se il medico (o il paziente)
ha una marcata preferenza o timore nei confronti di uno dei
trattamenti previsti nello studio il principio di incertezza non è
rispettato e il paziente non dovrebbe partecipare allo studio
Principio di incertezza
e tipo di sponsor
gli sponsor commerciali hanno la tendenza
a disegnare studi che avranno un esito
favorevole
gli sponsor not-for-profit mostrano un
sostanziale rispetto del principio di
incertezza
dati empirici mostrano che gli studi fatti
hanno la stessa probabilità di risultare a
favore o contro il trattamento sperimentale
RCT e rispetto del principio di
incertezza: effetto dello sponsor
Ridker PM, Torres JAMA 17 May 2006
RCT e rispetto del principio di
incertezza: effetto dello sponsor
Ridker PM, Torres J
JAMA 17 May 2006
Dal quesito alla risposta
Quesito
che trae origine dalla pratica clinica
e che
in base alle attuali conoscenze
principio di incertezza
non ha una risposta adeguata
Studi randomizzati
controllati (RCT)
protocollo di studio
di superiorità
di equivalenza
(non inferiorità)
Cosa caratterizza uno studio clinico (RCT)?
Popolazione di
riferimento
Popolazione
studiata
tempo
RANDOMIZZAZIONE
Farmaco
da studiare
VALIDITÀ ESTERNA
è condizionata da:
trasferibilità
• setting dello studio
generalizzabilità
• selezione dei pazienti
applicabilità
• differenza tra ciò che
(effectiveness
prevede
il protocollo)e
la pratica clinica
• rilevanza degli esiti
“end- point” scelti
VALIDITÁ INTERNA
Controllo
Placebo,
nessun trattamento
migliore terapia
disponibile
altra terapia
disponibile
(efficacy)
Validità interna:
i 3 principi
fondamentamentali
Random division of the
patients
selection of an appropriate
primary outcome measure
Sir Austin Bradford Hill
sample size calculation
1. Randomizzazione
2. Scelta di un indicatore appropriato di esito
3. Dimensione del campione e disegno
Randomizzazione
Lo scopo della randomizzazione (assegnazione
casuale) è:
1. ottenere due gruppi di pazienti simili per tutti i
fattori prognostici noti e non noti
2. eliminare i bias di selezione nella assegnazione
dei trattamenti
È la componente più importante degli RCT!
Altman DG et al. The revised CONSORT statement
Ann Intern Med 2001;134:663-94
Come effettuare una
randomizzazione corretta
La generazione delle liste di
randomizzazione deve avvenire
attraverso un processo realmente random
miglior metodo = liste generate tramite computer
o tavole numeri casuali
metodi meno validi = utilizzare numeri alternati,
numeri di cartella clinica, data di nascita, buste
opache e sigillate ecc.
Back to basics:
Cochrane
“L’idea di base, come tutte le cose buone, è semplice.
Gli studi randomizzati affrontano il problema della
confrontabilità di due gruppi a rovescio: l’idea non
è di preoccuparsi delle caratteristiche dei pazienti, ma
di essere sicuri che la divisione dei pazienti nei 2
gruppi sia fatta in modo indipendente dalla volontà
dello sperimentatore.”
L’uso di popolazioni non selezionate riduce i
problemi di generalizzabilità.
Ha funzionato la randomizzazione?
Tab 1.
Altman DG et al. The revised CONSORT statement
Ann Intern Med 2001;134:663-94
RCT
che cosa valutare
Scelta degli indicatori appropriati
di esito “end point”
Ogni studio presenta:
- 1 o più esiti principali
- una serie di esiti secondari
Gli indicatori di esiti possono essere:
surrogati
semplici
clinicamente rilevanti
compositi
Indicatori di esito
• esiti clinicamente rilevanti: (mortalità totale o causa-specifica, eventi non fatali,
quali infarto, ictus, etc, morbidità)
• esiti surrogati: ↓ pressione arteriosa,
↓ colesterolemia, etc.
• qualità della vita (problema della
validazione degli strumenti/questionari)
Indicatori di esito
• Hard: determinati in modo inequivocabile ed
oggettivo (mortalità, diagnosi di malattia, n°giorn i
di ricovero, etc)
• Soft: determinazione meno sicura
(es. miglioramento-peggioramento della qualità di
vita, dolore, sintomi vari, etc)
• “indiretti” es. utilizzo dei servizi sanitari
Indicatori di esito
efficacia clinica vs efficacia farmacologica
• es. cardiovascolare: per concludere che
un farmaco antiipertensivo è efficace, è
sufficiente che abbassi la pressione
arteriosa?
• es. AIDS: per valutare l’efficacia di una
terapia, è sufficiente che aumenti il livello di
linfociti CD4?
Esiti Surrogati vs clinic. rilevanti
esempi
ESITI SURROGATI
ESITI clinic. rilevanti
• Densità minerale ossea
Fratture osteoporotiche
• Pressione arteriosa
Ictus cerebrale
• Grado di stenosi carotidea
Ictus cerebrale
• Livelli ematici LDL-colesterolo
Infarto miocardico
• Grado di stenosi all’angiografia
coronarica
Infarto miocardico
• Conta delle cellule CD4
Mortalità da AIDS
Indicatori di esito
• semplici: costituiti da un solo esito (hard o soft)
es. morte cardiovascolare, infarto miocardico,
↓ pressione arteriosa
• composti: somma di più esiti (hard e/o soft)
es. morte cardiovascolare + IMA + ictus
oppure
morte cardiovascolare + IMA + ictus + ischemia
ricorrente
Dimostrare differenze o
“accettare” uguaglianze :
significato del P
e intervalli di confidenza
quando si confronta
un nuovo farmaco contro placebo
(studio di superiorità)
• obiettivo: valutare se esiste una differenza tra i
due trattamenti
• ipotesi nulla: non c’e’ differenza tra trattamento
attivo e placebo
• ipotesi alternativa: il trattamento è più efficace
del placebo
• studio: consiste nel prendere un campione di
individui per testare l’ipotesi nulla (come nei
processi: “presunzione di innocenza”)
Ipotesi di superiorità e p
• ipotesi nulla:
nulla la differenza tra i 2 gruppi non esiste
• il “p” è la probabilità di osservare per caso (in questo
o in un altro campione di uguale numerosità) una
differenza tra i due gruppi
• se il p è piccolo (es < 0,05 o < 5%) significa che
esiste una bassa probabilità che la differenza sia
dovuta al caso
• l’ipotesi nulla viene quindi rigettata
(si ritiene che la differenza tra i due gruppi non sia
dovuta al caso, e che “probabilmente” esiste
davvero)
Come interpretare il p
La P è la probabilità che la differenza osservata
sia dovuta al caso. Non valuta la rilevanza
ovvero l’entità o la dimensione (magnitude)
dell’effetto!
stimare (anziché )testare una ipotesi
Con questo approccio di hypothesis testing i dati
sono esaminati in relazione all’ipotesi nulla
statistica e la pratica ha portato alla erronea
credenza che gli studi debbano avere come
scopo quello di ottenere una “significatività
statistica”.
Al contrario, lo scopo della maggior parte della
ricerca in medicina è di determinare l’entità
(magnitude) di alcuni fattori oggetto dello
studio.
Gardner MJ, Altman DG
BMJ, 1986
stimare (anziché testare) un’ipotesi
limiti dell’utilizzo della P
Le comuni affermazioni “P<0,05”, “P>0,05” o “P = NS forniscono
poche informazioni sui risultati di uno studio Inoltre, anche valori di p
precisi non forniscono alcuna informazione relativamente all’entità
della differenza tra i gruppi in studio……
Presentare i valori di p da soli può far sì che ricevano più importanza
di quanto in realtà si meritano.
Vi è in particolare la tendenza a considerare la significatività
statistica equivalente all’importanza medica o alla rilevanza
biologica.
Tuttavia piccole differenze di scarso interesse reale possono
risultare statisticamente significative in campioni molto ampi
mentre effetti clinicamente molto rilevanti possono risultare non
significativi dal punto di vista statistico poiché studiati in un piccolo
campione.
Gardner MJ, Altman DG BMJ, 1986
L’intervallo di confidenza
Se ripeto 100 volte la prova
questo è l’intervallo in cui è
probabile cadranno le
osservazioni 95 volte su 100
Valore/i
misurato/i
Significatività e rilevanza
Campione 1 dimensione A
Differenza
NON
dimostrata
Campione 2 dimensione A
Differenza
dimostrata
Campione 3 dimensione B
Differenza
dimostrata
NESSUNA
DIFFERENZA
MEGLIO IL CONTROLLO
MEGLIO IL TRATTAMENTO
La superiorità da un punto di vista statistico
Forte superiorità
superiorità
superiorità NON dimostrata
Migliore il
controllo
Migliore il
Farmaco in studio
La superiorità dal punto di vista della rilevanza clinica
Nuovo trattamento X vs un PLACEBO
X non fornisce un beneficio
(RCT “negativo”)
Intervallo
di confid.
95%
un “importante” beneficio di X non può
essere escluso
X fornisce un beneficio (ma non è
sicuro che sia “importante”)
X fornisce un “importante”
beneficio
IB = “importante” beneficio
del trattamento X vs placebo
←IB
ID→
→
ID = “importante” danno
del trattamento X vs placebo
Studi di equivalenza
e di non inferiorità
Cosa si intende per
equivalenza
o meglio non-inferiorità
• è impossibile dimostrare che due interventi
sono esattamente equivalenti
• l’obiettivo è dimostrare che gli interventi non
differiscono più di una certa quantità
(margine di equivalenza)
Studi di non-inferiorità
• Scopo: verificare che eventuali differenze siano
piccole, al di sotto di una certa soglia (per es.,
∆ del 5-10%) definita margine di non-inferiorità
• Margini di non-inferiorità piccoli richiedono
però campioni piuttosto grandi
Superiorità, “equivalenza” e non inferiorità
Forte superiorità
Margine di
equivalenza
(± 5-10%?)
superiorità
superiorità NON dimostrata
equivalenza
equivalenza NON dimostrata
Margine di
non-inferiorità
(?%)
NON inferiorità
NON inferiorità non dimostrata
Migliore il
controllo
Migliore il
Farmaco in studio
Un esempio di studio di non inferiorità
Obiettivo Principale
Valutare l’efficacia clinica dell’azitromicina vs
amoxi/clav. nel trattamento della CAP in
pazienti non ricoverati
End point principale
Risposta clinica (guarigione, miglioramento,
fallimento) misurata attraverso EO, segni,
sintomi ed esami di laboratorio
a 10 ± 2 gg dall’inizio della terapia
Un esempio di studio di non inferiorità
272 pazienti < 60 aa non ricoverati
con CAP classe I o II di FINE
Criteri di inclusione:
CAP documentata con Rx
Febbre > 37,5°C
Con tosse escreato ecc
R
Studio in
aperto per
gruppi
paralleli
Azitromicina
Amoxicill/clav
1 g/die in
monosomm
1 g x2 /die
per 3 gg
per 7 gg
quando si confronta
un nuovo farmaco contro placebo
(studio di superiorità)
• obiettivo: valutare se esiste una differenza tra i
due trattamenti
• ipotesi nulla: non c’e’ differenza tra trattamento
attivo e placebo (trattamento e placebo sono
uguali)
• ipotesi alternativa: il trattamento è più efficace
del placebo
• studio: consiste nel prendere un campione di
individui per testare l’ipotesi nulla (come nei
processi: “presunzione di innocenza”)
Ipotesi formulata
studio di non inferiorità
• obiettivo: valutare se esiste una differenza tra i 2 trattamenti
• ipotesi nulla: azitromicina e amoxi/clav. al dosaggio stabilito
non sono equivalenti nella terapia della CAP non grave
(i due farmaci sono diversi)
diversi
• ipotesi alternativa: l’azitromicina non è inferiore
all’amoxicillina/clav al dosaggio stabilito nella terapia della
CAP non grave
• studio: viene accettata come margine di non inferiorità una
differenza ≤10% valutata con un test ad una coda
Viene accettata come
margine di non inferiorità
una differenza ≤10%
Migliore il
controllo
Migliore il
Farmaco in studio
RCT: nuovo trattamento X vs standard S
(superiorità, equivalenza o non inferiorità)
X è inferiore a S in modo
“rilevante”: RCT di inferiorità
X può o non può essere
inferiore a S in modo
“importante” (RCT incerto)
X non è inferiore a S e
potrebbe anche essere
superiore: RCT di “non
inferiorità”
X è superiore a S
in modo rilevante:
X non è né superiore né
RCT di superiorità
inferiore a S (conclusione di “equivalenza”)
X superiore a S
←SUP
0
INF→
→ X inferiore a S
Validità esterna
Sono sinonimi
Generalizzabilità
Validità esterna
Applicabilità
Interpretare le evidenze …
Si è passati da….
• una grande enfasi verso l’affidabilità degli
studi clinici (la validità interna ovvero il
come è stato disegnato e condotto lo studio)
• a una progressivamente crescente attenzione
alla trasferibilità dei risultati (validità
esterna e generalizzabilità)
Problemi che possono influenzare la validità esterna:
selezione dei pazienti
• Criteri “clinici” (inclusione ed esclusione)
• Probabilità di partecipare in base a età, sesso, etnia, scolarità,
condizioni socio-economiche, luogo di residenza
• Selezione in base a valutazione pre-studio di efficacia e
tollerabilità dell’intervento
Validità esterna dello Studio
I risultati
sono trasferibili alla mia realtà ?
confermano o modificano il mio
attuale comportamento clinico ?
Decalogo per una buona trasferibilità
•
•
•
•
•
Ci interessa il quesito (il confronto) proposto?
Dove e come viene fatto lo studio (setting)
Quali pazienti sono stati inclusi (vedi Table 1)
Quanti i pazienti esclusi? (cfr. rispetto agli inclusi)
Qual è il gruppo di controllo: sono ottimali il
farmaco e i dosaggi scelti?
• Sono state rispettate le aspettative e le
preferenze dei pazienti?
Le principali domande da porsi nell’analisi di un RCT:
caratteristiche vs obiettivi
Ci interessa il quesito (il confronto) proposto?
Popolazione studiata
È simile a quella a cui si intende
trasferire i risultati? Chi sono gli
inclusi (Table1)? E gli ESCLUSI?
Intervento/i considerato/i
Quali modalità e dosaggi?
(simili alla normale pratica?)
Controllo/i
Quali modalità e dosaggi?
(simili alla normale pratica?)
Outcomes (esiti clinici) …
… (e per quanto) Tempo
Sono rilevanti? Sono validi?
Coerente rispetto al tipo di utilizzo
che si fa nella pratica?
Sono state rispettate le aspettative e le preferenze dei
pazienti?
Popolazione dei RCT:
trasferibilità e preferenze del paziente
(Rothwell, Lancet 2005)
Cosa ci ha aiutato a capire la EBM rispetto
al miglioramento della pratica clinica?
• I medici (i pazienti) devono avere
accesso a tutte le informazioni disponibili
• Le evidenze vanno quantificate
• La semplice diffusione delle
informazioni, anche se di buona qualità,
non modifica la pratica clinica
NB: … Le evidenze non prendono decisioni
Migliora la densità ossea, ma..
peggiorano le fratture non vertebrali
Effect of fluoride treatment on the fracture rate in
postmenopausal women with osteoporosis
BL Riggs, SF Hodgson, WM O'Fallon, EY Chao, HW Wahner, JM Muhs, SL Cedel, and LJ
Melton
Volume 322:802-809 March 22,1990
Number 12
Misure di esito
• densità minerale ossea
• incidenza di fratture vertebrali e non vertebrali
Intervento
•
•
•
fluoruro di sodio (75 mg/d)
placebo
supplemento di calcio (1,5 g/d) in tutte le donne
per 4 anni in 202 donne in post-menopausa con fratture vertebrali
Esiti
Confronto Fluoruro
vs Placebo
P-value
Vertebra lombare
+35%
<0.001
Collo femorale
+12%
<0.001
Trocantere
+10%
<0.001
-4%
<0.02
163 vs 136
NS
72 vs 24
<0.01
54 vs 24
<0.01
Densità ossea:
Radio
Fratture:
Vertebrali
Non Vertebrali
Effetti avversi
Densità ossea (surrogato) e fratture osteoporotiche (principale)
Non cambia la densità ossea, ma..
Migliorano le fratture non vertebrali
Misure di esito: densità minerale ossea,
markers biochimici del metabolismo osseo e
incidenza di fratture non vertebrali
Intervento: supplementazione orale di
500 mg calcio plus 700 IU vit. D3
(colecalciferolo) pro die
Vs placebo x 3 anni
in 176 uomini e 213 donne di età >65 anni
Risultati sulla
densità minerale
ossea
Risultati sulle fratture
non vertebrali
Numero di fratture nei due
gruppi:
•Ca + vit D
•Placebo
= 13%
11/187 = 6%
26/202
RR = 0,4 (0,2-0,9)
NNT = 14 (8-79)
Densità ossea (surrogato) e fratture osteoporotiche (principale)
Migliora la densità ossea, e
Migliorano le fratture vertebrali
Volume 333
November 30, 1995
Number 22
Misure di esito: densità minerale
ossea e incidenza di fratture
vertebrali
Intervento:
alendronato (5-10 mg/d x 3aa
o 20 mg/d x 2aa + 5 mg x
1aa)
Vs
placebo
in 994 donne post-menopausali con
osteoporosi
Volume 333
November 30, 1995
Number 22
Risultati sulla
densità minerale
ossea
Volume 333
November 30, 1995
Number 22
Risultati sulle
fratture
vertebrali
NNT = 34 (17-2704)
Conclusioni
• La misura di esito surrogato non sempre
predice l’esito principale
• L’uso terapeutico di un farmaco a partire da
dimostrazioni di efficacia sull’esito surrogato
può avere effetti benefici, nulli o addirittura
dannosi
• Nella pratica clinica, l’uso terapeutico di un
farmaco dovrebbe basarsi su dimostrazioni di
efficacia sull’esito principale o clinicamente
importante per il paziente