5. I due gruppi a confronto mantengono la

5. I due gruppi a confronto mantengono la confrontabilità
anche durante la conduzione dello studio?
Stesura: Luglio 2006
A cura di: Alessandro Battaggia, Area Cardiovascolare SIMG
Titolo: Critical Appraisal di uno studio di intervento: come giudicare la qualità metodologica
A) Sono state adottate tecniche di mascheramento anche durante la
conduzione del trial?
Condizione ideale per un RCT è che la ‘doppia cecità’ venga mantenuta anche durante la
conduzione della ricerca. E' stato infatti dimostrato che gli studi non in doppio cieco
sopravvalutano del 13% l’ efficacia degli interventi sanitari. Il mascheramento (oltre che al
momento dell’ allocation) dovrebbe essere garantito anche nelle fasi di seguito descritte:
Somministrazione degli interventi: l’ operatore addetto alla distribuzione dei trattamenti
e il paziente ignorano per tutta la conduzione dello studio il braccio a cui è stato
assegnato il paziente (nella fattispecie, la natura del prodotto somministrato)
2. Raccolta dei dati: l’ operatore incaricato di raccogliere i dati clinici e il paziente ignorano
il braccio a cui è stato assegnato il paziente
3. Valutazione dei risultati: l’ operatore addetto alla interpretazione dei dati e il paziente
ignorano il braccio a cui è stato assegnato il paziente. La cecità nella rilevazione dei
risultati rappresenta l' unico sistema di mascheramento nelle ricerche in cui è
paradossale o impossibile che il ricercatore e il paziente non conoscano il braccio di
randomizzazione (es: trial chirurgici; trial di psicoterapia..)
1.
B) La Qualità del follow-up è risultata adeguata?
a. Perdite al follow-up (Drop-outers = pazienti di cui non si conosce l’ esito)
Se la perdita al follow-up nei due bracci avviene in modo simmetrico e se le caratteristiche dei
pazienti persi sono equiparabili a quelle dei pazienti che rimangono nello studio l’ unico
problema è rappresentato da una perdita di potenza statistica della ricerca in seguito alla
riduzione della numerosità campionaria. Purtroppo è molto raro che questo accada in quanto il
fenomeno delle perdite al follow-up non avviene in modo random. In altri termini i pazienti
persi hanno il più delle volte caratteristiche diverse da quelle dei pazienti che rimangono nello
studio e in più il fenomeno si realizza in modo diverso nei due bracci. Se le perdite al follow-up
sono rilevanti è gravemente compromessa la attendibilità della ricerca ; lo sbilanciamento dei
fattori prognostici tra i due bracci che consegue alle perdite al follow-up è definito allora
"attrition bias".
Per esempio se le condizioni di pazienti esposti ad un determinato farmaco sono talmente precarie da non consentire al
paziente di recarsi ai controlli previsti dal follow-up il braccio dei trattati viene impoverito dei pazienti caratterizzati da
peggior prognosi, con distorsione dei risultati espressa da un sovradimensionamento degli effetti benefici del farmaco
Non c’è accordo in letteratura sul livello critico di queste perdite al follow-up. Sackett considera
inaffidabile una ricerca con perdite al follow-up superiori al 20% e questo limite è stato
recepito anche da riviste secondarie come Evidence Based Medicine e ACP Journal Club, che
rifiutano di pubblicare ricerche in cui la perdita al follow-up sia maggiore del 20% (Sackett DL
et al Evidence Based medicine – How to practice and teach EBM Second edition Churchill
Livingstone 2001 ISBN 0443062404). Altri autori considerano inaccettabili perdite superiori al
10%. Il miglior modo di rimediare al fenomeno delle perdite al follow-up è cercare di
prevenirle.
Per esempio l’ arruolamento potrebbe essere limitato alla scelta di individui che offrono fin dall’
inizio garanzie di completare il follow-up. Questa scelta però è pericolosa per la trasferibilità
dei dati alla popolazione ‘reale’ (validità esterna della ricerca) in quanto l’ arruolamento
seleziona in tal caso una popolazione ‘artificiale’ costituita da individui particolarmente
‘compliant’. Valide alternative potrebbero essere rappresentate dalla programmazione ex ante
di metodi particolari di raccolta dei dati. Per esempio informazioni sullo stato di salute del
paziente potrebbero essere estratte da familiari o da amici o dai medici curanti qualora nel
corso della ricerca il peggioramento delle condizioni cliniche non consentisse al paziente di
recarsi ai controlli previsti dal follow-up . Anche la registrazione della targa del veicolo del
paziente potrebbe essere utille per rintracciarlo in caso di eventuali cambi di indirizzo.
Sensitivity Analysis
La robustezza delle conclusioni di uno studio con perdite al follow-up significative possono
essere saggiate con tecniche di Sensitivity Analysis , in cui vengono immaginati scenari diversi
attribuendo il peggior esito o rispettivamente il miglior esito possibile ai pazienti persi al followup.
Questi scenari immaginari sono quattro:
peggior esito possibile attribuito sia ai persi al follow-up del braccio di intervento che ai
persi al follow-up del braccio di controllo : i risultati di efficacia del trial vengono
calcolati immaginando che tutti i pazienti persi abbiano avuto l' evento
2. miglior esito possibile attribuito sia ai persi al follow-up del braccio di intervento che ai
persi al follow-up del braccio di controllo : i risultati di efficacia del trial vengono
calcolati immaginando che nessun paziente perso abbia avuto l' evento
3. peggior esito possibile attribuito ai persi al follow-up del braccio di intervento e miglior
esito possibile attribuito ai persi al follow-up del braccio di controllo: i risultati di
efficacia del trial vengono calcolati immaginando che i pazienti persi nel braccio di
intervento abbiano avuto l' evento e che i pazienti persi nel braccio di controllo non
abbiano avuto l' evento.
4. miglior esito possibile attribuito ai persi al follow-up del braccio di intervento e peggior
esito possibile attribuito ai persi al follow-up del braccio di controllo :i risultati di
efficacia del trial vengono calcolati immaginando che i pazienti persi nel braccio di
controllo abbiano avuto l' evento e che i pazienti persi nel braccio di intervento non
abbiano avuto l' evento
1.
Alla luce di ciascuno di questi quattro scenari, se le conclusioni originali del lavoro non vengono
troppo stravolte possono essere accettate perchè sufficientemente ‘robuste’(Hollis , BMJ 1999
319:670).
E' comunque da ribadire che nessun tipo di analisi potrà salvare un trial caratterizzato da
eccessive perdite al follow-up: i pazienti di cui non si conosce l' outcome rappresentano uno
dei problemi più importanti da affrontare nella programmazione di una ricerca e nella
valutazione dei suoi risultati
Nello studio ARTEMIS (BMJ 2006;332:325) una nuova eparina a basso peso molecolare, (fondaparinux) è stata
confrontata con placebo in soggetti ospedalizzati e allettati per patologie internistiche ; l' outcome primario era l' endpoint composito 'trombosi profonde diagnosticate flebograficamente + tromboembolie sintomatiche'). Sono stati
randomizzati ai due bracci 849 pazienti. 205 pazienti (vale a dire il 24.1% dell' intera casistica) sono stati persi al
follow-up. Nei 644 pazienti analizzati la somministrazione di fondaparinux confrontata con placebo ha comportato una
significativa riduzione dell' incidenza di questo end-point (ARi = 0.056; ARc = 0.105; RRR = 0.467 ,IC95% 0.0770.693, P=0.029. L' analisi dei dati degli autori è quindi una analisi "Per Protocol" (vedi oltre) in quanto ha escluso dal
denominatore tutti i pazienti in cui non è stato possibile rilevare l' outcome. Se i dati vengono rianalizzati secondo il
più corretto principio 'Intention to Treat' (vedi oltre: nel calcolo dei Rischi Assoluti dell' evento il denominatore è in
questo caso rappresentato da tutti i pazienti inizialmente randomizzati a quel braccio) nei 4 scenari della Sensitivity
Analysis la significatività dei risultati viene mantenuta nello scenario I "miglior prognosi in entrambi i bracci" : RRR =
0.48 (0.70-->0.09) e nello scenario III "miglior prognosi nel braccio di intervento, peggior prognosi nel braccio di
controllo": RRR 0.86 (0.91-->0.78). La significatività viene invece persa nello scenario II "peggior prognosi in entrambi
i bracci" RRR 0.05 (0.2-->-0.15) mentre nello scenario IV "peggior prognosi nel braccio di intervento, miglior prognosi
nel braccio di controllo" la direzione dell' effetto addirittura si inverte (RRR -2.62 (-1.54-->-4.16)
E' evidente che in presenza di un numero così elevato di soggetti per i quali non si conosce l' outcome non possiamo
accettare con fiducia le conclusioni dello studio ARTEMIS : non solo per quanto riguarda l' intensità dell' effetto, ma
anche per quanto riguarda la sua stessa direzione.
b. Violazioni del protocollo
Le violazioni del protocollo sono rappresentate dai pazienti che per qualche motivo non hanno
rispettato il protocollo dello studio ma di cui si conosce l’ outcome. Si tratta dei 'cross-overs' e
dei 'non compliant'.
Il fenomeno dei cross-overs, chiamati anche drop-ins (ossia il passaggio al braccio di controllo
di pazienti inizialmente assegnati al braccio di intervento o –viceversa- il passaggio al braccio
di intervento di pazienti inizialmente assegnati al braccio di controllo) e il fenomeno dei non
compliant (pazienti che non hanno assunto alcun trattamento previsto dalla sperimentazione
ma di cui alla fine della sperimentazione si conosce l’ esito) può essere affrontato dai
ricercatori in tre modi.
Il punto critico è espresso dal modo in cui viene calcolata la frequenza dell’ outcome in ciascun braccio (=Rischio
Assoluto dell' Outcome nel braccio).
I- Analisi ‘per protocol’
La frequenza dell’ outcome in ciascuno dei due bracci viene calcolata escludendo dal denominatore i pazienti di
quel braccio che non hanno rispettato il protocollo. Questa soluzione può gravemente distorcere i risultati in
quanto ignorare i pazienti che hanno violato il protocollo equivale a considerarli 'drop-outers' ossia persi al
follow-up, con tutte le conseguenze già segnalate (vedi sopra).
II- Analisi ‘as treated'
Vengono creati in questo caso due gruppi artificiali a confronto. Il primo gruppo è rappresentato da tutti i
pazienti che sono stati effettivamente trattati con l’ intervento sotto studio (è costituito dalla somma dei
pazienti inizialmente assegnati al braccio di intervento e che sono rimasti in questo braccio lungo tutta la durata
della ricerca e dei pazienti inizialmente assegnati al braccio di ‘controllo’ ma che –cross-overs- sono
successivamente passati nel braccio di intervento). Il secondo gruppo è rappresentato dai pazienti che per
qualche motivo non hanno ricevuto l' intervento sotto studio ‘(è costituito dalla somma dei pazienti inizialmente
assegnati al braccio di ‘controllo’ e che sono rimasti in questo braccio lungo tutta la durata della ricerca e dei
pazienti inizialmente assegnati al braccio di intervento ma che -crossovers- sono successivamente passati nel
braccio di controllo o che -non compliant all’ intervento- hanno semplicemente smesso di assumere l’
intervento). Per ciascun gruppo viene poi calcolata la frequenza dell’ outcome mettendo al denominatore la
somma di tutti i soggetti che rappresentano il gruppo. Anche questo metodo può creare gravi distorsioni dei
risultati finali in quanto annulla i vantaggi offerti dalla randomizzazione. Infatti ciascuno dei due gruppi artificiali
che vengono messi a confronto è formato da un mix di pazienti randomizzati inizialmente all' uno e all' altro
braccio. Ciò crea gravi problemi nella distribuzione dei fattori prognostici e nella 'confrontabilità' dei due bracci.
III- Analisi ‘intention to treat’:
La frequenza dell’ outcome in ciascuno dei due bracci viene calcolata mettendo al
denominatore tutti i pazienti inizialmente assegnati a quel braccio , non tenendo conto quindi
di eventuali cross-overs o di non compliant a quel braccio emersi in tempi successivi alla
randomizzazione. Questa procedura quindi non tiene conto delle violazioni del protocollo ma
anziché escluderle dall’ analisi (come fa l’ analisi Per Protocol --> vedi) registra entro ciascun
braccio gli eventi che riguardano i pazienti ‘compliant’ assieme agli eventi che riguardano i
pazienti che hanno violato il protocollo.
Questo tipo di analisi prende il nome di ‘Analysis Intention To treat’ (ITT). Non è facile per il
clinico digerire una ‘Analisi Intention to Treat’ in quanto appare irrazionale considerare nei
calcoli anche gli eventi dei pazienti che non hanno rispettato le regole del protocollo. Tuttavia
questa procedura presenta notevoli vantaggi. La ITT è infatti il miglior compromesso per
mantenere intatti i vantaggi della randomizzazione. La randomizzazione ha lo scopo di rendere
i due bracci assolutamente identici nelle condizioni di base. In questo modo le differenze che
osserveremo tra il braccio di intervento e il braccio di controllo non potranno che essere
spiegate dall’ effetto del trattamento sotto studio. La randomizzazione rende i due bracci uguali
(a patto che la numerosità del campione sia adeguata) in quanto come detto distribuisce in
modo assolutamente stocastico tutti i fattori prognostici noti e ignoti. Una analisi ‘as treated’
implica invece il confronto di 2 gruppi ‘artificiali’, ciascuno formato da un mix di pazienti
randomizzati ai 2 bracci opposti. Una analisi ‘per protocol’ escludendo i pazienti che per
qualche motivo non hanno assunto il farmaco composta inevitabilmente la selezione di una
casistica (quella dei pazienti rimasti nel braccio) più ‘resistente’ ad esempio agli effetti
collaterali del trattamento, cosa che abbiamo verificato nello scenario illustrato. La ITT
rispecchia fedelmente quello che avviene in condizioni ‘reali’. La compliance al trattamento è
infatti estremamente variabile nei pazienti che si osservano nella pratica quotidiana e non
avrebbe senso non tener conto di ciò selezionando, per i confronti statistici, solo popolazioni
caratterizzate da una compliance’ ideale’.
Un clamoroso esempio di distorsione dei risultati associato ad una analisi 'As Treated' è offerto dal trial "Screening
decrease prostate cancer death" di Labrie F et Al (The Prostate 1999 38:83). Furono reclutati 46193 pazienti di età da
45 a 80 anni in un trial randomizzato e controllato rivolto ad esplorare l’efficacia (in termini di riduzione di mortalità
specifica) di un programma di screening del carcinoma prostatico.
Lo screening era basato sulla esplorazione rettale e sul dosaggio del PSA. La mortalità per carcinoma della prostata fu
registrata in un periodo di follow-up compreso tra il 1989 e il 1996 . Tra i pazienti reclutati nello studio 30956 furono
assegnati in modo random al braccio di intervento (screening) ; 15237 al braccio di controllo (non screening). Lo
screening fu applicato a 7155 pazienti randomizzati al gruppo di intervento (Gruppo A: 4 decessi) mentre 23801
pazienti dello stesso braccio non furono sottoposti a questa procedura (Gruppo D: 93 decessi). Nel gruppo
randomizzato al braccio di controllo 14255 pazienti seguirono il protocollo (Gruppo B: 44 decessi) mentre 982 vennero
comunque sottoposti a screening (Gruppo C: 1 decesso). Negli 8137 pazienti sottoposti a screening furono quindi
registrati 5 decessi per carcinoma della prostata , contro 137 decessi registrati nei 38056 pazienti non sottoposti a
screening .
Conclusioni degli autori:(...) lo studio dimostra, per la prima volta, una drammatica riduzione dei decessi dovuto a
cancro della prostata nei pazienti sottoposti a screening.I dati dell’ articolo (gli autori tra l' altro non riportano alcuna
perdita al follow-up e ciò desta molta meraviglia in un trial di 46193 pazienti!) permettono di risalire facilmente al
rischio assoluto di morte per cancro prostatico. I gruppi messi a confronto sono :
A) Pazienti che effettivamente sono stati sottoposti a screening. Si tratta di 7155 pazienti assegnati dalla
randomizzazione allo screening e compliant a questo trattamento + 982 pazienti violatori del protocollo (erano stati
assegnati dalla randomizzazione a non essere sottoposti a screening ma poi l’ hanno fatto lo stesso). Il totale è
7155+982= 8137 pazienti. In questo gruppo sono stati riscontrati in tutto 4+1 = 5 decessi per carcinoma prostatico.
La mortalità per carcinoma prostatico (Rischio Assoluto) in questi pazienti ‘effettivamente sottoposti a screening’ è
data da 5/8137 = 0,0006144 (0,61 per mille).
B) Pazienti che effettivamente non sono stati sottoposti a screening. Si tratta di 14.255 pazienti assegnati dalla
randomizzazione a non essere sottoposti a screening (compliant al protocollo) + 23.801 pazienti violatori del protocollo
(erano stati assegnati dalla randomizzazione ad essere sottoposti a screening ma poi non l’ hanno fatto). Il totale è
14.255 + 23.801 = 38.056 pazienti In questo gruppo sono stati riscontrati 93+44 = 137 decessi. La mortalità per
carcinoma prostatico (Rischio Assoluto) in questi pazienti ‘effettivamente non sottoposti a screening’ è data da
137/38056 = 0.0035 (3.5 per mille).
I risultati sono clamorosamente a favore dell’ efficacia dell’intervento (PSA esplorazione rettale) nel ridurre la mortalità
per carcinoma prostatico, con significatività statistica: RR = 0.17 (0.06-0.41) [NB: Nell' articolo originale i dati
vengono riportati in formato diverso ossia sotto forma di RRR calcolata attraverso il rapporto tra i tassi di incidenza:
0,69 P<0.01] .Se gli autori avessero correttamente analizzato i dati in base al principio Intention to Treat i gruppi a
confronto sarebbero invece stati: 1) pazienti randomizzati al gruppo di intervento (si screening) : 30.956. In questo
gruppo sono stati registrati 97 decessi (4 tra i ‘compliant’ e 93 tra i ‘no compliant’). La mortalità è quindi pari a
97/30.956 = 0.0031 (3.1 per 1000). 2) Pazienti randomizzati al gruppo di controllo (no screening): 15.237. In questo
gruppo sono stati registrati 45 decessi (44 tra i ‘compliant’ e 1 tra i ‘no compilant’). La mortalità è quindi pari a
45/15237 = 0.0029 (2.9 per 1000) .
La differenza tra i due bracci in questo caso non è statisticamente significativa: RR =1.06 (0.74-1.51)
c. Adeguatezza della durata del follow-up
La lunghezza del follow-up deve essere adeguata alla possibilità di rilevare l’ outcome. Ad
esempio in uno studio di efficacia dove si valuti un farmaco contro l’ ipercolesterolemia basterà
un follow-up di un mese per rilevare modifiche nella colesterolemia ma occorreranno almeno
cinque anni per rilevare modifiche in termini di mortalità tra i due bracci.
© 2006 Progettoasco.it