5. I due gruppi a confronto mantengono la confrontabilità anche durante la conduzione dello studio? Stesura: Luglio 2006 A cura di: Alessandro Battaggia, Area Cardiovascolare SIMG Titolo: Critical Appraisal di uno studio di intervento: come giudicare la qualità metodologica A) Sono state adottate tecniche di mascheramento anche durante la conduzione del trial? Condizione ideale per un RCT è che la ‘doppia cecità’ venga mantenuta anche durante la conduzione della ricerca. E' stato infatti dimostrato che gli studi non in doppio cieco sopravvalutano del 13% l’ efficacia degli interventi sanitari. Il mascheramento (oltre che al momento dell’ allocation) dovrebbe essere garantito anche nelle fasi di seguito descritte: Somministrazione degli interventi: l’ operatore addetto alla distribuzione dei trattamenti e il paziente ignorano per tutta la conduzione dello studio il braccio a cui è stato assegnato il paziente (nella fattispecie, la natura del prodotto somministrato) 2. Raccolta dei dati: l’ operatore incaricato di raccogliere i dati clinici e il paziente ignorano il braccio a cui è stato assegnato il paziente 3. Valutazione dei risultati: l’ operatore addetto alla interpretazione dei dati e il paziente ignorano il braccio a cui è stato assegnato il paziente. La cecità nella rilevazione dei risultati rappresenta l' unico sistema di mascheramento nelle ricerche in cui è paradossale o impossibile che il ricercatore e il paziente non conoscano il braccio di randomizzazione (es: trial chirurgici; trial di psicoterapia..) 1. B) La Qualità del follow-up è risultata adeguata? a. Perdite al follow-up (Drop-outers = pazienti di cui non si conosce l’ esito) Se la perdita al follow-up nei due bracci avviene in modo simmetrico e se le caratteristiche dei pazienti persi sono equiparabili a quelle dei pazienti che rimangono nello studio l’ unico problema è rappresentato da una perdita di potenza statistica della ricerca in seguito alla riduzione della numerosità campionaria. Purtroppo è molto raro che questo accada in quanto il fenomeno delle perdite al follow-up non avviene in modo random. In altri termini i pazienti persi hanno il più delle volte caratteristiche diverse da quelle dei pazienti che rimangono nello studio e in più il fenomeno si realizza in modo diverso nei due bracci. Se le perdite al follow-up sono rilevanti è gravemente compromessa la attendibilità della ricerca ; lo sbilanciamento dei fattori prognostici tra i due bracci che consegue alle perdite al follow-up è definito allora "attrition bias". Per esempio se le condizioni di pazienti esposti ad un determinato farmaco sono talmente precarie da non consentire al paziente di recarsi ai controlli previsti dal follow-up il braccio dei trattati viene impoverito dei pazienti caratterizzati da peggior prognosi, con distorsione dei risultati espressa da un sovradimensionamento degli effetti benefici del farmaco Non c’è accordo in letteratura sul livello critico di queste perdite al follow-up. Sackett considera inaffidabile una ricerca con perdite al follow-up superiori al 20% e questo limite è stato recepito anche da riviste secondarie come Evidence Based Medicine e ACP Journal Club, che rifiutano di pubblicare ricerche in cui la perdita al follow-up sia maggiore del 20% (Sackett DL et al Evidence Based medicine – How to practice and teach EBM Second edition Churchill Livingstone 2001 ISBN 0443062404). Altri autori considerano inaccettabili perdite superiori al 10%. Il miglior modo di rimediare al fenomeno delle perdite al follow-up è cercare di prevenirle. Per esempio l’ arruolamento potrebbe essere limitato alla scelta di individui che offrono fin dall’ inizio garanzie di completare il follow-up. Questa scelta però è pericolosa per la trasferibilità dei dati alla popolazione ‘reale’ (validità esterna della ricerca) in quanto l’ arruolamento seleziona in tal caso una popolazione ‘artificiale’ costituita da individui particolarmente ‘compliant’. Valide alternative potrebbero essere rappresentate dalla programmazione ex ante di metodi particolari di raccolta dei dati. Per esempio informazioni sullo stato di salute del paziente potrebbero essere estratte da familiari o da amici o dai medici curanti qualora nel corso della ricerca il peggioramento delle condizioni cliniche non consentisse al paziente di recarsi ai controlli previsti dal follow-up . Anche la registrazione della targa del veicolo del paziente potrebbe essere utille per rintracciarlo in caso di eventuali cambi di indirizzo. Sensitivity Analysis La robustezza delle conclusioni di uno studio con perdite al follow-up significative possono essere saggiate con tecniche di Sensitivity Analysis , in cui vengono immaginati scenari diversi attribuendo il peggior esito o rispettivamente il miglior esito possibile ai pazienti persi al followup. Questi scenari immaginari sono quattro: peggior esito possibile attribuito sia ai persi al follow-up del braccio di intervento che ai persi al follow-up del braccio di controllo : i risultati di efficacia del trial vengono calcolati immaginando che tutti i pazienti persi abbiano avuto l' evento 2. miglior esito possibile attribuito sia ai persi al follow-up del braccio di intervento che ai persi al follow-up del braccio di controllo : i risultati di efficacia del trial vengono calcolati immaginando che nessun paziente perso abbia avuto l' evento 3. peggior esito possibile attribuito ai persi al follow-up del braccio di intervento e miglior esito possibile attribuito ai persi al follow-up del braccio di controllo: i risultati di efficacia del trial vengono calcolati immaginando che i pazienti persi nel braccio di intervento abbiano avuto l' evento e che i pazienti persi nel braccio di controllo non abbiano avuto l' evento. 4. miglior esito possibile attribuito ai persi al follow-up del braccio di intervento e peggior esito possibile attribuito ai persi al follow-up del braccio di controllo :i risultati di efficacia del trial vengono calcolati immaginando che i pazienti persi nel braccio di controllo abbiano avuto l' evento e che i pazienti persi nel braccio di intervento non abbiano avuto l' evento 1. Alla luce di ciascuno di questi quattro scenari, se le conclusioni originali del lavoro non vengono troppo stravolte possono essere accettate perchè sufficientemente ‘robuste’(Hollis , BMJ 1999 319:670). E' comunque da ribadire che nessun tipo di analisi potrà salvare un trial caratterizzato da eccessive perdite al follow-up: i pazienti di cui non si conosce l' outcome rappresentano uno dei problemi più importanti da affrontare nella programmazione di una ricerca e nella valutazione dei suoi risultati Nello studio ARTEMIS (BMJ 2006;332:325) una nuova eparina a basso peso molecolare, (fondaparinux) è stata confrontata con placebo in soggetti ospedalizzati e allettati per patologie internistiche ; l' outcome primario era l' endpoint composito 'trombosi profonde diagnosticate flebograficamente + tromboembolie sintomatiche'). Sono stati randomizzati ai due bracci 849 pazienti. 205 pazienti (vale a dire il 24.1% dell' intera casistica) sono stati persi al follow-up. Nei 644 pazienti analizzati la somministrazione di fondaparinux confrontata con placebo ha comportato una significativa riduzione dell' incidenza di questo end-point (ARi = 0.056; ARc = 0.105; RRR = 0.467 ,IC95% 0.0770.693, P=0.029. L' analisi dei dati degli autori è quindi una analisi "Per Protocol" (vedi oltre) in quanto ha escluso dal denominatore tutti i pazienti in cui non è stato possibile rilevare l' outcome. Se i dati vengono rianalizzati secondo il più corretto principio 'Intention to Treat' (vedi oltre: nel calcolo dei Rischi Assoluti dell' evento il denominatore è in questo caso rappresentato da tutti i pazienti inizialmente randomizzati a quel braccio) nei 4 scenari della Sensitivity Analysis la significatività dei risultati viene mantenuta nello scenario I "miglior prognosi in entrambi i bracci" : RRR = 0.48 (0.70-->0.09) e nello scenario III "miglior prognosi nel braccio di intervento, peggior prognosi nel braccio di controllo": RRR 0.86 (0.91-->0.78). La significatività viene invece persa nello scenario II "peggior prognosi in entrambi i bracci" RRR 0.05 (0.2-->-0.15) mentre nello scenario IV "peggior prognosi nel braccio di intervento, miglior prognosi nel braccio di controllo" la direzione dell' effetto addirittura si inverte (RRR -2.62 (-1.54-->-4.16) E' evidente che in presenza di un numero così elevato di soggetti per i quali non si conosce l' outcome non possiamo accettare con fiducia le conclusioni dello studio ARTEMIS : non solo per quanto riguarda l' intensità dell' effetto, ma anche per quanto riguarda la sua stessa direzione. b. Violazioni del protocollo Le violazioni del protocollo sono rappresentate dai pazienti che per qualche motivo non hanno rispettato il protocollo dello studio ma di cui si conosce l’ outcome. Si tratta dei 'cross-overs' e dei 'non compliant'. Il fenomeno dei cross-overs, chiamati anche drop-ins (ossia il passaggio al braccio di controllo di pazienti inizialmente assegnati al braccio di intervento o –viceversa- il passaggio al braccio di intervento di pazienti inizialmente assegnati al braccio di controllo) e il fenomeno dei non compliant (pazienti che non hanno assunto alcun trattamento previsto dalla sperimentazione ma di cui alla fine della sperimentazione si conosce l’ esito) può essere affrontato dai ricercatori in tre modi. Il punto critico è espresso dal modo in cui viene calcolata la frequenza dell’ outcome in ciascun braccio (=Rischio Assoluto dell' Outcome nel braccio). I- Analisi ‘per protocol’ La frequenza dell’ outcome in ciascuno dei due bracci viene calcolata escludendo dal denominatore i pazienti di quel braccio che non hanno rispettato il protocollo. Questa soluzione può gravemente distorcere i risultati in quanto ignorare i pazienti che hanno violato il protocollo equivale a considerarli 'drop-outers' ossia persi al follow-up, con tutte le conseguenze già segnalate (vedi sopra). II- Analisi ‘as treated' Vengono creati in questo caso due gruppi artificiali a confronto. Il primo gruppo è rappresentato da tutti i pazienti che sono stati effettivamente trattati con l’ intervento sotto studio (è costituito dalla somma dei pazienti inizialmente assegnati al braccio di intervento e che sono rimasti in questo braccio lungo tutta la durata della ricerca e dei pazienti inizialmente assegnati al braccio di ‘controllo’ ma che –cross-overs- sono successivamente passati nel braccio di intervento). Il secondo gruppo è rappresentato dai pazienti che per qualche motivo non hanno ricevuto l' intervento sotto studio ‘(è costituito dalla somma dei pazienti inizialmente assegnati al braccio di ‘controllo’ e che sono rimasti in questo braccio lungo tutta la durata della ricerca e dei pazienti inizialmente assegnati al braccio di intervento ma che -crossovers- sono successivamente passati nel braccio di controllo o che -non compliant all’ intervento- hanno semplicemente smesso di assumere l’ intervento). Per ciascun gruppo viene poi calcolata la frequenza dell’ outcome mettendo al denominatore la somma di tutti i soggetti che rappresentano il gruppo. Anche questo metodo può creare gravi distorsioni dei risultati finali in quanto annulla i vantaggi offerti dalla randomizzazione. Infatti ciascuno dei due gruppi artificiali che vengono messi a confronto è formato da un mix di pazienti randomizzati inizialmente all' uno e all' altro braccio. Ciò crea gravi problemi nella distribuzione dei fattori prognostici e nella 'confrontabilità' dei due bracci. III- Analisi ‘intention to treat’: La frequenza dell’ outcome in ciascuno dei due bracci viene calcolata mettendo al denominatore tutti i pazienti inizialmente assegnati a quel braccio , non tenendo conto quindi di eventuali cross-overs o di non compliant a quel braccio emersi in tempi successivi alla randomizzazione. Questa procedura quindi non tiene conto delle violazioni del protocollo ma anziché escluderle dall’ analisi (come fa l’ analisi Per Protocol --> vedi) registra entro ciascun braccio gli eventi che riguardano i pazienti ‘compliant’ assieme agli eventi che riguardano i pazienti che hanno violato il protocollo. Questo tipo di analisi prende il nome di ‘Analysis Intention To treat’ (ITT). Non è facile per il clinico digerire una ‘Analisi Intention to Treat’ in quanto appare irrazionale considerare nei calcoli anche gli eventi dei pazienti che non hanno rispettato le regole del protocollo. Tuttavia questa procedura presenta notevoli vantaggi. La ITT è infatti il miglior compromesso per mantenere intatti i vantaggi della randomizzazione. La randomizzazione ha lo scopo di rendere i due bracci assolutamente identici nelle condizioni di base. In questo modo le differenze che osserveremo tra il braccio di intervento e il braccio di controllo non potranno che essere spiegate dall’ effetto del trattamento sotto studio. La randomizzazione rende i due bracci uguali (a patto che la numerosità del campione sia adeguata) in quanto come detto distribuisce in modo assolutamente stocastico tutti i fattori prognostici noti e ignoti. Una analisi ‘as treated’ implica invece il confronto di 2 gruppi ‘artificiali’, ciascuno formato da un mix di pazienti randomizzati ai 2 bracci opposti. Una analisi ‘per protocol’ escludendo i pazienti che per qualche motivo non hanno assunto il farmaco composta inevitabilmente la selezione di una casistica (quella dei pazienti rimasti nel braccio) più ‘resistente’ ad esempio agli effetti collaterali del trattamento, cosa che abbiamo verificato nello scenario illustrato. La ITT rispecchia fedelmente quello che avviene in condizioni ‘reali’. La compliance al trattamento è infatti estremamente variabile nei pazienti che si osservano nella pratica quotidiana e non avrebbe senso non tener conto di ciò selezionando, per i confronti statistici, solo popolazioni caratterizzate da una compliance’ ideale’. Un clamoroso esempio di distorsione dei risultati associato ad una analisi 'As Treated' è offerto dal trial "Screening decrease prostate cancer death" di Labrie F et Al (The Prostate 1999 38:83). Furono reclutati 46193 pazienti di età da 45 a 80 anni in un trial randomizzato e controllato rivolto ad esplorare l’efficacia (in termini di riduzione di mortalità specifica) di un programma di screening del carcinoma prostatico. Lo screening era basato sulla esplorazione rettale e sul dosaggio del PSA. La mortalità per carcinoma della prostata fu registrata in un periodo di follow-up compreso tra il 1989 e il 1996 . Tra i pazienti reclutati nello studio 30956 furono assegnati in modo random al braccio di intervento (screening) ; 15237 al braccio di controllo (non screening). Lo screening fu applicato a 7155 pazienti randomizzati al gruppo di intervento (Gruppo A: 4 decessi) mentre 23801 pazienti dello stesso braccio non furono sottoposti a questa procedura (Gruppo D: 93 decessi). Nel gruppo randomizzato al braccio di controllo 14255 pazienti seguirono il protocollo (Gruppo B: 44 decessi) mentre 982 vennero comunque sottoposti a screening (Gruppo C: 1 decesso). Negli 8137 pazienti sottoposti a screening furono quindi registrati 5 decessi per carcinoma della prostata , contro 137 decessi registrati nei 38056 pazienti non sottoposti a screening . Conclusioni degli autori:(...) lo studio dimostra, per la prima volta, una drammatica riduzione dei decessi dovuto a cancro della prostata nei pazienti sottoposti a screening.I dati dell’ articolo (gli autori tra l' altro non riportano alcuna perdita al follow-up e ciò desta molta meraviglia in un trial di 46193 pazienti!) permettono di risalire facilmente al rischio assoluto di morte per cancro prostatico. I gruppi messi a confronto sono : A) Pazienti che effettivamente sono stati sottoposti a screening. Si tratta di 7155 pazienti assegnati dalla randomizzazione allo screening e compliant a questo trattamento + 982 pazienti violatori del protocollo (erano stati assegnati dalla randomizzazione a non essere sottoposti a screening ma poi l’ hanno fatto lo stesso). Il totale è 7155+982= 8137 pazienti. In questo gruppo sono stati riscontrati in tutto 4+1 = 5 decessi per carcinoma prostatico. La mortalità per carcinoma prostatico (Rischio Assoluto) in questi pazienti ‘effettivamente sottoposti a screening’ è data da 5/8137 = 0,0006144 (0,61 per mille). B) Pazienti che effettivamente non sono stati sottoposti a screening. Si tratta di 14.255 pazienti assegnati dalla randomizzazione a non essere sottoposti a screening (compliant al protocollo) + 23.801 pazienti violatori del protocollo (erano stati assegnati dalla randomizzazione ad essere sottoposti a screening ma poi non l’ hanno fatto). Il totale è 14.255 + 23.801 = 38.056 pazienti In questo gruppo sono stati riscontrati 93+44 = 137 decessi. La mortalità per carcinoma prostatico (Rischio Assoluto) in questi pazienti ‘effettivamente non sottoposti a screening’ è data da 137/38056 = 0.0035 (3.5 per mille). I risultati sono clamorosamente a favore dell’ efficacia dell’intervento (PSA esplorazione rettale) nel ridurre la mortalità per carcinoma prostatico, con significatività statistica: RR = 0.17 (0.06-0.41) [NB: Nell' articolo originale i dati vengono riportati in formato diverso ossia sotto forma di RRR calcolata attraverso il rapporto tra i tassi di incidenza: 0,69 P<0.01] .Se gli autori avessero correttamente analizzato i dati in base al principio Intention to Treat i gruppi a confronto sarebbero invece stati: 1) pazienti randomizzati al gruppo di intervento (si screening) : 30.956. In questo gruppo sono stati registrati 97 decessi (4 tra i ‘compliant’ e 93 tra i ‘no compliant’). La mortalità è quindi pari a 97/30.956 = 0.0031 (3.1 per 1000). 2) Pazienti randomizzati al gruppo di controllo (no screening): 15.237. In questo gruppo sono stati registrati 45 decessi (44 tra i ‘compliant’ e 1 tra i ‘no compilant’). La mortalità è quindi pari a 45/15237 = 0.0029 (2.9 per 1000) . La differenza tra i due bracci in questo caso non è statisticamente significativa: RR =1.06 (0.74-1.51) c. Adeguatezza della durata del follow-up La lunghezza del follow-up deve essere adeguata alla possibilità di rilevare l’ outcome. Ad esempio in uno studio di efficacia dove si valuti un farmaco contro l’ ipercolesterolemia basterà un follow-up di un mese per rilevare modifiche nella colesterolemia ma occorreranno almeno cinque anni per rilevare modifiche in termini di mortalità tra i due bracci. © 2006 Progettoasco.it