[CRITICAL APPRAISAL] Critical Appraisal di uno studio di intervento: come giudicare la qualità metodologica Stesura: Luglio 2006 A cura di: Alessandro Battaggia, Area Cardiovascolare SIMG Titolo: Critical Appraisal di uno studio di intervento: come giudicare la qualità metodologica • • • • • • • • • • • 1. Esiste un braccio di controllo? 2. Le dimensioni del campione (sample size) sono adeguate? 3. Lo studio ha espresso con chiarezza l' ipotesi da testare? 4. I due gruppi a confronto sono caratterizzati da identiche condizioni di partenza? 5. I due gruppi a confronto mantengono la confrontabilità anche durante la conduzione dello studio? 6. Sono stati scelti outcome adeguati? 7. Come è stato espresso il risultato di efficacia? 8. Come è stata espressa la precisione della stima? 9. Come sono state interpretate le analisi secondarie? A) Sinossi delle misure di Efficacia B) Sinossi degli elementi di validità metodologica di uno studio di intervento Cos'è uno studio d'intervento? In uno studio di intervento il ricercatore sottopone in modo attivo i partecipanti a una procedura potenzialmente in grado di condizionare la frequenza di un un evento o di modificare specifiche caratteristiche basali. Per esempio un 'intervento' può essere rappresentato da un farmaco antiipertensivo potenzialmente in grado di ridurre la mortalità (=evento) o di ridurre i valori iniziali di pressione arteriosa (=caratterstica basale). Va detto subito che la 'riduzione della mortalità' rappresenta un outcome 'maggiore', in quanto è un risultato direttamente e fortemente legato a modifiche dello stato di salute. La 'riduzione dei valori pressori' rappresenta al contrario un 'outcome surrogato', in quanto il legame con la salute è molto meno stretto. Per fare un esempio non è detto che un farmaco in grado di abbassare la pressione sia anche in grado di ridurre la mortalità. Uno studio di intervento può essere valutato sotto due punti di vista. • • Innanzitutto occorre considerare la sua qualità metodologica: una ricerca di cattiva qualità è un prodotto costoso ed inutile, anzi dannoso in quanto produce messaggi fuorvianti. In secondo luogo occorre valutare la utilità pratica dei suoi risultati, ossia se le conclusioni possono essere trasferite a popolazioni diverse da quella che ha generato il campione. Per esempio un trial eseguito sui Pigmei, anche se ben fatto, può produrre risultati non trasferibili ad una popolazione indoeuropea. La qualità metodologica di una ricerca coincide con la sua Validità Interna; la trasferibilità dei risultati con la sua Validità Esterna. 1. Esiste un braccio di controllo? La presenza di un braccio di controllo è conditio sine qua non per giudicare l' affidabilità di uno studio di intervento. Quello che avviene nel braccio di controllo esprime infatti quello che sarebbe successo se non fosse stato applicato l' intervento. Tutto ciò fornisce indispensabili informazioni sul guadagno netto di salute associato all' intervento. Per esempio se in un trial in cui viene valutata l' efficacia di un farmaco nel prevenire un evento fatale la mortalità nel gruppo di controllo è pari al 20% e la mortalità nel gruppo di intervento è pari al 10% il guadagno netto in termini di salute corrisponde a 0.2-0.1 = 0.1 = 10%. Significa che su cento soggetti trattati dieci moriranno comunque, ma dieci si salveranno la vita perchè non applicando l' intervento sarebbero morti non dieci ma venti soggetti ogni cento persone affette da quella malattia. A) Gli studi di intervento non controllati sono rappresentati dai disegni 'prima-poi'. Kitchell (Am J Card 1958 1:46) nel 1958 aveva pubblicato uno studio condotto su una coorte di 50 pazienti affetti da angina pectoris, riportando in un follow-up di 2-6 mesi "miglioramenti clinici nel 64% dei casi". Si tratta di un tipico esempio di studio di intervento non controllato (prima-poi). L' anno dopo (NEJM 1959 260:1115) l' esperienza fu ripetuta da Cobb et al in un disegno randomizzato e controllato in cieco semplice ( ai controlli veniva praticata solo una incisione a livello della cute del torace) . Contrariamente a quanto osservato da Kichell non fu riscontrata alcuna differenza tra un braccio e l' altro. Da allora la legatura dell' arteria mammaria nei pazienti anginosi non è stata più praticata, anche se i risultati del secondo studio (8 pazienti nel braccio di intervento, 9 pazienti nel braccio di controllo -vedi oltre- ) avrebbero sicuramente dovuto essere confermati su casistiche più grandi. B) Studi di intervento controllati a. RCT (studi Randomizzati e Controllati) Il golden standard per uno studio di intervento è rappresentato dal disegno RCT, in cui i pazienti vengono assegnati a i due (o più) bracci in modo casuale attraverso metodiche validate. Il vantaggio più grande degli RCT è rappresentato dalla garanzia che i due gruppi a confronto siano praticamente identici nelle condizioni di base. In questa situazione il riscontro di diversità tra un braccio e l' altro nella misura di un outcome alla fine della ricerca potrà essere ragionevolmente spiegato dalla diversità dei trattamenti rispettivamente assegnati (vedi oltre) b. Studi di intervento Quasi-Randomizzati Si definisce ‘quasi randomizzato’ uno studio "randomizzato in modo incongruo", per esempio utilizzando i numeri pari della data di nascita per assegnare il paziente al braccio di intervento e i numeri dispari per assegnare il paziente al braccio di controllo. Questo termine dovrebbe essere evitato in quanto può erroneamente far pensare che la qualità di queste ricerche sia solo di poco inferiore a quella degli RCT. In realtà gli studi 'quasi randomizzati' sono molto soggetti a bias. Gli studi in cui l’allocation concealment è eseguita in modo scorretto sopravvalutano infatti del 40% l’ efficacia degli interventi sanitari. c. Studi di intervento Non-Randomizzati (Studi Quasi-Sperimentali; Controlled Trial o CT) Uno studio di intervento dichiaratamente 'Non Randomizzato' offre paradossalmente maggiori garanzie di uno studio Quasi-Randomizzato. Infatti mentre gli studi QuasiRandomizzati pretendono di assumere connotati di qualità che non possiedono, con grave rischio -come visto- di distorsioni interpretative, negli studi Non randomizzati i ricercatori mettono sempre in essere accorgimenti statistici rivolti a migliorare la confrontabilità dei due bracci. Infatti le tecniche di analisi multivariata consentono di confrontare i due gruppi per una singola variabile 'a parità di tutte le altre'. In nessun caso questi aggiustamenti potranno però garantire la qualità dei confronti offerta dalla randomizzazione. Infatti i modelli di analisi multivariata prendono in considerazione ovviamente solo variabili conosciute: l'influenza di una variabile ignota non può essere in alcun modo prevista in questi calcoli. Al contrario una randomizzazione efficace permette di bilanciare equamente la distribuzione di tutte le variabili note ed ignote potenzialmente in grado di influenzare l'outcome in modo indipendente dall' intervento. 2. Le dimensioni del campione (sample size) sono adeguate? Quando va sospettata una insufficiente numerosità del campione? Una insufficiente numerosità campionaria andrebbe sospettata in queste emblematiche situazioni a. Le caratteristiche basali dei soggetti randomizzati non risultano perfettamente bilanciate tra un braccio e l' altro nonostante la allocation sia stata ben condotta . In questi casi la asimmetria nella distribuzione dei fattori prognostici non è giustificata da un bias di selezione ma solamente dall' errore random (vedi oltre). Di solito le caratteristiche basali dei gruppi a confronto sono raffigurate nella tabella 1 dell' articolo. b. Gli intervalli di confidenza del risultato di efficacia del trial sono molto larghi , ossia la stima non è molto precisa (vedi oltre) Sample size e precisione della stima Uno studio non viene condotto sulla intera popolazione ma piuttosto su un campione di soggetti obbedienti a determinati criteri di inclusione (population study). Il risultato estratto dal campione (si chiama: 'stima puntuale') rappresenta quindi solo una proxy del risultato 'reale'. Il risultato 'reale' è quello che avremmo invece rilevato nella popolazione qualora la ricerca fosse stata estesa a tutti i soggetti con caratteristiche identiche a quelle dei pazienti reclutati nel campione. La statistica inferenziale è in grado di valutare in che misura l' informazione estratta dal campione ('stima puntuale') sia 'rappresentativa' di questo 'risultato 'reale'. Il primo concetto da assimilare è che la precisione di una 'stima puntuale' è direttamente proporzionale alla numerosità del campione. Campioni piccoli produrranno quindi stime imprecise; campioni grandi stime più precise. Un esempio indiretto del grado di precisione di una stima può essere fornito dai risultati prodotti da varie serie di lanci di una moneta. In condizioni ideali (superficie di rimbalzo piatta e indeformabile, assenza di vento, moneta perfettamente bilanciata, eccetera) per ogni lancio la probabilità 'indiscussa' di fare testa è 50% (P=0.5). Verifichiamo ora se i risultati prodotti da un "campione" di lanci coincidono con quelli "reali". Lanciamo quindi in aria la moneta per dieci volte. Con un numero di lanci così basso la percentuale di teste e di croci ripetendo più volte l' "esperimento" sarà molto variabile. Se il risultato di una serie di lanci viene interpretato come "stima del risultato reale" le "stime" prodotte da diverse serie di dieci lanci saranno quindi molto imprecise. Per esempio potremo ottenere una prima volta 2 teste su 10 lanci (Stima: P= 0.2) ; una seconda volta 8 teste su 10 lanci (Stima: P=0.8) e così via. Usando invece serie di molti lanci (=ossia 'campioni' grandi) la variabilità sarà molto minore, con valori delle 'stime' sempre più più vicini a quello 'reale' (P=0.5) a seconda del numero di lanci di volta in volta effettuato. Un problema generale connesso al reclutamento di piccoli campioni è quindi rappresentato dalla grande varianza dei loro risultati . Ripetendo più volte la stessa ricerca in identiche condizioni le "stime puntuali" di volta in volta generate potranno in altri termini essere caratterizzate da valori ora più grandi, ora più piccoli , ora uguali al risultato 'reale' solo per effetto del caso. Piccoli campioni "forniscono pertanto stime assai imprecise della realtà" Come misurare la precisione di una stima La precisione di una stima può comunque essere misurata attraverso gli "intervalli di confidenza ", facilmente calcolabili per qualunque misura di efficacia (vedi oltre). Gli intervalli di confidenza al 95% esprimono infatti un range di valori entro cui è compreso con una attendibilità pari al 95% il valore 'reale' che riscontremmo nella popolazione generale arruolando tutti i soggetti con caratteristiche identiche a quelli reclutati dal trial. Ripetendo innumerevoli volte la stessa ricerca, nel 95% dei casi i risultati di volta in volta prodotti cadrebbero quindi entro quel range. I test statistici Per definire se la differenza tra un braccio e l' altro "è reale" ossia "significativa" ossia "non dovuta al caso" si utilizzano oltre agli intervalli di confidenza (vedi più avanti) anche i "test statistici di significatività". Quasiasi test statistico parte dall' ipotesi nulla, cioè dal presupposto che "non esistano differenze reali tra i due bracci". Se l' ipotesi nulla viene accettata la eventuale differenza tra i due bracci viene interpretata come puro effetto del caso. Se l' ipotesi nulla viene ricusata la differenza tra i due bracci viene considerata reale (quindi spiegata dalla dversità degli interventi somministrati e non dall' effetto del caso). Ora: i valori della P prodotti da qualsiasi test statistico quantificano esattamente la probabilità che il risultato rilevato sia solo dovuto al caso. Per convenzione statistica una probabilità inferiore a 1/20 (ossia: P<0.05) viene considerata tanto piccola da essere trascurabile. Ecco allora che se un test statistico produce una P <0.05 siamo autorizzati a ricusare l' ipotesi nulla e ad affermare che la differenza riscontrata tra i due bracci è "reale", cioè "non dovuta al caso", cioè "significativa". Invece se il test produce una P> 0.05 la probabilità che il risultato "sia dovuto al caso" non può essere trascurata: pertanto l' ipotesi nulla viene abbracciata e il risultato viene definito "non significativo". Come si calcola il sample size Affinchè i risultati di un trial forniscano stime credibili la numerosità del campione deve essere determinata "ex ante". Il calcolo deve tener conto (a) della differenza nella misura dell’ outcome che si prevede -ex ante- di rilevare tra i due bracci (b) dell’ errore alfa accettato (c) della potenza statistica accettata; per le variabili intervallari anche (d) della deviazione standard della variabile nella popolazione. a. b. c. Occorre in primo luogo quantificare ex ante la differenza del fenomeno che ci si aspetta di rilevare ex post tra un braccio e l' altro. Per esempio la numerosità campionaria dello studio ASCOT-BPLA (Lancet 2005; 366: 895–906) è stata calcolata prevedendo una potenza statistica dell' 80% nel rilevare per l' outcome primario <morti CHD + Infarti non fatali> un Hazard Ratio pari a 0.84 con livelli di errore alfa pari a 0.05. Significa che nel progettare la ricerca gli autori avevano previsto che l' intervento potesse abbassare del 16% il rischio basale di outcome primario (l' Hazard Ratio corrisponde ad un Rischio Relativo ed esprime la frazione di rischio basale rimasta dopo l' intervento - vedi oltre). L’ errore "alfa" è la probabilità di considerare erroneamente 'non casuale' una differenza tra i due bracci dovuta in realtà al caso. Per convenzione statistica si definisce ‘non casuale’ (= ‘statisticamente significativa’) una differenza tra i due bracci con una probabilità inferiore al 5% di essere dovuta al caso (P<0.05). La ‘potenza statistica’ (statistical power) esprime la capacità dello studio di rilevare differenze tra i due bracci qualora esse effettivamente esistano. L’ "errore beta" è l’ inverso della ‘potenza statistica’. Se vengono espressi in numeri decimali l’ errore beta è dato dalla sottrazione (1-potenza) : con un errore beta pari a 0.1 la potenza statistica è 0.9 . L’ errore beta esprime la probabilità di considerare falsamente "dovuta al caso" una differenza tra i due bracci che in realtà "esiste". La potenza statistica di norma accettata in una ricerca corrisponde a 80% - 90%, livelli che a propria volta corrispondono ad un errore beta : P < 0.20 o P < 0.10. Più piccola è la differenza che si prevede di rilevare tra i due bracci, maggiore è il numero di pazienti da reclutare nella ricerca. Cosa succede se la numerosità del campione non è sufficiente? Uno studio sottocampionato : a. b. Potrà non avere la potenza sufficiente a dimostrare la presenza di una differenza "reale" tra i risultati rilevati nel braccio di intervento e nel braccio di controllo. In questo caso produrrà risultati "falsamente non significativi", gravati cioè da errore beta. Potrà produrre risultati "falsamente significativi" . Le dimensioni del campione sono infatti tarate anche su livelli predeterminati di errore alfa (vedi sopra). In un famoso esperimento (CE Counsell et al. The miracle of DICE therapy for acute stroke: fact or fictional product of subgroup analysis? BMJ 1994 309: 1677-1681) erano stati creati a tavolino 44 trial immaginari in ciascuno dei quali il braccio di intervento e il braccio di controllo erano stati confrontati per l' incidenza dell' outcome 'stroke fatale'. Per ogni paziente fittizio il numero 6 ottenuto attraverso il lancio di un dado rappresentava un evento fatale; qualsiasi altro numero rappresentava l' assenza di eventi fatali. Pertanto ciascun 'paziente' aveva una probabilità di decesso per stroke pari a 1/6 = 0.16. I 'trial' erano caratterizzati da diversi 'sample size' (ossia da diverso numero di lanci del dado: da un minimo di 10 a un massimo di 200). Il risultato "reale" coincide in questo caso - ovviamente- con 'assenza di differenze tra un braccio e l' altro' ( in entrambi i bracci la probabilità "reale" dell' evento corrisponde a 0.16). Esprimendo il confronto tra i due bracci nel formato di un Rischio Relativo (vedi oltre) il valore "reale" corrisponde a RR= 1 in quanto 0.16/0.16 = 1 .Come si ci poteva aspettare, nell' esperimento DICE le 'stime puntuali' offerte dai risultati di ciascun 'trial' oscillavano invece per puro effetto del caso intorno al valore <uno> con una variabilità inversamente legata alla dimensione del campione. Due di questi 'trial', entrambi caratterizzati da modeste dimensioni campionarie (rispettivamente 20 e 40 'pazienti' ) avevano prodotto risultati (falsamente) 'statisticamente significativi' a favore del braccio di intervento.' offre paradossalmente maggiori garanzie di uno studio QuasiRandomizzato. Infatti mentre gli studi Quasi-Randomizzati pretendono di assumere connotati di qualità che non possiedono, con grave rischio -come visto- di distorsioni interpretative, negli studi Non randomizzati i ricercatori mettono sempre in essere accorgimenti statistici rivolti a migliorare la confrontabilità dei due bracci. Infatti le tecniche di analisi multivariata consentono di confrontare i due gruppi per una singola variabile 'a parità di tutte le altre'. In nessun caso questi aggiustamenti potranno però garantire la qualità dei confronti offerta dalla randomizzazione. Infatti i modelli di analisi multivariata prendono in considerazione ovviamente solo variabili conosciute : l' influenza di una variabile ignota non può essere in alcun modo prevista in questi calcoli. Al contrario una randomizzazione efficace permette di bilanciare equamente la distribuzione di tutte le variabili note ed ignote potenzialmente in grado di influenzare l' outcome in modo indipendente dall' intervento. 3. Lo studio ha espresso con chiarezza l' ipotesi da testare? I gruppi di studi di intervento Distinguiamo due grandi gruppi di studi di intervento : gli studi di superiorità e gli studi di equivalenza. • • Uno studio di’ superiorità’ serve a stabilire se un intervento è più efficace di un altro intervento. Uno studio di ‘equivalenza’ serve invece a stabilire se un intervento ha una efficacia uguale a quella di un altro intervento. Una variante degli studi di equivalenza è rappresentata dagli studi di ‘non inferiorità’ , che servono stabilire se un intervento è efficace almeno quanto un altro intervento. Tale distinzione non è accademica ma risponde a precise esigenze di calcolo della potenza statistica e a un completo rovesciamento delle ipotesi da testare. Gli studi 'di superiorità' rappresentano la maggioranza dei trial di intervento pubblicati. In uno studio di ‘superiorità’ l’ ipotesi nulla corrisponde all' assunto ‘i due trattamenti hanno una efficacia uguale’ e l’ ipotesi alternativa all' assunto ‘i due trattamenti hanno una efficacia diversa’. La definizione o meno di 'significatività statistica' si basa quindi sulla ricusazione o rispettivamente sulla accettazione dell' ipotesi nulla (vedi sopra). Al contrario, in uno studio di equivalenza l’ ipotesi nulla corrisponde all' assunto ‘i due trattamenti hanno una efficacia diversa’ e l’ ipotesi alternativa all' assunto ‘i due trattamenti hanno una efficacia uguale’. Abbiamo visto che anche nelle condizioni in cui non è materialmente possibile che il risultato "reale" di un trattamento sia diverso nei due bracci (vedi sopra: trial DICE) esisteranno sempre e comunque in un campione lievi differenze tra i risultati rilevati in un braccio e l' altro giustificate solo dalla casualità con cui il campione è stato estratto dalla popolazione. In uno studio di equivalenza è importante specificare il significato clinico di queste differenze. In altri termini per definire l’ ‘equivalenza’ dei trattamenti assegnati ai due bracci non basterà stabilire che ‘non esiste significatività statistica per le differenze riscontrate ’ : il concetto di ‘equivalenza’ implica infatti una precisa definizione operativa ,che deve essere stabilita ex ante. Occorre cioè che il ricercatore anticipi con chiarezza nel protocollo il margine di ‘differenza’ tra i risultati prodotti dai due trattamenti che può essere ancora considerato 'accettabile' per considerare ‘equivalente’ la efficacia degli interventi a confronto. Questo range viene definito 'Intervallo di Equivalenza'. Supponiamo che due farmaci producano "nella realtà" effetti assolutamente identici sulla mortalità. Teoricamente quindi tra i due bracci a confro non dovrebbe essere registrata nessuna differenza in termini di mortalità. Per esempio se nel braccio di intervento la mortalità corrisponde al 10% anche nel braccio di controllo dovrebbe corrispondere al 10%. Il confronto tra i due bracci (ossia il risultato di efficacia) dovrebbe allora essere espresso da un Rischio Relativo di morte pari a RR= 0.1/0.1 = 1. La casualità del campionamento comporta però - come visto- la possibilità di osservare differenze tra i due bracci puramente legate al caso (e non ad una azione differenziale dei due trattamenti). Uno studio di equivalenza dovrà allora aver definito con precisione il range di valori della misura di efficacia entro cui dovrà cadere il risultato dello studio affinchè i due trattament possano essere ancora definiti 'equivalenti'. Questo range viene definito 'Intervallo di Equivalenza'. Per esempio gli autori potrebbero giudicare 'accettabile' un Intervallo di Equivalenza rappresentato da valori di RR compresi tra 0.96 e 1.04. Potremo in questo caso definire 'equivalenti' i due trattamenti qualora il rischio basale dell' evento non risulti ridotto dall' intervento più del 4% e non risulti aumentato dall' intervento più del 4% (vedi oltre : RR e RRR). Nota bene: dato che il risultato del trial è sempre e comunque una stima puntuale, esso sarà espresso assieme il rispettivo intervallo di confidenza. Pertanto in questi studi qualora l' intervallo di equivalenza racchiuda al proprio interno tutto l' intervallo di confidenza della stima puntuale la definizione di 'equivalenza' sarà soddisfatta. Al contrario, se almeno un estremo dell' intervallo di confidenza sfonda un estremo dell' intervallo di equivalenza la definizione di 'equivalenza' non sarà soddisfatta. Per soddisfare la condizione di 'equivalenza' le ‘differenze accettabili’ tra i risultati di un braccio e l' altro non potranno che essere ‘piccole’. Pertanto la potenza statistica dello studio -per poterle rilevare (vedi sopra)- dovrà essere grande. Risulta quindi ovvio che gli 'studi di equivalenza' richiedano una numerosità campionaria molto più grande di quella richiesta dagli 'studi di superiorità. Gli autori invece spesso confondono il risultato ’non significativo’ di uno studio di superiorità con un risultato di ‘equivalenza’. Ciò espone il ricercatore ad un alto rischio di errore beta (ossia di "considerare falsamente non significativa una differenza che invece esiste") in quanto la numerosità campionaria del trial non è stata tarata su una ipotesi di equivalenza ma , al contrario, su una ipotesi di superiorità. Nello studio INSHIGHT per esempio (Lancet. 2000 Jul 29;356:366) 6321 pazienti ipertesi furono randomizzatri a Nifedipina e a idroclorotiazide. L' outcome primario era rappresentato da morte cardiovascolare + infarto miocardico + insufficienza cardiaca o stroke . Lo studio era stato tarato su una potenza del 90% per rilevare una differenza relativa del 25% tra un braccio e l' altro . L’ outcome primario fu rilevato nel 6.3% dei pazienti nel gruppo nifedipina e nel 5.8% nel gruppo trattato con diuretici , con risultato" non significativo" (RR 1.10 , 95% CI 0.91-1.34 , p=0.35. ). Gli autori conclusero che <nifedipina e diuretici erano egualmente efficaci nel prevenire complicanze cardiovascolari e cerebrovascolari > . Questa dichiarazione non è corretta in quanto il trial non ha dimostrato che ‘i due trattamenti soni equivalenti" ma piuttosto che "non esistono prove che le differenze riscontrate tra i due bracci non siano dovute al caso". Cosa manca in questa ricerca? Manca un intervallo di equivalenza predefinito. La <non significatività del risultato di efficacia> riscontrata nel trial viene impropriamente confusa con il concetto di <‘equivalenza’ dei due trattamenti>, che non è un concetto statistico ma una precisa definizione clinica. In assenza di un predefinito ' intervallo di equivalenza' non esiste pertanto nessun motivo per dichiarare ‘equivalenti’ due trattamenti solo perchè l’ intervallo di confidenza della misura di efficacia utilizzata contiene il ‘cut’ off che soddisfa l’ ipotesi nulla (per il Rischio relativo è = a uno, vedi oltre). Se uno studio dichiara 'equivalenza' tra i risultati rilevati nei due bracci occorre pertanto verificare attentamente la congruità di questa affermazione . In primis occorre verificare se gli autori hanno esplicitato l' ipotesi di partenza. In uno studio di equivalenza l' ipotesi nulla corrisponde come detto all' assunto "i due trattamenti non sono equivalenti". b. Se non l' hanno fatto o se non risulta chiaro occorre appurare se sia stato specificato nell' articolo alla voce 'materiali e metodi' l' intervallo di equivalenza. In manzanza di un intervallo di equivalenza lo studio deve essere considerato "studio di superiorità". a. 4. I due gruppi a confronto sono caratterizzati da identiche condizioni di partenza? A) Allocation concealment e Randomizzazione Prenderemo come esempio uno studio RCT. L' allocation concealment è il momento più critico di uno studio RCT perchè condiziona la casualità della assegnazione dei pazienti all' uno o all' altro braccio. Se l’ allocation concealment è risultata efficace i due bracci saranno perfettamente identici nelle condizioni di base : le differenze registrate tra un braccio e l’ altro alla fine della ricerca potranno essere così interpretate come conseguenza dell’ intervento studiato. L’ allocation concealment ha tre componenti: 1. Generazione dei numeri random. Se sono state utilizzate tecniche di allocation diverse da quelle formali (tabelle dei numeri random; utilizzo di sistemi computerizzati) occorrerebbe evitare di usare il termine ‘random’. Si definisce ‘quasi randomizzato’ uno studio "randomizzato in modo incongruo", per esempio utilizzando i numeri pari della data di nascita per assegnare il paziente al braccio di intervento e i numeri dispari per assegnare il paziente al braccio di controllo. Questo termine dovrebbe essere evitato in quanto può erroneamente far pensare che la qualità di queste ricerche sia solo di poco inferiore a quella degli RCT. In realtà gli studi 'quasi randomizzati' sono molto soggetti a bias. Per esempio un operatore potrebbe violare la randomizzazione consigliando al paziente di presentarsi in un giorno particolare della settimana per non correre il rischio di essere assegnato la braccio di controllo. 2. Tecnica materiale di allocation. Consiste nella implementazione del processo di randomizzazione. Si tratta cioè del modo concreto con cui il paziente viene destinato ad un braccio o all’ altro. Metodi adeguati sono rappresentati dall’ intervento di una persona estranea alla somministrazione dell’ intervento che assegna il paziente per telefono al trattamento A o al trattamento B, essendo sia il paziente che il personale che consegna materialmente il trattamento assolutamente ignaro della natura di ciò che viene somministrato al paziente. 3. Mascheramento della allocation. L’ allocation concealment presuppone che il paziente dia per iscritto il proprio consenso ad essere inserito in condizioni di ‘cecità’ all’ uno o all’ altro braccio. Il Mascheramento della allocation è uno dei quattro tipi di mascheramento che si dovrebbero implementare in un RCT condotto in modo impeccabile (vedi oltre) . Metodi adeguati sono rappresentati dall’ assegnazione del farmaco A o del farmaco B in contenitori opachi e sigillati. Gli studi in cui l’ allocation concealment è eseguita in modo scorretto sopravvalutano del 40% l’ efficacia degli interventi sanitari. Nonostante l’ importanza dell’ allocation concealment è stato visto che l’ 89% dei trial sull’ artrite reumatoide, il 48% dei trial in ostetricia e ginecologia, e il 44% dei trial in riviste di medicina generale non riportano i dettagli di questa metodica. Solo il 5% dei RCT pubblicati nel 1997 nelle riviste di dermatologia riportava la metodica di allocation utilizzata. B) Come verificare se la randomizzazione è stata efficace? Le caratteristiche dei pazienti randomizzati sono in genere elencate nella tabella 1 dell’ articolo. Se la randomizzazione ha distribuito equamente le caratteristiche basali tra i due gruppi a confronto si può ragionevolmente pensare che ciò si sia verificato anche per le caratteristiche ignote e che i due bracci siano pertanto ben confrontabili anche per i fattori prognostici sconosciuti. In presenza di campioni non numerosi la randomizzazione potrebbe non essere sufficiente a distribuire equamente le caratteristiche di base (vedi sopra). In tal caso gli autori utilizzano in fase di elaborazione dei dati aggiustamenti statistici (analisi multivariata) rivolti ad aumentare la confrontabilità tra i due bracci. Queste tecniche vengono di solito ampiamente utilizzate negli studi controllati non randomizzati. NB: spesso gli autori valutano la presenza o meno di differenze basali tra i due bracci attraverso test di significatività statistica. Ciò non è corretto in quanto tali test rappresentano un elemento di statistica inferenziale e non hanno nulla a che fare con la statistica descrittiva. 5. I due gruppi a confronto mantengono la confrontabilità anche durante la conduzione dello studio? A) Sono state adottate tecniche di mascheramento anche durante la conduzione del trial? Condizione ideale per un RCT è che la ‘doppia cecità’ venga mantenuta anche durante la conduzione della ricerca. E' stato infatti dimostrato che gli studi non in doppio cieco sopravvalutano del 13% l’ efficacia degli interventi sanitari. Il mascheramento (oltre che al momento dell’ allocation) dovrebbe essere garantito anche nelle fasi di seguito descritte: 1. Somministrazione degli interventi: l’ operatore addetto alla distribuzione dei trattamenti e il paziente ignorano per tutta la conduzione dello studio il braccio a cui è stato assegnato il paziente (nella fattispecie, la natura del prodotto somministrato) 2. Raccolta dei dati: l’ operatore incaricato di raccogliere i dati clinici e il paziente ignorano il braccio a cui è stato assegnato il paziente 3. Valutazione dei risultati: l’ operatore addetto alla interpretazione dei dati e il paziente ignorano il braccio a cui è stato assegnato il paziente. La cecità nella rilevazione dei risultati rappresenta l' unico sistema di mascheramento nelle ricerche in cui è paradossale o impossibile che il ricercatore e il paziente non conoscano il braccio di randomizzazione (es: trial chirurgici; trial di psicoterapia..) B) La Qualità del follow-up è risultata adeguata? a. Perdite al follow-up (Drop-outers = pazienti di cui non si conosce l’ esito) Se la perdita al follow-up nei due bracci avviene in modo simmetrico e se le caratteristiche dei pazienti persi sono equiparabili a quelle dei pazienti che rimangono nello studio l’ unico problema è rappresentato da una perdita di potenza statistica della ricerca in seguito alla riduzione della numerosità campionaria. Purtroppo è molto raro che questo accada in quanto il fenomeno delle perdite al follow-up non avviene in modo random. In altri termini i pazienti persi hanno il più delle volte caratteristiche diverse da quelle dei pazienti che rimangono nello studio e in più il fenomeno si realizza in modo diverso nei due bracci. Se le perdite al follow-up sono rilevanti è gravemente compromessa la attendibilità della ricerca ; lo sbilanciamento dei fattori prognostici tra i due bracci che consegue alle perdite al follow-up è definito allora "attrition bias". Per esempio se le condizioni di pazienti esposti ad un determinato farmaco sono talmente precarie da non consentire al paziente di recarsi ai controlli previsti dal follow-up il braccio dei trattati viene impoverito dei pazienti caratterizzati da peggior prognosi, con distorsione dei risultati espressa da un sovradimensionamento degli effetti benefici del farmaco Non c’è accordo in letteratura sul livello critico di queste perdite al follow-up. Sackett considera inaffidabile una ricerca con perdite al follow-up superiori al 20% e questo limite è stato recepito anche da riviste secondarie come Evidence Based Medicine e ACP Journal Club, che rifiutano di pubblicare ricerche in cui la perdita al follow-up sia maggiore del 20% (Sackett DL et al Evidence Based medicine – How to practice and teach EBM Second edition Churchill Livingstone 2001 ISBN 0443062404). Altri autori considerano inaccettabili perdite superiori al 10%. Il miglior modo di rimediare al fenomeno delle perdite al follow-up è cercare di prevenirle. Per esempio l’ arruolamento potrebbe essere limitato alla scelta di individui che offrono fin dall’ inizio garanzie di completare il follow-up. Questa scelta però è pericolosa per la trasferibilità dei dati alla popolazione ‘reale’ (validità esterna della ricerca) in quanto l’ arruolamento seleziona in tal caso una popolazione ‘artificiale’ costituita da individui particolarmente ‘compliant’. Valide alternative potrebbero essere rappresentate dalla programmazione ex ante di metodi particolari di raccolta dei dati. Per esempio informazioni sullo stato di salute del paziente potrebbero essere estratte da familiari o da amici o dai medici curanti qualora nel corso della ricerca il peggioramento delle condizioni cliniche non consentisse al paziente di recarsi ai controlli previsti dal follow-up . Anche la registrazione della targa del veicolo del paziente potrebbe essere utille per rintracciarlo in caso di eventuali cambi di indirizzo. Sensitivity Analysis La robustezza delle conclusioni di uno studio con perdite al follow-up significative possono essere saggiate con tecniche di Sensitivity Analysis , in cui vengono immaginati scenari diversi attribuendo il peggior esito o rispettivamente il miglior esito possibile ai pazienti persi al followup. Questi scenari immaginari sono quattro: 1. peggior esito possibile attribuito sia ai persi al follow-up del braccio di intervento che ai persi al follow-up del braccio di controllo : i risultati di efficacia del trial vengono calcolati immaginando che tutti i pazienti persi abbiano avuto l' evento 2. miglior esito possibile attribuito sia ai persi al follow-up del braccio di intervento che ai persi al follow-up del braccio di controllo : i risultati di efficacia del trial vengono calcolati immaginando che nessun paziente perso abbia avuto l' evento 3. peggior esito possibile attribuito ai persi al follow-up del braccio di intervento e miglior esito possibile attribuito ai persi al follow-up del braccio di controllo: i risultati di efficacia del trial vengono calcolati immaginando che i pazienti persi nel braccio di intervento abbiano avuto l' evento e che i pazienti persi nel braccio di controllo non abbiano avuto l' evento. 4. miglior esito possibile attribuito ai persi al follow-up del braccio di intervento e peggior esito possibile attribuito ai persi al follow-up del braccio di controllo :i risultati di efficacia del trial vengono calcolati immaginando che i pazienti persi nel braccio di controllo abbiano avuto l' evento e che i pazienti persi nel braccio di intervento non abbiano avuto l' evento Alla luce di ciascuno di questi quattro scenari, se le conclusioni originali del lavoro non vengono troppo stravolte possono essere accettate perchè sufficientemente ‘robuste’(Hollis , BMJ 1999 319:670). E' comunque da ribadire che nessun tipo di analisi potrà salvare un trial caratterizzato da eccessive perdite al follow-up: i pazienti di cui non si conosce l' outcome rappresentano uno dei problemi più importanti da affrontare nella programmazione di una ricerca e nella valutazione dei suoi risultati Nello studio ARTEMIS (BMJ 2006;332:325) una nuova eparina a basso peso molecolare, (fondaparinux) è stata confrontata con placebo in soggetti ospedalizzati e allettati per patologie internistiche ; l' outcome primario era l' endpoint composito 'trombosi profonde diagnosticate flebograficamente + tromboembolie sintomatiche'). Sono stati randomizzati ai due bracci 849 pazienti. 205 pazienti (vale a dire il 24.1% dell' intera casistica) sono stati persi al follow-up. Nei 644 pazienti analizzati la somministrazione di fondaparinux confrontata con placebo ha comportato una significativa riduzione dell' incidenza di questo end-point (ARi = 0.056; ARc = 0.105; RRR = 0.467 ,IC95% 0.0770.693, P=0.029. L' analisi dei dati degli autori è quindi una analisi "Per Protocol" (vedi oltre) in quanto ha escluso dal denominatore tutti i pazienti in cui non è stato possibile rilevare l' outcome. Se i dati vengono rianalizzati secondo il più corretto principio 'Intention to Treat' (vedi oltre: nel calcolo dei Rischi Assoluti dell' evento il denominatore è in questo caso rappresentato da tutti i pazienti inizialmente randomizzati a quel braccio) nei 4 scenari della Sensitivity Analysis la significatività dei risultati viene mantenuta nello scenario I "miglior prognosi in entrambi i bracci" : RRR = 0.48 (0.70-->0.09) e nello scenario III "miglior prognosi nel braccio di intervento, peggior prognosi nel braccio di controllo": RRR 0.86 (0.91-->0.78). La significatività viene invece persa nello scenario II "peggior prognosi in entrambi i bracci" RRR 0.05 (0.2-->-0.15) mentre nello scenario IV "peggior prognosi nel braccio di intervento, miglior prognosi nel braccio di controllo" la direzione dell' effetto addirittura si inverte (RRR -2.62 (-1.54-->-4.16) E' evidente che in presenza di un numero così elevato di soggetti per i quali non si conosce l' outcome non possiamo accettare con fiducia le conclusioni dello studio ARTEMIS : non solo per quanto riguarda l' intensità dell' effetto, ma anche per quanto riguarda la sua stessa direzione. b. Violazioni del protocollo Le violazioni del protocollo sono rappresentate dai pazienti che per qualche motivo non hanno rispettato il protocollo dello studio ma di cui si conosce l’ outcome. Si tratta dei 'cross-overs' e dei 'non compliant'. Il fenomeno dei cross-overs, chiamati anche drop-ins (ossia il passaggio al braccio di controllo di pazienti inizialmente assegnati al braccio di intervento o –viceversa- il passaggio al braccio di intervento di pazienti inizialmente assegnati al braccio di controllo) e il fenomeno dei non compliant (pazienti che non hanno assunto alcun trattamento previsto dalla sperimentazione ma di cui alla fine della sperimentazione si conosce l’ esito) può essere affrontato dai ricercatori in tre modi. Il punto critico è espresso dal modo in cui viene calcolata la frequenza dell’ outcome in ciascun braccio (=Rischio Assoluto dell' Outcome nel braccio). I- Analisi ‘per protocol’ La frequenza dell’ outcome in ciascuno dei due bracci viene calcolata escludendo dal denominatore i pazienti di quel braccio che non hanno rispettato il protocollo. Questa soluzione può gravemente distorcere i risultati in quanto ignorare i pazienti che hanno violato il protocollo equivale a considerarli 'drop-outers' ossia persi al follow-up, con tutte le conseguenze già segnalate (vedi sopra). II- Analisi ‘as treated' Vengono creati in questo caso due gruppi artificiali a confronto. Il primo gruppo è rappresentato da tutti i pazienti che sono stati effettivamente trattati con l’ intervento sotto studio (è costituito dalla somma dei pazienti inizialmente assegnati al braccio di intervento e che sono rimasti in questo braccio lungo tutta la durata della ricerca e dei pazienti inizialmente assegnati al braccio di ‘controllo’ ma che –cross-overssono successivamente passati nel braccio di intervento). Il secondo gruppo è rappresentato dai pazienti che per qualche motivo non hanno ricevuto l' intervento sotto studio ‘(è costituito dalla somma dei pazienti inizialmente assegnati al braccio di ‘controllo’ e che sono rimasti in questo braccio lungo tutta la durata della ricerca e dei pazienti inizialmente assegnati al braccio di intervento ma che -crossovers- sono successivamente passati nel braccio di controllo o che -non compliant all’ intervento- hanno semplicemente smesso di assumere l’ intervento). Per ciascun gruppo viene poi calcolata la frequenza dell’ outcome mettendo al denominatore la somma di tutti i soggetti che rappresentano il gruppo. Anche questo metodo può creare gravi distorsioni dei risultati finali in quanto annulla i vantaggi offerti dalla randomizzazione. Infatti ciascuno dei due gruppi artificiali che vengono messi a confronto è formato da un mix di pazienti randomizzati inizialmente all' uno e all' altro braccio. Ciò crea gravi problemi nella distribuzione dei fattori prognostici e nella 'confrontabilità' dei due bracci. III- Analisi ‘intention to treat’: La frequenza dell’ outcome in ciascuno dei due bracci viene calcolata mettendo al denominatore tutti i pazienti inizialmente assegnati a quel braccio , non tenendo conto quindi di eventuali cross-overs o di non compliant a quel braccio emersi in tempi successivi alla randomizzazione. Questa procedura quindi non tiene conto delle violazioni del protocollo ma anziché escluderle dall’ analisi (come fa l’ analisi Per Protocol --> vedi) registra entro ciascun braccio gli eventi che riguardano i pazienti ‘compliant’ assieme agli eventi che riguardano i pazienti che hanno violato il protocollo. Questo tipo di analisi prende il nome di ‘Analysis Intention To treat’ (ITT). Non è facile per il clinico digerire una ‘Analisi Intention to Treat’ in quanto appare irrazionale considerare nei calcoli anche gli eventi dei pazienti che non hanno rispettato le regole del protocollo. Tuttavia questa procedura presenta notevoli vantaggi. La ITT è infatti il miglior compromesso per mantenere intatti i vantaggi della randomizzazione. La randomizzazione ha lo scopo di rendere i due bracci assolutamente identici nelle condizioni di base. In questo modo le differenze che osserveremo tra il braccio di intervento e il braccio di controllo non potranno che essere spiegate dall’ effetto del trattamento sotto studio. La randomizzazione rende i due bracci uguali (a patto che la numerosità del campione sia adeguata) in quanto come detto distribuisce in modo assolutamente stocastico tutti i fattori prognostici noti e ignoti. Una analisi ‘as treated’ implica invece il confronto di 2 gruppi ‘artificiali’, ciascuno formato da un mix di pazienti randomizzati ai 2 bracci opposti. Una analisi ‘per protocol’ escludendo i pazienti che per qualche motivo non hanno assunto il farmaco composta inevitabilmente la selezione di una casistica (quella dei pazienti rimasti nel braccio) più ‘resistente’ ad esempio agli effetti collaterali del trattamento, cosa che abbiamo verificato nello scenario illustrato. La ITT rispecchia fedelmente quello che avviene in condizioni ‘reali’. La compliance al trattamento è infatti estremamente variabile nei pazienti che si osservano nella pratica quotidiana e non avrebbe senso non tener conto di ciò selezionando, per i confronti statistici, solo popolazioni caratterizzate da una compliance’ ideale’. Un clamoroso esempio di distorsione dei risultati associato ad una analisi 'As Treated' è offerto dal trial "Screening decrease prostate cancer death" di Labrie F et Al (The Prostate 1999 38:83). Furono reclutati 46193 pazienti di età da 45 a 80 anni in un trial randomizzato e controllato rivolto ad esplorare l’efficacia (in termini di riduzione di mortalità specifica) di un programma di screening del carcinoma prostatico. Lo screening era basato sulla esplorazione rettale e sul dosaggio del PSA. La mortalità per carcinoma della prostata fu registrata in un periodo di follow-up compreso tra il 1989 e il 1996 . Tra i pazienti reclutati nello studio 30956 furono assegnati in modo random al braccio di intervento (screening) ; 15237 al braccio di controllo (non screening). Lo screening fu applicato a 7155 pazienti randomizzati al gruppo di intervento (Gruppo A: 4 decessi) mentre 23801 pazienti dello stesso braccio non furono sottoposti a questa procedura (Gruppo D: 93 decessi). Nel gruppo randomizzato al braccio di controllo 14255 pazienti seguirono il protocollo (Gruppo B: 44 decessi) mentre 982 vennero comunque sottoposti a screening (Gruppo C: 1 decesso). Negli 8137 pazienti sottoposti a screening furono quindi registrati 5 decessi per carcinoma della prostata , contro 137 decessi registrati nei 38056 pazienti non sottoposti a screening . Conclusioni degli autori:(...) lo studio dimostra, per la prima volta, una drammatica riduzione dei decessi dovuto a cancro della prostata nei pazienti sottoposti a screening.I dati dell’ articolo (gli autori tra l' altro non riportano alcuna perdita al follow-up e ciò desta molta meraviglia in un trial di 46193 pazienti!) permettono di risalire facilmente al rischio assoluto di morte per cancro prostatico. I gruppi messi a confronto sono : A) Pazienti che effettivamente sono stati sottoposti a screening. Si tratta di 7155 pazienti assegnati dalla randomizzazione allo screening e compliant a questo trattamento + 982 pazienti violatori del protocollo (erano stati assegnati dalla randomizzazione a non essere sottoposti a screening ma poi l’ hanno fatto lo stesso). Il totale è 7155+982= 8137 pazienti. In questo gruppo sono stati riscontrati in tutto 4+1 = 5 decessi per carcinoma prostatico. La mortalità per carcinoma prostatico (Rischio Assoluto) in questi pazienti ‘effettivamente sottoposti a screening’ è data da 5/8137 = 0,0006144 (0,61 per mille). B) Pazienti che effettivamente non sono stati sottoposti a screening. Si tratta di 14.255 pazienti assegnati dalla randomizzazione a non essere sottoposti a screening (compliant al protocollo) + 23.801 pazienti violatori del protocollo (erano stati assegnati dalla randomizzazione ad essere sottoposti a screening ma poi non l’ hanno fatto). Il totale è 14.255 + 23.801 = 38.056 pazienti In questo gruppo sono stati riscontrati 93+44 = 137 decessi. La mortalità per carcinoma prostatico (Rischio Assoluto) in questi pazienti ‘effettivamente non sottoposti a screening’ è data da 137/38056 = 0.0035 (3.5 per mille). I risultati sono clamorosamente a favore dell’ efficacia dell’intervento (PSA esplorazione rettale) nel ridurre la mortalità per carcinoma prostatico, con significatività statistica: RR = 0.17 (0.06-0.41) [NB: Nell' articolo originale i dati vengono riportati in formato diverso ossia sotto forma di RRR calcolata attraverso il rapporto tra i tassi di incidenza: 0,69 P<0.01] .Se gli autori avessero correttamente analizzato i dati in base al principio Intention to Treat i gruppi a confronto sarebbero invece stati: 1) pazienti randomizzati al gruppo di intervento (si screening) : 30.956. In questo gruppo sono stati registrati 97 decessi (4 tra i ‘compliant’ e 93 tra i ‘no compliant’). La mortalità è quindi pari a 97/30.956 = 0.0031 (3.1 per 1000). 2) Pazienti randomizzati al gruppo di controllo (no screening): 15.237. In questo gruppo sono stati registrati 45 decessi (44 tra i ‘compliant’ e 1 tra i ‘no compilant’). La mortalità è quindi pari a 45/15237 = 0.0029 (2.9 per 1000) . La differenza tra i due bracci in questo caso non è statisticamente significativa: RR =1.06 (0.74-1.51) c. Adeguatezza della durata del follow-up La lunghezza del follow-up deve essere adeguata alla possibilità di rilevare l’ outcome. Ad esempio in uno studio di efficacia dove si valuti un farmaco contro l’ ipercolesterolemia basterà un follow-up di un mese per rilevare modifiche nella colesterolemia ma occorreranno almeno cinque anni per rilevare modifiche in termini di mortalità tra i due bracci. 6. Sono stati scelti outcome adeguati? Tipi di outcome Si propone la seguente classificazione degli outcome: 1. Outcome Primari o Secondari a seconda della priorità di analisi definita dagli autori . La potenza statistica dello studio è tarata sull’ outcome primario (vedi sopra) ed è importantissimo che i ricercatori non si dimentichino di ciò. Raramente essi sfuggono alla tentazione di valutare nella ricerca molti outcome ma tutte le informazioni sui risultati di efficacia rilevati sugli outcome secondari dovrebbero essere interpretate con cautela . Infatti a rigor di logica queste, informazioni dovrebbero essere considerate solo come plus valore in grado di generare ipotesi di lavoro o in alternativa a conferma dei risultati rilevati per l' outcome primario. L' interpretazione dei risultati che si riferiscono ad un outcome secondario è un problema metodologico molto delicato e sarà affrontato a parte (vedi oltre) 2. Outcome Maggiori o Surrogati in base alla loro importanza in termini di correlazione con lo stato di salute. Come già specificato la mortalità per CHD o la incidenza di Infarto miocardico sono outcome maggiori in quanto fortemente correlati con lo stato di salute del paziente. Invece la ipertensione arteriosa o i livelli di colesterolemia sono outcome surrogati : lo stato di salute del paziente viene modificato non dagli outcome surrogati 'in se' ma piuttosto dagli outcome maggiori 'infarto' e 'stroke' a cui gli outcome surrogati sono correlati. La letteratura biomedica è colma di esempi che testimoniano la convenienza di adottare ogni volta che sia possibile i suggerimenti operativi dettati da trial che considerano outcome maggiori. Lo studio CAPS (Am J Cardiol. 1988 Mar 1;61(8):501) aveva valutato l' efficacia di alcuni farmaci antiaritmici nella profilassi di aritmie potenzialmente fatali nei pazienti infartuati (outcome surrogato) , dimostrando una significativa riduzione delle aritmie ventricolari nei pazienti sottoposti a trattamento con encainide e flecainide (con percentuali di efficacia rispettivamente pari a 79% e 83% e superiori a quelle registrate con altri farmaci antiaritmici o con placebo). Lo studio CAST (NEJM1989 Aug 10;321(6):406-12. ) -pubblicato l' anno successivo- valutando l' efficacia della profilassi antiaritmica nei pazienti infartuati sull' incidenza di outcome maggiori segnalava però un significativo eccesso di mortalità quando le stesse molecole venivano confrontate con il placebo: RR morte = 3.6 (1.7 - 8.5). Gronda et al (Arzneimittelforschung 1986;36:371-5) hanno dimostrato un significativo miglioramento della performance ventricolare (outcome surrogato) nei pazienti affetti da cardiomiopatia dilatativa idiopatica trattati con ibopamina (nei confronti con placebo : CO: +10.1% P< 0.01; SV: +14.1%, P< 0.01; EF: +10.8%, P<0.05) Lo studio PRIME II (Lancet 1997;349:971-7) dimostrava successivamente che nei pazienti scompensati l' utilizzo dell' ibopamina era associato ad un eccesso di decessi (outcome maggiore) : nei confronti con il placebo il RR di morte era : 1.26 (95% CI 1.04-1.53) p = 0.017 Lo studio PEPI (JAMA 1995 Dec 6;274(21):1676 ) dimostrava che la terapia ormonale sostitutiva in menopausa (TOS) era in grado di abbassare significativamente il livello di colesterolo LDL (da 14.5 a 17.7 mg/dL) (outcome surrogato). Lo studio WHI (JAMA. 2002 Jul 17;288(3):321) dimostrava però successivamente che la TOS era associata ad una aumentata incidenza di coronaropatie : HR per CHD= 1.29 (1.02-163) (outcome maggiore). 3. Outcome Hard o Soft in base alla facilità con cui possono essere misurati (es; outcome hard sono il numero di morti o il numero di infarti registrati durante la ricerca; outcome soft sono la Qualità della vita o lo Scompenso cardiaco) Lo studio ALLHAT (JAMA, 2000 - 283:1967) ha dimostrato che l' utilizzo di doxazosin al posto di clortalidone nei pazienti ipertesi è associato ad un rischio doppio di scompenso cardiaco (RR, 2,04; IC 95%, 1,79-2,32; P<0,001). I risultati rilevati sull' incidenza di questo outcome hanno rappresentato il principale motivo dell' interruzione precoce di questa ricerca. In data 20 aprile 2001 la Pizer ha tuttavia pubblicato una risposta allo studio ALLHAT notificando che in 13 anni di ricerca e di sorveglianza postmarketing non era emerso alcun dato a sostegno di una relazione causale tra doxazosin, scompenso cardiaco, infarto miocardico o stroke. Non si può escludere pertanto che almeno in parte i risultati dello studio ALLHAT relativi all' incidenza di scompenso cardiaco possano essere imputati ad una misclassificazione dell' outcome dovuta alla eterogenea abilità diagnostica nei confronti di questo end-point 'soft' nei più di 600 centri territoriali ed ospedalieri che hanno partecipato all' indagine (Houston et al, 2003 Vol. 6, No. 1 JANA 25) 4. Outcome Compositi Gli end-point compositi sono stati introdotti nella letteratura biomedica da circa trent'anni. Si definisce così un end-point costituito a propria volta da sottoelementi rappresentati da singoli end-point. Sicuramente la motivazione più importante dell' utilizzo di end-point compositi consiste nell’ opportunità di aumentare l'efficienza statistica del trial. Utilizzando un outcome rappresentato da più sottoelementi aumenta infatti la possibilità che la popolazione reclutata dal trial incorra nell' evento. In queste condizioni nella programmazione del sample size potrà essere ipotizzato che l' intervento produca un effetto maggiore. L'aumento della frequenza basale dell'evento richiede così, a parità di altre condizioni (vedi sopra) , l'arruolamento di un numero minore di soggetti rispetto a quello che sarebbe stato necessario programmare a parità dei livelli di erore alfa e di errore beta ipotizzando l'incidenza dei singoli sottoelementi. L' abuso di outcome compositi può creare notevoli problemi nella interpretazione dei risultati di una ricerca. L' utilizzo di end-point troppo complessi può infatti generare informazioni confuse sull' andamento generale del disease e rendere problematica l' interpretazione dei risultati in presenza di sottelementi non correlati allo stesso processo fisiopatologico. Un esempio quasi caricaturale di end-point composito è rappresentato dall' outcome primario 'fallimento terapeutico' considerato in uno studio sugli effetti dell' acido ursodesossicolico nella colangite sclerosante primitiva, dove il 'fallimento terapeutico' veniva espresso come (morte o trapianto di fegato o progressione istologica di due stadi su quattro verso la cirrosi o sviluppo di varici o sviluppo di ascite o sviluppo di encefalopatia o quadruplicazione sostenuta dei livelli di bilirubina o marcato peggioramento di astenia o prurito o incapacità di tollerare il farmaco o rinuncia volontaria alla prosecuzione della ricerca) (N Engl J Med 1997; 336:691-695, Mar 6, 1997) Le difficoltà interpretative associate all' utilizzo di questi end-point aumentano ancora di più quando gli outcome compositi sono utilizzati come outcome secondari, cosa che in genere dovrebbe essere evitata (Moyé LAMultiple Analyses in Clinical Trial Fundamentals for investigators Springer 2003 ISBN 10918937) (vedi oltre: interpretazione di outcome secondari). 7. Come è stato espresso il risultato di efficacia? Negli studi RCT molto spesso l’ outcome (ad esempio: ‘mortalità’ ) è espresso in scala dicotomica . Altri outcome vengono espressi in scala intervallare (es: valori di colesterolemia). Quali sono le unità di misura di un outcome in scala dicotomica? Gli eventi si misurano in scala dicotomica in quanto un evento può essere presente o assente, senza altre alternative. In questo caso alcune unità di misura possono essere ricavate da una tabella di contingenza (AR, Odds); altre (Tasso di incidenza, Incidenza cumulativa) sono più complesse in quanto sono il frutto di una analisi temporale. I. Rischio Assoluto (AR) Il ‘Rischio Assoluto’ non valuta l’ andamento temporale di un fenomeno ma esprime semplicemente rapporto tra il numero degli eventi (es: morti) rilevati entro un periodo di tempo in un braccio e il numero totale di soggetti reclutati in quel braccio). Nella tabella di contingenza: AR intervento (ARi) = a/(a+b) AR controlli (ARc) = c/(c+d). Nota importante: osservare attentamente il Rischio Assoluto dei Controlli (ARc o Rischio Basale) E' importante sottolineare fin d' ora il significato clinico del Rischio Basale. Dato che esprime la frequenza dell' outcome nel gruppo di pazienti che non hanno ricevuto il trattamento (i controlli), il Rischio Basale rappresenta cosa sarebbe successo per quell' outcome in assenza dell' intervento. Infatti in un trial randomizzato i due bracci sono rappresentati da soggetti pressoché identici nelle loro caratteristiche di base. E' particolarmente importante conoscere il Rischio Basale quando per confrontare i due bracci di un trial si utilizza come misura di efficacia un Rischio Relativo (RR--> vedi) o una Riduzione Relativa di Rischio (RRR--> vedi). Infatti queste misure non sono in grado di fornire informazioni sulla reale entità del fenomeno. E' stato formalmente dimostrato che l' utilizzo di un RR o di un RRR nella presentazione dei risultati di un trial costituisce un grande impatto per il medico prescrittore e proprio per questo motivo questi formati sono molto utilizzati nei depliant dalla propaganda farmaceutica. Tuttavia un RR o un RRR non fornisce al lettore alcuna informazione sul reale impatto clinico di un intervento a meno che non venga rapportato al Rischio Basale. Un Rischio Relativo esprime infatti la frazione di Rischio Basale osservata dopo un intervento, mentre una Riduzione di Rischio Relativo esprime la frazione di Rischio Basale abbattuta dall' intervento (vedi oltre). Ad esempio: se un farmaco abbatte la Mortalità Basale del 20% questo abbattimento si chiama Riduzione Relativa di Rischio (RRR) . La frazione di Mortalità Basale che resta dopo l' intervento corrisponde ovviamente all' 80% della Mortalità di base: questa frazione residua si chiama Rischio Relativo (RR ). L' impatto clinico di un intervento che dovrebbe modificare la frequenza di un evento non potrà essere compreso se accanto ai valori di RR o di RRR non si conoscono anche i valori del Rischio Basale dell' evento (ARc). Una situazione del genere può essere paragonata all' acquistare un prodotto da un negoziante senza conoscere il prezzo originale (=ARc) solo perché il venditore garantisce uno sconto del 20% (=RRR) del prezzo originale . Senza conoscere il prezzo originale non è molto rilevante sapere che il prezzo netto da pagare (=ARi) corrisponderà all' 80% del prezzo originale (=RR). II. Tasso di Incidenza Il ‘Tasso di incidenza’ rappresenta il rapporto tra il numero di eventi registrati in un braccio lungo un determinato arco temporale e la somma dei singoli periodi di osservazione dei soggetti studiati nel braccio : per la mortalità, ad esempio, corrisponde al rapporto (numero di morti)/(anni-uomo di osservazione). In questa sede basti ricordare che il confronto tra i due bracci, espresso (vedi oltre) da ARR , RR, RRR, NNT, NNH può essere eseguito utilizzando il tasso di incidenza nelle stesse operazioni matematiche in cui viene utilizzaro il Rischio Assoluto AR. III. Incidenza Cumulativa L’ ‘Incidenza cumulativa’ rappresenta invece il prodotto delle incidenze istantanee di un evento registrate in un braccio lungo tutto il periodo di osservazione, essendo una ‘incidenza istantanea’ definita dal rapporto (numero di eventi registrato in quel momento)/(numero di soggetti a rischio dell’ evento esistenti in quel momento). In questa sede basti ricordare che il confronto tra i due bracci, espresso (vedi oltre) da ARR , RR, RRR, NNT, NNH può essere eseguito utilizzando l' incidenza cumulativa nelle stesse operazioni matematiche in cui viene utilizzaro il Rischio Assoluto AR. IV. Odds Un Odds non è una probabilità: il termine inglese è assolutamente intraducibile e qualsiasi tentativo di italianizzarlo genera solo confusione. L'Odds di un determinato fenomeno entro l'ambito di una determinata popolazione è espresso dal rapporto (numero di casi in cui il fenomeno si è verificato) / (numero di casi in cui il fenomeno non si è verificato). Nella tabella di contingenza: Odds intervento (Oddsi) = a/b Odds controlli (Oddsi) = c/d Nota: Questa unità di misura degli eventi risulta molto più intuitiva per un anglosassone che per un italiano. Un italiano trova infatti molto più comodo ragionare in termini di percentuali , come in effetti si fa quando si calcola un Rischio Assoluto. Il mondo anglosassone è meno avvezzo al sistema metrico decimale ed è molto più abituato a ragionare in termini di odds , unità di misura che deriva dal mondo delle scommesse. Una volta scelta l' unità di misura di un outcome dicotomico, come si esegue il confronto tra i due bracci dello studio? Confronti tra i due bracci dello studio possono essere eseguiti attraverso sottrazioni (ARR, RRR) o attraverso rapporti (RR, OR). Una modalità particolare di confronto è offerta dall' NNT (o dall' NNH). I. Il Rischio Relativo (sinonimi: RR, Relative Risk) Il Rischio relativo esprime la Frazione di Rischio Basale dell’ evento che resta dopo aver applicato l’ intervento. Si ricorda che il rischio basale dell’ evento (= ARc) esprime la frequenza dell' outcome nel gruppo di controllo e corrisponde a ciò che succederebbe in assenza dell’ intervento Immaginiamo un trial in cui un farmaco riduce la mortalità basale del 20%. La frazione di Rischio Basale 'abbattuta' dall' intervento' si identifica con questo 20% e prende il nome di Riduzione Relativa di Rischio (RRR, vedi). La frazione di Rischio Basale ' rimasta' dopo l' intervento (Rischio Relativo = RR) corrisponde pertanto all' 80% del Rischio Basale Il rischio relativo RR è il rapporto tra il Rischio Assoluto nel braccio di Intervento e il Rischio Assoluto nel braccio di Controllo. Nella tabella di contingenza: RR = (ARi)/ (ARc) = [a/(a+b)]/ [c/(c+d)] Esempio. In un trial nel gruppo di intervento (farmaco A) viene registrata una mortalità pari al 15% mentre nel braccio di controllo (farmaco B) viene registrata una mortalità pari al 20%. I valori di AR sono quindi rappresentati da ARi = 0.15 ; ARc= 0.20. Se il risultato è espresso in termini di rischio relativo (RR): RR= (ARi)/ (ARc) = 0.15/0.20 = 0.75. Ciò equivale a dire che i soggetti trattati con il farmaco A presentano una mortalità pari al 75% di quella riscontrata nel braccio di controllo. Infatti ARi (=0.15) rappresenta il 75% di ARc (=0.20). Se esprimiamo invece il risultato in termini di differenze in rischio assoluto (Vedi ) ARR = (ARc – ARi )= 0.20-0.15 = 0.05. Significa che se la mortalità registrata prima dell' intervento era 20% e la mortalità registrata dopo l' intervento era 15% il farmaco ha abbattuto l' incidenza della malattia di 5 punti percentuali. Ossia, in altri termini, che il farmaco permette un guadagno netto pari a cinque morti evitate ogni cento pazienti trattati. Il succo è lo stesso ma ben diverso è l’impatto sul lettore di un risultato espresso in termini di RR anziché di ARR: ciò e ben noto a chi ha familiarità con le tecniche di analisi critica della letteratura. E’ da ribadire che la pubblicità dei farmaci nei confronti della classe medica è basata soprattutto su risultati espressi in termine di RR perché l’impatto sul lettore è molto più forte. Il grande svantaggio nell’esprimere i risultati di un trial in termini di RR consiste nel fatto di non fornire al lettore nessuna informazione sul rischio basale. Uno stesso RR può essere associato a fenomeni di entità estremamente diversa. Ammettiamo per esempio che un farmaco dimezzi (RR= 0.5) una mortalità basale pari all’ 80 per cento (ARc= 0.8) In questo caso, ARR = ARc - ARi = 0.8- 0.4 = 0.40 vale a dire che il farmaco salva 40 pazienti ogni cento trattati Consideriamo all' opposto un farmaco che dimezzi (RR= 0.5) una mortalità basale pari allo 0.8 per cento (ARc=0.008). In questo secondo caso ARR = ARc ARi = 0.008- 0.004 = 0.004 vale a dire che il farmaco salva 0.4 pazienti su 100 ossia 4 pazienti su 1000 trattati. Deve essere notato che in entrambi i casi RR è comunque sempre uguale a 0.5. Infatti in entrambi i casi il rischio è crollato al 50% rispetto ai valori di base. Un risultato espresso in termini di RR permette sicuramente un’impressione “d’impatto” sulla efficacia di un intervento e in tal senso può essere utile come valutazione preliminare dei risultati di un trial. Il RR va sempre però confrontato con la differenza in rischio assoluto ARR, che permette di quantificare in modo analitico il guadagno netto provocato dall’ intervento sullo stato di salute del paziente. Abbiamo visto che RR rappresenta in una tabella di contingenza il rapporto tra il Rischio Assoluto registrato nel braccio di intervento e il Rischio Assoluto registrato nel braccio di controllo. RR può essere calcolato ovviamente anche attraverso il rapporto tra il Tasso dell’ evento registrato nel braccio di intervento e il Tasso dell’ evento registrato nel braccio di controllo. Ancora, può essere calcolato attraverso il rapporto tra l' Incidenza cumulativa dell’ evento registrata nel braccio di intervento e l' Incidenza cumulativa dell’ evento registrata nel braccio di controllo (vedi sopra). In complessi modelli di analisi multivariata in cui i confronti tra i due bracci sono associati all' analisi temporale (modello di Cox) il rischio relativo viene espresso da una misura chiamata Hazard ratio (HR), concettualmente sovrapponibile. Interpretazione rapida dei valori di RR Quanto verrà esposto nelle prossime righe presuppone come esempio un trial in cui l' efficacia dell' intervento è espressa in termini di riduzione della frequenza di un evento indesiderato. Si tratta in effetti della situazione più comune. Qualora all' opposto l' efficacia dell' intervento venga espressa in termini di aumento della frequenza di un evento desiderato l' interpretazione del significato di RR dovrà essere capovolta. Ad esempio, in un trial in cui un farmaco dovrebbe ridurre la mortalità: 1. Se il valore di RR è minore di uno l’intervento è “vantaggioso” in quanto la frequenza dell' evento nel braccio di intervento è minore della frequenza dell' evento nel braccio di controllo. Il valore di RR corrisponde infatti a un rapporto tra due Rischi: se ARi < ARc il rapporto ARi / ARc sarà minore di 1 2. Se il valore di RR è maggiore di uno l’intervento è “dannoso” in quanto la frequenza dell' evento nel braccio di intervento è maggiore della frequenza dell' evento nel braccio di controllo. Infatti se ARi > ARc il rapporto ARi / ARc è maggiore di 1 3. Se il valore di RR è uguale a uno l’intervento è “indifferente” in quanto la frequenza dell' evento nel braccio di intervento è identica alla frequenza dell' evento nel braccio di controllo. Infatti se ARi = ARc il rapporto ARi / ARc è = a 1. Un valore di RR pari ad 1 soddisfa pertanto l' <ipotesi nulla>. Interpretazione rapida degli intervalli di confidenza di RR (vedi anche : Odds ratio) 1. Se tutti i valori dell’IC 95% sono minori di uno l’ intervento può essere considerato vantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che con una attendibilità pari al 95% i valori dell' intervallo di confidenza permettono in tal caso di escludere il valore di 1, che per un RR corrisponde al soddisfacimento dell' <ipotesi nulla>. 2. Se tutti i valori dell’IC 95% sono maggiori di uno l’intervento può essere considerato svantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che anche in questo caso con una attendibilità pari al 95% i valori dell' intervallo di confidenza permettono di escludere il valore di 1, che per un RR corrisponde al soddisfacimento dell' <ipotesi nulla>. 3. Se il range dell’IC 95% comprende al proprio interno il valore di uno l’intervento può essere considerato vantaggioso o svantaggioso a seconda della stima puntuale di RR prodotta dai dati del trial ma il risultato non è significativo. La "non significatività statistica" è spiegata dal fatto che in tale situazione con una attendibilità pari al 95% i valori dell' intervallo di confidenza non permettono di escludere il valore di 1, che per un RR corrisponde al soddisfacimento dell' <ipotesi nulla> II. La Riduzione Relativa di Rischio (Relative Risk Reduction, RRR) RRR viene impropriamente chiamata 'Riduzione di Rischio Relativo' Questa misura di efficacia rappresenta il complementare a uno del RR (esprimendo RR in numeri decimali) Esempio: se RR = 0.8 , RRR = (1-0.8 ) = 0.2. La Riduzione Relativa di Rischio esprime la frazione di rischio basale ridotta (o aggiunta) dall’ intervento (vedi anche piu’ avanti). Esempio. Supponiamo che in un trial la frequenza dei casi mortali nel braccio di controllo corrisponda a otto casi su 100 ARc = 0.08. Supponiamo che nello stesso trial la frequenza dei casi mortali nel braccio di intervento corrisponda a otto casi su 100 ARi = 0.02 Significa che nei soggetti trattati osserviamo un rischio di morte pari a ¼ rispetto al rischio dei soggetti non trattati RR = 0.02/0.08 =0.25 Rovesciando il ragionamento, significa anche che l’ intervento abbassa di ¾ il rischio basale di morte. RRR = (1-RR) = (1-0.25) = 0.75 Anche questo modo di esporre i risultati di un trial è di grande impatto per il lettore e anche questa unità di misura dei risultati di efficacia è largamente utilizzata dall’ Industria per pubblicizzare gli effetti di un intervento. L’espressione dei risultati di un trial in termini di RRR ha lo svantaggio di poter ingannare ancora di più il lettore sulla “spettacolarità” dei risultati raggiunti. Interpretazione rapida dei valori di RRR Quanto verrà esposto nelle prossime righe presuppone come esempio un trial in cui l' efficacia dell' intervento è espressa in termini di riduzione della frequenza di un evento indesiderato. Si tratta in effetti della situazione più comune. Qualora all' opposto l' efficacia dell' intervento venga espressa in termini di aumento della frequenza di un evento desiderato l' interpretazione del significato di RRR dovrà essere capovolta. Ad esempio, in un trial in cui un farmaco dovrebbe ridurre la mortalità: 1. Se il valore di RRR è maggiore di zero (positivo) l’intervento è “vantaggioso” in quanto la frequenza dell' evento nel braccio di intervento è minore della frequenza dell' evento nel braccio di controllo. 2. Se il valore di RR è minore di zero (negativo) l’intervento è “dannoso” in quanto la frequenza dell' evento nel braccio di intervento è maggiore della frequenza dell' evento nel braccio di controllo. 3. Se il valore di RRR è uguale a zero l’intervento è “indifferente” in quanto la frequenza dell' evento nel braccio di intervento è identica alla frequenza dell' evento nel braccio di controllo. Un valore di RRR pari a zero soddisfa pertanto l' <ipotesi nulla>. Interpretazione rapida degli intervalli di confidenza di RRR 1. Se tutti i valori dell’IC 95% maggiori di zero (positivi) l’ intervento può essere considerato vantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che con una attendibilità pari al 95% i valori dell' intervallo di confidenza permettono in tal caso di escludere il valore di zero, che per un RRR corrisponde al soddisfacimento dell' <ipotesi nulla>. 2. Se tutti i valori dell’IC 95% sono minori di zero (negativi) l’intervento può essere considerato svantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che anche in questo caso con una attendibilità pari al 95% i valori dell' intervallo di confidenza permettono di escludere il valore di zero, che per un RRR corrisponde al soddisfacimento dell' <ipotesi nulla> 3. Se il range dell’IC 95% comprende al proprio interno il valore di zero l’intervento può essere considerato vantaggioso o svantaggioso a seconda della stima puntuale di RRR prodotta dai dati del trial ma il risultato non è significativo. La "non significatività statistica" è spiegata dal fatto che in tale situazione con una attendibilità pari al 95% i valori dell' intervallo di confidenza non permettono di escludere il valore di zero, che per un RRR corrisponde al soddisfacimento dell' <ipotesi nulla>. La Riduzione di Rischio Assoluto III. (Sinonimi: ARR, Risk Difference, RD) ARR esprime la differenza a. b. c. tra i due Rischi Assoluti dell' evento registrati nel braccio di controllo e nel braccio di intervento oppure tra i due Tassi dell’ evento registrati nel braccio di controllo e nel braccio di intervento oppure tra le due Incidenze cumulative dell’ evento registrate registrati nel braccio di controllo e nel braccio di intervento Consideriamo solo il punto a) in quanto le operazioni sono le stesse per tutti gli altri punti. Nella tabella di contingenza ARR = ARc-ARi. Questa misura di efficacia , come già specificato, esprime il guadagno netto in termini di salute associato all' intervento (vedi note su RR) Interpretazione rapida dei valori di ARR Quanto verrà esposto nelle prossime righe presuppone come esempio un trial in cui l' efficacia dell' intervento è espressa in termini di riduzione della frequenza di un evento indesiderato. Si tratta in effetti della situazione più comune. Qualora all' opposto l' efficacia dell' intervento venga espressa in termini di aumento della frequenza di un evento desiderato l' interpretazione del significato di ARR dovrà essere capovolta. I. Se la frequenza dell' evento indesiderato riscontrata nel braccio di intervento (ARi) è minore della frequenza dell' evento riscontrata nel braccio di controllo (ARc) il valore di ARR sarà positivo, a testimonianza dell' efficacia dell' intervento. Ad esempio se la mortalità nel braccio di intervento è pari al 10% e la mortalità nel braccio di controllo è pari al 20% ARR = 0.20.1 = 0.1 II. Se la frequenza dell' evento indesiderato riscontrata nel braccio di intervento (ARi) è maggiore della frequenza dell' evento riscontrata nel braccio di controllo (ARc) il valore di ARR sarà negativo, a testimonianza dell' dannosità dell' intervento. Ad esempio se la mortalità nel braccio di intervento è pari al 20% e la mortalità nel braccio di controllo è pari al 10% ARR = 0.1-0.2 = -0.1 III. Se la frequenza dell' evento indesiderato riscontrata nel braccio di intervento (ARi) è uguale alla frequenza dell' evento riscontrata nel braccio di controllo (ARc) il valore di ARR sarà zero, a testimonianza dell' neutralità dell' intervento. Un valore di ARR pari a zero soddisfa quindi l' <ipotesi nulla>. Ad esempio se la mortalità nel braccio di intervento è pari al 10% e la mortalità nel braccio di controllo è pari al 10% ARR = 0.1-0.1 = 0 Interpretazione rapida degli intervalli di confidenza di ARR I. II. III. Se tutti i valori dell’IC 95% maggiori di zero (positivi) l’ intervento può essere considerato vantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che con una attendibilità pari al 95% i valori dell' intervallo di confidenza permettono in tal caso di escludere il valore di zero, che per un ARR corrisponde al soddisfacimento dell' <ipotesi nulla>. Se tutti i valori dell’IC 95% sono minori di zero (negativi) l’intervento può essere considerato svantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che anche in questo caso con una attendibilità pari al 95% i valori dell' intervallo di confidenza permettono di escludere il valore di zero, che per un ARR corrisponde al soddisfacimento dell' <ipotesi nulla>. Se il range dell’IC 95% comprende al proprio interno il valore di zero l’intervento può essere considerato vantaggioso o svantaggioso a seconda della stima puntuale di ARR prodotta dai dati del trial ma il risultato non è significativo. La "non significatività statistica" è spiegata dal fatto che in tale situazione con una attendibilità pari al 95% i valori dell' intervallo di confidenza non permettono di escludere il valore di zero, che per un ARR corrisponde al soddisfacimento dell' <ipotesi nulla>. Esempio. Nello studio ALLHAT (JAMA. 2002 Dec 18;288(23):2981-97) per l' oitcome primario ARR = ARc -ARi = 0.0892822- 0.0881963 = 0.0010859. Gli intervalli di confidenza al 95% di ARR corrispondono al range -0,0063046 --> 0,0084764. Il range contiene il valore di zero e pertanto il risultato espresso da ARR non può essere considerato significativo. Interpretazione della significatività clinica attraverso gli intervalli di confidenza di ARR Quanto di seguito esposto per ARR vale per qualsiasi altra unità di misura di efficacia. La significatività statistica è un concetto matematico e non necessariamente coincide con la significatività clinica. Il calcolo degli "intervalli di confidenza" (IC 95% ) di ARR ci aiuta anche a giudicare se i risultati della sperimentazione sono clinicamente utili. Gli intervalli di confidenza intorno alla stima di ARR ricavata da un campione identificano un range di valori entro cui –con una attendibilità pari al 95%- si trova il valore 'vero' di ARR, quello ricavabile dalla intera popolazione (vedi sopra). Se tutto il range dei valori dell' intervallo è molto lontano dal cut-off che esprime l'ipotesi nulla (nel caso di ARR = zero) significa che esiste una forte differenza tra i valori dell'outcome misurati nel braccio di intervento e i valori dell'outcome misurati nel braccio di controllo. Il risultato della sperimentazione sarà pertanto fortemente a favore o a sfavore dell'intervento (a seconda della direzione dei risultati) perché la dimensione dell' effetto è grande. Viceversa, se uno dei limiti estremi dell'intervallo di confidenza è molto vicino al cut off che esprime l'ipotesi nulla (nel caso di ARR = zero) l'effetto studiato può essere (anche se è presente "significatività statistica") poco importante dal punto di vista clinico in quanto l'intervallo di confidenza non esclude la possibilità che la dimensione dell'effetto sia modesta. Un esempio è offerto dal trial AITIAS (Neurology 1998 50:1842). In questa esperienza di ricerca era stata valutata l' efficacia di una terapia antiaggregante piastrinica in pazienti già sottoposti a procedure di endoarteriectomia carotidea; l' outcome era rappresentato dall' incidenza di stroke. Lo studio AITIAS aveva reclutato pochi soggetti (n=125) ; il Rischio assoluto di Stroke nel braccio di intervento corrispondeva a ARi = 2/65 = 0,03 ; il Rischio Assoluto di Stroke nel braccio di controllo a ARc = 8/60 = 0,133. In altri termini il rischio di subire uno stroke entro il periodo di follow-up considerato dalla ricerca era pari al 13,3% per i soggetti non sottoposti al trattamento antiaggregante e al 3% nei pazienti sottoposti al trattamento. Risk Difference corrispondeva quindi a ARR = 0,13-0,03 = 0,10. In base a questa stima puntuale l' efficacia del farmaco potrebbe essere giudicata 'buona', in quanto l' intervento ha abbattuto il rischio di base (dei controlli) di ben 10 punti percentuali. Esprimendo lo stesso risultato come 'numero di soggetti da trattare con farmaci antipiastrinici per prevenire uno stroke' (vedi oltre NNT) abbiamo infatti : NNT = 1/ARR = 1/0,10 = 10. In medicina preventiva evitare uno stroke ogni 10 pazienti a rischio trattati con un farmaco è sicuramente un ottimo risultato. In realtà tuttavia l' intervallo di confidenza al 95% per la stima puntuale fornita dal trial è espresso dal range di ARR (0,01 --> 0,2). Questo intervallo non contiene il valore di zero (infatti i valori estremi sono entrambi positivi): il risultato è quindi 'statisticamente significativo ' perché l' ipotesi nulla può essere ricusata. Tuttavia l' intervallo di confidenza è ampio e uno dei suoi estremi è molto vicino al valore zero, quello che soddisfa l' ipotesi nulla. Analizzando il significato clinico di questa osservazione ciò equivale a dire che con una attendibilità del 95% lo scenario peggiore è rappresentato da un abbattimento del rischio basale di solo un punto percentuale e che nella migliore delle ipotesi l' abbattimento corrisponde a ben venti punti percentuali. Non sappiamo dove sia situato il valore 'vero' di ARR all' interno di questo range e pertanto il nostro atteggiamento deve essere conservativo, vale a dire deve considerare l' ipotesi peggiore. Un abbattimento del rischio basale di un punto è ovviamente un risultato molto più scadente perché è esattamente un decimo di quello espresso dalla stima puntuale. Il significato clinico di queste osservazioni emerge bene anche dal calcolo dell' NNT (vedi oltre). Infatti NNT in base all' intervallo di confidenza varia da NNT= 1/0,2= 5 a NNT=1/0,01=100. Ciò significa che nella miglior delle ipotesi per prevenire uno stroke basterà trattare con antiaggreganti cinque pazienti a rischio per questo evento ; nella peggior delle ipotesi occorrerà invece trattare cento pazienti. IV. Il Number Needed To Treat (NNT) e il Number Needed To HARM (NNH) Number Needed To treat (NNT) esprime il numero di pazienti che dovranno essere trattati per ottenere il risultato desiderato in un paziente. Al contrario, il valore espresso da (NNT-1) esprime il numero di pazienti che dovranno essere trattati inutilmente per ottenere il risultato desiderato in un paziente. NNT può essere utilizzato anche per calcolare il numero di pazienti da trattare per ottenere un effetto collaterale in un paziente ma allora si chiama Number Needed to Harm (NNH). NNT si calcola con il rapporto NNT = 1/Risk Difference (esprimendo RD in numeri decimali) Se per esempio in un gruppo di pazienti trattati con il farmaco A la morbilità è 15% e nel braccio di controllo trattato con il farmaco B la morbilità è 20% : ARR = (ARc – ARi) = 0.20-0.15 = 0.05 . Il calcolo del Number Needed To Treat è dato da: NNT = 1/ARR = 1/0.05 = 20. Vale a dire che per prevenire un caso di malattia occorre trattare con il farmaco 20 pazienti. Questo valore fornisce con immediatezza un importante strumento di valutazione della quantità d'efficacia di un intervento (esempio: NNT per prevenire un decesso; NNT per prevenire un determinato sintomo e così via). Inoltre i valori di NNT con molta facilità sono inversamente proporzionali al rischio dell' evento indesiderato in condizioni basali (ARc). In presenza per esempio di un elevato rischio di base accade più facilmente che le variazioni di rischio indotte dall' intervento (ARR) siano caratterizzate da dimensioni grandi . In linea di massima pertanto NNT è tanto più piccolo quanto più grande è la probabilità dell'evento avverso nel gruppo di controllo. Dalle modalità di calcolo esposte appare evidente che quanto più grandi saranno i valori di ARR tanto più piccolo sarà il valore di NNT. Pertanto occorre considerare in modo diverso l' impatto clinico dei valori di NNT registrati in trial che studiano l' efficacia di interventi preventivi (es: vaccinazioni) e di quelli che sono stati registrati in trial che studiano l' efficacia di interventi rivolti alla cura delle malattie (es: antibiotici). Nel primo caso la frequenza degli eventi nei due bracci sarà bassa e sarà piccola anche la differenza tra un braccio e l' altro: piccoli valori di ARR giustificheranno pertanto grandi valori di 1/ARR. Nel secondo caso la frequenza degli eventi nei due bracci sarà più alta e sarà anche più grande la differenza tra un braccio e l' altro: grandi valori di ARR giustificheranno pertanto piccoli valori di 1/ARR. Per valutare clinicamente il significato di NNT è quindi conveniente confrontare il NNT calcolato nel trial con quello di altri trattamenti già sperimentati. A tal fine è presente in Bandolier (http://www.jr2.ox.ac.uk/bandolier/index.html) una banca dati di NNT, che può orientare il lettore. E' importante considerare gli intervalli di confidenza anche per i Valori di NNT. Nell' esempio appena citato se il farmaco A rispetto al farmaco B sembra in grado di ridurre la morbilità di cinque punti percentuali (stima puntuale di ARR = 0.05) ma i valori dell'intervallo di confidenza di ARR sono in realtà rappresentati dal range 0,001-0,06, coerentemente i valori di NNT saranno espressi da NTT = 1/ARR= 1/0,06 = 16,6 (ipotesi migliore) e 1/ARR = 1000 (ipotesi peggiore) . Pertanto in tal caso il numero di soggetti da trattare per ottenere un outcome potrebbe essere in realtà anche molto elevato (potrebbe cioè corrispondere a mille pazienti). Utilizzando i valori di NNT l' ipotesi nulla viene soddisfatta (ossia: i risultati del confronto tra i due bracci non sono significativi) quando l' intervallo di confidenza di questa misura di efficacia contiene il valore < infinito >. Infatti il NNT rappresenta il rapporto 1/ARR e per l' ARR il valore che soddisfa l' ipotesi nulla corrisponde a zero. Vedi sopra l' esempio riportato per ARR V. Odds Ratio (OR) Odds Ratio esprime il rapporto tra l’ Odds dell’ outcome riscontrato nel braccio di intervento e l’ Odds dell’ outcome ricontrato nel braccio di controllo. In uno studio di eventi l'Odds Ratio per quell'evento è dato infatti da (vedi tabella di contingenza): OR = (a/b)/(c/d) Interpretazione rapida dei valori di OR Quanto verrà esposto nelle prossime righe presuppone come esempio un trial in cui l' efficacia dell' intervento è espressa in termini di riduzione della frequenza di un evento indesiderato. Si tratta in effetti della situazione più comune. Qualora all' opposto l' efficacia dell' intervento venga espressa in termini di aumento della frequenza di un evento desiderato l' interpretazione del significato di OR dovrà essere capovolta. Ad esempio, in un trial in cui un farmaco dovrebbe ridurre la mortalità: 1. se il valore di OR è minore di uno l’intervento è “vantaggioso” in quanto l' odds dell' evento nel braccio di intervento è minore dell' odds dell' evento nel braccio di controllo. Il valore di OR corrisponde infatti a un rapporto tra due Odds : se Oddsi < Oddsc il rapporto Oddsi / Oddsc sarà minore di 1 2. se il valore di OR è maggiore di uno l’intervento è “dannoso” in quanto l' odds dell' evento nel braccio di intervento è maggiore dell' odds dell' evento nel braccio di controllo. Il valore di OR corrisponde infatti a un rapporto tra due Odds : se Oddsi > Oddsc il rapporto Oddsi / Oddsc sarà maggiore di 1 3. se il valore di OR è uguale a uno l’intervento è “indifferente” in quanto l' odds dell' evento nel braccio di intervento è uguale all' odds dell' evento nel braccio di controllo. Il valore di OR corrisponde infatti a un rapporto tra due Odds : se Oddsi = Oddsc il rapporto Oddsi / Oddsc sarà uguale a 1. Un valore di OR pari ad 1 soddisfa pertanto l' <ipotesi nulla> Interpretazione rapida degli intervalli di confidenza di OR 1. Se tutti i valori dell’IC 95% sono minori di uno l’ intervento può essere considerato vantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che con una attendibilità pari al 95% i valori dell' intervallo di confidenza permettono in tal caso di escludere il valore di 1, che per un OR corrisponde al soddisfacimento dell' <ipotesi nulla>. 2. Se tutti i valori dell’IC 95% sono maggiori di uno l’intervento può essere considerato svantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che anche in questo caso con una attendibilità pari al 95% i valori dell' intervallo di confidenza permettono di escludere il valore di 1, che per un OR corrisponde al soddisfacimento dell' <ipotesi nulla>. 3. Se il range dell’IC 95% comprende al proprio interno il valore di uno l’intervento può essere considerato vantaggioso o svantaggioso a seconda della stima puntuale di OR prodotta dai dati del trial ma il risultato non è significativo. La "non significatività statistica" è spiegata dal fatto che in tale situazione con una attendibilità pari al 95% i valori dell' intervallo di confidenza non permettono di escludere il valore di 1, che per un OR corrisponde al soddisfacimento dell' <ipotesi nulla>. Che cosa rappresenta clinicamente un Odds Ratio? L' Odds Ratio può essere paragonato ad un Rischio Relativo. Però occorre specificare che i valori di OR sono molto vicini ai valori di RR solo quando la frequenza dell' evento studiato dal trial è molto bassa (per fare un esempio, in un trial sulla vaccinazione antipoliomielitica RR e OR praticamente coincidono). In altre situazioni , ossia quando la frequenza dell' evento studiato dal trial non è bassa, l' Odds Ratio va interpretato alla stregua di un Rischio Relativo solo con grande cautela in quanto tende a sovrastimare la dimensione dell' effetto dell' intervento. Ad esempio uno studio pubblicato dall'OMS nel 1972 sull'efficacia della vaccinazione anticolerica nella popolazione pakistana riportava una frequenza di malattia durante il periodo di osservazione pari a 35/9953 nei non vaccinati e rispettivamente a 44/29939 nei vaccinati (Bulletin of the Wordl health Organization 1972; 47(2):229). Il rischio assoluto di colera nei pazienti vaccinati è espresso quindi da ARi = a/(a+b)= 44/29939= 0.0014697 ossia all'incirca 1.4 casi ogni mille abitanti. L'Odds di colera nei pazienti vaccinati è invece espresso da Oddsi = a/b = 44/(2993944)=44/29895 =0.001471818. Il rischio assoluto di colera nei pazienti non vaccinati è espresso da ARc= c/(c+d)= 35/9953= 0.0035272 ossia all'incirca 3.5 casi ogni mille abitanti. L'Odds di colera nei pazienti non vaccinati è espresso da Oddsc = c/d = 35/(9953-35) = 35/9888 =0.003528937 . Il Rischio Relativo di colera calcolabile da questi dati è: RR = ARi/ARc = 0.0014697/0.0035272 = 0.4166682: vale a dire approssimativamente che nei soggetti vaccinati il rischio di colera è circa il 41% del rischio dei non vaccinati. L'Odds Ratio di colera calcolabile da questi dati è: OR = 0.001471818/0.003528937 =0.4158096: vale a dire approssimativamente che nei soggetti vaccinati l'Odds di colera è circa il 41% dell' Odds dei non vaccinati. Come si vede, Odds Ratio di colera e Rischio Relativo di colera sono espressi in questo trial da numeri molto simili (vedi oltre). Ben diverso è uno studio in cui viene saggiata l'efficacia di un antibiotico sulla tosse nei pazienti affetti da malattie delle vie respiratorie, dove frequenza dell'end-point nelle condizioni di base è ovviamente molto elevata Per esempio in uno studio pubblicato nel 1987 dove veniva valutata l'efficacia della eritromicina versus placebo in adulti affetti da bronchite acuta uno degli outcome era rappresentato dalla presenza o meno di tosse alla visita di follow-up (Journal of Family Practice 1987 25:137). Il rischio assoluto di tosse nei pazienti trattati con eritromicina era espresso da ARi= a/(a+b)= 14/23 = 0.6086957 ossia all'incirca sei pazienti su dieci trattati. L' Odds di tosse nel braccio di intervento è espresso da Oddsi = a/b = 14/9 =1.5555555 . Il rischio assoluto di tosse nei pazienti sottoposti a placebo era espresso da ARc= c/(c+d)= 18/22 = 0.8181818 ossia all' incirca otto su dieci pazienti non trattati. L' Odds di tosse nel braccio di controllo è espresso da Oddsc = c/d = 18/4 =4.5 Il Rischio Relativo di tosse calcolabile da questi dati è : RR = ARi/ARc =0.6086957/0.8181818 = 0.7439614 vale a dire che nei pazienti trattati con eritromicina il rischio di tosse è pari a circa il 74% del rischio dei pazienti non trattati. L'Odds Ratio per tosse calcolabile da questi dati è: OR = (14/9)/(18/4) = 0.345679: vale a dire che nei pazienti trattati con eritromicina l'Odds di tosse è pari all'incirca al 34% dell'Odds di tosse dei pazienti non trattati. Come si vede, Odds Ratio di tosse e Rischio Relativo di tosse sono espressi in questo trial da numeri estremamente diversi - vedi oltre. Chi valuta i risultati di uno studio clinico deve quindi porre molta attenzione all'interpretazione dei valori di Odds Ratio in quanto le ricerche in cui il rischio assoluto dell'outcome nei due bracci non è basso rappresentano pressoché la maggioranza dei casi. Nonostante questi concetti siano assodati non è infrequente che anche gli stessi autori interpretino i propri risultati utilizzando erroneamente un Odds Ratio come se fosse un Rischio Relativo. Per esempio in una serie di 151 articoli pubblicati il 1998 e il 1999 da Obstetrics & Gynecology e da The American Journal of Obstetrics and Gynecology -in cui era stato utilizzato l'Odds Ratio come misura di efficacia- valori di OR erano interpretati come Rischio relativo nel 70% dei casi e nel 44% di queste situazioni le differenze tra OR e RR superavano tra l'altro il valore di 20% (Obstetrics & Gynecology 2001 98:685). Quando le unità di misura dell' outcome sono in scala intervallare In tal caso (es: valori della colesterolemia, valori di pressione arteriosa, eccetera) la misura dell' outcome sarà espressa da una media e il confronto tra i due bracci sarà semplicemente espresso da una differenza tra medie Mean Difference (Sinonimo: MD) Mean Difference rappresenta la differenza tra i valori medi dell' outcome riscontrati nel braccio di intervento e i valori medi registrati nel braccio di controllo. Quando l' outcome viene espresso da una media, la differenza tra i due bracci si calcola sottraendo dalla media calcolata nel braccio di controllo la media calcolata nel braccio di intervento. Si calcola in altre parole una 'differenza tra medie' Mean Difference = Mean (controllo) - Mean (intervento) Nota bene: in uno studio di eventi (situazione molto diversa da quella descritta in questo paragrafo!) l' outcome è sempre assente nelle condizioni basali. Per esempio in uno studio dove l' outcome è la mortalità ovviamente tutti i partecipanti, in condizioni basali, non hanno ancora avuto l' outcome. Invece in uno studio dove l' intervento dovrebbe modificare una variabile biologica già esistente in condizioni basali il parametro le cui variazioni rappresentano l' outcome della ricerca (es: la pressione arteriosa) è misurabile anche in condizioni di base. In tal caso può essere interessante per il ricercatore -oltre a confrontare i due bracci per i risultati generali ottenuti- osservare anche le modifiche del parametro prima e dopo l' intervento all' interno di ciascun braccio. Per esempio in un trial in cui si studi l' efficacia di un farmaco sui valori di pressione arteriosa, nel primo caso i due bracci verranno confrontati per il valore medio delle pressioni misurate in ciascun braccio alla fine dello studio (after); nel secondo caso verranno confrontati per il valore medio delle differenze prima-poi riscontrato entro ciascun braccio (before-after). L' efficacia del trattamento può essere quindi testata in due modi diversi. Esempio1. Nello studio ALLHAT (JAMA. 2002 Dec 18;288(23):2981-97) sono stati assegnati al braccio di intervento (amlodipina) 9048 pazienti e al braccio di controllo (clortalidone) 15255 pazienti. Al quinto anno di follow-up la PAS media nel gruppo di intervento era 134.7 mmHg, la PAS media nel gruppo di controllo era 133.9 mmHg. Mean difference era 133.9 - 134.7 = -0.79, con significatività statistica (P =0.03). In questo caso Mean Difference ha un valore negativo: significa che lil farmaco somministrato al braccio di intervento è risultato meno efficace del farmaco somministrato al braccio di controllo nell' abbassare i valori di pressione sistolica. Il valore di P (vedi oltre) testimonia la significatività del risultato. Esempio2. in uno studio dove l' intervento era rappresentato da un insieme di provvedimenti complessi esercitati su pazienti anziani la Mean Difference [pressioni prima-poi] per il braccio di intervento era -5 mmHg (IC 95% -2.5 ->7.6)** e la Mean difference [pressione prima-poi] per il braccio di controllo era + 3.4 (IC 95% +1.1->+5.7)** (Clinical Medicin and Health Reseach http://clinmed.netprints.org/cgi/content/full/2002120002v1). Il confronto tra il braccio di intervento e il braccio di controllo per i valori medi delle differenze di pressioni prima-poi riscontrate in ciascun braccio era espresso da una Mean difference [differenze pressioni prima-poi] di magnitudo pari a 8.4 mmHg (IC 95% 5->11). Interpretazione rapida dei valori di MD Quanto verrà esposto nelle prossime righe presuppone come esempio un trial in cui l' efficacia dell' intervento sia espressa in termini di riduzione dei livelli medi di un determinato parametro. Qualora all' opposto l' efficacia dell' intervento venga espressa in termini di aumento dei livelli medi di un determinato parametro l' interpretazione del significato di MD dovrà essere capovolta. I. Se la media del parametro riscontrata nel braccio di intervento (Meani) è minore della media del parametro riscontrata nel braccio di controllo (Meanc) il valore di MD sarà positivo, a testimonianza dell' efficacia dell' intervento. II. Se la media del parametro riscontrata nel braccio di intervento (Meani) è maggiore della media del parametro riscontrata nel braccio di controllo (Meanc) il valore di MD sarà negativo, a testimonianza dell' dannosità dell' intervento. III. Se la media del parametro riscontrata nel braccio di intervento (Meani) è uguale alla media del parametro riscontrata nel braccio di controllo (Meanc) il valore di MD sarà zero, a testimonianza dell' indifferenza dell' intervento. Un valore di MD pari a zero soddisfa quindi l' <ipotesi nulla>. Interpretazione rapida degli intervalli di confidenza di MD I. Se tutti i valori dell’IC 95% sono maggiori di zero (positivi) l’ intervento può essere considerato vantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che con una attendibilità pari al 95% i valori dell' intervallo di confidenza permettono in tal caso di escludere il valore di zero, che per una MD corrisponde al soddisfacimento dell' <ipotesi nulla>. II. Se tutti i valori dell’IC 95% sono minori di zero (negativi) l’intervento può essere considerato svantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che anche in questo caso con una attendibilità pari al 95% i valori dell' intervallo di confidenza permettono di escludere il valore di zero, che per una MD corrisponde al soddisfacimento dell' <ipotesi nulla>. III. Se il range dell’IC 95% comprende al proprio interno il valore di zero l’intervento può essere considerato vantaggioso o svantaggioso a seconda della stima puntuale di MD prodotta dai dati del trial ma il risultato non è significativo. La "non significatività statistica" è spiegata dal fatto che in tale situazione con una attendibilità pari al 95% i valori dell' intervallo di confidenza non permettono di escludere il valore di zero, che per una MD corrisponde al soddisfacimento dell' <ipotesi nulla>. Intervalli di confidenza di MD e significato clinico Quanto già specificato per l' interpretazione clinica degli intervalli di confidenza di altre misure di efficacia vale anche per MD Esempio. Verso la fine degli anni 80 iniziò un filone di ricerca rivolto a stabilire l' origine della variabilità inter individuale nella risposta alla terapia con ACE inibitori (Current Controlled Trials in Cardiovascular Medicine 2005, 6:16). Venne identificato così un particolare polimorfismo genetico riguardante l' enzima ACE (caratterizzato più esattamente da tre diversi genotipi DD, DI, II ) che si suppose in grado di spiegare almeno in parte le diversità tra individuo e individuo nella risposta clinica a tali molecole. Nello studio REIN condotto su 212 pazienti affetti da nefropatia cronica proteinurica di origine non diabetica Perna e coll (Kidney Int 2000, 57:274-281) valutarono in una analisi di tre sottogruppi caratterizzati da polimorfismo DD, DI o II (e rispettivamente composti da 87, 99, 46 soggetti) la risposta della PAS al ramipril (braccio di intervento) o alle terapie tradizionali (braccio di controllo). La misura dell' outcome era rappresentata in questo caso dalla differenza tra le medie delle variazioni prima-poi riscontrate in ciascuno dei due bracci. L' esame degli intervalli di confidenza rivela per il genotipo DD un risultato significativo (l' intervallo non comprende il valore di zero) e a favore dell' intervento (Mean Difference = +5.4). Per i genotipi DI e II il risultato non è significativo in quanto gli intervalli comprendono il valore di zero. Per il primo confronto è qui interessante notare come il limite inferiore dell' intervallo di confidenza (+0.26) è molto vicino al cut off che soddisfa l' ipotesi nulla (per mean Difference = zero). Ciò offre l' opportunità di fare una riflessione sul significato clinico di questo risultato: anche se la stima puntuale è a favore di un risultato clinicamente utile (differenza tra le medie dei valori prima-poi di PAS riscontrati nei due bracci = +5.4 mmHg) l' intervallo di confidenza indica che il valore 'reale' può essere anche pari a +0.26 mmHg. E' evidente che una differenza tra i due bracci di un quinto di mmHg in ternini di differenza tra i valori medi prima-poi è 'clinicamente risibile', anche se 'statisticamente significativa'. 8. Come è stata espressa la precisione della stima? La precisione della stima di un risultato di efficacia dovrebbe essere sempre espressa attraverso la definizione degli intervalli di confidenza al 95%, che esprimono un range che comprende con una attendibilità del 95% tutti i valori delle stime che si otterrebbero ripetendo la stessa ricerca per un numero infinito di volte (vedi sopra). L' argomento è stato trattato in modo abbastanza analitico nei paragrafi dedicati alle singole misure di efficacia, a cui si rimanda. In questa sede ci limiteremo ad una breve sintesi A) Utilizzo degli intervalli di confidenza per esrimere la significatività statistica Gli intervalli di confidenza possono essere utilizzati per valutare l’ esistenza di significatività statistica. Non esiste significatività statistica se l’ intervallo di confidenza comprende un valore ‘cut off’ che per quella misura di efficacia corrisponde all’ ipotesi nulla. In uno studio di eventi ciò corrisponde alla situazione in cui la frequenza dell’ outcome misurata nel braccio di intervento è identica a quella misurata nel braccio di controllo (e in cui ovviamente l' odds dell' evento misurato nel braccio di intervento è identico all' odds dell' evento misurato nel braccio di controllo). In uno studio dove l' outcome è espresso in scala intervallare ciò corrisponde alla situazione in cui la media dell’ outcome misurata nel braccio di intervento è identica alla media dell' outcome misurata nel braccio di controllo. Se la misura di efficacia è espressa da una differenza il ‘cut off’ è uguale a zero (Risk Difference; Mean Difference, RRR). Se la misura di efficacia è espressa da un rapporto il ‘cut off’ è uguale a uno (RR; HR ; OR). Nel caso del NNT (o del NNH) il cut off corrisponde al valore ‘infinito’. In alternativa (o in modo complementare) all’ utilizzo degli intervalli di confidenza la precisione dei risultati può essere espressa dai valori di P ricavati da un test statistico convenzionale . P esprime la probabilità che la differenza riscontrata tra i due bracci sia esclusivamente dovuta al caso. E’ raccomandato allora che gli autori riportino il valore assoluto di P e non il semplice cut off (P>0.05 o P<0.05). B) Utilizzo degli intervalli di confidenza per esprimere la significatività clinica I due vettori di ragionamento sono: a) la dimensione del risultato è clinicamente utile? b) il risultato è riproducibile con fiducia nelle condizioni operative 'reali'? a. Utilità clinica del risultato. Se tutto il range dei valori è molto lontano dal cut-off che esprime l'ipotesi nulla significa che esiste una forte differenza tra i valori dell'outcome misurati nel braccio di intervento e i valori dell'outcome misurati nel bracco di controllo. Il risultato della sperimentazione è pertanto fortemente a favore o a sfavore dell'intervento (a seconda della direzione dei risultati) perché la dimensione dell' effetto è grande. Viceversa, se uno dei limiti estremi dell'intervallo di confidenza è molto vicino al cut off che esprime l'ipotesi nulla l'effetto studiato può essere (anche se è presente significatività statistica) poco importante dal punto di vista clinico in quanto l'intervallo di confidenza non esclude la possibilità che la dimensione dell' effetto sia modesta. b. Riproducibilità del risultato. L'intervallo di confidenza è molto utile per esprimere l'importanza clinica dei risultati anche perché l' ampiezza del range esprime il grado di precisione della stima, vale a dire il grado in cui i risultati del trial possono essere trasferiti con fiducia alle condizioni operative reali. Intervalli di confidenza larghi testimoniano scarsa precisione nella stima (= i risultati sono poco riproducibili); intervalli di confidenza stretti testimoniano buona precisione della stima (= i risultati sono ben riproducibili). Pertanto in presenza di un range ampio anche se esiste 'significatività statistica' occorre considerare che il risultato potrebbe essere poco riproducibile in condizioni reali. Ciò equivale a dire che la dimensione dell' effetto potrebbe essere anche molto diversa da quella suggerita dal trial qualora la sperimentazione venisse ripetuta utilizzando campioni più grandi. Un atteggiamento 'conservativo' nella interpretazione dei risultati di efficacia attraverso gli intervalli di confidenza è quindi altamente consigliabile: il giudizio sulla dimensione dell' effetto e il giudizio sulla riproducibilità dei risultati dovrebbero considerare attentamente l'estremo dell'intervallo di confidenza più vicino al valore 'cut off' della misura di efficacia che identifica il soddisfacimento dell'ipotesi nulla. Esempio. Nello studio di Sindrup del 1999, dove il tramadolo veniva confrontato con placebo nel trattamento sintomatico della neuropatia diabetica (citato nellemetenalisi Cochrane 19 April 2004 in Issue 2, 2004) ARtramadolo = 11/34 = 0,323 ARplacebo = 3/33 = 0,090 . Significa che ha subito un miglioramento clinico il 9% dei pazienti trattati con placebo e il 32,3 % dei pazienti trattati con tramadolo. Calcolando Risk Difference: ARR = 0,090 - 0,323 = -0,232. NB: in questo caso lo scopo della ricerca era valutare se l' intervento fosse in grado di aumentare la frequenza di un effetto desiderato (= la percentuale di miglioramento clinico). Pertanto (vedi sopra) valori negativi di ARR esprimono 'vantaggio', non 'svantaggio' Considerando questa stima puntuale potremmo giudicare il trattamento 'abbastanza efficace' in quanto NNT = 1/ARR = 1/-0,232 = -4,3 ossia: per ottenere il beneficio clinico in un paziente occorre trattare circa 4 pazienti (tre però saranno trattati per niente). L' intervallo di confidenza al 95% di questa stima di ARR è tuttavia espresso dal range: -0.05 --> -0.42. Il range non contiene il valore di zero e pertanto l' ipotesi nulla non è soddisfatta (esiste quindi significatività statistica). Tuttavia la dimensione dell' effetto varia da una Riduzione di Rischio Assoluto pari a -5 punti percentuali a una Riduzione di Rischio Assoluto pari a -42 punti percentuali. Considerando l' estremo dell' intervallo di confidenza più vicino al valore che soddisfa l' ipotesi nulla (zero) possiamo concludere per una efficacia del farmaco piuttosto modesta. Calcolando infatti l' NNT per questo valore estremo dell' intervallo di confidenza: NNT = 1/0.05 = 20 ossia: per ottenere un miglioramento clinico bisogna trattare almeno 20 pazienti; diciannove di essi saranno trattati per niente. Inoltre l' ampiezza del range dell' intervallo di confidenza ci suggerisce che il trial offre una stima molto imprecisa del risultato di efficacia 'vero' (l' estremo superiore dell' intervallo di confidenza di ARR è -0.42 e corrispondente ad un NNT = 1/0.42 = 2.3 !): questo è imputabile alla scarsa numerosità del campione reclutato (in tutto 67 pazienti), che rende la stima puntuale imprecisa e allarga gli intervalli di confidenza intorno a questa stima. 9. Come sono state interpretate le analisi secondarie? «L’aspirina può essere utile nella prevenzione cardiovascolare? Sì, ma dobbiamo distinguere. In prevenzione secondaria é inutile somministrare Aspirina a chi è nato sotto il segno della Bilancia e dei Gemelli (ISIS-2, Lancet 1988 2:349). In prevenzione primaria dobbiamo prestare attenzione alle donne in quanto l’aspirina abbassa il rischio di stroke ma non di infarto. A meno che le donne non siano anziane, perchè allora funziona. Però attenzione alle sigarette perché quando fumano l’aspirina aumenta nelle donne l'incidenza di morte cardiovascolare, infarto, stroke (Ridker, NEJM 2005:352)». Queste affermazioni non sono frutto di un colpo di sole ma rappresentano il risultato di ricerche ben fatte ma volontariamente o involontariamente mal interpretate. In particolare si tratta di "Analisi su Sottogruppi" e di "Analisi di end-point secondari", che rientrano nel panorama più complessivo delle “Analisi secondarie”. Definiamo “Analisi secondaria” qualsiasi confronto statistico organizzato per saggiare ipotesi diverse da quella considerata nell' “Analisi primaria” (Moyé LA Multiple Analyses in Clinical Trials - Fundamentals for Investigators, Springer - Verlag New York 2003 ISBN 10918937). L' “Analisi primaria” esplora l' ipotesi che ha motivato l' organizzazione dello studio e condiziona l' effettivo potere informativo della ricerca. La dimensione che si presume ex ante di poter rilevare nei risultati di efficacia ad essa riferiti rappresenta uno degli elementi necessari al calcolo delle dimensioni del campione (vedi sopra). Ai livelli di confidenza programmati per lo studio (altro elemento necessario a questo calcolo -vedi sopra errore alfa ed errore beta) appare quindi corretto generalizzare alla base-study che ha generato il campione solo i risultati che si riferiscono alla “Analisi primaria” (vedi oltre). Le “Analisi secondarie” dovrebbero essere invece utilizzate solo a supporto di quanto rilevato nell' “Analisi primaria” o, in alternativa per fornire semplicemente nuove ipotesi di lavoro. Rappresentano “Analisi secondarie” le "Analisi di end-point secondari", le "Analisi per Sottogruppi", i "Confronti di Bracci Multipli". Nelle "Analisi di end-point secondari" i bracci originali del campione sono confrontati per i risultati di più di un endpoint. Nelle "Analisi per Sottogruppi" il campione originale è suddiviso in vari strati e in ciascun strato vengono creati bracci a confronto. Nei "Confronti di Bracci Multipli" il campione originale è allocato in diversi bracci d’intervento e in un unico braccio di controllo. A complicare le cose molte di queste procedure sono effettuate in modo crociato entro l'ambito di una stessa ricerca: ad esempio molto frequentemente gli autori confrontano i bracci di differenti sottogruppi (oltre che per l' end-point primario) anche per l'incidenza di end-point secondari. Le “Analisi secondarie” hanno l'ovvia finalità di aumentare l'efficienza informativa del trial, che coincide con la possibilità di fornire un numero maggiore di informazioni a parità di investimenti di risorse umane e materiali. L'utilizzo di queste tecniche è però corretto solo se il ricercatore ha ben chiari i loro limiti e le loro finalità, che devono sempre essere specificate “ex ante” nel protocollo di ricerca. Molte volte invece queste analisi vengono utilizzate per forzare l'interpretazione dei risultati verso direzioni volute dall'autore, cosicché -anziché generare nuove conoscenze- generano spesso dubbi o confusione. A) Interpretazione degli outcome secondari I risultati riscontrati per gli outcome secondari possono essere pesantemente gravati da errore random. Infatti si tratta di confronti multipli eseguiti sullo stesso campione. Dato che la probabilità di errore alfa (vedi sopra= considerare erroneamente non dovuta al caso una differenza che invece è dovuta al caso) è direttamente proporzionale al numero di confronti eseguiti entro l' ambito di uno stesso campione, per ognuna di queste analisi non potrà più essere ipotizzato il rischio di errore alfa 'basale' previsto per l' outcome primario nel calcolo del sample size perchè è stato -appunto- ' tutto speso' per l' analisi primaria (Freemantle, BMJ 2005 331:836). La probabilità di ottenere risultati dovuti al caso aumenta quindi con il numero di analisi secondarie eseguite. Inoltre in molte analisi di outcome secondari è possibile incorrere anche in errori beta . Questo tipo di errore (vedi sopra= considerare erroneamente dovuta al caso una differenza in realtà esistente) è facile in presenza di campioni sottodimensionati. Dato che la numerosità del campione dello studio è stata tarata sull' outcome primario e non sugli outcome secondari, per alcuni di essi la potenza statistica necessaria per arrivare a stabilire 'significatività' della differenza riscontrata tra i due bracci potrà essere insufficiente. Pertanto anche la 'mancanza di significatività' statistica della differenza riscontrata tra i due bracci per qualcuno di questi outcome sarà da considerare con sospetto. L' ipotesi testata dallo studio ASCOT-BPLA (Lancet 2005; 366: 895–906) era < l' amlodipina (eventualmente associata a perindopril) è più efficace dell' atenololo (eventualmente associato a bendrofumethiazide-potassio) nel ridurre l' incidenza di morti coronariche + infarti non fatali (=outcome primario)>? Il Sample size era stato calcolato prevedendo una potenza statistica dell' 80% nel rilevare per l' outcome primario (= morti coronariche + infarti non fatali) un Hazard Ratio pari a 0.84 con livelli di errore alfa pari a 0.05. La casistica era rappresentata da 19257 pazienti randomizzati (9639 assegnati al braccio amlodipina; 9618 assegnati al braccio atenololo). Risultati in Hazard Ratio (con rispettivi intervalli di confidenza al 95%) : HR per 'outcome primario' = 0.90 (0.79-1.02) (non significativo) ; HR per 'stroke' = 0.77 (0.66-0.89) (significativo) ; HR per 'tutti gli eventi e le procedure cardiovascolari' =0.84 (0.780.90) (significativo); HR per 'mortalità da tutte le cause' =0.89 (0.81-0.99) (significativo); HR per 'sviluppo di diabete' = 0.70 (0.63-0.78) (significativo) Conclusioni degli autori: il trattamento con amlodipina previene un maggior numero di eventi cardiovascolari e induce meno casi di diabete rispetto al trattamento basato sull' atenololo (..) Questi risultati sono importanti nel suggerire la combinazione ideale di farmaci antiipertensivi'. Gli autori in presenza di mancata significatività dei risultati per l' outcome primario hanno basato le proprie conclusioni solo sulle analisi secondarie. Sono stati utilizzati a sostegno delle conclusioni del trial, oltre ai risultati che si riferiscono all' all'outcome primario, anche quelli che si riferiscono ad altri 4 outcome secondari ('Total cardiovascular events and procedures'; 'All cause mortality'; 'Fatal and non fatal stroke' ; 'Development of diabetes' ). L’ Errore alfa programmato per l’ analisi primaria (0.05) avrebbe pertanto dovuto essere distribuito -correttamente- sulle analisi dei risultati rilevati per questi cinque outcome. Gli autori hanno invece definito la 'significatività statistica' dei risultati che si riferiscono a ciascuno dei 4 outcome secondari considerando i valori di P calcolati nominalmente sui risultati riportati per ciascun outcome. Le conclusioni andrebbero quindi ricusate in quanto l' errore alfa che gli autori dichiarano di aver programmato (0.05) è stato speso tutto per l' analisi primaria. L' unica risposta corretta all' ipotesi testata dallo studio ASCOT deve essere quindi <non è stato provato per insufficiente potenza statistica che l' amlodipina (eventualmente associata a perindopril) sia più efficace dell' atenololo (eventualmente associato a bendrofumethiazide-potassio) nel ridurre l' incidenza di morti coronariche + infarti non fatali (=outcome primario)>. I risultati delle analisi che riguardano outcome secondari dovebbero essere utilizzati solo a sostegno di quanto rilevato per l' outcome primario o, in alternativa, allo scopo di generare nuove ipotesi di lavoro (Moyé LA Multiple Analyses in Clinical Trials - Fundamentals for Investigators, Springer - Verlag New York 2003 ISBN 10918937) B) Interpretazione delle analisi per sottogruppi In una Analisi per Sottogruppi il campione originale viene suddiviso in vari strati (sottogruppi) contrassegnati da caratteristiche peculiari. Queste caratteristiche riguardano per lo più connotazioni anagrafiche, fisiologiche o patologiche dei pazienti ma a volte i pazienti inseriti in sottogruppi possono essere classificati in base a diverse intensità del trattamento somministrato (es. dosi del farmaco) o i base ad caratteristiche stabilite ex ante o ex post (es: diversità nella compliance o altro). Le considerazioni esplicitate nelle righe precedenti mettono in guardia dall' interpretare senza riserve una analisi per sottogruppi. Infatti la scarsa numerosità dei soggetti che compongono i vari strati espone ad una grande 'random variation' dei risultati di efficacia le cui di dimensioni e direzioni sono spesso imprevedibili. Una maggior probabilità di errore alfa è garantita anche dalla necessità di eseguire confronti ripetuti entro l' ambito dello stesso campione originale : questa probabilità aumenta con l' aumentare del numero di sottogruppi esaminati. La scarsa numerosità campionaria espone infine queste analisi ad un elevato rischio di errore beta . I risultati delle analisi per sottogruppi dovrebbero essere utilizzati solo allo scopo di generare nuove ipotesi di lavoro. In realtà gli autori troppo spesso enfatizzano i risultati di analisi per sottogruppi come surrogato di analisi primaria. Risulta in particolar modo molto pericoloso dar credito alla <significatività statistica> rilevata dai test nominali a livello dei singoli sottogruppi, per l' elevato rischio di errore alfa associato a queste analisi. Ciò vale soprattutto in presenza di <risultati non significativi> nella coorte originale. Infatti l' Errore alfa accettato nel trial è stato speso integralmente per l' analisi primaria , l' unica che ha condizionato il calcolo delle dimensioni del campione. Affinché una analisi per sottogruppi possa suggerire spunti degni di approfondimento dovrebbero essere comunque rispettate queste condizioni a. b. c. d. e. f. g. I sottogruppi devono essere specificati a priori nel protocollo e non suggeriti ex post dai dati. In dettaglio, devono essere specificati dal protocollo sia i sottogruppi scelti che le motivazioni della scelta di quei determinati sottogruppi Lo studio deve testare solo poche ipotesi; maggiore è il numero di ipotesi testate maggiore è la probabilità che i risultati siano dovuti al caso I risultati devono essere rilevanti in termini di significato clinico I risultati devono essere significativi sotto il profilo statistico I risultati devono essere biologicamente plausibili I risultati devono essere confermati da altri studi Le conclusioni degli autori dovrebbero essere strettamente coerenti con i risultati presentati. Nonostante queste precauzioni una analisi per sottogruppi espone sempre a molte insidie. Nel 1996 Paker pubblicava uno studio sugli effetti dell' amlodipina nei pazienti con severo scompenso cardiaco (PRAISE-1 NEJM 1996 335:1107). L' end-point primario era rappresentato da mortalità da ogni causa + ospedalizzazione per eventi cardiovascolari maggiori . L' end-point secondario era rappresentato dalla mortalità per tutte le cause. Il sample size era stato tarato sull' end-point primario per un errore alfa pari a 0.05, per una potenza statistica pari a 0.9 e per una RRR pari a 0.25 dell' incidenza di outcome primario prevista per il gruppo di controllo a un anno . Lo studio prevedeva in modo esplicito di valutare l' effetto dell' amlodipina , oltre che sull' intera coorte, anche in due separati strati di pazienti caratterizzati da una diversa etiologia dello scompenso cardiaco (ischemica vs non ischemica). L' abstract dell' articolo riporta che il farmaco non ha dimostrato di peggiorare la morbilità o la mortalità cardiovascolare in pazienti con severo scompenso cardiaco (per la coorte in toto: RRR outcome primario espresso come incidenza cumulativa = 0.09 [0.24-1.1] P=0.31; RRR mortalità espressa come incidenza cumulativa= 0.16 [0.31-1.02] P=0.07) ma che l' effetto era diverso nei due sottogruppi caratterizzati da diversa etiologia. Infatti mentre nei pazienti con CHF ischemico (analogamente alla coorte in toto) non era stata riscontrata significatività della differenza tra i due bracci nella incidenza dell' end-point primario e secondario (HR outcome primario =1.04 [0.83-1.29]; HR mortalità = 1.02 [0.81-1.29]), nei pazienti con CHF di etiologia non schemica l' amlodipina dimostrava di ridurre significativamente l' incidenza dell' end-point primario e anche dell' end-point secondario (RRR outcome primario= 0.31 [0.02-0.51] P=0.04; RRR mortalità= 0.46 [0.21-0.63] P<0.001). Questa incoraggiante osservazione sull' azione del farmaco sui pazienti scompensati ad etiologia non ischemica meritava a parere degli autori di essere confermata da ulteriori studi. .Lo studio non ha dimostrato differenze significative tra i due bracci nell' incidenza dell' outcome primario (P=0.07) . Le conclusioni dovevano quindi essere : <non esistono prove a dimostrazione dell' esistenza di diversità tra i due bracci nell' incidenza dell' outcome primario>. In assenza di dimostrazione di efficacia sull' intera coorte gli autori hanno enfatizzato invece i risultati del farmaco sul sottogruppo dei pazienti affetti da scompenso cardiaco non ischemico. Questa analisi poteva essere peraltro giustificata da alcuni validi motivi: primo, i due strati del campione erano stati selezionati ex ante e previsti dal protocollo; secondo, un obiettivo importante ed esplicito della ricerca era proprio valutare l' esistenza di un 'subgroup effect' per questi due strati ( la randomizzazione sra stata stratificata con questo scopo). Nonostante questi presupposti i risultati rilevati dallo studio PRAISE-1 nel sottogruppo di pazienti affetti da scompenso cardiaco di etiologia non ischemica erano in realtà dovuti solo al caso. Lo studio PRAISE-2 [22], organizzato proprio per confermare queste scoperte, valutando l' efficacia dell' amlodipina sulla mortalità dei pazienti affetti da scompenso cardiaco non ischemico non confermava gli spettacolari risultati dello studio PRAISE-1 in quanto l' Odds Ratio di morte rilevato in questa esperienza su una casistica di 1650 pazienti seguiti per 4 anni era =1.09 con P=0.28 (Presentation of the results of the Prospective Randomized Amlodipine Survival Evaluation-2 Trial (PRAISE-2) at the American College of Cardiology Scientific Sessions, Anaheim, CA, March 15, 2000). © 2006 Progettoasco.it