[CRITICAL APPRAISAL] Critical Appraisal di uno studio di intervento

[CRITICAL APPRAISAL] Critical Appraisal di uno studio di
intervento: come giudicare la qualità metodologica
Stesura: Luglio 2006
A cura di: Alessandro Battaggia, Area Cardiovascolare SIMG
Titolo: Critical Appraisal di uno studio di intervento: come giudicare la qualità metodologica
•
•
•
•
•
•
•
•
•
•
•
1. Esiste un braccio di controllo?
2. Le dimensioni del campione (sample size) sono adeguate?
3. Lo studio ha espresso con chiarezza l' ipotesi da testare?
4. I due gruppi a confronto sono caratterizzati da identiche condizioni di partenza?
5. I due gruppi a confronto mantengono la confrontabilità anche durante la conduzione dello
studio?
6. Sono stati scelti outcome adeguati?
7. Come è stato espresso il risultato di efficacia?
8. Come è stata espressa la precisione della stima?
9. Come sono state interpretate le analisi secondarie?
A) Sinossi delle misure di Efficacia
B) Sinossi degli elementi di validità metodologica di uno studio di intervento
Cos'è uno studio d'intervento?
In uno studio di intervento il ricercatore sottopone in modo attivo i partecipanti a una
procedura potenzialmente in grado di condizionare la frequenza di un un evento o di modificare
specifiche caratteristiche basali.
Per esempio un 'intervento' può essere rappresentato da un farmaco antiipertensivo
potenzialmente in grado di ridurre la mortalità (=evento) o di ridurre i valori iniziali di
pressione arteriosa (=caratterstica basale). Va detto subito che la 'riduzione della mortalità'
rappresenta un outcome 'maggiore', in quanto è un risultato direttamente e fortemente legato
a modifiche dello stato di salute. La 'riduzione dei valori pressori' rappresenta al contrario un
'outcome surrogato', in quanto il legame con la salute è molto meno stretto. Per fare un
esempio non è detto che un farmaco in grado di abbassare la pressione sia anche in grado di
ridurre la mortalità.
Uno studio di intervento può essere valutato sotto due punti di vista.
•
•
Innanzitutto occorre considerare la sua qualità metodologica: una ricerca di cattiva
qualità è un prodotto costoso ed inutile, anzi dannoso in quanto produce messaggi
fuorvianti.
In secondo luogo occorre valutare la utilità pratica dei suoi risultati, ossia se le
conclusioni possono essere trasferite a popolazioni diverse da quella che ha generato il
campione. Per esempio un trial eseguito sui Pigmei, anche se ben fatto, può produrre
risultati non trasferibili ad una popolazione indoeuropea.
La qualità metodologica di una ricerca coincide con la sua Validità Interna; la trasferibilità dei
risultati con la sua Validità Esterna.
1. Esiste un braccio di controllo?
La presenza di un braccio di controllo è conditio sine qua non per giudicare l' affidabilità di uno
studio di intervento. Quello che avviene nel braccio di controllo esprime infatti quello che sarebbe
successo se non fosse stato applicato l' intervento. Tutto ciò fornisce indispensabili informazioni sul
guadagno netto di salute associato all' intervento. Per esempio se in un trial in cui viene valutata l'
efficacia di un farmaco nel prevenire un evento fatale la mortalità nel gruppo di controllo è pari al
20% e la mortalità nel gruppo di intervento è pari al 10% il guadagno netto in termini di salute
corrisponde a 0.2-0.1 = 0.1 = 10%. Significa che su cento soggetti trattati dieci moriranno
comunque, ma dieci si salveranno la vita perchè non applicando l' intervento sarebbero morti non
dieci ma venti soggetti ogni cento persone affette da quella malattia.
A) Gli studi di intervento non controllati sono rappresentati dai disegni
'prima-poi'.
Kitchell (Am J Card 1958 1:46) nel 1958 aveva pubblicato uno studio condotto su una coorte di 50
pazienti affetti da angina pectoris, riportando in un follow-up di 2-6 mesi "miglioramenti clinici nel
64% dei casi". Si tratta di un tipico esempio di studio di intervento non controllato (prima-poi). L'
anno dopo (NEJM 1959 260:1115) l' esperienza fu ripetuta da Cobb et al in un disegno
randomizzato e controllato in cieco semplice ( ai controlli veniva praticata solo una incisione a livello
della cute del torace) . Contrariamente a quanto osservato da Kichell non fu riscontrata alcuna
differenza tra un braccio e l' altro. Da allora la legatura dell' arteria mammaria nei pazienti anginosi
non è stata più praticata, anche se i risultati del secondo studio (8 pazienti nel braccio di intervento,
9 pazienti nel braccio di controllo -vedi oltre- ) avrebbero sicuramente dovuto essere confermati su
casistiche più grandi.
B) Studi di intervento controllati
a. RCT (studi Randomizzati e Controllati)
Il golden standard per uno studio di intervento è rappresentato dal disegno RCT, in cui i
pazienti vengono assegnati a i due (o più) bracci in modo casuale attraverso metodiche
validate. Il vantaggio più grande degli RCT è rappresentato dalla garanzia che i due gruppi a
confronto siano praticamente identici nelle condizioni di base. In questa situazione il
riscontro di diversità tra un braccio e l' altro nella misura di un outcome alla fine della ricerca
potrà essere ragionevolmente spiegato dalla diversità dei trattamenti rispettivamente
assegnati (vedi oltre)
b. Studi di intervento Quasi-Randomizzati
Si definisce ‘quasi randomizzato’ uno studio "randomizzato in modo incongruo", per esempio
utilizzando i numeri pari della data di nascita per assegnare il paziente al braccio di
intervento e i numeri dispari per assegnare il paziente al braccio di controllo. Questo termine
dovrebbe essere evitato in quanto può erroneamente far pensare che la qualità di queste
ricerche sia solo di poco inferiore a quella degli RCT. In realtà gli studi 'quasi randomizzati'
sono molto soggetti a bias. Gli studi in cui l’allocation concealment è eseguita in modo
scorretto sopravvalutano infatti del 40% l’ efficacia degli interventi sanitari.
c. Studi di intervento Non-Randomizzati (Studi Quasi-Sperimentali; Controlled Trial o
CT)
Uno studio di intervento dichiaratamente 'Non Randomizzato' offre paradossalmente
maggiori garanzie di uno studio Quasi-Randomizzato. Infatti mentre gli studi QuasiRandomizzati pretendono di assumere connotati di qualità che non possiedono, con grave
rischio -come visto- di distorsioni interpretative, negli studi Non randomizzati i ricercatori
mettono sempre in essere accorgimenti statistici rivolti a migliorare la confrontabilità dei due
bracci. Infatti le tecniche di analisi multivariata consentono di confrontare i due gruppi per
una singola variabile 'a parità di tutte le altre'. In nessun caso questi aggiustamenti
potranno però garantire la qualità dei confronti offerta dalla randomizzazione. Infatti i
modelli di analisi multivariata prendono in considerazione ovviamente solo variabili
conosciute: l'influenza di una variabile ignota non può essere in alcun modo prevista in
questi calcoli. Al contrario una randomizzazione efficace permette di bilanciare equamente la
distribuzione di tutte le variabili note ed ignote potenzialmente in grado di influenzare
l'outcome in modo indipendente dall' intervento.
2. Le dimensioni del campione (sample size) sono adeguate?
Quando va sospettata una insufficiente numerosità del campione?
Una insufficiente numerosità campionaria andrebbe sospettata in queste emblematiche situazioni
a. Le caratteristiche basali dei soggetti randomizzati non risultano perfettamente bilanciate tra
un braccio e l' altro nonostante la allocation sia stata ben condotta . In questi casi la
asimmetria nella distribuzione dei fattori prognostici non è giustificata da un bias di
selezione ma solamente dall' errore random (vedi oltre). Di solito le caratteristiche basali dei
gruppi a confronto sono raffigurate nella tabella 1 dell' articolo.
b. Gli intervalli di confidenza del risultato di efficacia del trial sono molto larghi , ossia la stima
non è molto precisa (vedi oltre)
Sample size e precisione della stima
Uno studio non viene condotto sulla intera popolazione ma piuttosto su un campione di soggetti
obbedienti a determinati criteri di inclusione (population study). Il risultato estratto dal campione (si
chiama: 'stima puntuale') rappresenta quindi solo una proxy del risultato 'reale'. Il risultato 'reale' è
quello che avremmo invece rilevato nella popolazione qualora la ricerca fosse stata estesa a tutti i
soggetti con caratteristiche identiche a quelle dei pazienti reclutati nel campione.
La statistica inferenziale è in grado di valutare in che misura l' informazione estratta dal campione
('stima puntuale') sia 'rappresentativa' di questo 'risultato 'reale'. Il primo concetto da assimilare è
che la precisione di una 'stima puntuale' è direttamente proporzionale alla numerosità del
campione. Campioni piccoli produrranno quindi stime imprecise; campioni grandi stime più precise.
Un esempio indiretto del grado di precisione di una stima può essere fornito dai risultati prodotti da varie serie di lanci
di una moneta. In condizioni ideali (superficie di rimbalzo piatta e indeformabile, assenza di vento, moneta
perfettamente bilanciata, eccetera) per ogni lancio la probabilità 'indiscussa' di fare testa è 50% (P=0.5). Verifichiamo
ora se i risultati prodotti da un "campione" di lanci coincidono con quelli "reali". Lanciamo quindi in aria la moneta per
dieci volte. Con un numero di lanci così basso la percentuale di teste e di croci ripetendo più volte l' "esperimento" sarà
molto variabile. Se il risultato di una serie di lanci viene interpretato come "stima del risultato reale" le "stime"
prodotte da diverse serie di dieci lanci saranno quindi molto imprecise. Per esempio potremo ottenere una prima volta
2 teste su 10 lanci (Stima: P= 0.2) ; una seconda volta 8 teste su 10 lanci (Stima: P=0.8) e così via. Usando invece
serie di molti lanci (=ossia 'campioni' grandi) la variabilità sarà molto minore, con valori delle 'stime' sempre più più
vicini a quello 'reale' (P=0.5) a seconda del numero di lanci di volta in volta effettuato.
Un problema generale connesso al reclutamento di piccoli campioni è quindi rappresentato dalla
grande varianza dei loro risultati . Ripetendo più volte la stessa ricerca in identiche condizioni le
"stime puntuali" di volta in volta generate potranno in altri termini essere caratterizzate da valori
ora più grandi, ora più piccoli , ora uguali al risultato 'reale' solo per effetto del caso.
Piccoli campioni "forniscono pertanto stime assai imprecise della realtà"
Come misurare la precisione di una stima
La precisione di una stima può comunque essere misurata attraverso gli "intervalli di confidenza ",
facilmente calcolabili per qualunque misura di efficacia (vedi oltre). Gli intervalli di confidenza al 95%
esprimono infatti un range di valori entro cui è compreso con una attendibilità pari al 95% il valore 'reale'
che riscontremmo nella popolazione generale arruolando tutti i soggetti con caratteristiche identiche a
quelli reclutati dal trial. Ripetendo innumerevoli volte la stessa ricerca, nel 95% dei casi i risultati di volta
in volta prodotti cadrebbero quindi entro quel range.
I test statistici
Per definire se la differenza tra un braccio e l' altro "è reale" ossia "significativa" ossia "non dovuta
al caso" si utilizzano oltre agli intervalli di confidenza (vedi più avanti) anche i "test statistici di
significatività". Quasiasi test statistico parte dall' ipotesi nulla, cioè dal presupposto che "non
esistano differenze reali tra i due bracci". Se l' ipotesi nulla viene accettata la eventuale differenza
tra i due bracci viene interpretata come puro effetto del caso. Se l' ipotesi nulla viene ricusata la
differenza tra i due bracci viene considerata reale (quindi spiegata dalla dversità degli interventi
somministrati e non dall' effetto del caso). Ora: i valori della P prodotti da qualsiasi test statistico
quantificano esattamente la probabilità che il risultato rilevato sia solo dovuto al caso. Per
convenzione statistica una probabilità inferiore a 1/20 (ossia: P<0.05) viene considerata tanto
piccola da essere trascurabile. Ecco allora che se un test statistico produce una P <0.05 siamo
autorizzati a ricusare l' ipotesi nulla e ad affermare che la differenza riscontrata tra i due bracci è
"reale", cioè "non dovuta al caso", cioè "significativa". Invece se il test produce una P> 0.05 la
probabilità che il risultato "sia dovuto al caso" non può essere trascurata: pertanto l' ipotesi nulla
viene abbracciata e il risultato viene definito "non significativo".
Come si calcola il sample size
Affinchè i risultati di un trial forniscano stime credibili la numerosità del campione deve essere
determinata "ex ante". Il calcolo deve tener conto (a) della differenza nella misura dell’ outcome che si
prevede -ex ante- di rilevare tra i due bracci (b) dell’ errore alfa accettato (c) della potenza statistica
accettata; per le variabili intervallari anche (d) della deviazione standard della variabile nella popolazione.
a.
b.
c.
Occorre in primo luogo quantificare ex ante la differenza del fenomeno che ci si aspetta di rilevare
ex post tra un braccio e l' altro.
Per esempio la numerosità campionaria dello studio ASCOT-BPLA (Lancet 2005; 366: 895–906) è
stata calcolata prevedendo una potenza statistica dell' 80% nel rilevare per l' outcome primario
<morti CHD + Infarti non fatali> un Hazard Ratio pari a 0.84 con livelli di errore alfa pari a 0.05.
Significa che nel progettare la ricerca gli autori avevano previsto che l' intervento potesse
abbassare del 16% il rischio basale di outcome primario (l' Hazard Ratio corrisponde ad un
Rischio Relativo ed esprime la frazione di rischio basale rimasta dopo l' intervento - vedi oltre).
L’ errore "alfa" è la probabilità di considerare erroneamente 'non casuale' una differenza tra i due
bracci dovuta in realtà al caso. Per convenzione statistica si definisce ‘non casuale’ (=
‘statisticamente significativa’) una differenza tra i due bracci con una probabilità inferiore al 5% di
essere dovuta al caso (P<0.05).
La ‘potenza statistica’ (statistical power) esprime la capacità dello studio di rilevare differenze tra
i due bracci qualora esse effettivamente esistano. L’ "errore beta" è l’ inverso della ‘potenza
statistica’.
Se vengono espressi in numeri decimali l’ errore beta è dato dalla sottrazione (1-potenza) : con
un errore beta pari a 0.1 la potenza statistica è 0.9 . L’ errore beta esprime la probabilità di
considerare falsamente "dovuta al caso" una differenza tra i due bracci che in realtà "esiste". La
potenza statistica di norma accettata in una ricerca corrisponde a 80% - 90%, livelli che a propria
volta corrispondono ad un errore beta : P < 0.20 o P < 0.10.
Più piccola è la differenza che si prevede di rilevare tra i due bracci, maggiore è il numero di
pazienti da reclutare nella ricerca.
Cosa succede se la numerosità del campione non è sufficiente?
Uno studio sottocampionato :
a.
b.
Potrà non avere la potenza sufficiente a dimostrare la presenza di una differenza "reale" tra i
risultati rilevati nel braccio di intervento e nel braccio di controllo. In questo caso produrrà
risultati "falsamente non significativi", gravati cioè da errore beta.
Potrà produrre risultati "falsamente significativi" . Le dimensioni del campione sono infatti tarate
anche su livelli predeterminati di errore alfa (vedi sopra).
In un famoso esperimento (CE Counsell et al. The miracle of DICE therapy for acute stroke: fact or fictional product of
subgroup analysis? BMJ 1994 309: 1677-1681) erano stati creati a tavolino 44 trial immaginari in ciascuno dei quali il braccio
di intervento e il braccio di controllo erano stati confrontati per l' incidenza dell' outcome 'stroke fatale'. Per ogni paziente
fittizio il numero 6 ottenuto attraverso il lancio di un dado rappresentava un evento fatale; qualsiasi altro numero
rappresentava l' assenza di eventi fatali. Pertanto ciascun 'paziente' aveva una probabilità di decesso per stroke pari a 1/6 =
0.16. I 'trial' erano caratterizzati da diversi 'sample size' (ossia da diverso numero di lanci del dado: da un minimo di 10 a un
massimo di 200). Il risultato "reale" coincide in questo caso - ovviamente- con 'assenza di differenze tra un braccio e l' altro' (
in entrambi i bracci la probabilità "reale" dell' evento corrisponde a 0.16). Esprimendo il confronto tra i due bracci nel formato
di un Rischio Relativo (vedi oltre) il valore "reale" corrisponde a RR= 1 in quanto 0.16/0.16 = 1 .Come si ci poteva aspettare,
nell' esperimento DICE le 'stime puntuali' offerte dai risultati di ciascun 'trial' oscillavano invece per puro effetto del caso
intorno al valore <uno> con una variabilità inversamente legata alla dimensione del campione. Due di questi 'trial', entrambi
caratterizzati da modeste dimensioni campionarie (rispettivamente 20 e 40 'pazienti' ) avevano prodotto risultati (falsamente)
'statisticamente significativi' a favore del braccio di intervento.' offre paradossalmente maggiori garanzie di uno studio QuasiRandomizzato. Infatti mentre gli studi Quasi-Randomizzati pretendono di assumere connotati di qualità che non possiedono,
con grave rischio -come visto- di distorsioni interpretative, negli studi Non randomizzati i ricercatori mettono sempre in essere
accorgimenti statistici rivolti a migliorare la confrontabilità dei due bracci. Infatti le tecniche di analisi multivariata consentono
di confrontare i due gruppi per una singola variabile 'a parità di tutte le altre'. In nessun caso questi aggiustamenti potranno
però garantire la qualità dei confronti offerta dalla randomizzazione. Infatti i modelli di analisi multivariata prendono in
considerazione ovviamente solo variabili conosciute : l' influenza di una variabile ignota non può essere in alcun modo prevista
in questi calcoli. Al contrario una randomizzazione efficace permette di bilanciare equamente la distribuzione di tutte le
variabili note ed ignote potenzialmente in grado di influenzare l' outcome in modo indipendente dall' intervento.
3. Lo studio ha espresso con chiarezza l' ipotesi da testare?
I gruppi di studi di intervento
Distinguiamo due grandi gruppi di studi di intervento : gli studi di superiorità e gli studi di
equivalenza.
•
•
Uno studio di’ superiorità’ serve a stabilire se un intervento è più efficace di un altro
intervento.
Uno studio di ‘equivalenza’ serve invece a stabilire se un intervento ha una efficacia
uguale a quella di un altro intervento. Una variante degli studi di equivalenza è
rappresentata dagli studi di ‘non inferiorità’ , che servono stabilire se un intervento è
efficace almeno quanto un altro intervento.
Tale distinzione non è accademica ma risponde a precise esigenze di calcolo della potenza
statistica e a un completo rovesciamento delle ipotesi da testare. Gli studi 'di superiorità'
rappresentano la maggioranza dei trial di intervento pubblicati.
In uno studio di ‘superiorità’ l’ ipotesi nulla corrisponde all' assunto ‘i due trattamenti hanno
una efficacia uguale’ e l’ ipotesi alternativa all' assunto ‘i due trattamenti hanno una efficacia
diversa’.
La definizione o meno di 'significatività statistica' si basa quindi sulla ricusazione o
rispettivamente sulla accettazione dell' ipotesi nulla (vedi sopra). Al contrario, in uno studio di
equivalenza l’ ipotesi nulla corrisponde all' assunto ‘i due trattamenti hanno una efficacia
diversa’ e l’ ipotesi alternativa all' assunto ‘i due trattamenti hanno una efficacia uguale’.
Abbiamo visto che anche nelle condizioni in cui non è materialmente possibile che il risultato
"reale" di un trattamento sia diverso nei due bracci (vedi sopra: trial DICE) esisteranno sempre
e comunque in un campione lievi differenze tra i risultati rilevati in un braccio e l' altro
giustificate solo dalla casualità con cui il campione è stato estratto dalla popolazione.
In uno studio di equivalenza è importante specificare il significato clinico di queste differenze.
In altri termini per definire l’ ‘equivalenza’ dei trattamenti assegnati ai due bracci non basterà
stabilire che ‘non esiste significatività statistica per le differenze riscontrate ’ : il concetto di
‘equivalenza’ implica infatti una precisa definizione operativa ,che deve essere stabilita ex
ante. Occorre cioè che il ricercatore anticipi con chiarezza nel protocollo il margine di
‘differenza’ tra i risultati prodotti dai due trattamenti che può essere ancora considerato
'accettabile' per considerare ‘equivalente’ la efficacia degli interventi a confronto.
Questo range viene definito 'Intervallo di Equivalenza'.
Supponiamo che due farmaci producano "nella realtà" effetti assolutamente identici sulla mortalità.
Teoricamente quindi tra i due bracci a confro non dovrebbe essere registrata nessuna differenza in termini di mortalità.
Per esempio se nel braccio di intervento la mortalità corrisponde al 10% anche nel braccio di controllo dovrebbe
corrispondere al 10%. Il confronto tra i due bracci (ossia il risultato di efficacia) dovrebbe allora essere espresso da un
Rischio Relativo di morte pari a RR= 0.1/0.1 = 1.
La casualità del campionamento comporta però - come visto- la possibilità di osservare differenze tra i due bracci
puramente legate al caso (e non ad una azione differenziale dei due trattamenti). Uno studio di equivalenza dovrà
allora aver definito con precisione il range di valori della misura di efficacia entro cui dovrà cadere il risultato dello
studio affinchè i due trattament possano essere ancora definiti 'equivalenti'. Questo range viene definito 'Intervallo di
Equivalenza'. Per esempio gli autori potrebbero giudicare 'accettabile' un Intervallo di Equivalenza rappresentato da
valori di RR compresi tra 0.96 e 1.04. Potremo in questo caso definire 'equivalenti' i due trattamenti qualora il rischio
basale dell' evento non risulti ridotto dall' intervento più del 4% e non risulti aumentato dall' intervento più del 4%
(vedi oltre : RR e RRR).
Nota bene: dato che il risultato del trial è sempre e comunque una stima puntuale, esso sarà espresso assieme il
rispettivo intervallo di confidenza.
Pertanto in questi studi qualora l' intervallo di equivalenza racchiuda al proprio interno tutto l' intervallo di confidenza
della stima puntuale la definizione di 'equivalenza' sarà soddisfatta. Al contrario, se almeno un estremo dell' intervallo
di confidenza sfonda un estremo dell' intervallo di equivalenza la definizione di 'equivalenza' non sarà soddisfatta.
Per soddisfare la condizione di 'equivalenza' le ‘differenze accettabili’ tra i risultati di un braccio
e l' altro non potranno che essere ‘piccole’. Pertanto la potenza statistica dello studio -per
poterle rilevare (vedi sopra)- dovrà essere grande.
Risulta quindi ovvio che gli 'studi di equivalenza' richiedano una numerosità campionaria molto
più grande di quella richiesta dagli 'studi di superiorità. Gli autori invece spesso confondono il
risultato ’non significativo’ di uno studio di superiorità con un risultato di ‘equivalenza’. Ciò
espone il ricercatore ad un alto rischio di errore beta (ossia di "considerare falsamente non
significativa una differenza che invece esiste") in quanto la numerosità campionaria del trial
non è stata tarata su una ipotesi di equivalenza ma , al contrario, su una ipotesi di superiorità.
Nello studio INSHIGHT per esempio (Lancet. 2000 Jul 29;356:366) 6321 pazienti ipertesi furono randomizzatri a
Nifedipina e a idroclorotiazide. L' outcome primario era rappresentato da morte cardiovascolare + infarto miocardico +
insufficienza cardiaca o stroke . Lo studio era stato tarato su una potenza del 90% per rilevare una differenza relativa
del 25% tra un braccio e l' altro .
L’ outcome primario fu rilevato nel 6.3% dei pazienti nel gruppo nifedipina e nel 5.8% nel gruppo trattato con diuretici
, con risultato" non significativo" (RR 1.10 , 95% CI 0.91-1.34 , p=0.35. ). Gli autori conclusero che <nifedipina e
diuretici erano egualmente efficaci nel prevenire complicanze cardiovascolari e cerebrovascolari > . Questa
dichiarazione non è corretta in quanto il trial non ha dimostrato che ‘i due trattamenti soni equivalenti" ma piuttosto
che "non esistono prove che le differenze riscontrate tra i due bracci non siano dovute al caso".
Cosa manca in questa ricerca? Manca un intervallo di equivalenza predefinito. La <non significatività del risultato di
efficacia> riscontrata nel trial viene impropriamente confusa con il concetto di <‘equivalenza’ dei due trattamenti>,
che non è un concetto statistico ma una precisa definizione clinica.
In assenza di un predefinito ' intervallo di equivalenza' non esiste pertanto nessun motivo per dichiarare ‘equivalenti’
due trattamenti solo perchè l’ intervallo di confidenza della misura di efficacia utilizzata contiene il ‘cut’ off che soddisfa
l’ ipotesi nulla (per il Rischio relativo è = a uno, vedi oltre).
Se uno studio dichiara 'equivalenza' tra i risultati rilevati nei due bracci occorre pertanto
verificare attentamente la congruità di questa affermazione .
In primis occorre verificare se gli autori hanno esplicitato l' ipotesi di partenza. In uno
studio di equivalenza l' ipotesi nulla corrisponde come detto all' assunto "i due
trattamenti non sono equivalenti".
b. Se non l' hanno fatto o se non risulta chiaro occorre appurare se sia stato specificato
nell' articolo alla voce 'materiali e metodi' l' intervallo di equivalenza.
In manzanza di un intervallo di equivalenza lo studio deve essere considerato "studio di
superiorità".
a.
4. I due gruppi a confronto sono caratterizzati da identiche
condizioni di partenza?
A) Allocation concealment e Randomizzazione
Prenderemo come esempio uno studio RCT. L' allocation concealment è il momento più critico
di uno studio RCT perchè condiziona la casualità della assegnazione dei pazienti all' uno o all'
altro braccio. Se l’ allocation concealment è risultata efficace i due bracci saranno
perfettamente identici nelle condizioni di base : le differenze registrate tra un braccio e l’ altro
alla fine della ricerca potranno essere così interpretate come conseguenza dell’ intervento
studiato. L’ allocation concealment ha tre componenti:
1.
Generazione dei numeri random.
Se sono state utilizzate tecniche di allocation diverse da quelle formali (tabelle dei
numeri random; utilizzo di sistemi computerizzati) occorrerebbe evitare di usare il
termine ‘random’.
Si definisce ‘quasi randomizzato’ uno studio "randomizzato in modo incongruo", per
esempio utilizzando i numeri pari della data di nascita per assegnare il paziente al
braccio di intervento e i numeri dispari per assegnare il paziente al braccio di controllo.
Questo termine dovrebbe essere evitato in quanto può erroneamente far pensare che la
qualità di queste ricerche sia solo di poco inferiore a quella degli RCT.
In realtà gli studi 'quasi randomizzati' sono molto soggetti a bias.
Per esempio un operatore potrebbe violare la randomizzazione consigliando al paziente di presentarsi in un
giorno particolare della settimana per non correre il rischio di essere assegnato la braccio di controllo.
2.
Tecnica materiale di allocation.
Consiste nella implementazione del processo di randomizzazione. Si tratta cioè del
modo concreto con cui il paziente viene destinato ad un braccio o all’ altro. Metodi
adeguati sono rappresentati dall’ intervento di una persona estranea alla
somministrazione dell’ intervento che assegna il paziente per telefono al trattamento A
o al trattamento B, essendo sia il paziente che il personale che consegna materialmente
il trattamento assolutamente ignaro della natura di ciò che viene somministrato al
paziente.
3.
Mascheramento della allocation.
L’ allocation concealment presuppone che il paziente dia per iscritto il proprio consenso
ad essere inserito in condizioni di ‘cecità’ all’ uno o all’ altro braccio. Il Mascheramento
della allocation è uno dei quattro tipi di mascheramento che si dovrebbero
implementare in un RCT condotto in modo impeccabile (vedi oltre) . Metodi adeguati
sono rappresentati dall’ assegnazione del farmaco A o del farmaco B in contenitori
opachi e sigillati. Gli studi in cui l’ allocation concealment è eseguita in modo scorretto
sopravvalutano del 40% l’ efficacia degli interventi sanitari.
Nonostante l’ importanza dell’ allocation concealment è stato visto che l’ 89% dei trial sull’ artrite reumatoide,
il 48% dei trial in ostetricia e ginecologia, e il 44% dei trial in riviste di medicina generale non riportano i
dettagli di questa metodica. Solo il 5% dei RCT pubblicati nel 1997 nelle riviste di dermatologia riportava la
metodica di allocation utilizzata.
B) Come verificare se la randomizzazione è stata efficace?
Le caratteristiche dei pazienti randomizzati sono in genere elencate nella tabella 1 dell’ articolo.
Se la randomizzazione ha distribuito equamente le caratteristiche basali tra i due gruppi a confronto si
può ragionevolmente pensare che ciò si sia verificato anche per le caratteristiche ignote e che i due bracci
siano pertanto ben confrontabili anche per i fattori prognostici sconosciuti. In presenza di campioni non
numerosi la randomizzazione potrebbe non essere sufficiente a distribuire equamente le caratteristiche di
base (vedi sopra). In tal caso gli autori utilizzano in fase di elaborazione dei dati aggiustamenti statistici
(analisi multivariata) rivolti ad aumentare la confrontabilità tra i due bracci. Queste tecniche vengono di
solito ampiamente utilizzate negli studi controllati non randomizzati.
NB: spesso gli autori valutano la presenza o meno di differenze basali tra i due bracci attraverso test di significatività
statistica. Ciò non è corretto in quanto tali test rappresentano un elemento di statistica inferenziale e non hanno nulla
a che fare con la statistica descrittiva.
5. I due gruppi a confronto mantengono la confrontabilità
anche durante la conduzione dello studio?
A) Sono state adottate tecniche di mascheramento anche durante la
conduzione del trial?
Condizione ideale per un RCT è che la ‘doppia cecità’ venga mantenuta anche durante la
conduzione della ricerca. E' stato infatti dimostrato che gli studi non in doppio cieco
sopravvalutano del 13% l’ efficacia degli interventi sanitari. Il mascheramento (oltre che al
momento dell’ allocation) dovrebbe essere garantito anche nelle fasi di seguito descritte:
1. Somministrazione degli interventi: l’ operatore addetto alla distribuzione dei trattamenti
e il paziente ignorano per tutta la conduzione dello studio il braccio a cui è stato
assegnato il paziente (nella fattispecie, la natura del prodotto somministrato)
2. Raccolta dei dati: l’ operatore incaricato di raccogliere i dati clinici e il paziente ignorano
il braccio a cui è stato assegnato il paziente
3. Valutazione dei risultati: l’ operatore addetto alla interpretazione dei dati e il paziente
ignorano il braccio a cui è stato assegnato il paziente. La cecità nella rilevazione dei
risultati rappresenta l' unico sistema di mascheramento nelle ricerche in cui è
paradossale o impossibile che il ricercatore e il paziente non conoscano il braccio di
randomizzazione (es: trial chirurgici; trial di psicoterapia..)
B) La Qualità del follow-up è risultata adeguata?
a. Perdite al follow-up (Drop-outers = pazienti di cui non si conosce l’ esito)
Se la perdita al follow-up nei due bracci avviene in modo simmetrico e se le caratteristiche dei
pazienti persi sono equiparabili a quelle dei pazienti che rimangono nello studio l’ unico
problema è rappresentato da una perdita di potenza statistica della ricerca in seguito alla
riduzione della numerosità campionaria. Purtroppo è molto raro che questo accada in quanto il
fenomeno delle perdite al follow-up non avviene in modo random. In altri termini i pazienti
persi hanno il più delle volte caratteristiche diverse da quelle dei pazienti che rimangono nello
studio e in più il fenomeno si realizza in modo diverso nei due bracci. Se le perdite al follow-up
sono rilevanti è gravemente compromessa la attendibilità della ricerca ; lo sbilanciamento dei
fattori prognostici tra i due bracci che consegue alle perdite al follow-up è definito allora
"attrition bias".
Per esempio se le condizioni di pazienti esposti ad un determinato farmaco sono talmente precarie da non consentire al
paziente di recarsi ai controlli previsti dal follow-up il braccio dei trattati viene impoverito dei pazienti caratterizzati da
peggior prognosi, con distorsione dei risultati espressa da un sovradimensionamento degli effetti benefici del farmaco
Non c’è accordo in letteratura sul livello critico di queste perdite al follow-up. Sackett considera
inaffidabile una ricerca con perdite al follow-up superiori al 20% e questo limite è stato
recepito anche da riviste secondarie come Evidence Based Medicine e ACP Journal Club, che
rifiutano di pubblicare ricerche in cui la perdita al follow-up sia maggiore del 20% (Sackett DL
et al Evidence Based medicine – How to practice and teach EBM Second edition Churchill
Livingstone 2001 ISBN 0443062404). Altri autori considerano inaccettabili perdite superiori al
10%. Il miglior modo di rimediare al fenomeno delle perdite al follow-up è cercare di
prevenirle.
Per esempio l’ arruolamento potrebbe essere limitato alla scelta di individui che offrono fin dall’
inizio garanzie di completare il follow-up. Questa scelta però è pericolosa per la trasferibilità
dei dati alla popolazione ‘reale’ (validità esterna della ricerca) in quanto l’ arruolamento
seleziona in tal caso una popolazione ‘artificiale’ costituita da individui particolarmente
‘compliant’. Valide alternative potrebbero essere rappresentate dalla programmazione ex ante
di metodi particolari di raccolta dei dati. Per esempio informazioni sullo stato di salute del
paziente potrebbero essere estratte da familiari o da amici o dai medici curanti qualora nel
corso della ricerca il peggioramento delle condizioni cliniche non consentisse al paziente di
recarsi ai controlli previsti dal follow-up . Anche la registrazione della targa del veicolo del
paziente potrebbe essere utille per rintracciarlo in caso di eventuali cambi di indirizzo.
Sensitivity Analysis
La robustezza delle conclusioni di uno studio con perdite al follow-up significative possono
essere saggiate con tecniche di Sensitivity Analysis , in cui vengono immaginati scenari diversi
attribuendo il peggior esito o rispettivamente il miglior esito possibile ai pazienti persi al followup.
Questi scenari immaginari sono quattro:
1. peggior esito possibile attribuito sia ai persi al follow-up del braccio di intervento che ai
persi al follow-up del braccio di controllo : i risultati di efficacia del trial vengono
calcolati immaginando che tutti i pazienti persi abbiano avuto l' evento
2. miglior esito possibile attribuito sia ai persi al follow-up del braccio di intervento che ai
persi al follow-up del braccio di controllo : i risultati di efficacia del trial vengono
calcolati immaginando che nessun paziente perso abbia avuto l' evento
3. peggior esito possibile attribuito ai persi al follow-up del braccio di intervento e miglior
esito possibile attribuito ai persi al follow-up del braccio di controllo: i risultati di
efficacia del trial vengono calcolati immaginando che i pazienti persi nel braccio di
intervento abbiano avuto l' evento e che i pazienti persi nel braccio di controllo non
abbiano avuto l' evento.
4. miglior esito possibile attribuito ai persi al follow-up del braccio di intervento e peggior
esito possibile attribuito ai persi al follow-up del braccio di controllo :i risultati di
efficacia del trial vengono calcolati immaginando che i pazienti persi nel braccio di
controllo abbiano avuto l' evento e che i pazienti persi nel braccio di intervento non
abbiano avuto l' evento
Alla luce di ciascuno di questi quattro scenari, se le conclusioni originali del lavoro non vengono
troppo stravolte possono essere accettate perchè sufficientemente ‘robuste’(Hollis , BMJ 1999
319:670).
E' comunque da ribadire che nessun tipo di analisi potrà salvare un trial caratterizzato da
eccessive perdite al follow-up: i pazienti di cui non si conosce l' outcome rappresentano uno
dei problemi più importanti da affrontare nella programmazione di una ricerca e nella
valutazione dei suoi risultati
Nello studio ARTEMIS (BMJ 2006;332:325) una nuova eparina a basso peso molecolare, (fondaparinux) è stata
confrontata con placebo in soggetti ospedalizzati e allettati per patologie internistiche ; l' outcome primario era l' endpoint composito 'trombosi profonde diagnosticate flebograficamente + tromboembolie sintomatiche'). Sono stati
randomizzati ai due bracci 849 pazienti. 205 pazienti (vale a dire il 24.1% dell' intera casistica) sono stati persi al
follow-up. Nei 644 pazienti analizzati la somministrazione di fondaparinux confrontata con placebo ha comportato una
significativa riduzione dell' incidenza di questo end-point (ARi = 0.056; ARc = 0.105; RRR = 0.467 ,IC95% 0.0770.693, P=0.029. L' analisi dei dati degli autori è quindi una analisi "Per Protocol" (vedi oltre) in quanto ha escluso dal
denominatore tutti i pazienti in cui non è stato possibile rilevare l' outcome. Se i dati vengono rianalizzati secondo il
più corretto principio 'Intention to Treat' (vedi oltre: nel calcolo dei Rischi Assoluti dell' evento il denominatore è in
questo caso rappresentato da tutti i pazienti inizialmente randomizzati a quel braccio) nei 4 scenari della Sensitivity
Analysis la significatività dei risultati viene mantenuta nello scenario I "miglior prognosi in entrambi i bracci" : RRR =
0.48 (0.70-->0.09) e nello scenario III "miglior prognosi nel braccio di intervento, peggior prognosi nel braccio di
controllo": RRR 0.86 (0.91-->0.78). La significatività viene invece persa nello scenario II "peggior prognosi in entrambi
i bracci" RRR 0.05 (0.2-->-0.15) mentre nello scenario IV "peggior prognosi nel braccio di intervento, miglior prognosi
nel braccio di controllo" la direzione dell' effetto addirittura si inverte (RRR -2.62 (-1.54-->-4.16)
E' evidente che in presenza di un numero così elevato di soggetti per i quali non si conosce l' outcome non possiamo
accettare con fiducia le conclusioni dello studio ARTEMIS : non solo per quanto riguarda l' intensità dell' effetto, ma
anche per quanto riguarda la sua stessa direzione.
b. Violazioni del protocollo
Le violazioni del protocollo sono rappresentate dai pazienti che per qualche motivo non hanno
rispettato il protocollo dello studio ma di cui si conosce l’ outcome. Si tratta dei 'cross-overs' e
dei 'non compliant'.
Il fenomeno dei cross-overs, chiamati anche drop-ins (ossia il passaggio al braccio di controllo
di pazienti inizialmente assegnati al braccio di intervento o –viceversa- il passaggio al braccio
di intervento di pazienti inizialmente assegnati al braccio di controllo) e il fenomeno dei non
compliant (pazienti che non hanno assunto alcun trattamento previsto dalla sperimentazione
ma di cui alla fine della sperimentazione si conosce l’ esito) può essere affrontato dai
ricercatori in tre modi.
Il punto critico è espresso dal modo in cui viene calcolata la frequenza dell’ outcome in ciascun braccio (=Rischio
Assoluto dell' Outcome nel braccio).
I- Analisi ‘per protocol’
La frequenza dell’ outcome in ciascuno dei due bracci viene calcolata escludendo dal denominatore i
pazienti di quel braccio che non hanno rispettato il protocollo. Questa soluzione può gravemente
distorcere i risultati in quanto ignorare i pazienti che hanno violato il protocollo equivale a considerarli
'drop-outers' ossia persi al follow-up, con tutte le conseguenze già segnalate (vedi sopra).
II- Analisi ‘as treated'
Vengono creati in questo caso due gruppi artificiali a confronto. Il primo gruppo è rappresentato da tutti i
pazienti che sono stati effettivamente trattati con l’ intervento sotto studio (è costituito dalla somma dei
pazienti inizialmente assegnati al braccio di intervento e che sono rimasti in questo braccio lungo tutta la
durata della ricerca e dei pazienti inizialmente assegnati al braccio di ‘controllo’ ma che –cross-overssono successivamente passati nel braccio di intervento). Il secondo gruppo è rappresentato dai pazienti
che per qualche motivo non hanno ricevuto l' intervento sotto studio ‘(è costituito dalla somma dei
pazienti inizialmente assegnati al braccio di ‘controllo’ e che sono rimasti in questo braccio lungo tutta la
durata della ricerca e dei pazienti inizialmente assegnati al braccio di intervento ma che -crossovers- sono
successivamente passati nel braccio di controllo o che -non compliant all’ intervento- hanno
semplicemente smesso di assumere l’ intervento). Per ciascun gruppo viene poi calcolata la frequenza
dell’ outcome mettendo al denominatore la somma di tutti i soggetti che rappresentano il gruppo. Anche
questo metodo può creare gravi distorsioni dei risultati finali in quanto annulla i vantaggi offerti dalla
randomizzazione. Infatti ciascuno dei due gruppi artificiali che vengono messi a confronto è formato da
un mix di pazienti randomizzati inizialmente all' uno e all' altro braccio. Ciò crea gravi problemi nella
distribuzione dei fattori prognostici e nella 'confrontabilità' dei due bracci.
III- Analisi ‘intention to treat’:
La frequenza dell’ outcome in ciascuno dei due bracci viene calcolata mettendo al
denominatore tutti i pazienti inizialmente assegnati a quel braccio , non tenendo conto quindi
di eventuali cross-overs o di non compliant a quel braccio emersi in tempi successivi alla
randomizzazione. Questa procedura quindi non tiene conto delle violazioni del protocollo ma
anziché escluderle dall’ analisi (come fa l’ analisi Per Protocol --> vedi) registra entro ciascun
braccio gli eventi che riguardano i pazienti ‘compliant’ assieme agli eventi che riguardano i
pazienti che hanno violato il protocollo.
Questo tipo di analisi prende il nome di ‘Analysis Intention To treat’ (ITT). Non è facile per il
clinico digerire una ‘Analisi Intention to Treat’ in quanto appare irrazionale considerare nei
calcoli anche gli eventi dei pazienti che non hanno rispettato le regole del protocollo. Tuttavia
questa procedura presenta notevoli vantaggi. La ITT è infatti il miglior compromesso per
mantenere intatti i vantaggi della randomizzazione. La randomizzazione ha lo scopo di rendere
i due bracci assolutamente identici nelle condizioni di base. In questo modo le differenze che
osserveremo tra il braccio di intervento e il braccio di controllo non potranno che essere
spiegate dall’ effetto del trattamento sotto studio. La randomizzazione rende i due bracci uguali
(a patto che la numerosità del campione sia adeguata) in quanto come detto distribuisce in
modo assolutamente stocastico tutti i fattori prognostici noti e ignoti. Una analisi ‘as treated’
implica invece il confronto di 2 gruppi ‘artificiali’, ciascuno formato da un mix di pazienti
randomizzati ai 2 bracci opposti. Una analisi ‘per protocol’ escludendo i pazienti che per
qualche motivo non hanno assunto il farmaco composta inevitabilmente la selezione di una
casistica (quella dei pazienti rimasti nel braccio) più ‘resistente’ ad esempio agli effetti
collaterali del trattamento, cosa che abbiamo verificato nello scenario illustrato. La ITT
rispecchia fedelmente quello che avviene in condizioni ‘reali’. La compliance al trattamento è
infatti estremamente variabile nei pazienti che si osservano nella pratica quotidiana e non
avrebbe senso non tener conto di ciò selezionando, per i confronti statistici, solo popolazioni
caratterizzate da una compliance’ ideale’.
Un clamoroso esempio di distorsione dei risultati associato ad una analisi 'As Treated' è offerto dal trial "Screening
decrease prostate cancer death" di Labrie F et Al (The Prostate 1999 38:83). Furono reclutati 46193 pazienti di età da
45 a 80 anni in un trial randomizzato e controllato rivolto ad esplorare l’efficacia (in termini di riduzione di mortalità
specifica) di un programma di screening del carcinoma prostatico.
Lo screening era basato sulla esplorazione rettale e sul dosaggio del PSA. La mortalità per carcinoma della prostata fu
registrata in un periodo di follow-up compreso tra il 1989 e il 1996 . Tra i pazienti reclutati nello studio 30956 furono
assegnati in modo random al braccio di intervento (screening) ; 15237 al braccio di controllo (non screening). Lo
screening fu applicato a 7155 pazienti randomizzati al gruppo di intervento (Gruppo A: 4 decessi) mentre 23801
pazienti dello stesso braccio non furono sottoposti a questa procedura (Gruppo D: 93 decessi). Nel gruppo
randomizzato al braccio di controllo 14255 pazienti seguirono il protocollo (Gruppo B: 44 decessi) mentre 982 vennero
comunque sottoposti a screening (Gruppo C: 1 decesso). Negli 8137 pazienti sottoposti a screening furono quindi
registrati 5 decessi per carcinoma della prostata , contro 137 decessi registrati nei 38056 pazienti non sottoposti a
screening .
Conclusioni degli autori:(...) lo studio dimostra, per la prima volta, una drammatica riduzione dei decessi dovuto a
cancro della prostata nei pazienti sottoposti a screening.I dati dell’ articolo (gli autori tra l' altro non riportano alcuna
perdita al follow-up e ciò desta molta meraviglia in un trial di 46193 pazienti!) permettono di risalire facilmente al
rischio assoluto di morte per cancro prostatico. I gruppi messi a confronto sono :
A) Pazienti che effettivamente sono stati sottoposti a screening. Si tratta di 7155 pazienti assegnati dalla
randomizzazione allo screening e compliant a questo trattamento + 982 pazienti violatori del protocollo (erano stati
assegnati dalla randomizzazione a non essere sottoposti a screening ma poi l’ hanno fatto lo stesso). Il totale è
7155+982= 8137 pazienti. In questo gruppo sono stati riscontrati in tutto 4+1 = 5 decessi per carcinoma prostatico.
La mortalità per carcinoma prostatico (Rischio Assoluto) in questi pazienti ‘effettivamente sottoposti a screening’ è
data da 5/8137 = 0,0006144 (0,61 per mille).
B) Pazienti che effettivamente non sono stati sottoposti a screening. Si tratta di 14.255 pazienti assegnati dalla
randomizzazione a non essere sottoposti a screening (compliant al protocollo) + 23.801 pazienti violatori del protocollo
(erano stati assegnati dalla randomizzazione ad essere sottoposti a screening ma poi non l’ hanno fatto). Il totale è
14.255 + 23.801 = 38.056 pazienti In questo gruppo sono stati riscontrati 93+44 = 137 decessi. La mortalità per
carcinoma prostatico (Rischio Assoluto) in questi pazienti ‘effettivamente non sottoposti a screening’ è data da
137/38056 = 0.0035 (3.5 per mille).
I risultati sono clamorosamente a favore dell’ efficacia dell’intervento (PSA esplorazione rettale) nel ridurre la mortalità
per carcinoma prostatico, con significatività statistica: RR = 0.17 (0.06-0.41) [NB: Nell' articolo originale i dati
vengono riportati in formato diverso ossia sotto forma di RRR calcolata attraverso il rapporto tra i tassi di incidenza:
0,69 P<0.01] .Se gli autori avessero correttamente analizzato i dati in base al principio Intention to Treat i gruppi a
confronto sarebbero invece stati: 1) pazienti randomizzati al gruppo di intervento (si screening) : 30.956. In questo
gruppo sono stati registrati 97 decessi (4 tra i ‘compliant’ e 93 tra i ‘no compliant’). La mortalità è quindi pari a
97/30.956 = 0.0031 (3.1 per 1000). 2) Pazienti randomizzati al gruppo di controllo (no screening): 15.237. In questo
gruppo sono stati registrati 45 decessi (44 tra i ‘compliant’ e 1 tra i ‘no compilant’). La mortalità è quindi pari a
45/15237 = 0.0029 (2.9 per 1000) .
La differenza tra i due bracci in questo caso non è statisticamente significativa: RR =1.06 (0.74-1.51)
c. Adeguatezza della durata del follow-up
La lunghezza del follow-up deve essere adeguata alla possibilità di rilevare l’ outcome. Ad
esempio in uno studio di efficacia dove si valuti un farmaco contro l’ ipercolesterolemia basterà
un follow-up di un mese per rilevare modifiche nella colesterolemia ma occorreranno almeno
cinque anni per rilevare modifiche in termini di mortalità tra i due bracci.
6. Sono stati scelti outcome adeguati?
Tipi di outcome
Si propone la seguente classificazione degli outcome:
1. Outcome Primari o Secondari a seconda della priorità di analisi definita dagli autori .
La potenza statistica dello studio è tarata sull’ outcome primario (vedi sopra) ed è
importantissimo che i ricercatori non si dimentichino di ciò. Raramente essi sfuggono
alla tentazione di valutare nella ricerca molti outcome ma tutte le informazioni sui
risultati di efficacia rilevati sugli outcome secondari dovrebbero essere interpretate con
cautela . Infatti a rigor di logica queste, informazioni dovrebbero essere considerate
solo come plus valore in grado di generare ipotesi di lavoro o in alternativa a conferma
dei risultati rilevati per l' outcome primario. L' interpretazione dei risultati che si
riferiscono ad un outcome secondario è un problema metodologico molto delicato e sarà
affrontato a parte (vedi oltre)
2. Outcome Maggiori o Surrogati in base alla loro importanza in termini di
correlazione con lo stato di salute.
Come già specificato la mortalità per CHD o la incidenza di Infarto miocardico sono
outcome maggiori in quanto fortemente correlati con lo stato di salute del paziente.
Invece la ipertensione arteriosa o i livelli di colesterolemia sono outcome surrogati : lo
stato di salute del paziente viene modificato non dagli outcome surrogati 'in se' ma
piuttosto dagli outcome maggiori 'infarto' e 'stroke' a cui gli outcome surrogati sono
correlati. La letteratura biomedica è colma di esempi che testimoniano la convenienza di
adottare ogni volta che sia possibile i suggerimenti operativi dettati da trial che
considerano outcome maggiori.
Lo studio CAPS (Am J Cardiol. 1988 Mar 1;61(8):501) aveva valutato l' efficacia di alcuni farmaci antiaritmici
nella profilassi di aritmie potenzialmente fatali nei pazienti infartuati (outcome surrogato) , dimostrando una
significativa riduzione delle aritmie ventricolari nei pazienti sottoposti a trattamento con encainide e flecainide
(con percentuali di efficacia rispettivamente pari a 79% e 83% e superiori a quelle registrate con altri farmaci
antiaritmici o con placebo).
Lo studio CAST (NEJM1989 Aug 10;321(6):406-12. ) -pubblicato l' anno successivo- valutando l' efficacia
della profilassi antiaritmica nei pazienti infartuati sull' incidenza di outcome maggiori segnalava però un
significativo eccesso di mortalità quando le stesse molecole venivano confrontate con il placebo: RR morte =
3.6 (1.7 - 8.5).
Gronda et al (Arzneimittelforschung 1986;36:371-5) hanno dimostrato un significativo miglioramento della
performance ventricolare (outcome surrogato) nei pazienti affetti da cardiomiopatia dilatativa idiopatica
trattati con ibopamina (nei confronti con placebo : CO: +10.1% P< 0.01; SV: +14.1%, P< 0.01; EF:
+10.8%, P<0.05)
Lo studio PRIME II (Lancet 1997;349:971-7) dimostrava successivamente che nei pazienti scompensati l'
utilizzo dell' ibopamina era associato ad un eccesso di decessi (outcome maggiore) : nei confronti con il
placebo il RR di morte era : 1.26 (95% CI 1.04-1.53) p = 0.017
Lo studio PEPI (JAMA 1995 Dec 6;274(21):1676 ) dimostrava che la terapia ormonale sostitutiva in
menopausa (TOS) era in grado di abbassare significativamente il livello di colesterolo LDL (da 14.5 a 17.7
mg/dL) (outcome surrogato).
Lo studio WHI (JAMA. 2002 Jul 17;288(3):321) dimostrava però successivamente che la TOS era associata ad
una aumentata incidenza di coronaropatie : HR per CHD= 1.29 (1.02-163) (outcome maggiore).
3. Outcome Hard o Soft in base alla facilità con cui possono essere misurati (es;
outcome hard sono il numero di morti o il numero di infarti registrati durante la ricerca;
outcome soft sono la Qualità della vita o lo Scompenso cardiaco)
Lo studio ALLHAT (JAMA, 2000 - 283:1967) ha dimostrato che l' utilizzo di doxazosin al posto di clortalidone
nei pazienti ipertesi è associato ad un rischio doppio di scompenso cardiaco (RR, 2,04; IC 95%, 1,79-2,32;
P<0,001). I risultati rilevati sull' incidenza di questo outcome hanno rappresentato il principale motivo dell'
interruzione precoce di questa ricerca. In data 20 aprile 2001 la Pizer ha tuttavia pubblicato una risposta allo
studio ALLHAT notificando che in 13 anni di ricerca e di sorveglianza postmarketing non era emerso alcun
dato a sostegno di una relazione causale tra doxazosin, scompenso cardiaco, infarto miocardico o stroke. Non
si può escludere pertanto che almeno in parte i risultati dello studio ALLHAT relativi all' incidenza di
scompenso cardiaco possano essere imputati ad una misclassificazione dell' outcome dovuta alla eterogenea
abilità diagnostica nei confronti di questo end-point 'soft' nei più di 600 centri territoriali ed ospedalieri che
hanno partecipato all' indagine (Houston et al, 2003 Vol. 6, No. 1 JANA 25)
4. Outcome Compositi
Gli end-point compositi sono stati introdotti nella letteratura biomedica da circa
trent'anni.
Si definisce così un end-point costituito a propria volta da sottoelementi rappresentati
da singoli end-point.
Sicuramente la motivazione più importante dell' utilizzo di end-point compositi consiste
nell’ opportunità di aumentare l'efficienza statistica del trial. Utilizzando un outcome
rappresentato da più sottoelementi aumenta infatti la possibilità che la popolazione
reclutata dal trial incorra nell' evento.
In queste condizioni nella programmazione del sample size potrà essere ipotizzato che l'
intervento produca un effetto maggiore.
L'aumento della frequenza basale dell'evento richiede così, a parità di altre condizioni
(vedi sopra) , l'arruolamento di un numero minore di soggetti rispetto a quello che
sarebbe stato necessario programmare a parità dei livelli di erore alfa e di errore beta
ipotizzando l'incidenza dei singoli sottoelementi.
L' abuso di outcome compositi può creare notevoli problemi nella interpretazione dei
risultati di una ricerca. L' utilizzo di end-point troppo complessi può infatti generare
informazioni confuse sull' andamento generale del disease e rendere problematica l'
interpretazione dei risultati in presenza di sottelementi non correlati allo stesso
processo fisiopatologico.
Un esempio quasi caricaturale di end-point composito è rappresentato dall' outcome primario 'fallimento
terapeutico' considerato in uno studio sugli effetti dell' acido ursodesossicolico nella colangite sclerosante
primitiva, dove il 'fallimento terapeutico' veniva espresso come (morte o trapianto di fegato o progressione
istologica di due stadi su quattro verso la cirrosi o sviluppo di varici o sviluppo di ascite o sviluppo di
encefalopatia o quadruplicazione sostenuta dei livelli di bilirubina o marcato peggioramento di astenia o
prurito o incapacità di tollerare il farmaco o rinuncia volontaria alla prosecuzione della ricerca) (N Engl J Med
1997; 336:691-695, Mar 6, 1997)
Le difficoltà interpretative associate all' utilizzo di questi end-point aumentano ancora di
più quando gli outcome compositi sono utilizzati come outcome secondari, cosa che in
genere dovrebbe essere evitata (Moyé LAMultiple Analyses in Clinical Trial
Fundamentals for investigators Springer 2003 ISBN 10918937) (vedi oltre:
interpretazione di outcome secondari).
7. Come è stato espresso il risultato di efficacia?
Negli studi RCT molto spesso l’ outcome (ad esempio: ‘mortalità’ ) è espresso in scala
dicotomica . Altri outcome vengono espressi in scala intervallare (es: valori di colesterolemia).
Quali sono le unità di misura di un outcome in scala dicotomica?
Gli eventi si misurano in scala dicotomica in quanto un evento può essere presente o assente,
senza altre alternative. In questo caso alcune unità di misura possono essere ricavate da una
tabella di contingenza (AR, Odds); altre (Tasso di incidenza, Incidenza cumulativa) sono più
complesse in quanto sono il frutto di una analisi temporale.
I.
Rischio Assoluto (AR)
Il ‘Rischio Assoluto’ non valuta l’ andamento temporale di un fenomeno ma esprime
semplicemente rapporto tra il numero degli eventi (es: morti) rilevati entro un periodo di tempo
in un braccio e il numero totale di soggetti reclutati in quel braccio). Nella tabella di contingenza:
AR intervento (ARi) = a/(a+b) AR controlli (ARc) = c/(c+d).
Nota importante: osservare attentamente il Rischio Assoluto dei Controlli (ARc o Rischio
Basale)
E' importante sottolineare fin d' ora il significato clinico del Rischio Basale. Dato che
esprime la frequenza dell' outcome nel gruppo di pazienti che non hanno ricevuto il
trattamento (i controlli), il Rischio Basale rappresenta cosa sarebbe successo per quell'
outcome in assenza dell' intervento. Infatti in un trial randomizzato i due bracci sono
rappresentati da soggetti pressoché identici nelle loro caratteristiche di base. E'
particolarmente importante conoscere il Rischio Basale quando per confrontare i due
bracci di un trial si utilizza come misura di efficacia un Rischio Relativo (RR--> vedi) o
una Riduzione Relativa di Rischio (RRR--> vedi). Infatti queste misure non sono in
grado di fornire informazioni sulla reale entità del fenomeno. E' stato formalmente
dimostrato che l' utilizzo di un RR o di un RRR nella presentazione dei risultati di un trial
costituisce un grande impatto per il medico prescrittore e proprio per questo motivo
questi formati sono molto utilizzati nei depliant dalla propaganda farmaceutica. Tuttavia
un RR o un RRR non fornisce al lettore alcuna informazione sul reale impatto clinico di
un intervento a meno che non venga rapportato al Rischio Basale. Un Rischio Relativo
esprime infatti la frazione di Rischio Basale osservata dopo un intervento, mentre una
Riduzione di Rischio Relativo esprime la frazione di Rischio Basale abbattuta dall'
intervento (vedi oltre).
Ad esempio: se un farmaco abbatte la Mortalità Basale del 20% questo abbattimento si chiama Riduzione
Relativa di Rischio (RRR) . La frazione di Mortalità Basale che resta dopo l' intervento corrisponde ovviamente
all' 80% della Mortalità di base: questa frazione residua si chiama Rischio Relativo (RR ). L' impatto clinico di
un intervento che dovrebbe modificare la frequenza di un evento non potrà essere compreso se accanto ai
valori di RR o di RRR non si conoscono anche i valori del Rischio Basale dell' evento (ARc). Una situazione del
genere può essere paragonata all' acquistare un prodotto da un negoziante senza conoscere il prezzo
originale (=ARc) solo perché il venditore garantisce uno sconto del 20% (=RRR) del prezzo originale . Senza
conoscere il prezzo originale non è molto rilevante sapere che il prezzo netto da pagare (=ARi) corrisponderà
all' 80% del prezzo originale (=RR).
II.
Tasso di Incidenza
Il ‘Tasso di incidenza’ rappresenta il rapporto tra il numero di eventi registrati in un braccio lungo
un determinato arco temporale e la somma dei singoli periodi di osservazione dei soggetti studiati
nel braccio : per la mortalità, ad esempio, corrisponde al rapporto (numero di morti)/(anni-uomo
di osservazione). In questa sede basti ricordare che il confronto tra i due bracci, espresso (vedi
oltre) da ARR , RR, RRR, NNT, NNH può essere eseguito utilizzando il tasso di incidenza nelle
stesse operazioni matematiche in cui viene utilizzaro il Rischio Assoluto AR.
III.
Incidenza Cumulativa
L’ ‘Incidenza cumulativa’ rappresenta invece il prodotto delle incidenze istantanee di un
evento registrate in un braccio lungo tutto il periodo di osservazione, essendo una
‘incidenza istantanea’ definita dal rapporto (numero di eventi registrato in quel
momento)/(numero di soggetti a rischio dell’ evento esistenti in quel momento). In
questa sede basti ricordare che il confronto tra i due bracci, espresso (vedi oltre) da
ARR , RR, RRR, NNT, NNH può essere eseguito utilizzando l' incidenza cumulativa nelle
stesse operazioni matematiche in cui viene utilizzaro il Rischio Assoluto AR.
IV.
Odds
Un Odds non è una probabilità: il termine inglese è assolutamente intraducibile e
qualsiasi tentativo di italianizzarlo genera solo confusione. L'Odds di un determinato
fenomeno entro l'ambito di una determinata popolazione è espresso dal rapporto
(numero di casi in cui il fenomeno si è verificato) / (numero di casi in cui il fenomeno
non si è verificato).
Nella tabella di contingenza: Odds intervento (Oddsi) = a/b Odds controlli (Oddsi) = c/d
Nota: Questa unità di misura degli eventi risulta molto più intuitiva per un anglosassone che per
un italiano. Un italiano trova infatti molto più comodo ragionare in termini di percentuali , come in
effetti si fa quando si calcola un Rischio Assoluto. Il mondo anglosassone è meno avvezzo al
sistema metrico decimale ed è molto più abituato a ragionare in termini di odds , unità di misura
che deriva dal mondo delle scommesse.
Una volta scelta l' unità di misura di un outcome dicotomico, come si
esegue il confronto tra i due bracci dello studio?
Confronti tra i due bracci dello studio possono essere eseguiti attraverso sottrazioni (ARR, RRR) o
attraverso rapporti (RR, OR). Una modalità particolare di confronto è offerta dall' NNT (o dall' NNH).
I.
Il Rischio Relativo (sinonimi: RR, Relative Risk)
Il Rischio relativo esprime la Frazione di Rischio Basale dell’ evento che resta dopo aver applicato
l’ intervento. Si ricorda che il rischio basale dell’ evento (= ARc) esprime la frequenza dell'
outcome nel gruppo di controllo e corrisponde a ciò che succederebbe in assenza dell’ intervento
Immaginiamo un trial in cui un farmaco riduce la mortalità basale del 20%. La frazione di
Rischio Basale 'abbattuta' dall' intervento' si identifica con questo 20% e prende il nome di
Riduzione Relativa di Rischio (RRR, vedi). La frazione di Rischio Basale ' rimasta' dopo l'
intervento (Rischio Relativo = RR) corrisponde pertanto all' 80% del Rischio Basale
Il rischio relativo RR è il rapporto tra il Rischio Assoluto nel braccio di Intervento e il Rischio Assoluto nel
braccio di Controllo. Nella tabella di contingenza: RR = (ARi)/ (ARc) = [a/(a+b)]/ [c/(c+d)]
Esempio. In un trial nel gruppo di intervento (farmaco A) viene registrata una mortalità pari al 15% mentre nel braccio
di controllo (farmaco B) viene registrata una mortalità pari al 20%. I valori di AR sono quindi rappresentati da ARi =
0.15 ; ARc= 0.20. Se il risultato è espresso in termini di rischio relativo (RR): RR= (ARi)/ (ARc) = 0.15/0.20 = 0.75.
Ciò equivale a dire che i soggetti trattati con il farmaco A presentano una mortalità pari al 75% di quella riscontrata
nel braccio di controllo. Infatti ARi (=0.15) rappresenta il 75% di ARc (=0.20). Se esprimiamo invece il risultato in
termini di differenze in rischio assoluto (Vedi ) ARR = (ARc – ARi )= 0.20-0.15 = 0.05. Significa che se la mortalità
registrata prima dell' intervento era 20% e la mortalità registrata dopo l' intervento era 15% il farmaco ha abbattuto l'
incidenza della malattia di 5 punti percentuali. Ossia, in altri termini, che il farmaco permette un guadagno netto pari a
cinque morti evitate ogni cento pazienti trattati. Il succo è lo stesso ma ben diverso è l’impatto sul lettore di un
risultato espresso in termini di RR anziché di ARR: ciò e ben noto a chi ha familiarità con le tecniche di analisi critica
della letteratura.
E’ da ribadire che la pubblicità dei farmaci nei confronti della classe medica è basata soprattutto su
risultati espressi in termine di RR perché l’impatto sul lettore è molto più forte. Il grande svantaggio
nell’esprimere i risultati di un trial in termini di RR consiste nel fatto di non fornire al lettore nessuna
informazione sul rischio basale.
Uno stesso RR può essere associato a fenomeni di entità estremamente diversa. Ammettiamo per esempio che un
farmaco dimezzi (RR= 0.5) una mortalità basale pari all’ 80 per cento (ARc= 0.8) In questo caso, ARR = ARc - ARi =
0.8- 0.4 = 0.40 vale a dire che il farmaco salva 40 pazienti ogni cento trattati Consideriamo all' opposto un farmaco
che dimezzi (RR= 0.5) una mortalità basale pari allo 0.8 per cento (ARc=0.008). In questo secondo caso ARR = ARc ARi = 0.008- 0.004 = 0.004 vale a dire che il farmaco salva 0.4 pazienti su 100 ossia 4 pazienti su 1000 trattati. Deve
essere notato che in entrambi i casi RR è comunque sempre uguale a 0.5. Infatti in entrambi i casi il rischio è crollato
al 50% rispetto ai valori di base.
Un risultato espresso in termini di RR permette sicuramente un’impressione “d’impatto” sulla efficacia di
un intervento e in tal senso può essere utile come valutazione preliminare dei risultati di un trial. Il RR va
sempre però confrontato con la differenza in rischio assoluto ARR, che permette di quantificare in modo
analitico il guadagno netto provocato dall’ intervento sullo stato di salute del paziente. Abbiamo visto che
RR rappresenta in una tabella di contingenza il rapporto tra il Rischio Assoluto registrato nel braccio di
intervento e il Rischio Assoluto registrato nel braccio di controllo. RR può essere calcolato ovviamente
anche attraverso il rapporto tra il Tasso dell’ evento registrato nel braccio di intervento e il Tasso dell’
evento registrato nel braccio di controllo. Ancora, può essere calcolato attraverso il rapporto tra l'
Incidenza cumulativa dell’ evento registrata nel braccio di intervento e l' Incidenza cumulativa dell’
evento registrata nel braccio di controllo (vedi sopra). In complessi modelli di analisi multivariata in cui i
confronti tra i due bracci sono associati all' analisi temporale (modello di Cox) il rischio relativo viene
espresso da una misura chiamata Hazard ratio (HR), concettualmente sovrapponibile.
Interpretazione rapida dei valori di RR
Quanto verrà esposto nelle prossime righe presuppone come esempio un trial in cui l' efficacia dell'
intervento è espressa in termini di riduzione della frequenza di un evento indesiderato. Si tratta in effetti
della situazione più comune. Qualora all' opposto l' efficacia dell' intervento venga espressa in termini di
aumento della frequenza di un evento desiderato l' interpretazione del significato di RR dovrà essere
capovolta.
Ad esempio, in un trial in cui un farmaco dovrebbe ridurre la mortalità:
1. Se il valore di RR è minore di uno l’intervento è “vantaggioso” in quanto la frequenza dell' evento
nel braccio di intervento è minore della frequenza dell' evento nel braccio di controllo. Il valore di
RR corrisponde infatti a un rapporto tra due Rischi: se ARi < ARc il rapporto ARi / ARc sarà
minore di 1
2. Se il valore di RR è maggiore di uno l’intervento è “dannoso” in quanto la frequenza dell' evento
nel braccio di intervento è maggiore della frequenza dell' evento nel braccio di controllo. Infatti se
ARi > ARc il rapporto ARi / ARc è maggiore di 1
3. Se il valore di RR è uguale a uno l’intervento è “indifferente” in quanto la frequenza dell' evento
nel braccio di intervento è identica alla frequenza dell' evento nel braccio di controllo. Infatti se
ARi = ARc il rapporto ARi / ARc è = a 1. Un valore di RR pari ad 1 soddisfa pertanto l' <ipotesi
nulla>.
Interpretazione rapida degli intervalli di confidenza di RR
(vedi anche : Odds ratio)
1. Se tutti i valori dell’IC 95% sono minori di uno l’ intervento può essere considerato vantaggioso
con significatività statistica. La "significatività statistica" è garantita dal fatto che con una
attendibilità pari al 95% i valori dell' intervallo di confidenza permettono in tal caso di escludere il
valore di 1, che per un RR corrisponde al soddisfacimento dell' <ipotesi nulla>.
2. Se tutti i valori dell’IC 95% sono maggiori di uno l’intervento può essere considerato
svantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che
anche in questo caso con una attendibilità pari al 95% i valori dell' intervallo di confidenza
permettono di escludere il valore di 1, che per un RR corrisponde al soddisfacimento dell' <ipotesi
nulla>.
3. Se il range dell’IC 95% comprende al proprio interno il valore di uno l’intervento può essere
considerato vantaggioso o svantaggioso a seconda della stima puntuale di RR prodotta dai dati
del trial ma il risultato non è significativo. La "non significatività statistica" è spiegata dal fatto
che in tale situazione con una attendibilità pari al 95% i valori dell' intervallo di confidenza non
permettono di escludere il valore di 1, che per un RR corrisponde al soddisfacimento dell' <ipotesi
nulla>
II.
La Riduzione Relativa di Rischio (Relative Risk Reduction, RRR)
RRR viene impropriamente chiamata 'Riduzione di Rischio Relativo' Questa misura di efficacia rappresenta
il complementare a uno del RR (esprimendo RR in numeri decimali) Esempio: se RR = 0.8 , RRR = (1-0.8
) = 0.2. La Riduzione Relativa di Rischio esprime la frazione di rischio basale ridotta (o aggiunta) dall’
intervento (vedi anche piu’ avanti).
Esempio. Supponiamo che in un trial la frequenza dei casi mortali nel braccio di controllo
corrisponda a otto casi su 100 ARc = 0.08. Supponiamo che nello stesso trial la frequenza dei
casi mortali nel braccio di intervento corrisponda a otto casi su 100 ARi = 0.02 Significa che
nei soggetti trattati osserviamo un rischio di morte pari a ¼ rispetto al rischio dei soggetti non
trattati RR = 0.02/0.08 =0.25 Rovesciando il ragionamento, significa anche che l’ intervento
abbassa di ¾ il rischio basale di morte. RRR = (1-RR) = (1-0.25) = 0.75
Anche questo modo di esporre i risultati di un trial è di grande impatto per il lettore e anche questa unità
di misura dei risultati di efficacia è largamente utilizzata dall’ Industria per pubblicizzare gli effetti di un
intervento. L’espressione dei risultati di un trial in termini di RRR ha lo svantaggio di poter ingannare
ancora di più il lettore sulla “spettacolarità” dei risultati raggiunti.
Interpretazione rapida dei valori di RRR
Quanto verrà esposto nelle prossime righe presuppone come esempio un trial in cui l' efficacia dell'
intervento è espressa in termini di riduzione della frequenza di un evento indesiderato. Si tratta in effetti
della situazione più comune. Qualora all' opposto l' efficacia dell' intervento venga espressa in termini di
aumento della frequenza di un evento desiderato l' interpretazione del significato di RRR dovrà essere
capovolta. Ad esempio, in un trial in cui un farmaco dovrebbe ridurre la mortalità:
1. Se il valore di RRR è maggiore di zero (positivo) l’intervento è “vantaggioso” in quanto la
frequenza dell' evento nel braccio di intervento è minore della frequenza dell' evento nel braccio
di controllo.
2. Se il valore di RR è minore di zero (negativo) l’intervento è “dannoso” in quanto la frequenza dell'
evento nel braccio di intervento è maggiore della frequenza dell' evento nel braccio di controllo.
3. Se il valore di RRR è uguale a zero l’intervento è “indifferente” in quanto la frequenza dell' evento
nel braccio di intervento è identica alla frequenza dell' evento nel braccio di controllo. Un valore di
RRR pari a zero soddisfa pertanto l' <ipotesi nulla>.
Interpretazione rapida degli intervalli di confidenza di RRR
1. Se tutti i valori dell’IC 95% maggiori di zero (positivi) l’ intervento può essere considerato
vantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che con
una attendibilità pari al 95% i valori dell' intervallo di confidenza permettono in tal caso di
escludere il valore di zero, che per un RRR corrisponde al soddisfacimento dell' <ipotesi nulla>.
2. Se tutti i valori dell’IC 95% sono minori di zero (negativi) l’intervento può essere considerato
svantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che
anche in questo caso con una attendibilità pari al 95% i valori dell' intervallo di confidenza
permettono di escludere il valore di zero, che per un RRR corrisponde al soddisfacimento dell'
<ipotesi nulla>
3. Se il range dell’IC 95% comprende al proprio interno il valore di zero l’intervento può essere
considerato vantaggioso o svantaggioso a seconda della stima puntuale di RRR prodotta dai dati
del trial ma il risultato non è significativo. La "non significatività statistica" è spiegata dal fatto
che in tale situazione con una attendibilità pari al 95% i valori dell' intervallo di confidenza non
permettono di escludere il valore di zero, che per un RRR corrisponde al soddisfacimento dell'
<ipotesi nulla>.
La Riduzione di Rischio Assoluto
III.
(Sinonimi: ARR, Risk Difference, RD)
ARR esprime la differenza
a.
b.
c.
tra i due Rischi Assoluti dell' evento registrati nel braccio di controllo e nel braccio di intervento
oppure
tra i due Tassi dell’ evento registrati nel braccio di controllo e nel braccio di intervento oppure
tra le due Incidenze cumulative dell’ evento registrate registrati nel braccio di controllo e nel
braccio di intervento
Consideriamo solo il punto a) in quanto le operazioni sono le stesse per tutti gli altri punti. Nella tabella di
contingenza ARR = ARc-ARi. Questa misura di efficacia , come già specificato, esprime il guadagno netto
in termini di salute associato all' intervento (vedi note su RR)
Interpretazione rapida dei valori di ARR
Quanto verrà esposto nelle prossime righe presuppone come esempio un trial in cui l' efficacia dell'
intervento è espressa in termini di riduzione della frequenza di un evento indesiderato. Si tratta in effetti
della situazione più comune. Qualora all' opposto l' efficacia dell' intervento venga espressa in termini di
aumento della frequenza di un evento desiderato l' interpretazione del significato di ARR dovrà essere
capovolta.
I.
Se la frequenza dell' evento indesiderato riscontrata nel braccio di intervento (ARi) è minore della
frequenza dell' evento riscontrata nel braccio di controllo (ARc) il valore di ARR sarà positivo, a
testimonianza dell' efficacia dell' intervento. Ad esempio se la mortalità nel braccio di
intervento è pari al 10% e la mortalità nel braccio di controllo è pari al 20% ARR = 0.20.1 = 0.1
II.
Se la frequenza dell' evento indesiderato riscontrata nel braccio di intervento (ARi) è maggiore
della frequenza dell' evento riscontrata nel braccio di controllo (ARc) il valore di ARR sarà
negativo, a testimonianza dell' dannosità dell' intervento. Ad esempio se la mortalità nel
braccio di intervento è pari al 20% e la mortalità nel braccio di controllo è pari al 10%
ARR = 0.1-0.2 = -0.1
III.
Se la frequenza dell' evento indesiderato riscontrata nel braccio di intervento (ARi) è uguale alla
frequenza dell' evento riscontrata nel braccio di controllo (ARc) il valore di ARR sarà zero, a
testimonianza dell' neutralità dell' intervento. Un valore di ARR pari a zero soddisfa quindi l'
<ipotesi nulla>. Ad esempio se la mortalità nel braccio di intervento è pari al 10% e la
mortalità nel braccio di controllo è pari al 10% ARR = 0.1-0.1 = 0
Interpretazione rapida degli intervalli di confidenza di ARR
I.
II.
III.
Se tutti i valori dell’IC 95% maggiori di zero (positivi) l’ intervento può essere considerato
vantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che con
una attendibilità pari al 95% i valori dell' intervallo di confidenza permettono in tal caso di
escludere il valore di zero, che per un ARR corrisponde al soddisfacimento dell' <ipotesi nulla>.
Se tutti i valori dell’IC 95% sono minori di zero (negativi) l’intervento può essere considerato
svantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che
anche in questo caso con una attendibilità pari al 95% i valori dell' intervallo di confidenza
permettono di escludere il valore di zero, che per un ARR corrisponde al soddisfacimento dell'
<ipotesi nulla>.
Se il range dell’IC 95% comprende al proprio interno il valore di zero l’intervento può essere
considerato vantaggioso o svantaggioso a seconda della stima puntuale di ARR prodotta dai dati
del trial ma il risultato non è significativo. La "non significatività statistica" è spiegata dal fatto
che in tale situazione con una attendibilità pari al 95% i valori dell' intervallo di confidenza non
permettono di escludere il valore di zero, che per un ARR corrisponde al soddisfacimento dell'
<ipotesi nulla>.
Esempio. Nello studio ALLHAT (JAMA. 2002 Dec 18;288(23):2981-97) per l' oitcome primario ARR = ARc -ARi =
0.0892822- 0.0881963 = 0.0010859. Gli intervalli di confidenza al 95% di ARR corrispondono al range -0,0063046 -->
0,0084764. Il range contiene il valore di zero e pertanto il risultato espresso da ARR non può essere considerato
significativo.
Interpretazione della significatività clinica attraverso gli intervalli di
confidenza di ARR
Quanto di seguito esposto per ARR vale per qualsiasi altra unità di misura di efficacia.
La significatività statistica è un concetto matematico e non necessariamente coincide con la significatività
clinica. Il calcolo degli "intervalli di confidenza" (IC 95% ) di ARR ci aiuta anche a giudicare se i risultati
della sperimentazione sono clinicamente utili. Gli intervalli di confidenza intorno alla stima di ARR ricavata
da un campione identificano un range di valori entro cui –con una attendibilità pari al 95%- si trova il
valore 'vero' di ARR, quello ricavabile dalla intera popolazione (vedi sopra).
Se tutto il range dei valori dell' intervallo è molto lontano dal cut-off che esprime l'ipotesi nulla (nel caso
di ARR = zero) significa che esiste una forte differenza tra i valori dell'outcome misurati nel braccio di
intervento e i valori dell'outcome misurati nel braccio di controllo. Il risultato della sperimentazione sarà
pertanto fortemente a favore o a sfavore dell'intervento (a seconda della direzione dei risultati) perché la
dimensione dell' effetto è grande.
Viceversa, se uno dei limiti estremi dell'intervallo di confidenza è molto vicino al cut off che esprime
l'ipotesi nulla (nel caso di ARR = zero) l'effetto studiato può essere (anche se è presente "significatività
statistica") poco importante dal punto di vista clinico in quanto l'intervallo di confidenza non esclude la
possibilità che la dimensione dell'effetto sia modesta.
Un esempio è offerto dal trial AITIAS (Neurology 1998 50:1842). In questa esperienza di ricerca era stata valutata l'
efficacia di una terapia antiaggregante piastrinica in pazienti già sottoposti a procedure di endoarteriectomia carotidea;
l' outcome era rappresentato dall' incidenza di stroke. Lo studio AITIAS aveva reclutato pochi soggetti (n=125) ; il
Rischio assoluto di Stroke nel braccio di intervento corrispondeva a ARi = 2/65 = 0,03 ; il Rischio Assoluto di Stroke
nel braccio di controllo a ARc = 8/60 = 0,133. In altri termini il rischio di subire uno stroke entro il periodo di follow-up
considerato dalla ricerca era pari al 13,3% per i soggetti non sottoposti al trattamento antiaggregante e al 3% nei
pazienti sottoposti al trattamento. Risk Difference corrispondeva quindi a ARR = 0,13-0,03 = 0,10. In base a questa
stima puntuale l' efficacia del farmaco potrebbe essere giudicata 'buona', in quanto l' intervento ha abbattuto il rischio
di base (dei controlli) di ben 10 punti percentuali. Esprimendo lo stesso risultato come 'numero di soggetti da trattare
con farmaci antipiastrinici per prevenire uno stroke' (vedi oltre NNT) abbiamo infatti : NNT = 1/ARR = 1/0,10 = 10. In
medicina preventiva evitare uno stroke ogni 10 pazienti a rischio trattati con un farmaco è sicuramente un ottimo
risultato. In realtà tuttavia l' intervallo di confidenza al 95% per la stima puntuale fornita dal trial è espresso dal range
di ARR (0,01 --> 0,2). Questo intervallo non contiene il valore di zero (infatti i valori estremi sono entrambi positivi): il
risultato è quindi 'statisticamente significativo ' perché l' ipotesi nulla può essere ricusata. Tuttavia l' intervallo di
confidenza è ampio e uno dei suoi estremi è molto vicino al valore zero, quello che soddisfa l' ipotesi nulla. Analizzando
il significato clinico di questa osservazione ciò equivale a dire che con una attendibilità del 95% lo scenario peggiore è
rappresentato da un abbattimento del rischio basale di solo un punto percentuale e che nella migliore delle ipotesi l'
abbattimento corrisponde a ben venti punti percentuali. Non sappiamo dove sia situato il valore 'vero' di ARR all'
interno di questo range e pertanto il nostro atteggiamento deve essere conservativo, vale a dire deve considerare l'
ipotesi peggiore. Un abbattimento del rischio basale di un punto è ovviamente un risultato molto più scadente perché è
esattamente un decimo di quello espresso dalla stima puntuale. Il significato clinico di queste osservazioni emerge
bene anche dal calcolo dell' NNT (vedi oltre). Infatti NNT in base all' intervallo di confidenza varia da NNT= 1/0,2= 5 a
NNT=1/0,01=100. Ciò significa che nella miglior delle ipotesi per prevenire uno stroke basterà trattare con
antiaggreganti cinque pazienti a rischio per questo evento ; nella peggior delle ipotesi occorrerà invece trattare cento
pazienti.
IV.
Il Number Needed To Treat (NNT) e il Number Needed To HARM
(NNH)
Number Needed To treat (NNT) esprime il numero di pazienti che dovranno essere trattati per ottenere il
risultato desiderato in un paziente. Al contrario, il valore espresso da (NNT-1) esprime il numero di
pazienti che dovranno essere trattati inutilmente per ottenere il risultato desiderato in un paziente. NNT
può essere utilizzato anche per calcolare il numero di pazienti da trattare per ottenere un effetto
collaterale in un paziente ma allora si chiama Number Needed to Harm (NNH). NNT si calcola con il
rapporto NNT = 1/Risk Difference (esprimendo RD in numeri decimali)
Se per esempio in un gruppo di pazienti trattati con il farmaco A la morbilità è 15% e nel braccio di controllo trattato
con il farmaco B la morbilità è 20% : ARR = (ARc – ARi) = 0.20-0.15 = 0.05 . Il calcolo del Number Needed To Treat è
dato da: NNT = 1/ARR = 1/0.05 = 20. Vale a dire che per prevenire un caso di malattia occorre trattare con il farmaco
20 pazienti.
Questo valore fornisce con immediatezza un importante strumento di valutazione della quantità
d'efficacia di un intervento (esempio: NNT per prevenire un decesso; NNT per prevenire un determinato
sintomo e così via). Inoltre i valori di NNT con molta facilità sono inversamente proporzionali al rischio
dell' evento indesiderato in condizioni basali (ARc). In presenza per esempio di un elevato rischio di base
accade più facilmente che le variazioni di rischio indotte dall' intervento (ARR) siano caratterizzate da
dimensioni grandi . In linea di massima pertanto NNT è tanto più piccolo quanto più grande è la
probabilità dell'evento avverso nel gruppo di controllo. Dalle modalità di calcolo esposte appare evidente
che quanto più grandi saranno i valori di ARR tanto più piccolo sarà il valore di NNT.
Pertanto occorre considerare in modo diverso l' impatto clinico dei valori di NNT registrati in trial che
studiano l' efficacia di interventi preventivi (es: vaccinazioni) e di quelli che sono stati registrati in trial
che studiano l' efficacia di interventi rivolti alla cura delle malattie (es: antibiotici).
Nel primo caso la frequenza degli eventi nei due bracci sarà bassa e sarà piccola anche la differenza tra
un braccio e l' altro: piccoli valori di ARR giustificheranno pertanto grandi valori di 1/ARR. Nel secondo
caso la frequenza degli eventi nei due bracci sarà più alta e sarà anche più grande la differenza tra un
braccio e l' altro: grandi valori di ARR giustificheranno pertanto piccoli valori di 1/ARR. Per valutare
clinicamente il significato di NNT è quindi conveniente confrontare il NNT calcolato nel trial con quello di
altri trattamenti già sperimentati. A tal fine è presente in Bandolier
(http://www.jr2.ox.ac.uk/bandolier/index.html) una banca dati di NNT, che può orientare il lettore.
E' importante considerare gli intervalli di confidenza anche per i Valori di NNT.
Nell' esempio appena citato se il farmaco A rispetto al farmaco B sembra in grado di ridurre la
morbilità di cinque punti percentuali (stima puntuale di ARR = 0.05) ma i valori dell'intervallo
di confidenza di ARR sono in realtà rappresentati dal range 0,001-0,06, coerentemente i valori
di NNT saranno espressi da NTT = 1/ARR= 1/0,06 = 16,6 (ipotesi migliore) e 1/ARR = 1000
(ipotesi peggiore) . Pertanto in tal caso il numero di soggetti da trattare per ottenere un
outcome potrebbe essere in realtà anche molto elevato (potrebbe cioè corrispondere a mille
pazienti).
Utilizzando i valori di NNT l' ipotesi nulla viene soddisfatta (ossia: i risultati del confronto tra i due bracci
non sono significativi) quando l' intervallo di confidenza di questa misura di efficacia contiene il valore <
infinito >. Infatti il NNT rappresenta il rapporto 1/ARR e per l' ARR il valore che soddisfa l' ipotesi nulla
corrisponde a zero.
Vedi sopra l' esempio riportato per ARR
V.
Odds Ratio (OR)
Odds Ratio esprime il rapporto tra l’ Odds dell’ outcome riscontrato nel braccio di intervento e l’ Odds dell’
outcome ricontrato nel braccio di controllo. In uno studio di eventi l'Odds Ratio per quell'evento è dato
infatti da (vedi tabella di contingenza): OR = (a/b)/(c/d)
Interpretazione rapida dei valori di OR
Quanto verrà esposto nelle prossime righe presuppone come esempio un trial in cui l' efficacia dell'
intervento è espressa in termini di riduzione della frequenza di un evento indesiderato. Si tratta in effetti
della situazione più comune. Qualora all' opposto l' efficacia dell' intervento venga espressa in termini di
aumento della frequenza di un evento desiderato l' interpretazione del significato di OR dovrà essere
capovolta.
Ad esempio, in un trial in cui un farmaco dovrebbe ridurre la mortalità:
1. se il valore di OR è minore di uno l’intervento è “vantaggioso” in quanto l' odds dell' evento nel
braccio di intervento è minore dell' odds dell' evento nel braccio di controllo. Il valore di OR
corrisponde infatti a un rapporto tra due Odds : se Oddsi < Oddsc il rapporto Oddsi / Oddsc sarà
minore di 1
2. se il valore di OR è maggiore di uno l’intervento è “dannoso” in quanto l' odds dell' evento nel
braccio di intervento è maggiore dell' odds dell' evento nel braccio di controllo. Il valore di OR
corrisponde infatti a un rapporto tra due Odds : se Oddsi > Oddsc il rapporto Oddsi / Oddsc sarà
maggiore di 1
3. se il valore di OR è uguale a uno l’intervento è “indifferente” in quanto l' odds dell' evento nel
braccio di intervento è uguale all' odds dell' evento nel braccio di controllo. Il valore di OR
corrisponde infatti a un rapporto tra due Odds : se Oddsi = Oddsc il rapporto Oddsi / Oddsc sarà
uguale a 1. Un valore di OR pari ad 1 soddisfa pertanto l' <ipotesi nulla>
Interpretazione rapida degli intervalli di confidenza di OR
1. Se tutti i valori dell’IC 95% sono minori di uno l’ intervento può essere considerato vantaggioso
con significatività statistica. La "significatività statistica" è garantita dal fatto che con una
attendibilità pari al 95% i valori dell' intervallo di confidenza permettono in tal caso di escludere il
valore di 1, che per un OR corrisponde al soddisfacimento dell' <ipotesi nulla>.
2. Se tutti i valori dell’IC 95% sono maggiori di uno l’intervento può essere considerato
svantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che
anche in questo caso con una attendibilità pari al 95% i valori dell' intervallo di confidenza
permettono di escludere il valore di 1, che per un OR corrisponde al soddisfacimento dell' <ipotesi
nulla>.
3. Se il range dell’IC 95% comprende al proprio interno il valore di uno l’intervento può essere
considerato vantaggioso o svantaggioso a seconda della stima puntuale di OR prodotta dai dati
del trial ma il risultato non è significativo. La "non significatività statistica" è spiegata dal fatto
che in tale situazione con una attendibilità pari al 95% i valori dell' intervallo di confidenza non
permettono di escludere il valore di 1, che per un OR corrisponde al soddisfacimento dell' <ipotesi
nulla>.
Che cosa rappresenta clinicamente un Odds Ratio?
L' Odds Ratio può essere paragonato ad un Rischio Relativo. Però occorre specificare che i valori di OR
sono molto vicini ai valori di RR solo quando la frequenza dell' evento studiato dal trial è molto bassa (per
fare un esempio, in un trial sulla vaccinazione antipoliomielitica RR e OR praticamente coincidono). In
altre situazioni , ossia quando la frequenza dell' evento studiato dal trial non è bassa, l' Odds Ratio va
interpretato alla stregua di un Rischio Relativo solo con grande cautela in quanto tende a sovrastimare la
dimensione dell' effetto dell' intervento.
Ad esempio uno studio pubblicato dall'OMS nel 1972 sull'efficacia della vaccinazione anticolerica nella popolazione
pakistana riportava una frequenza di malattia durante il periodo di osservazione pari a 35/9953 nei non vaccinati e
rispettivamente a 44/29939 nei vaccinati (Bulletin of the Wordl health Organization 1972; 47(2):229). Il rischio
assoluto di colera nei pazienti vaccinati è espresso quindi da ARi = a/(a+b)= 44/29939= 0.0014697 ossia all'incirca
1.4 casi ogni mille abitanti. L'Odds di colera nei pazienti vaccinati è invece espresso da Oddsi = a/b = 44/(2993944)=44/29895 =0.001471818. Il rischio assoluto di colera nei pazienti non vaccinati è espresso da ARc= c/(c+d)=
35/9953= 0.0035272 ossia all'incirca 3.5 casi ogni mille abitanti. L'Odds di colera nei pazienti non vaccinati è espresso
da Oddsc = c/d = 35/(9953-35) = 35/9888 =0.003528937 . Il Rischio Relativo di colera calcolabile da questi dati è:
RR = ARi/ARc = 0.0014697/0.0035272 = 0.4166682: vale a dire approssimativamente che nei soggetti vaccinati il
rischio di colera è circa il 41% del rischio dei non vaccinati. L'Odds Ratio di colera calcolabile da questi dati è: OR =
0.001471818/0.003528937 =0.4158096: vale a dire approssimativamente che nei soggetti vaccinati l'Odds di colera è
circa il 41% dell' Odds dei non vaccinati.
Come si vede, Odds Ratio di colera e Rischio Relativo di colera sono espressi in questo trial da numeri molto simili
(vedi oltre).
Ben diverso è uno studio in cui viene saggiata l'efficacia di un antibiotico sulla tosse nei pazienti affetti da malattie
delle vie respiratorie, dove frequenza dell'end-point nelle condizioni di base è ovviamente molto elevata Per esempio in
uno studio pubblicato nel 1987 dove veniva valutata l'efficacia della eritromicina versus placebo in adulti affetti da
bronchite acuta uno degli outcome era rappresentato dalla presenza o meno di tosse alla visita di follow-up (Journal of
Family Practice 1987 25:137). Il rischio assoluto di tosse nei pazienti trattati con eritromicina era espresso da ARi=
a/(a+b)= 14/23 = 0.6086957 ossia all'incirca sei pazienti su dieci trattati. L' Odds di tosse nel braccio di intervento è
espresso da Oddsi = a/b = 14/9 =1.5555555 . Il rischio assoluto di tosse nei pazienti sottoposti a placebo era
espresso da ARc= c/(c+d)= 18/22 = 0.8181818 ossia all' incirca otto su dieci pazienti non trattati. L' Odds di tosse nel
braccio di controllo è espresso da Oddsc = c/d = 18/4 =4.5 Il Rischio Relativo di tosse calcolabile da questi dati è : RR
= ARi/ARc =0.6086957/0.8181818 = 0.7439614 vale a dire che nei pazienti trattati con eritromicina il rischio di tosse
è pari a circa il 74% del rischio dei pazienti non trattati. L'Odds Ratio per tosse calcolabile da questi dati è: OR =
(14/9)/(18/4) = 0.345679: vale a dire che nei pazienti trattati con eritromicina l'Odds di tosse è pari all'incirca al 34%
dell'Odds di tosse dei pazienti non trattati. Come si vede, Odds Ratio di tosse e Rischio Relativo di tosse sono espressi
in questo trial da numeri estremamente diversi - vedi oltre.
Chi valuta i risultati di uno studio clinico deve quindi porre molta attenzione all'interpretazione dei valori
di Odds Ratio in quanto le ricerche in cui il rischio assoluto dell'outcome nei due bracci non è basso
rappresentano pressoché la maggioranza dei casi. Nonostante questi concetti siano assodati non è
infrequente che anche gli stessi autori interpretino i propri risultati utilizzando erroneamente un Odds
Ratio come se fosse un Rischio Relativo.
Per esempio in una serie di 151 articoli pubblicati il 1998 e il 1999 da Obstetrics & Gynecology e da The American
Journal of Obstetrics and Gynecology -in cui era stato utilizzato l'Odds Ratio come misura di efficacia- valori di OR
erano interpretati come Rischio relativo nel 70% dei casi e nel 44% di queste situazioni le differenze tra OR e RR
superavano tra l'altro il valore di 20% (Obstetrics & Gynecology 2001 98:685).
Quando le unità di misura dell' outcome sono in scala intervallare
In tal caso (es: valori della colesterolemia, valori di pressione arteriosa, eccetera) la misura dell' outcome
sarà espressa da una media e il confronto tra i due bracci sarà semplicemente espresso da una differenza
tra medie
Mean Difference (Sinonimo: MD)
Mean Difference rappresenta la differenza tra i valori medi dell' outcome riscontrati nel braccio di
intervento e i valori medi registrati nel braccio di controllo. Quando l' outcome viene espresso da una
media, la differenza tra i due bracci si calcola sottraendo dalla media calcolata nel braccio di controllo la
media calcolata nel braccio di intervento. Si calcola in altre parole una 'differenza tra medie'
Mean Difference = Mean (controllo) - Mean (intervento)
Nota bene: in uno studio di eventi (situazione molto diversa da quella descritta in questo paragrafo!) l'
outcome è sempre assente nelle condizioni basali. Per esempio in uno studio dove l' outcome è la
mortalità ovviamente tutti i partecipanti, in condizioni basali, non hanno ancora avuto l' outcome. Invece
in uno studio dove l' intervento dovrebbe modificare una variabile biologica già esistente in condizioni
basali il parametro le cui variazioni rappresentano l' outcome della ricerca (es: la pressione arteriosa) è
misurabile anche in condizioni di base. In tal caso può essere interessante per il ricercatore -oltre a
confrontare i due bracci per i risultati generali ottenuti- osservare anche le modifiche del parametro prima
e dopo l' intervento all' interno di ciascun braccio. Per esempio in un trial in cui si studi l' efficacia di un
farmaco sui valori di pressione arteriosa, nel primo caso i due bracci verranno confrontati per il valore
medio delle pressioni misurate in ciascun braccio alla fine dello studio (after); nel secondo caso verranno
confrontati per il valore medio delle differenze prima-poi riscontrato entro ciascun braccio (before-after).
L' efficacia del trattamento può essere quindi testata in due modi diversi.
Esempio1. Nello studio ALLHAT (JAMA. 2002 Dec 18;288(23):2981-97) sono stati assegnati al braccio di intervento
(amlodipina) 9048 pazienti e al braccio di controllo (clortalidone) 15255 pazienti. Al quinto anno di follow-up la PAS
media nel gruppo di intervento era 134.7 mmHg, la PAS media nel gruppo di controllo era 133.9 mmHg. Mean
difference era 133.9 - 134.7 = -0.79, con significatività statistica (P =0.03). In questo caso Mean Difference ha un
valore negativo: significa che lil farmaco somministrato al braccio di intervento è risultato meno efficace del farmaco
somministrato al braccio di controllo nell' abbassare i valori di pressione sistolica. Il valore di P (vedi oltre) testimonia
la significatività del risultato.
Esempio2. in uno studio dove l' intervento era rappresentato da un insieme di provvedimenti complessi esercitati su
pazienti anziani la Mean Difference [pressioni prima-poi] per il braccio di intervento era -5 mmHg (IC 95% -2.5 ->7.6)** e la Mean difference [pressione prima-poi] per il braccio di controllo era + 3.4 (IC 95% +1.1->+5.7)**
(Clinical Medicin and Health Reseach http://clinmed.netprints.org/cgi/content/full/2002120002v1). Il confronto tra il
braccio di intervento e il braccio di controllo per i valori medi delle differenze di pressioni prima-poi riscontrate in
ciascun braccio era espresso da una Mean difference [differenze pressioni prima-poi] di magnitudo pari a 8.4 mmHg
(IC 95% 5->11).
Interpretazione rapida dei valori di MD
Quanto verrà esposto nelle prossime righe presuppone come esempio un trial in cui l' efficacia dell'
intervento sia espressa in termini di riduzione dei livelli medi di un determinato parametro. Qualora all'
opposto l' efficacia dell' intervento venga espressa in termini di aumento dei livelli medi di un determinato
parametro l' interpretazione del significato di MD dovrà essere capovolta.
I.
Se la media del parametro riscontrata nel braccio di intervento (Meani) è minore della media del
parametro riscontrata nel braccio di controllo (Meanc) il valore di MD sarà positivo, a
testimonianza dell' efficacia dell' intervento.
II.
Se la media del parametro riscontrata nel braccio di intervento (Meani) è maggiore della media
del parametro riscontrata nel braccio di controllo (Meanc) il valore di MD sarà negativo, a
testimonianza dell' dannosità dell' intervento.
III.
Se la media del parametro riscontrata nel braccio di intervento (Meani) è uguale alla media del
parametro riscontrata nel braccio di controllo (Meanc) il valore di MD sarà zero, a testimonianza
dell' indifferenza dell' intervento. Un valore di MD pari a zero soddisfa quindi l' <ipotesi nulla>.
Interpretazione rapida degli intervalli di confidenza di MD
I.
Se tutti i valori dell’IC 95% sono maggiori di zero (positivi) l’ intervento può essere considerato
vantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che con
una attendibilità pari al 95% i valori dell' intervallo di confidenza permettono in tal caso di
escludere il valore di zero, che per una MD corrisponde al soddisfacimento dell' <ipotesi nulla>.
II.
Se tutti i valori dell’IC 95% sono minori di zero (negativi) l’intervento può essere considerato
svantaggioso con significatività statistica. La "significatività statistica" è garantita dal fatto che
anche in questo caso con una attendibilità pari al 95% i valori dell' intervallo di confidenza
permettono di escludere il valore di zero, che per una MD corrisponde al soddisfacimento dell'
<ipotesi nulla>.
III.
Se il range dell’IC 95% comprende al proprio interno il valore di zero l’intervento può essere
considerato vantaggioso o svantaggioso a seconda della stima puntuale di MD prodotta dai dati
del trial ma il risultato non è significativo. La "non significatività statistica" è spiegata dal fatto
che in tale situazione con una attendibilità pari al 95% i valori dell' intervallo di confidenza non
permettono di escludere il valore di zero, che per una MD corrisponde al soddisfacimento dell'
<ipotesi nulla>.
Intervalli di confidenza di MD e significato clinico
Quanto già specificato per l' interpretazione clinica degli intervalli di confidenza di altre misure di efficacia
vale anche per MD
Esempio. Verso la fine degli anni 80 iniziò un filone di ricerca rivolto a stabilire l' origine della variabilità inter
individuale nella risposta alla terapia con ACE inibitori (Current Controlled Trials in Cardiovascular Medicine 2005,
6:16). Venne identificato così un particolare polimorfismo genetico riguardante l' enzima ACE (caratterizzato più
esattamente da tre diversi genotipi DD, DI, II ) che si suppose in grado di spiegare almeno in parte le diversità tra
individuo e individuo nella risposta clinica a tali molecole. Nello studio REIN condotto su 212 pazienti affetti da
nefropatia cronica proteinurica di origine non diabetica Perna e coll (Kidney Int 2000, 57:274-281) valutarono in una
analisi di tre sottogruppi caratterizzati da polimorfismo DD, DI o II (e rispettivamente composti da 87, 99, 46 soggetti)
la risposta della PAS al ramipril (braccio di intervento) o alle terapie tradizionali (braccio di controllo). La misura dell'
outcome era rappresentata in questo caso dalla differenza tra le medie delle variazioni prima-poi riscontrate in
ciascuno dei due bracci. L' esame degli intervalli di confidenza rivela per il genotipo DD un risultato significativo (l'
intervallo non comprende il valore di zero) e a favore dell' intervento (Mean Difference = +5.4). Per i genotipi DI e II il
risultato non è significativo in quanto gli intervalli comprendono il valore di zero. Per il primo confronto è qui
interessante notare come il limite inferiore dell' intervallo di confidenza (+0.26) è molto vicino al cut off che soddisfa l'
ipotesi nulla (per mean Difference = zero). Ciò offre l' opportunità di fare una riflessione sul significato clinico di questo
risultato: anche se la stima puntuale è a favore di un risultato clinicamente utile (differenza tra le medie dei valori
prima-poi di PAS riscontrati nei due bracci = +5.4 mmHg) l' intervallo di confidenza indica che il valore 'reale' può
essere anche pari a +0.26 mmHg. E' evidente che una differenza tra i due bracci di un quinto di mmHg in ternini di
differenza tra i valori medi prima-poi è 'clinicamente risibile', anche se 'statisticamente significativa'.
8. Come è stata espressa la precisione della stima?
La precisione della stima di un risultato di efficacia dovrebbe essere sempre espressa attraverso la
definizione degli intervalli di confidenza al 95%, che esprimono un range che comprende con una
attendibilità del 95% tutti i valori delle stime che si otterrebbero ripetendo la stessa ricerca per un
numero infinito di volte (vedi sopra). L' argomento è stato trattato in modo abbastanza analitico nei
paragrafi dedicati alle singole misure di efficacia, a cui si rimanda. In questa sede ci limiteremo ad una
breve sintesi
A) Utilizzo degli intervalli di confidenza per esrimere la significatività
statistica
Gli intervalli di confidenza possono essere utilizzati per valutare l’ esistenza di significatività statistica.
Non esiste significatività statistica se l’ intervallo di confidenza comprende un valore ‘cut off’ che per
quella misura di efficacia corrisponde all’ ipotesi nulla. In uno studio di eventi ciò corrisponde alla
situazione in cui la frequenza dell’ outcome misurata nel braccio di intervento è identica a quella misurata
nel braccio di controllo (e in cui ovviamente l' odds dell' evento misurato nel braccio di intervento è
identico all' odds dell' evento misurato nel braccio di controllo). In uno studio dove l' outcome è espresso
in scala intervallare ciò corrisponde alla situazione in cui la media dell’ outcome misurata nel braccio di
intervento è identica alla media dell' outcome misurata nel braccio di controllo.
Se la misura di efficacia è espressa da una differenza il ‘cut off’ è uguale a zero (Risk Difference; Mean
Difference, RRR). Se la misura di efficacia è espressa da un rapporto il ‘cut off’ è uguale a uno (RR; HR ;
OR). Nel caso del NNT (o del NNH) il cut off corrisponde al valore ‘infinito’. In alternativa (o in modo
complementare) all’ utilizzo degli intervalli di confidenza la precisione dei risultati può essere espressa dai
valori di P ricavati da un test statistico convenzionale . P esprime la probabilità che la differenza
riscontrata tra i due bracci sia esclusivamente dovuta al caso. E’ raccomandato allora che gli autori
riportino il valore assoluto di P e non il semplice cut off (P>0.05 o P<0.05).
B) Utilizzo degli intervalli di confidenza per esprimere la significatività
clinica
I due vettori di ragionamento sono:
a) la dimensione del risultato è clinicamente utile?
b) il risultato è riproducibile con fiducia nelle condizioni operative 'reali'?
a.
Utilità clinica del risultato. Se tutto il range dei valori è molto lontano dal cut-off che esprime
l'ipotesi nulla significa che esiste una forte differenza tra i valori dell'outcome misurati nel braccio
di intervento e i valori dell'outcome misurati nel bracco di controllo. Il risultato della
sperimentazione è pertanto fortemente a favore o a sfavore dell'intervento (a seconda della
direzione dei risultati) perché la dimensione dell' effetto è grande. Viceversa, se uno dei limiti
estremi dell'intervallo di confidenza è molto vicino al cut off che esprime l'ipotesi nulla l'effetto
studiato può essere (anche se è presente significatività statistica) poco importante dal punto di
vista clinico in quanto l'intervallo di confidenza non esclude la possibilità che la dimensione dell'
effetto sia modesta.
b.
Riproducibilità del risultato. L'intervallo di confidenza è molto utile per esprimere l'importanza
clinica dei risultati anche perché l' ampiezza del range esprime il grado di precisione della stima,
vale a dire il grado in cui i risultati del trial possono essere trasferiti con fiducia alle condizioni
operative reali. Intervalli di confidenza larghi testimoniano scarsa precisione nella stima (= i
risultati sono poco riproducibili); intervalli di confidenza stretti testimoniano buona precisione
della stima (= i risultati sono ben riproducibili). Pertanto in presenza di un range ampio anche se
esiste 'significatività statistica' occorre considerare che il risultato potrebbe essere poco
riproducibile in condizioni reali. Ciò equivale a dire che la dimensione dell' effetto potrebbe essere
anche molto diversa da quella suggerita dal trial qualora la sperimentazione venisse ripetuta
utilizzando campioni più grandi.
Un atteggiamento 'conservativo' nella interpretazione dei risultati di efficacia attraverso gli intervalli di
confidenza è quindi altamente consigliabile: il giudizio sulla dimensione dell' effetto e il giudizio sulla
riproducibilità dei risultati dovrebbero considerare attentamente l'estremo dell'intervallo di confidenza più
vicino al valore 'cut off' della misura di efficacia che identifica il soddisfacimento dell'ipotesi nulla.
Esempio. Nello studio di Sindrup del 1999, dove il tramadolo veniva confrontato con placebo nel trattamento
sintomatico della neuropatia diabetica (citato nellemetenalisi Cochrane 19 April 2004 in Issue 2, 2004) ARtramadolo =
11/34 = 0,323 ARplacebo = 3/33 = 0,090 . Significa che ha subito un miglioramento clinico il 9% dei pazienti trattati
con placebo e il 32,3 % dei pazienti trattati con tramadolo. Calcolando Risk Difference: ARR = 0,090 - 0,323 = -0,232.
NB: in questo caso lo scopo della ricerca era valutare se l' intervento fosse in grado di aumentare la frequenza di un
effetto desiderato (= la percentuale di miglioramento clinico). Pertanto (vedi sopra) valori negativi di ARR esprimono
'vantaggio', non 'svantaggio' Considerando questa stima puntuale potremmo giudicare il trattamento 'abbastanza
efficace' in quanto NNT = 1/ARR = 1/-0,232 = -4,3 ossia: per ottenere il beneficio clinico in un paziente occorre
trattare circa 4 pazienti (tre però saranno trattati per niente). L' intervallo di confidenza al 95% di questa stima di ARR
è tuttavia espresso dal range: -0.05 --> -0.42. Il range non contiene il valore di zero e pertanto l' ipotesi nulla non è
soddisfatta (esiste quindi significatività statistica). Tuttavia la dimensione dell' effetto varia da una Riduzione di Rischio
Assoluto pari a -5 punti percentuali a una Riduzione di Rischio Assoluto pari a -42 punti percentuali. Considerando l'
estremo dell' intervallo di confidenza più vicino al valore che soddisfa l' ipotesi nulla (zero) possiamo concludere per
una efficacia del farmaco piuttosto modesta. Calcolando infatti l' NNT per questo valore estremo dell' intervallo di
confidenza: NNT = 1/0.05 = 20 ossia: per ottenere un miglioramento clinico bisogna trattare almeno 20 pazienti;
diciannove di essi saranno trattati per niente. Inoltre l' ampiezza del range dell' intervallo di confidenza ci suggerisce
che il trial offre una stima molto imprecisa del risultato di efficacia 'vero' (l' estremo superiore dell' intervallo di
confidenza di ARR è -0.42 e corrispondente ad un NNT = 1/0.42 = 2.3 !): questo è imputabile alla scarsa numerosità
del campione reclutato (in tutto 67 pazienti), che rende la stima puntuale imprecisa e allarga gli intervalli di confidenza
intorno a questa stima.
9. Come sono state interpretate le analisi secondarie?
«L’aspirina può essere utile nella prevenzione cardiovascolare? Sì, ma dobbiamo distinguere. In
prevenzione secondaria é inutile somministrare Aspirina a chi è nato sotto il segno della Bilancia e dei
Gemelli (ISIS-2, Lancet 1988 2:349). In prevenzione primaria dobbiamo prestare attenzione alle donne
in quanto l’aspirina abbassa il rischio di stroke ma non di infarto. A meno che le donne non siano anziane,
perchè allora funziona. Però attenzione alle sigarette perché quando fumano l’aspirina aumenta nelle
donne l'incidenza di morte cardiovascolare, infarto, stroke (Ridker, NEJM 2005:352)». Queste
affermazioni non sono frutto di un colpo di sole ma rappresentano il risultato di ricerche ben fatte ma volontariamente o involontariamente mal interpretate.
In particolare si tratta di "Analisi su Sottogruppi" e di "Analisi di end-point secondari", che rientrano nel
panorama più complessivo delle “Analisi secondarie”. Definiamo “Analisi secondaria” qualsiasi confronto
statistico organizzato per saggiare ipotesi diverse da quella considerata nell' “Analisi primaria” (Moyé LA
Multiple Analyses in Clinical Trials - Fundamentals for Investigators, Springer - Verlag New York 2003
ISBN 10918937). L' “Analisi primaria” esplora l' ipotesi che ha motivato l' organizzazione dello studio e
condiziona l' effettivo potere informativo della ricerca. La dimensione che si presume ex ante di poter
rilevare nei risultati di efficacia ad essa riferiti rappresenta uno degli elementi necessari al calcolo delle
dimensioni del campione (vedi sopra).
Ai livelli di confidenza programmati per lo studio (altro elemento necessario a questo calcolo -vedi sopra
errore alfa ed errore beta) appare quindi corretto generalizzare alla base-study che ha generato il
campione solo i risultati che si riferiscono alla “Analisi primaria” (vedi oltre). Le “Analisi secondarie”
dovrebbero essere invece utilizzate solo a supporto di quanto rilevato nell' “Analisi primaria” o, in
alternativa per fornire semplicemente nuove ipotesi di lavoro. Rappresentano “Analisi secondarie” le
"Analisi di end-point secondari", le "Analisi per Sottogruppi", i "Confronti di Bracci Multipli". Nelle "Analisi
di end-point secondari" i bracci originali del campione sono confrontati per i risultati di più di un endpoint. Nelle "Analisi per Sottogruppi" il campione originale è suddiviso in vari strati e in ciascun strato
vengono creati bracci a confronto.
Nei "Confronti di Bracci Multipli" il campione originale è allocato in diversi bracci d’intervento e in un unico
braccio di controllo. A complicare le cose molte di queste procedure sono effettuate in modo crociato
entro l'ambito di una stessa ricerca: ad esempio molto frequentemente gli autori confrontano i bracci di
differenti sottogruppi (oltre che per l' end-point primario) anche per l'incidenza di end-point secondari. Le
“Analisi secondarie” hanno l'ovvia finalità di aumentare l'efficienza informativa del trial, che coincide con
la possibilità di fornire un numero maggiore di informazioni a parità di investimenti di risorse umane e
materiali. L'utilizzo di queste tecniche è però corretto solo se il ricercatore ha ben chiari i loro limiti e le
loro finalità, che devono sempre essere specificate “ex ante” nel protocollo di ricerca. Molte volte invece
queste analisi vengono utilizzate per forzare l'interpretazione dei risultati verso direzioni volute
dall'autore, cosicché -anziché generare nuove conoscenze- generano spesso dubbi o confusione.
A) Interpretazione degli outcome secondari
I risultati riscontrati per gli outcome secondari possono essere pesantemente gravati da errore random.
Infatti si tratta di confronti multipli eseguiti sullo stesso campione. Dato che la probabilità di errore alfa
(vedi sopra= considerare erroneamente non dovuta al caso una differenza che invece è dovuta al caso) è
direttamente proporzionale al numero di confronti eseguiti entro l' ambito di uno stesso campione, per
ognuna di queste analisi non potrà più essere ipotizzato il rischio di errore alfa 'basale' previsto per l'
outcome primario nel calcolo del sample size perchè è stato -appunto- ' tutto speso' per l' analisi primaria
(Freemantle, BMJ 2005 331:836). La probabilità di ottenere risultati dovuti al caso aumenta quindi con il
numero di analisi secondarie eseguite. Inoltre in molte analisi di outcome secondari è possibile incorrere
anche in errori beta . Questo tipo di errore (vedi sopra= considerare erroneamente dovuta al caso una
differenza in realtà esistente) è facile in presenza di campioni sottodimensionati. Dato che la numerosità
del campione dello studio è stata tarata sull' outcome primario e non sugli outcome secondari, per alcuni
di essi la potenza statistica necessaria per arrivare a stabilire 'significatività' della differenza riscontrata
tra i due bracci potrà essere insufficiente. Pertanto anche la 'mancanza di significatività' statistica della
differenza riscontrata tra i due bracci per qualcuno di questi outcome sarà da considerare con sospetto.
L' ipotesi testata dallo studio ASCOT-BPLA (Lancet 2005; 366: 895–906) era < l' amlodipina (eventualmente associata
a perindopril) è più efficace dell' atenololo (eventualmente associato a bendrofumethiazide-potassio) nel ridurre l'
incidenza di morti coronariche + infarti non fatali (=outcome primario)>? Il Sample size era stato calcolato
prevedendo una potenza statistica dell' 80% nel rilevare per l' outcome primario (= morti coronariche + infarti non
fatali) un Hazard Ratio pari a 0.84 con livelli di errore alfa pari a 0.05. La casistica era rappresentata da 19257 pazienti
randomizzati (9639 assegnati al braccio amlodipina; 9618 assegnati al braccio atenololo). Risultati in Hazard Ratio
(con rispettivi intervalli di confidenza al 95%) : HR per 'outcome primario' = 0.90 (0.79-1.02) (non significativo) ; HR
per 'stroke' = 0.77 (0.66-0.89) (significativo) ; HR per 'tutti gli eventi e le procedure cardiovascolari' =0.84 (0.780.90) (significativo); HR per 'mortalità da tutte le cause' =0.89 (0.81-0.99) (significativo); HR per 'sviluppo di diabete'
= 0.70 (0.63-0.78) (significativo) Conclusioni degli autori: il trattamento con amlodipina previene un maggior numero
di eventi cardiovascolari e induce meno casi di diabete rispetto al trattamento basato sull' atenololo (..) Questi risultati
sono importanti nel suggerire la combinazione ideale di farmaci antiipertensivi'. Gli autori in presenza di mancata
significatività dei risultati per l' outcome primario hanno basato le proprie conclusioni solo sulle analisi secondarie.
Sono stati utilizzati a sostegno delle conclusioni del trial, oltre ai risultati che si riferiscono all' all'outcome primario,
anche quelli che si riferiscono ad altri 4 outcome secondari ('Total cardiovascular events and procedures'; 'All cause
mortality'; 'Fatal and non fatal stroke' ; 'Development of diabetes' ). L’ Errore alfa programmato per l’ analisi primaria
(0.05) avrebbe pertanto dovuto essere distribuito -correttamente- sulle analisi dei risultati rilevati per questi cinque
outcome. Gli autori hanno invece definito la 'significatività statistica' dei risultati che si riferiscono a ciascuno dei 4
outcome secondari considerando i valori di P calcolati nominalmente sui risultati riportati per ciascun outcome. Le
conclusioni andrebbero quindi ricusate in quanto l' errore alfa che gli autori dichiarano di aver programmato (0.05) è
stato speso tutto per l' analisi primaria. L' unica risposta corretta all' ipotesi testata dallo studio ASCOT deve essere
quindi <non è stato provato per insufficiente potenza statistica che l' amlodipina (eventualmente associata a
perindopril) sia più efficace dell' atenololo (eventualmente associato a bendrofumethiazide-potassio) nel ridurre l'
incidenza di morti coronariche + infarti non fatali (=outcome primario)>.
I risultati delle analisi che riguardano outcome secondari dovebbero essere utilizzati solo a sostegno di
quanto rilevato per l' outcome primario o, in alternativa, allo scopo di generare nuove ipotesi di lavoro
(Moyé LA Multiple Analyses in Clinical Trials - Fundamentals for Investigators, Springer - Verlag New York
2003 ISBN 10918937)
B) Interpretazione delle analisi per sottogruppi
In una Analisi per Sottogruppi il campione originale viene suddiviso in vari strati (sottogruppi)
contrassegnati da caratteristiche peculiari. Queste caratteristiche riguardano per lo più connotazioni
anagrafiche, fisiologiche o patologiche dei pazienti ma a volte i pazienti inseriti in sottogruppi possono
essere classificati in base a diverse intensità del trattamento somministrato (es. dosi del farmaco) o i
base ad caratteristiche stabilite ex ante o ex post (es: diversità nella compliance o altro). Le
considerazioni esplicitate nelle righe precedenti mettono in guardia dall' interpretare senza riserve una
analisi per sottogruppi.
Infatti la scarsa numerosità dei soggetti che compongono i vari strati espone ad una grande 'random
variation' dei risultati di efficacia le cui di dimensioni e direzioni sono spesso imprevedibili. Una maggior
probabilità di errore alfa è garantita anche dalla necessità di eseguire confronti ripetuti entro l' ambito
dello stesso campione originale : questa probabilità aumenta con l' aumentare del numero di sottogruppi
esaminati. La scarsa numerosità campionaria espone infine queste analisi ad un elevato rischio di errore
beta .
I risultati delle analisi per sottogruppi dovrebbero essere utilizzati solo allo scopo di generare nuove
ipotesi di lavoro.
In realtà gli autori troppo spesso enfatizzano i risultati di analisi per sottogruppi come surrogato di analisi
primaria. Risulta in particolar modo molto pericoloso dar credito alla <significatività statistica> rilevata
dai test nominali a livello dei singoli sottogruppi, per l' elevato rischio di errore alfa associato a queste
analisi. Ciò vale soprattutto in presenza di <risultati non significativi> nella coorte originale. Infatti l'
Errore alfa accettato nel trial è stato speso integralmente per l' analisi primaria , l' unica che ha
condizionato il calcolo delle dimensioni del campione. Affinché una analisi per sottogruppi possa suggerire
spunti degni di approfondimento dovrebbero essere comunque rispettate queste condizioni
a.
b.
c.
d.
e.
f.
g.
I sottogruppi devono essere specificati a priori nel protocollo e non suggeriti ex post dai dati. In
dettaglio, devono essere specificati dal protocollo sia i sottogruppi scelti che le motivazioni della
scelta di quei determinati sottogruppi
Lo studio deve testare solo poche ipotesi; maggiore è il numero di ipotesi testate maggiore è la
probabilità che i risultati siano dovuti al caso
I risultati devono essere rilevanti in termini di significato clinico
I risultati devono essere significativi sotto il profilo statistico
I risultati devono essere biologicamente plausibili
I risultati devono essere confermati da altri studi
Le conclusioni degli autori dovrebbero essere strettamente coerenti con i risultati presentati.
Nonostante queste precauzioni una analisi per sottogruppi espone sempre a molte insidie. Nel 1996 Paker pubblicava
uno studio sugli effetti dell' amlodipina nei pazienti con severo scompenso cardiaco (PRAISE-1 NEJM 1996 335:1107).
L' end-point primario era rappresentato da mortalità da ogni causa + ospedalizzazione per eventi cardiovascolari
maggiori . L' end-point secondario era rappresentato dalla mortalità per tutte le cause. Il sample size era stato tarato
sull' end-point primario per un errore alfa pari a 0.05, per una potenza statistica pari a 0.9 e per una RRR pari a 0.25
dell' incidenza di outcome primario prevista per il gruppo di controllo a un anno . Lo studio prevedeva in modo esplicito
di valutare l' effetto dell' amlodipina , oltre che sull' intera coorte, anche in due separati strati di pazienti caratterizzati
da una diversa etiologia dello scompenso cardiaco (ischemica vs non ischemica). L' abstract dell' articolo riporta che il
farmaco non ha dimostrato di peggiorare la morbilità o la mortalità cardiovascolare in pazienti con severo scompenso
cardiaco (per la coorte in toto: RRR outcome primario espresso come incidenza cumulativa = 0.09 [0.24-1.1] P=0.31;
RRR mortalità espressa come incidenza cumulativa= 0.16 [0.31-1.02] P=0.07) ma che l' effetto era diverso nei due
sottogruppi caratterizzati da diversa etiologia. Infatti mentre nei pazienti con CHF ischemico (analogamente alla coorte
in toto) non era stata riscontrata significatività della differenza tra i due bracci nella incidenza dell' end-point primario
e secondario (HR outcome primario =1.04 [0.83-1.29]; HR mortalità = 1.02 [0.81-1.29]), nei pazienti con CHF di
etiologia non schemica l' amlodipina dimostrava di ridurre significativamente l' incidenza dell' end-point primario e
anche dell' end-point secondario (RRR outcome primario= 0.31 [0.02-0.51] P=0.04; RRR mortalità= 0.46 [0.21-0.63]
P<0.001). Questa incoraggiante osservazione sull' azione del farmaco sui pazienti scompensati ad etiologia non
ischemica meritava a parere degli autori di essere confermata da ulteriori studi. .Lo studio non ha dimostrato
differenze significative tra i due bracci nell' incidenza dell' outcome primario (P=0.07) . Le conclusioni dovevano quindi
essere : <non esistono prove a dimostrazione dell' esistenza di diversità tra i due bracci nell' incidenza dell' outcome
primario>. In assenza di dimostrazione di efficacia sull' intera coorte gli autori hanno enfatizzato invece i risultati del
farmaco sul sottogruppo dei pazienti affetti da scompenso cardiaco non ischemico. Questa analisi poteva essere
peraltro giustificata da alcuni validi motivi: primo, i due strati del campione erano stati selezionati ex ante e previsti
dal protocollo; secondo, un obiettivo importante ed esplicito della ricerca era proprio valutare l' esistenza di un
'subgroup effect' per questi due strati ( la randomizzazione sra stata stratificata con questo scopo). Nonostante questi
presupposti i risultati rilevati dallo studio PRAISE-1 nel sottogruppo di pazienti affetti da scompenso cardiaco di
etiologia non ischemica erano in realtà dovuti solo al caso. Lo studio PRAISE-2 [22], organizzato proprio per
confermare queste scoperte, valutando l' efficacia dell' amlodipina sulla mortalità dei pazienti affetti da scompenso
cardiaco non ischemico non confermava gli spettacolari risultati dello studio PRAISE-1 in quanto l' Odds Ratio di morte
rilevato in questa esperienza su una casistica di 1650 pazienti seguiti per 4 anni era =1.09 con P=0.28 (Presentation
of the results of the Prospective Randomized Amlodipine Survival Evaluation-2 Trial (PRAISE-2) at the American
College of Cardiology Scientific Sessions, Anaheim, CA, March 15, 2000).
© 2006 Progettoasco.it