ARR, NNT, NNH, LLH
a cura di Alessandro Battaggia
1. Risk Difference (ARR)
Premesse
Immaginiamo un trial randomizzato e controllato dove un farmaco A (gruppo di intervento) viene
confrontato con un farmaco B (gruppo di controllo) e dove l' outcome è rappresentato dalla
riduzione della frequenza di un evento avverso.
Lo studio è organizzato come 'studio di superiorità' e l' ipotesi primaria è rappresentata dal quesito:
<il farmaco A è superiore al farmaco B nel ridurre la frequenza dell' evento avverso?>.
Per rispondere al quesito primario, come in tutti gli studi di intervento controllati, occorre rispettare
queste tappe
1. scegliere una adatta unità di misura dell' outcome
2. misurare l' outcome nel braccio di intervento e nel braccio di controllo
3. scegliere una adatta misura di efficacia: serve per confrontare i valori dell' outcome riscontrati in
ciascun braccio aggregandoli in un risultato finale
4. stabilire se la differenza riscontrata tra i due bracci è significativa o se al contrario è dovuta solo
al caso
5. stabilire se questa differenza è utile clinicamente
1. Scelta dell' unità di misura dell' outcome quando l' outcome è un evento: AR
In uno studio di 'eventi' a dimensione prospettica i pazienti in condizioni basali non hanno ancora
avuto l' outcome, che viene raccolto invece durante la conduzione della ricerca. Il risultato di un
intervento (es: un farmaco) è in tal caso dicotomico (es: se l' outcome studiato è la mortalità un
paziente seguito per tutto il follow-up alla fine dello studio potrà essere o morto, o vivo) . In alcuni
trial l' intervento ha lo scopo di ridurre l' incidenza di eventi avversi (es: morte, malattia); in altri ha
lo scopo di aumentare la frequenza di eventi desiderati (es: guarigioni).
Per comprendere le modalità con cui vengono studiati gli eventi è necessario considerare una
tabella di contingenza 2 x 2 (tabella 1).
Tab.1
Evento (es: morte)
Tabella di contingenza in uno studio
prospettico di eventi
Intervento
Farmaco
Placebo
Morti
Vivi
a
b
c
d
In uno studio prospettico come un RCT in cui il farmaco viene confrontato con il placebo allo scopo
di verificare se riduce la mortalità l' obiettivo della ricerca è paragonare ad esempio quello che
succede per quell' outcome nel braccio di intervento con quello che succede per quell' outcome
nel braccio di controllo. Queste modalità di analisi sono ben diverse da quelle utilizzate in presenza
di parametri espressi in scala intervallare (come peso, altezza, pressione,e ccetera) dove il
1
confronto tra i due bracci è espresso soltanto da un confronto tra medie.
L' outcome 'evento' può essere misurato in ciascuno dei due bracci in due modi diversi:
o attraverso un 'Rischio Assoluto' o attraverso un 'Odds'.
Riferendoci alla tabella 1:
A) Il 'Rischio assoluto' di un evento è espresso dal rapporto (n. di pazienti che hanno subito l'
evento in quel braccio)/(tot. pazienti in quel braccio)
B) L Odds di un evento è invece espresso dal rapporto (n. di pazienti che hanno subito l' evento in
quel braccio)/( n. di pazienti che non hanno subito l' evento in quel braccio).
2. Misura dell' outcome nei due bracci: il Rischio Assoluto o Risk
Attenzione: non deve trarre in inganno il termine "rischio" in quanto esprime solo un concetto
matematico/statistico (ossia la frequenza di un evento in un gruppo di soggetti) e non un concetto
clinico.
1. Il Rischio assoluto dell' evento nel braccio di intervento ( ARi o Riski) è espresso nella tabella di
contingenza dal rapporto a/(a+b). Questa misura esprime la frequenza dell' outcome osservata nei
soggetti a cui è stato somministrato l' intervento oggetto della ricerca.
2. il Rischio assoluto dell' evento nel braccio di controllo (ARc o Riskc, definito anche Rischio
Basale) è espresso nella tabella di contingenza dal rapporto c/(c+d).
Nota importante
E' importante sottolineare fin d' ora il significato clinico del Rischio Basale.
Dato che esprime la frequenza dell' outcome nel gruppo di pazienti che non hanno ricevuto il
trattamento (i controlli), il Rischio Basale rappresenta cosa sarebbe successo per quell' outcome in
assenza dell' intervento. Infatti in un trial randomizzato i due bracci sono rappresentati da soggetti
pressoché identici nelle loro caratteristiche di base.
E' particolarmente importante conoscere il Rischio Basale quando per confrontare i due bracci si
utilizza come misura di efficacia un Rischio Relativo (RR) o una Riduzione Relativa di Rischio
(RRR) . E' stato formalmente dimostrato che queste misure di efficacia (vedi il rispettivo capitolo)
sono di grande impatto per il medico prescrittore e proprio per questo motivo RR e RRR sono
molto utilizzate nei depliant dalla propaganda farmaceutica. Tuttavia queste misure non forniscono
alcuna informazione sul reale impatto clinico di un intervento a meno che non si consideri anche il
Rischio Basale. Un Rischio Relativo esprime infatti la frazione di Rischio Basale osservata dopo un
intervento, mentre una Riduzione di Rischio Relativo esprime la frazione di Rischio Basale
abbattuta dall' intervento.
Ad esempio se un farmaco abbatte la Mortalità Basale del 20% questo abbattimento si chiama
Riduzione Relativa di Rischio (RRR) . La frazione di Mortalità Basale che resta dopo l' intervento
corrisponde ovviamente all' 80% della Mortalità di base: questa frazione residua si chiama Rischio
Relativo (RR ).
L' impatto clinico di un intervento che dovrebbe modificare la frequenza di un evento (quando i due
bracci vengano confrontati utilizzando come misura di efficacia un RR o una RRR) non potrà
essere pertanto compreso se non si conoscono i valori del Rischio Basale dell' evento (ARc).
Una situazione del genere può essere paragonata con l' acquistare un prodotto da un negoziante
senza conoscere il prezzo di base (=ARc) solo perché il venditore garantisce uno sconto del 20%
(=RRR) del prezzo originale (=ARc), accontentandosi di conoscere solamente che il prezzo
residuo corrisponderà all' 80% (RR) del prezzo originale.
3) Confronto tra i due bracci attraverso Risk Difference (ARR)
Quando l' outcome è espresso da un Rischio Assoluto potremo confrontare i Rischi Assoluti rilevati
nei due bracci dello studio calcolando la Differenza tra il Rischio Assoluto del braccio di controllo e
il Rischio Assoluto del braccio di intervento
ARR = ARc - ARi
2
I due bracci possono essere confrontati anche utilizzando misure di efficacia diverse da ARR (vedi
tabella 2), ma verranno trattate in capitoli a parte
Tab.2
Risultato di efficacia che esprime la differenza tra i due
bracci
Risultati di efficacia in uno studio
prospettico di eventi
Unità di misura
dell' outcome in
Rischio Assoluto (AR)
ciascuno dei due
bracci
Odds
Differenze
Rapporti
Risk Difference
Relative Risk reduction
Risk Ratio
-
Odds ratio
Risk Difference esprime pertanto la differenza fra la frequenza dell' evento misurata nel braccio di
controllo e la frequenza dell' evento misurata nel braccio di intervento.
Sinonimi di Risk Difference sono: Absolute Risk Reduction (ARR), RD, Riduzione di Rischio
Assoluto
In base a queste modalità di calcolo:
a) Se il rischio assoluto di un evento ( indesiderato) riscontato nel braccio di intervento è identico
al rischio assoluto dell' evento indesiderato riscontrato nel braccio di controllo la loro differenza
sarà uguale a zero in quanto ARc - ARi = 0.
Per esempio se la mortalità nel braccio di intervento è pari al 10% e la mortalità nel braccio di
controllo è identica (10%) ARR = 0.1-0.1 = 0
In questo caso avremo ragione di affermare che l'intervento "non è risultato efficace ma nemmeno
dannoso", in quanto nei soggetti sottoposti al trattamento non è stata riscontrata alcuna modifica –
rispetto ai "controlli"- dei valori della variabile esaminata.
b) Se il rischio assoluto dell' evento indesiderato riscontrato nel braccio di intervento (ARi) è
minore del rischio assoluto dell' evento indesiderato nel braccio di controllo (ARc) il valore di Risk
Difference sarà positivo, a testimonianza dell' efficacia dell' intervento.
Ad esempio se la mortalità nel braccio di intervento è pari al 10% e la mortalità nel braccio di
controllo è pari al 20% ARR = 0.2-0.1 = 0.1
c) Se il rischio assoluto dell' evento indesiderato riscontrato nel braccio di intervento (ARi) è
maggiore del rischio assoluto dell' evento indesiderato nel braccio di controllo (ARc)il valore di
Risk Difference sarà negativo, a testimonianza della dannosità dell' intervento. Ad esempio se la
mortalità nel braccio di intervento è pari al 20% e la mortalità nel braccio di controllo è pari al 10%
ARR = 0.1-0.2 = -0.1
Più il valore assoluto di ARR si allontana da zero, maggiore è la dimensione dell' effetto dell'
intervento, che sarà utile o dannoso a seconda della direzione del risultato.
Nota importante
Per comodità espositiva abbiamo immaginato finora una situazione in cui l' evento studiato dal trial
è un evento indesiderato di cui l' intervento dovrebbe ridurre la frequenza. L' interpretazione clinica
della positività o della negatività dei valori di ARR nella situazione opposta (in cui l' intervento
dovrebbe invece aumentare la frequenza di un evento desiderato) è ovviamente completamente
rovesciata.
4. Verifica della significatività statistica del risultato
La significatività statistica di una Risk Difference (ARR) può essere determinata, al pari di
qualsiasi altra misura di efficacia , con un test di significatività statistica o attraverso gli intervalli di
confidenza.
3
Utilizzo di un test di significatività: il 2 -Test
Il 2 -Test parte come qualsiasi altro test di significatività da una ipotesi nulla, vale a dire dal
presupposto che l' intervento non comporti alcuna modifica nei valori basali dell' outcome (ARc).
Secondo questa ipotesi i valori i 'reali' della frequenza dell' outcome nei pazienti sottoposti all'
intervento sono identici ai valori 'reali' della frequenza dell' outcome nel braccio di controllo.
Si definiscono 'valori reali' i valori di ARi e ARc che potremmo ricavare studiando non il campione
arruolato dal trial ma piuttosto tutta la popolazione da cui il campione è stato estratto.
Il soddisfacimento dell' ipotesi nulla implica ovviamente che la differenza tra i valori 'reali' di ARi e
ARc sia uguale a zero ( ARc -ARi =0). Se l' ipotesi nulla viene accettata eventuali scostamenti da
zero della differenza tra braccio di intervento e braccio di controllo nel campione arruolato
vengono interpretati come semplice effetto della casualità con cui è stato scelto il campione. In
questa circostanza i due gruppi di soggetti appartenenti ai due bracci sono quindi considerati
rappresentativi di una identica popolazione generale di pazienti refrattari all' azione dell' intervento.
In questa situazione avremmo quindi ragione di affermare che <non esistono prove che l'
intervento sia efficace o dannoso >, perché nei soggetti sottoposti al trattamento non è stata
riscontrata alcuna modifica < significativa > rispetto ai controlli nei valori della variabile che si
supponeva potesse essere influenzata dall'intervento.
Il valore di P prodotto dal 2 -Test indica esattamente (come per ogni altro test di significatività) la
probabilità che la differenza riscontrata tra i due bracci sia dovuta solo all' effetto del caso.
Se il 2 -Test produce valori di P superiori a 0.05 significa che la probabilità che il risultato sia
dovuto al caso è superiore al 5%: per convenzione statistica l' ipotesi nulla viene allora confermata
e il risultato viene dichiarato 'non significativo '.
Se il 2 -Test produce valori di P inferiori a 0.05 significa che la probabilità che il risultato sia
dovuto al caso è inferiore al 5%. Per convenzione statistica questa probabilità viene in questo
caso giudicata 'trascurabile' e l' ipotesi nulla viene allora ricusata : la differenza tra i due bracci
viene dichiarata 'significativa'.
Esempio
Nello studio ALLHAT [1] sono stati assegnati al braccio di intervento (amlodipina) 9048 pazienti e
al braccio di controllo (clortalidone) 15255 pazienti. L' outcome primario dello studio era
rappresentato dall' end-point combinato (morte coronarica + infarto non fatale). Nel braccio di
intervento la frequenza di questo end-point corrispose a 788 casi, nel braccio di controllo a 1362
casi in un follow-up medio di 4.9 anni. L' articolo originale fornisce i risultati sotto il formato di
Hazard Ratio, ma utilizzando semplici calcoli possiamo esprimerli in altri formati. Per esempio i
rispettivi Rischi Assoluti possono essere così calcolati: ARi = 788/9048 = 0.0881963 ; ARc =
1362/15255 = 0.0892822. Da tali dati può essere estratto Risk Difference: ARR =0.08928220.0881963 = 0.0010859. La significatività statistica può essere espressa dal valore di P calcolato
attraverso il 2 -Test (occorre in questo caso un programma statistico), dal quale ricaviamo P =
0,79 (risultato non significativo).
Utilizzo degli intervalli di confidenza di ARR per la significatività statistica
Gli intervalli di confidenza al 95% esprimono il grado di imprecisione dei risultati del trial, che
fornisce solo una 'stima' dei valori 'reali' della misura di efficacia. Essi identificano infatti un range
di valori entro cui con una attendibilità (=confidenza) pari al 95% è situato il valore 'reale' della
misura, vale a dire quello che si otterrebbe coinvolgendo nella ricerca anziché il campione studiato
dal trial tutta la popolazione da cui questo è stato estratto [6]. Quando il risultato di efficacia è una
differenza tra due rischi assoluti di un evento (ARR) gli intervalli di confidenza al 95% esprimono
dunque il grado di imprecisione della stima fornita dal trial dei valori 'reali' di ARR.
Per semplicità immagineremo come esempio una ricerca in cui viene valutato un intervento che
dovrebbe ridurre la frequenza di un evento indesiderato.
L' ipotesi nulla viene soddisfatta (vedi sopra) da valori 'reali' di ARR uguali a zero.
4
Se gli intervalli di confidenza di ARR contengono pertanto il valore di zero non è possibile
esprimere un giudizio sulla efficacia dell' intervento. Infatti la differenza tra i rischi assoluti dei due
bracci potrebbe essere maggiore di zero (= l' intervento è efficace in quanto nei soggetti assegnati
al trattamento il rischio assoluto dell' evento è minore del rischio assoluto registrato nei soggetti
assegnati al placebo); minore di zero (=l' intervento è dannoso in quanto il rischio assoluto dell'
evento nei soggetti assegnati al trattamento è maggiore del rischio assoluto registrato nei soggetti
assegnati al placebo) oppure uguale a zero (= il farmaco non è né efficace né dannoso in quanto
nei soggetti assegnati al trattamento il rischio assoluto dell' evento è identico al rischio assoluto
registrato nei soggetti assegnati al placebo). Pertanto quando gli intervalli di confidenza di ARR
contengono il valore di zero il risultato viene dichiarato ' non significativo ' in quanto non può
essere escluso , con una confidenza del 95%, che tra un braccio e l' altro non esista alcuna
differenza nell' incidenza dell' outcome (= ipotesi nulla soddisfatta).
Se gli intervalli di confidenza di ARR non contengono il valore di zero e tutto il range presenta
valori positivi è possibile esprimere un giudizio di efficacia. Infatti quando la differenza tra i rischi
assoluti dei due bracci è maggiore di zero l' intervento è efficace perché nei soggetti assegnati al
trattamento il rischio assoluto dell' evento è minore del rischio assoluto rilevato nei pazienti
assegnati al placebo. In queste condizioni affermiamo, con una confidenza del 95%, che l'
intervento ha prodotto vantaggi e che il risultato < è significativo >. La significatività può essere
dichiarata in quanto il range dei valori dell' intervallo di confidenza di ARR non contiene il valore
'cut off' di ARR (zero) che soddisfa l' ipotesi nulla.
Se gli intervalli di confidenza di ARR non contengono il valore di zero e tutto il range presenta
valori negativi è possibile esprimere un giudizio di dannosità. Infatti quando la differenza tra i rischi
assoluti dei due bracci è minore di zero l' intervento è dannoso perché nei soggetti assegnati al
trattamento il rischio assoluto dell' evento è maggiore del rischio assoluto rilevato nei pazienti
assegnati al placebo. In queste condizioni affermiamo, con una confidenza del 95%, che l'
intervento ha prodotto svantaggi e che il risultato < è significativo >. La significatività può essere
dichiarata in quanto il range dei valori dell' intervallo di confidenza di ARR non contiene il valore
'cut off' di ARR (zero) che soddisfa l' ipotesi nulla.
Esempio
Nello studio ALLHAT [1] ARR = ARc -ARi = 0.0892822- 0.0881963 = 0.0010859. Gli intervalli di
confidenza al 95% di ARR possono essere calcolati utilizzando il calcolatore disponibile nella
pagine 'utilities' e corrispondono al range -0,0063046 --> 0,0084764. Il range contiene il valore di
zero e pertanto il risultato espresso da ARR non può essere considerato significativo.
5. Verifica della significatività clinica del risultato attraverso gli intervalli di confidenza di
ARR
La significatività statistica è un concetto matematico e non necessariamente coincide con la
significatività clinica. Anche nei casi in cui il risultato di un trial viene espresso in termini di Risk
Difference (ARR), il calcolo degli "intervalli di confidenza" (IC 95% ) di ARR ci aiuterà a giudicare
se i risultati della sperimentazione sono clinicamente utili.
Gli intervalli di confidenza intorno alla stima di ARR ricavata da un campione identificano un range
di valori entro cui –con una attendibilità pari al 95%- si trova il valore 'vero' di ARR, quello
ricavabile dalla intera popolazione (vedi sopra).
Valutazione della Utilità clinica del risultato
Se tutto il range dei valori dell' intervallo è molto
lontano dal cut-off che esprime l'ipotesi nulla (zero) significa che esiste una forte differenza tra i
valori dell'outcome misurati nel braccio di intervento e i valori dell'outcome misurati nel braccio di
controllo. Il risultato della sperimentazione sarà pertanto fortemente a favore o a sfavore
dell'intervento (a seconda della direzione dei risultati) perché la dimensione dell' effetto è grande.
Viceversa, se uno dei limiti estremi dell'intervallo di confidenza è molto vicino al cut off che esprime
l'ipotesi nulla (zero) l'effetto studiato può essere (anche se è presente significatività statistica) poco
importante dal punto di vista clinico in quanto l'intervallo di confidenza non esclude la possibilità
che la dimensione dell'effetto sia modesta.
Riproducibilità del risultato
5
L'intervallo di confidenza è molto utile per esprimere l'importanza
clinica dei risultati anche perché l' ampiezza del range esprime il grado di precisione della stima,
vale a dire il grado in cui i risultati del trial possono essere trasferiti con fiducia alle condizioni
operative reali. Intervalli di confidenza larghi testimoniano scarsa precisione nella stima (= i risultati
sono poco riproducibili); intervalli di confidenza stretti testimoniano buona precisione della stima (=
i risultati sono ben riproducibili). Pertanto in presenza di un range ampio anche se esiste
'significatività statistica ' occorre considerare che il risultato potrebbe essere poco riproducibile in
condizioni reali. Ciò equivale a dire che la dimensione dell' effetto potrebbe essere anche molto
diversa da quella suggerita dal trial qualora la sperimentazione venisse ripetuta utilizzando
campioni più ampi. Un atteggiamento 'conservativo' nella interpretazione dei risultati di efficacia
attraverso gli intervalli di confidenza è quindi altamente consigliabile: il giudizio sulla dimensione
dell' effetto e il giudizio sulla riproducibilità dei risultati dovrebbero considerare attentamente
l'estremo dell'intervallo di confidenza più vicino al valore 'cut off' della misura di efficacia che
identifica il soddisfacimento dell'ipotesi nulla.
Un esempio è offerto dal trial AITIAS [3] esaminato anche nella metanalisi illustrata nella figura 1
[1]. In questa esperienza di ricerca era stata valutata l' efficacia di una terapia antiaggregante
piastrinica in pazienti già sottoposti a procedure di endoarteriectomia carotidea; l' outcome era
rappresentato dall' incidenza di stroke. Lo studio AITIAS aveva reclutato pochi soggetti (n=125) ; il
Rischio assoluto di Stroke nel braccio di intervento corrispondeva a ARi = 2/65 = 0,03 ; il Rischio
Assoluto di Stroke nel braccio di controllo a ARc = 8/60 = 0,133. In altri termini il rischio di subire
uno stroke entro il periodo di follow-up considerato dalla ricerca era pari al 13,3% per i soggetti non
sottoposti al trattamento antiaggregante e al 3% nei pazienti sottoposti al trattamento. Risk
Difference corrispondeva quindi a ARR = 0,13-0,03 = 0,10. In base a questa stima puntuale l'
efficacia del farmaco potrebbe essere giudicata 'buona', in quanto l' intervento ha abbattuto il
rischio di base (dei controlli) di ben 10 punti percentuali. Esprimendo lo stesso risultato come
'numero di soggetti da trattare con farmaci antipiastrinici per prevenire uno stroke' (vedi oltre)
abbiamo infatti : NNT = 1/ARR = 1/0,10 = 10. In medicina preventiva evitare uno stroke ogni 10
pazienti a rischio trattati con un farmaco è sicuramente un ottimo risultato. In realtà tuttavia l'
intervallo di confidenza al 95% per la stima puntuale fornita dal trial è espresso dal range di ARR
(0,01 --> 0,2). Questo intervallo non contiene il valore di zero (infatti i valori estremi sono entrambi
positivi): il risultato è quindi 'statisticamente significativo ' perché l' ipotesi nulla può essere
ricusata. Tuttavia l' intervallo di confidenza è ampio e uno dei suoi estremi è molto vicino al valore
zero, quello che soddisfa l' ipotesi nulla
FIGURA 1
Analizzando il significato clinico di questa osservazione ciò equivale a dire che con una
attendibilità del 95% lo scenario peggiore è rappresentato da un abbattimento del rischio basale di
solo un punto percentuale e che nella migliore delle ipotesi l' abbattimento corrisponde a ben venti
punti percentuali. Non sappiamo dove sia situato il valore 'vero' di ARR all' interno di questo range
e pertanto il nostro atteggiamento deve essere conservativo, vale a dire deve considerare l' ipotesi
6
peggiore. Un abbattimento del rischio basale di un punto è ovviamente un risultato molto più
scadente perché è esattamente un decimo di quello espresso dalla stima puntuale. Il significato
clinico di queste osservazioni emerge bene anche dal calcolo dell' NNT (vedi oltre). Infatti NNT in
base all' intervallo di confidenza varia da NNT= 1/0,2= 5 a NNT=1/0,01=100. Ciò significa che
nella miglior delle ipotesi per prevenire uno stroke basterà trattare con antiaggreganti cinque
pazienti a rischio per questo evento ; nella peggior delle ipotesi occorrerà invece trattare cento
pazienti.
2. Number Needed To Treat (NNT)
Il numero dei pazienti da trattare per ottenere un'unità d'efficacia (es: per prevenire l' incidenza di
un outcome avverso) è espresso dal rapporto NNT (Number Needed To Treat) dove
NNT = 1/ARR
Se per esempio in un gruppo di pazienti trattati con il farmaco A la morbilità è 15% e nel braccio di
controllo trattato con il farmaco B la morbilità è 20% : ARR = (ARc – ARi) = 0.20-0.15 = 0.05 .
Il calcolo del Number Needed To Treat è dato da: NNT = 1/ARR = 1/0.05 = 20.
Vale a dire che per prevenire un caso di malattia occorre trattare con il farmaco 20 pazienti.
Questo valore fornisce con immediatezza un importante strumento di valutazione della quantità
d'efficacia di un intervento (esempio: NNT per prevenire un decesso; NNT per prevenire un
determinato sintomo e così via).
Inoltre i valori di NNT con molta facilità sono inversamente proporzionali al rischio dell'evento
avverso in condizioni basali (ARc). In presenza per esempio di un elevato rischio di base accade
più facilmente che le variazioni di rischio indotte dall' intervento (ARR) siano caratterizzate da
dimensioni grandi [5]. In linea di massima pertanto NNT è tanto più piccolo quanto più grande è la
probabilità dell'evento avverso nel gruppo di controllo.
Dalle modalità di calcolo esposte appare evidente che quanto più grandi saranno i valori di ARR
tanto più piccolo sarà il valore di NNT: pertanto occorre considerare in modo diverso l' impatto
clinico dei valori di NNT registrati in trial che studiano l' efficacia di interventi preventivi (es:
vaccinazioni) e di quelli che sono stati registrati in trial che studiano l' efficacia di interventi rivolti
alla cura delle melattie (es: antibiotici). Nel primo caso la frequenza degli eventi nei due bracci sarà
bassa e sarà piccola anche la differenza tra un braccio e l' altro: piccoli valori di ARR
giustificheranno pertanto grandi valori di 1/ARR. Nel secondo caso la frequenza degli eventi nei
due bracci sarà più alta e sarà anche più grande la differenza tra un braccio e l' altro: grandi valori
di ARR giustificheranno pertanto piccoli valori di 1/ARR. Per valutare clinicamente il significato di
NNT è quindi conveniente confrontare il NNT calcolato nel trial con quello di altri trattamenti già
sperimentati. A tal fine è presente in Bandolier (accessibile dalla pagina link di questo sito) una
banca dati di NNT, che può orientare il lettore.
E' importante considerare gli intervalli di confidenza anche per i Valori di NNT.
Nell' esempio appena citato se il farmaco A rispetto al farmaco B sembra in grado di ridurre la
morbilità di cinque punti percentuali (stima puntuale di ARR = 0.05) ma i valori dell'intervallo di
confidenza di AR sono in realtà rappresentati dal range 0,001-0,06, coerentemente i valori di NNT
saranno espressi da
NTT = 1/ARR= 1/0,06 = 16,6 (ipotesi migliore) e 1/ARR = 1000 (ipotesi peggiore) .
Pertanto in tal caso il numero di soggetti da trattare per ottenere un outcome potrebbe essere in
realtà anche molto elevato (potrebbe cioè corrispondere a mille pazienti).
Utilizzando i valori di NNT l' ipotesi nulla viene soddisfatta (ossia: i risultati del confronto tra i due
bracci non sono significativi) quando l' intervallo di confidenza di questa misura di efficacia
contiene il valore < infinito >.
Infatti il NNT rappresenta il rapporto 1/ARR e per l' ARR il valore che soddisfa l' ipotesi nulla
corrisponde a zero.
7
Con un ARR pari a zero l' NNT è uguale a 1/0 = < infinito >
Un esempio reale è offerto da un trial in cui in pazienti affetti da neuropatia diabetica sono stati
assegnati in modo random a tramadolo o a placebo e i cui i dati dell' outcome espresso in scala
dicotomica sono riportati da una metanalisi Cochrane [2]. L' articolo del 1998 è a firma di Haratu &
coll, ed è stato pubblicato su Neurology (50:1842). Erano stati considerati nella analisi finale che si
riferiva all' outcome primario (=miglioramento del dolore rispetto alla condizione di base) 63
pazienti assegnati al farmaco e 64 pazienti assegnati al placebo. L' outcome (intensità del
sintomo) era stato rilevato in un follow-up di 42 giorni utilizzando una apposita scala. Il trattamento
era considerato dicotomicamente 'efficace' o 'non efficace ' se il paziente al 42° giorno riportava la
sintomatologia con uno score minore o rispettivamente maggiore del 50% rispetto ai valori rilevati
prima di iniziare il trattamento. Per 43 pazienti assegnati al tramadolo e 23 pazienti assegnati al
placebo il farmaco si era dimostrato efficace contro il dolore neuropatico. Gli autori concludevano
che il tramadolo al dosaggio medio di 210 mg/die era significativamente più efficace del placebo
nella terapia del dolore da neuropatia diabetica (p <0.01). Per i pazienti trattati con tramadolo :
AR(tramadolo) = 43/63 = 0,683: significa che il 68,3 % dei soggetti trattati con il farmaco è
migliorato rispetto alle condizioni basali. Per i pazienti trattati con placebo AR(placebo) = 23/64 =
0,359: significa che il 35,9% dei soggetti trattati con placebo è migliorato rispetto alle condizioni
basali. Quindi ARR = ( AR(placebo) – AR(tramadolo) ) = 0,359 – 0.683 = - 0,323
Attenzione: in questa ricerca il punto di vista considerato altrove si inverte in quanto qui viene
studiato un evento (l' ottenere o no miglioramento clinico) la cui frequenza dovrebbe essere
aumentata dal farmaco. Si tratta ovviamente di una situazione ben diversa da quella studiata in un
trial dove l' intervento la lo scopo di ridurre la mortalità. Un valore di ARR con segno negativo
esprime infatti 'efficacia dell' intervento ' in quanto sta a significare che nel gruppo di intervento la
percentuale di soggetti migliorati è maggiore della percentuale rilevata nel gruppo di controllo.
In questa esperienza gli intervalli di confidenza di ARR variavano da -0,16 a -0,49: essendo gli
estremi entrambi negativi l' ipotesi nulla viene ricusata in quanto il range non contiene il valore
zero. Calcolando l' intervallo di confidenza dell' NNT: per ottenere il miglioramento clinico in un
paziente nell' ipotesi più favorevole occorre trattare 2 pazienti (=1/0,49) e nella ipotesi meno
favorevole 6,1 pazienti (=1/0,16). In questo caso l' intervento può essere considerato senz'altro
efficace.
3. (NNT-1)
Altrettanto importante del NNT è il valore di (NNT-1), che esprime quanti pazienti dovremo
trattare inutilmente per produrre un risultato di efficacia in un paziente.
per esempio in ambito algologico se l' NNT di un farmaco antidolorifico fosse 60, significa che su
60 pazienti trattati uno solo di essi subirebbe un miglioramento, mentre 59 pazienti non trarrebbero
alcun vantaggio dalla terapia correndo ugualmente il rischio di effetti collaterali dovuti al
trattamento.
4. Number Needed To Harm (NNH)
Le modalità di calcolo del NNT permettono di determinare anche il NNH (Number Need To Harm)
che esprime lo steso concetto dell' NNT per gi eventi avversi. NNH esprime il numero di pazienti
da trattare per ottenere un effetto avverso correlato alla terapia.
NNH si calcola, come NNT, dalla ARR di un evento avverso.
NNH = 1/ARR(evento avverso)
Lo studio di Harati sull' efficacia del tramadolo sul dolore della neuropatia diabetica citato dalla
metanalisi Cochrane [1] era accompagnato nell' articolo originale [3] da una tabella che illustrava
separatAmente nei due gruppi a confronto l' incidenza di effetti avversi potenzialmente legati al
8
trattamento (qusta analisi riguardava 66 pazienti trattati con tramadolo e 66 pazienti trattati con
placebo). 15 pazienti nel gruppo di intervento e 2 nel gruppo di controllo avevano accusato nausea
durante il follow-up dello studio. 14 pazienti nel gruppo di intervento e 2 nel gruppo di controllo
avevano accusato stipsi. 11 pazienti nel gruppo di intervento e 3 nel gruppo di controllo avevano
accusato cefalea. 8 pazienti nel gruppo di intervento e 4 nel gruppo di controllo avevano accusato
sonnolenza. 9 pazienti nel gruppo di intervento e 1 nel gruppo di controllo avevano abbandonato il
trattamento a causa di effetti collaterali attribuiti al trattamento.
Calcolando i rispettivi NNH:
Tabella 3
NNH
nausea
stipsi
cefalea
sonnolenza
abbandono
AR
intervento
(ARi)
15/65
14/65
11/65
8/65
9/65
AR
controlli
(ARc)
2/66
2/66
3/66
4/66
1/66
ARR =
(ARc-ARi)
-0.20
-0,185
-0,123
-0,062
-0,123
NNH = 1/ARR
1/0,20
1/0,185
1/0,123
1/0,06 6
1/0,123
=4,98
=5,40
=8,07
=16,00
=8,109
5. Numero di eventi avversi per ogni evento desiderato
(z X NNT)
Conoscendo la probabilità z di un effetto avverso legato ad un trattamento, il numero di eventi
avversi prevedibili nel gruppo di pazienti che dobbiamo trattare per ottenere un outcome
desiderato sarà uguale a = z x NNT
Se conosciamo z potremo quindi stimare il suo impatto clinico moltiplicando z per l' NNT calcolato
per l' outcome della ricerca.
z X NNT = numero di pazienti che subiranno un effetto collaterale per ogni paziente che ha
ottenuto un outcome desiderato.
Tale parametro può esserci utile in analisi di convenienza strutturate sul modello costo/efficacia.
Lo studio di Harati sull' efficacia del tramadolo sul dolore della neuropatia diabetica [1] riportava
nell' articolo originale [3] che gli effetti collaterali più comuni erano rappresentati entro il gruppo
trattato con il farmaco da nausea (23.1%) stipsi (21.5%) cefalea (16.9%) e sonnolenza (12.3%).
Nove pazienti nel gruppo tramadolo e un paziente trattato con placebo avevano interrotto il
trattamento per eventi avversi attribuiti alla terapia. L' articolo riportava molto correttamente in
forma tabellare per ogni braccio -vedi sopra - gli eventi avversi potenzialmente legati al trattamento
Se questa tabella non fosse stata riportata avremmo potuto stimare in qualche modo la
dimensione clinica degli effetti avversi (rinunciando però al confronto con il placebo) tenendo conto
solo della loro prevalenza nel braccio di intervento. Questo metodo può essere utile per
approssimare il calcolo di un rapporto Rischio-Efficacia di un trattamento quando gli autori (come a
volte accade) non riportano in maniera dettagliata gli effetti collaterali del trattamento).
Tabella 4- calcolo della percentuale dei pazienti che subirà un evento avverso per ogni
paziente che ha ottenuto il miglioramento clinico
Effetto avverso
Prevalenza (z)
NNT miglioramento
z X NNT
nausea
0,231
3,09
0,714
stipsi
0,215
3,09
0,666
cefalea
0,169
3,09
0,523
sonnolenza
0,123
3,09
0,380
abbandono
0,138
3,09
0,428
z x NNT identifica la dimensione clinica degli eventi avversi per ogni outcome raggiunto: per
esempio per ogni paziente migliorato clinicamente nell' intensità del dolore neuropatico 0,714
pazienti sui 3,09 (NNT) trattati per ottenere l' outcome subiranno nausea.
9
Se calcoliamo NNT per cento miglioramenti NNT100 = NNT x 100 = 3,09 x 100 = 309 ossia per
ottenere un miglioramento del dolore neuropatico in cento pazienti occorre trattarne 309.
Immaginando quindi la situazione in cui il beneficio clinico sia stato raggiunto in cento pazienti in
seguito al trattamento complessivo di 309 pazienti lo scotto da pagare sarà rappresentato da
insorgenza di nausea in z X NNT100 = 0,231 x 309 = 71,4 pazienti.
5. Likelihood of Being Helped or Harmed (LLH)
Un modo ancora più raffinato di stimare il bilancio Rischio-Efficacia di un trattamento è
rappresentato dal calcolo di LLH [4] dove
LLH = Likelihood of Being Helped or Harmed = (1/NNT)/(1/NNH).
Se il numero che si ottiene è maggiore di uno il paziente ha più vantaggi nell' essere trattato che
nel non esserlo. In caso contrario (LLH <1) il bilancio Rischio-Beneficio è a favore del Rischio.
Ovviamente LLH ha valori diversi a seconda dell' NNT del parametro di efficacia prescelto e a
seconda dell' NNH dell' effetto collaterale considerato . E' un metodo particolarmente utile
calcolare LLH per l' effetto collaterale ritenuto più importante clinicamente o valorizzato di più dal
paziente stesso.
In base ai calcoli eseguiti in precedenza (vedi sopra )nell' analisi dello studio di Harati [3] i valori di
LLH calcolabili risultano tutti a favore dell' intervento (tabella 5).
Tabella 5- calcolo LLH (Likelihood of Being Helped or Harmed)
Effetto avverso
NNH singoli effetti
NNT dell' outcome
collaterali
'miglioramento
dolore'
nausea
4,98
3,09
stipsi
5,40
3,09
cefalea
8,07
3,09
sonnolenza
16,00
3,09
abbandono per ea
8,109
3,09
LLH =
(1/NNT)/(1/NNH)
1,612
1,746
2,610
5,173
2,620
BIBLIOGRAFIA
[1] Engelter S and Lyrer P
Antiplatelet therapy for preventing stroke and other vascular events after carotid endarterectomy
The Cochrane Database of Systematic Reviews 2005 Issue 4
This version first published online: 21 July 2003 in Issue 3, 2003
[2] Dühmke RM, Cornblath DD, Hollingshead JRF
Tramadol for neuropathic pain
The Cochrane Database of Systematic Reviews 2005 Issue 4
This version first published online: 19 April 2004 in Issue 2, 2004
[3] Harati Y et al
Double-blind randomized trial of tramadol for the tratment of the pain of diabetic neuropathy
Neurology 1998 50:1842
[4] Sackett DL, Straus SE , Richardson ES, Rosemberg W, Haynes R
Evidence-Based Medicine - How to Practice and Teach EBM
Churchill Livingstone 2001 ISBN 0 443 06240 4
10
[5] Sackett DL
Why randomized controlled trial fail but needn't: 2. Failure to employ physiological statistics, or the
only formula a clinician-trialist is ever lickely to need (or understand!)
JAMC 2001 165:1226
[6] Gardner MJ, Altman DG
Gli intervalli di confidenza-Oltre la significatività statistica
Il Pensiero Scientifico Editore 1990
ISBN 88-7002-444-X
11