ARR, NNT, NNH, LLH a cura di Alessandro Battaggia 1. Risk Difference (ARR) Premesse Immaginiamo un trial randomizzato e controllato dove un farmaco A (gruppo di intervento) viene confrontato con un farmaco B (gruppo di controllo) e dove l' outcome è rappresentato dalla riduzione della frequenza di un evento avverso. Lo studio è organizzato come 'studio di superiorità' e l' ipotesi primaria è rappresentata dal quesito: <il farmaco A è superiore al farmaco B nel ridurre la frequenza dell' evento avverso?>. Per rispondere al quesito primario, come in tutti gli studi di intervento controllati, occorre rispettare queste tappe 1. scegliere una adatta unità di misura dell' outcome 2. misurare l' outcome nel braccio di intervento e nel braccio di controllo 3. scegliere una adatta misura di efficacia: serve per confrontare i valori dell' outcome riscontrati in ciascun braccio aggregandoli in un risultato finale 4. stabilire se la differenza riscontrata tra i due bracci è significativa o se al contrario è dovuta solo al caso 5. stabilire se questa differenza è utile clinicamente 1. Scelta dell' unità di misura dell' outcome quando l' outcome è un evento: AR In uno studio di 'eventi' a dimensione prospettica i pazienti in condizioni basali non hanno ancora avuto l' outcome, che viene raccolto invece durante la conduzione della ricerca. Il risultato di un intervento (es: un farmaco) è in tal caso dicotomico (es: se l' outcome studiato è la mortalità un paziente seguito per tutto il follow-up alla fine dello studio potrà essere o morto, o vivo) . In alcuni trial l' intervento ha lo scopo di ridurre l' incidenza di eventi avversi (es: morte, malattia); in altri ha lo scopo di aumentare la frequenza di eventi desiderati (es: guarigioni). Per comprendere le modalità con cui vengono studiati gli eventi è necessario considerare una tabella di contingenza 2 x 2 (tabella 1). Tab.1 Evento (es: morte) Tabella di contingenza in uno studio prospettico di eventi Intervento Farmaco Placebo Morti Vivi a b c d In uno studio prospettico come un RCT in cui il farmaco viene confrontato con il placebo allo scopo di verificare se riduce la mortalità l' obiettivo della ricerca è paragonare ad esempio quello che succede per quell' outcome nel braccio di intervento con quello che succede per quell' outcome nel braccio di controllo. Queste modalità di analisi sono ben diverse da quelle utilizzate in presenza di parametri espressi in scala intervallare (come peso, altezza, pressione,e ccetera) dove il 1 confronto tra i due bracci è espresso soltanto da un confronto tra medie. L' outcome 'evento' può essere misurato in ciascuno dei due bracci in due modi diversi: o attraverso un 'Rischio Assoluto' o attraverso un 'Odds'. Riferendoci alla tabella 1: A) Il 'Rischio assoluto' di un evento è espresso dal rapporto (n. di pazienti che hanno subito l' evento in quel braccio)/(tot. pazienti in quel braccio) B) L Odds di un evento è invece espresso dal rapporto (n. di pazienti che hanno subito l' evento in quel braccio)/( n. di pazienti che non hanno subito l' evento in quel braccio). 2. Misura dell' outcome nei due bracci: il Rischio Assoluto o Risk Attenzione: non deve trarre in inganno il termine "rischio" in quanto esprime solo un concetto matematico/statistico (ossia la frequenza di un evento in un gruppo di soggetti) e non un concetto clinico. 1. Il Rischio assoluto dell' evento nel braccio di intervento ( ARi o Riski) è espresso nella tabella di contingenza dal rapporto a/(a+b). Questa misura esprime la frequenza dell' outcome osservata nei soggetti a cui è stato somministrato l' intervento oggetto della ricerca. 2. il Rischio assoluto dell' evento nel braccio di controllo (ARc o Riskc, definito anche Rischio Basale) è espresso nella tabella di contingenza dal rapporto c/(c+d). Nota importante E' importante sottolineare fin d' ora il significato clinico del Rischio Basale. Dato che esprime la frequenza dell' outcome nel gruppo di pazienti che non hanno ricevuto il trattamento (i controlli), il Rischio Basale rappresenta cosa sarebbe successo per quell' outcome in assenza dell' intervento. Infatti in un trial randomizzato i due bracci sono rappresentati da soggetti pressoché identici nelle loro caratteristiche di base. E' particolarmente importante conoscere il Rischio Basale quando per confrontare i due bracci si utilizza come misura di efficacia un Rischio Relativo (RR) o una Riduzione Relativa di Rischio (RRR) . E' stato formalmente dimostrato che queste misure di efficacia (vedi il rispettivo capitolo) sono di grande impatto per il medico prescrittore e proprio per questo motivo RR e RRR sono molto utilizzate nei depliant dalla propaganda farmaceutica. Tuttavia queste misure non forniscono alcuna informazione sul reale impatto clinico di un intervento a meno che non si consideri anche il Rischio Basale. Un Rischio Relativo esprime infatti la frazione di Rischio Basale osservata dopo un intervento, mentre una Riduzione di Rischio Relativo esprime la frazione di Rischio Basale abbattuta dall' intervento. Ad esempio se un farmaco abbatte la Mortalità Basale del 20% questo abbattimento si chiama Riduzione Relativa di Rischio (RRR) . La frazione di Mortalità Basale che resta dopo l' intervento corrisponde ovviamente all' 80% della Mortalità di base: questa frazione residua si chiama Rischio Relativo (RR ). L' impatto clinico di un intervento che dovrebbe modificare la frequenza di un evento (quando i due bracci vengano confrontati utilizzando come misura di efficacia un RR o una RRR) non potrà essere pertanto compreso se non si conoscono i valori del Rischio Basale dell' evento (ARc). Una situazione del genere può essere paragonata con l' acquistare un prodotto da un negoziante senza conoscere il prezzo di base (=ARc) solo perché il venditore garantisce uno sconto del 20% (=RRR) del prezzo originale (=ARc), accontentandosi di conoscere solamente che il prezzo residuo corrisponderà all' 80% (RR) del prezzo originale. 3) Confronto tra i due bracci attraverso Risk Difference (ARR) Quando l' outcome è espresso da un Rischio Assoluto potremo confrontare i Rischi Assoluti rilevati nei due bracci dello studio calcolando la Differenza tra il Rischio Assoluto del braccio di controllo e il Rischio Assoluto del braccio di intervento ARR = ARc - ARi 2 I due bracci possono essere confrontati anche utilizzando misure di efficacia diverse da ARR (vedi tabella 2), ma verranno trattate in capitoli a parte Tab.2 Risultato di efficacia che esprime la differenza tra i due bracci Risultati di efficacia in uno studio prospettico di eventi Unità di misura dell' outcome in Rischio Assoluto (AR) ciascuno dei due bracci Odds Differenze Rapporti Risk Difference Relative Risk reduction Risk Ratio - Odds ratio Risk Difference esprime pertanto la differenza fra la frequenza dell' evento misurata nel braccio di controllo e la frequenza dell' evento misurata nel braccio di intervento. Sinonimi di Risk Difference sono: Absolute Risk Reduction (ARR), RD, Riduzione di Rischio Assoluto In base a queste modalità di calcolo: a) Se il rischio assoluto di un evento ( indesiderato) riscontato nel braccio di intervento è identico al rischio assoluto dell' evento indesiderato riscontrato nel braccio di controllo la loro differenza sarà uguale a zero in quanto ARc - ARi = 0. Per esempio se la mortalità nel braccio di intervento è pari al 10% e la mortalità nel braccio di controllo è identica (10%) ARR = 0.1-0.1 = 0 In questo caso avremo ragione di affermare che l'intervento "non è risultato efficace ma nemmeno dannoso", in quanto nei soggetti sottoposti al trattamento non è stata riscontrata alcuna modifica – rispetto ai "controlli"- dei valori della variabile esaminata. b) Se il rischio assoluto dell' evento indesiderato riscontrato nel braccio di intervento (ARi) è minore del rischio assoluto dell' evento indesiderato nel braccio di controllo (ARc) il valore di Risk Difference sarà positivo, a testimonianza dell' efficacia dell' intervento. Ad esempio se la mortalità nel braccio di intervento è pari al 10% e la mortalità nel braccio di controllo è pari al 20% ARR = 0.2-0.1 = 0.1 c) Se il rischio assoluto dell' evento indesiderato riscontrato nel braccio di intervento (ARi) è maggiore del rischio assoluto dell' evento indesiderato nel braccio di controllo (ARc)il valore di Risk Difference sarà negativo, a testimonianza della dannosità dell' intervento. Ad esempio se la mortalità nel braccio di intervento è pari al 20% e la mortalità nel braccio di controllo è pari al 10% ARR = 0.1-0.2 = -0.1 Più il valore assoluto di ARR si allontana da zero, maggiore è la dimensione dell' effetto dell' intervento, che sarà utile o dannoso a seconda della direzione del risultato. Nota importante Per comodità espositiva abbiamo immaginato finora una situazione in cui l' evento studiato dal trial è un evento indesiderato di cui l' intervento dovrebbe ridurre la frequenza. L' interpretazione clinica della positività o della negatività dei valori di ARR nella situazione opposta (in cui l' intervento dovrebbe invece aumentare la frequenza di un evento desiderato) è ovviamente completamente rovesciata. 4. Verifica della significatività statistica del risultato La significatività statistica di una Risk Difference (ARR) può essere determinata, al pari di qualsiasi altra misura di efficacia , con un test di significatività statistica o attraverso gli intervalli di confidenza. 3 Utilizzo di un test di significatività: il 2 -Test Il 2 -Test parte come qualsiasi altro test di significatività da una ipotesi nulla, vale a dire dal presupposto che l' intervento non comporti alcuna modifica nei valori basali dell' outcome (ARc). Secondo questa ipotesi i valori i 'reali' della frequenza dell' outcome nei pazienti sottoposti all' intervento sono identici ai valori 'reali' della frequenza dell' outcome nel braccio di controllo. Si definiscono 'valori reali' i valori di ARi e ARc che potremmo ricavare studiando non il campione arruolato dal trial ma piuttosto tutta la popolazione da cui il campione è stato estratto. Il soddisfacimento dell' ipotesi nulla implica ovviamente che la differenza tra i valori 'reali' di ARi e ARc sia uguale a zero ( ARc -ARi =0). Se l' ipotesi nulla viene accettata eventuali scostamenti da zero della differenza tra braccio di intervento e braccio di controllo nel campione arruolato vengono interpretati come semplice effetto della casualità con cui è stato scelto il campione. In questa circostanza i due gruppi di soggetti appartenenti ai due bracci sono quindi considerati rappresentativi di una identica popolazione generale di pazienti refrattari all' azione dell' intervento. In questa situazione avremmo quindi ragione di affermare che <non esistono prove che l' intervento sia efficace o dannoso >, perché nei soggetti sottoposti al trattamento non è stata riscontrata alcuna modifica < significativa > rispetto ai controlli nei valori della variabile che si supponeva potesse essere influenzata dall'intervento. Il valore di P prodotto dal 2 -Test indica esattamente (come per ogni altro test di significatività) la probabilità che la differenza riscontrata tra i due bracci sia dovuta solo all' effetto del caso. Se il 2 -Test produce valori di P superiori a 0.05 significa che la probabilità che il risultato sia dovuto al caso è superiore al 5%: per convenzione statistica l' ipotesi nulla viene allora confermata e il risultato viene dichiarato 'non significativo '. Se il 2 -Test produce valori di P inferiori a 0.05 significa che la probabilità che il risultato sia dovuto al caso è inferiore al 5%. Per convenzione statistica questa probabilità viene in questo caso giudicata 'trascurabile' e l' ipotesi nulla viene allora ricusata : la differenza tra i due bracci viene dichiarata 'significativa'. Esempio Nello studio ALLHAT [1] sono stati assegnati al braccio di intervento (amlodipina) 9048 pazienti e al braccio di controllo (clortalidone) 15255 pazienti. L' outcome primario dello studio era rappresentato dall' end-point combinato (morte coronarica + infarto non fatale). Nel braccio di intervento la frequenza di questo end-point corrispose a 788 casi, nel braccio di controllo a 1362 casi in un follow-up medio di 4.9 anni. L' articolo originale fornisce i risultati sotto il formato di Hazard Ratio, ma utilizzando semplici calcoli possiamo esprimerli in altri formati. Per esempio i rispettivi Rischi Assoluti possono essere così calcolati: ARi = 788/9048 = 0.0881963 ; ARc = 1362/15255 = 0.0892822. Da tali dati può essere estratto Risk Difference: ARR =0.08928220.0881963 = 0.0010859. La significatività statistica può essere espressa dal valore di P calcolato attraverso il 2 -Test (occorre in questo caso un programma statistico), dal quale ricaviamo P = 0,79 (risultato non significativo). Utilizzo degli intervalli di confidenza di ARR per la significatività statistica Gli intervalli di confidenza al 95% esprimono il grado di imprecisione dei risultati del trial, che fornisce solo una 'stima' dei valori 'reali' della misura di efficacia. Essi identificano infatti un range di valori entro cui con una attendibilità (=confidenza) pari al 95% è situato il valore 'reale' della misura, vale a dire quello che si otterrebbe coinvolgendo nella ricerca anziché il campione studiato dal trial tutta la popolazione da cui questo è stato estratto [6]. Quando il risultato di efficacia è una differenza tra due rischi assoluti di un evento (ARR) gli intervalli di confidenza al 95% esprimono dunque il grado di imprecisione della stima fornita dal trial dei valori 'reali' di ARR. Per semplicità immagineremo come esempio una ricerca in cui viene valutato un intervento che dovrebbe ridurre la frequenza di un evento indesiderato. L' ipotesi nulla viene soddisfatta (vedi sopra) da valori 'reali' di ARR uguali a zero. 4 Se gli intervalli di confidenza di ARR contengono pertanto il valore di zero non è possibile esprimere un giudizio sulla efficacia dell' intervento. Infatti la differenza tra i rischi assoluti dei due bracci potrebbe essere maggiore di zero (= l' intervento è efficace in quanto nei soggetti assegnati al trattamento il rischio assoluto dell' evento è minore del rischio assoluto registrato nei soggetti assegnati al placebo); minore di zero (=l' intervento è dannoso in quanto il rischio assoluto dell' evento nei soggetti assegnati al trattamento è maggiore del rischio assoluto registrato nei soggetti assegnati al placebo) oppure uguale a zero (= il farmaco non è né efficace né dannoso in quanto nei soggetti assegnati al trattamento il rischio assoluto dell' evento è identico al rischio assoluto registrato nei soggetti assegnati al placebo). Pertanto quando gli intervalli di confidenza di ARR contengono il valore di zero il risultato viene dichiarato ' non significativo ' in quanto non può essere escluso , con una confidenza del 95%, che tra un braccio e l' altro non esista alcuna differenza nell' incidenza dell' outcome (= ipotesi nulla soddisfatta). Se gli intervalli di confidenza di ARR non contengono il valore di zero e tutto il range presenta valori positivi è possibile esprimere un giudizio di efficacia. Infatti quando la differenza tra i rischi assoluti dei due bracci è maggiore di zero l' intervento è efficace perché nei soggetti assegnati al trattamento il rischio assoluto dell' evento è minore del rischio assoluto rilevato nei pazienti assegnati al placebo. In queste condizioni affermiamo, con una confidenza del 95%, che l' intervento ha prodotto vantaggi e che il risultato < è significativo >. La significatività può essere dichiarata in quanto il range dei valori dell' intervallo di confidenza di ARR non contiene il valore 'cut off' di ARR (zero) che soddisfa l' ipotesi nulla. Se gli intervalli di confidenza di ARR non contengono il valore di zero e tutto il range presenta valori negativi è possibile esprimere un giudizio di dannosità. Infatti quando la differenza tra i rischi assoluti dei due bracci è minore di zero l' intervento è dannoso perché nei soggetti assegnati al trattamento il rischio assoluto dell' evento è maggiore del rischio assoluto rilevato nei pazienti assegnati al placebo. In queste condizioni affermiamo, con una confidenza del 95%, che l' intervento ha prodotto svantaggi e che il risultato < è significativo >. La significatività può essere dichiarata in quanto il range dei valori dell' intervallo di confidenza di ARR non contiene il valore 'cut off' di ARR (zero) che soddisfa l' ipotesi nulla. Esempio Nello studio ALLHAT [1] ARR = ARc -ARi = 0.0892822- 0.0881963 = 0.0010859. Gli intervalli di confidenza al 95% di ARR possono essere calcolati utilizzando il calcolatore disponibile nella pagine 'utilities' e corrispondono al range -0,0063046 --> 0,0084764. Il range contiene il valore di zero e pertanto il risultato espresso da ARR non può essere considerato significativo. 5. Verifica della significatività clinica del risultato attraverso gli intervalli di confidenza di ARR La significatività statistica è un concetto matematico e non necessariamente coincide con la significatività clinica. Anche nei casi in cui il risultato di un trial viene espresso in termini di Risk Difference (ARR), il calcolo degli "intervalli di confidenza" (IC 95% ) di ARR ci aiuterà a giudicare se i risultati della sperimentazione sono clinicamente utili. Gli intervalli di confidenza intorno alla stima di ARR ricavata da un campione identificano un range di valori entro cui –con una attendibilità pari al 95%- si trova il valore 'vero' di ARR, quello ricavabile dalla intera popolazione (vedi sopra). Valutazione della Utilità clinica del risultato Se tutto il range dei valori dell' intervallo è molto lontano dal cut-off che esprime l'ipotesi nulla (zero) significa che esiste una forte differenza tra i valori dell'outcome misurati nel braccio di intervento e i valori dell'outcome misurati nel braccio di controllo. Il risultato della sperimentazione sarà pertanto fortemente a favore o a sfavore dell'intervento (a seconda della direzione dei risultati) perché la dimensione dell' effetto è grande. Viceversa, se uno dei limiti estremi dell'intervallo di confidenza è molto vicino al cut off che esprime l'ipotesi nulla (zero) l'effetto studiato può essere (anche se è presente significatività statistica) poco importante dal punto di vista clinico in quanto l'intervallo di confidenza non esclude la possibilità che la dimensione dell'effetto sia modesta. Riproducibilità del risultato 5 L'intervallo di confidenza è molto utile per esprimere l'importanza clinica dei risultati anche perché l' ampiezza del range esprime il grado di precisione della stima, vale a dire il grado in cui i risultati del trial possono essere trasferiti con fiducia alle condizioni operative reali. Intervalli di confidenza larghi testimoniano scarsa precisione nella stima (= i risultati sono poco riproducibili); intervalli di confidenza stretti testimoniano buona precisione della stima (= i risultati sono ben riproducibili). Pertanto in presenza di un range ampio anche se esiste 'significatività statistica ' occorre considerare che il risultato potrebbe essere poco riproducibile in condizioni reali. Ciò equivale a dire che la dimensione dell' effetto potrebbe essere anche molto diversa da quella suggerita dal trial qualora la sperimentazione venisse ripetuta utilizzando campioni più ampi. Un atteggiamento 'conservativo' nella interpretazione dei risultati di efficacia attraverso gli intervalli di confidenza è quindi altamente consigliabile: il giudizio sulla dimensione dell' effetto e il giudizio sulla riproducibilità dei risultati dovrebbero considerare attentamente l'estremo dell'intervallo di confidenza più vicino al valore 'cut off' della misura di efficacia che identifica il soddisfacimento dell'ipotesi nulla. Un esempio è offerto dal trial AITIAS [3] esaminato anche nella metanalisi illustrata nella figura 1 [1]. In questa esperienza di ricerca era stata valutata l' efficacia di una terapia antiaggregante piastrinica in pazienti già sottoposti a procedure di endoarteriectomia carotidea; l' outcome era rappresentato dall' incidenza di stroke. Lo studio AITIAS aveva reclutato pochi soggetti (n=125) ; il Rischio assoluto di Stroke nel braccio di intervento corrispondeva a ARi = 2/65 = 0,03 ; il Rischio Assoluto di Stroke nel braccio di controllo a ARc = 8/60 = 0,133. In altri termini il rischio di subire uno stroke entro il periodo di follow-up considerato dalla ricerca era pari al 13,3% per i soggetti non sottoposti al trattamento antiaggregante e al 3% nei pazienti sottoposti al trattamento. Risk Difference corrispondeva quindi a ARR = 0,13-0,03 = 0,10. In base a questa stima puntuale l' efficacia del farmaco potrebbe essere giudicata 'buona', in quanto l' intervento ha abbattuto il rischio di base (dei controlli) di ben 10 punti percentuali. Esprimendo lo stesso risultato come 'numero di soggetti da trattare con farmaci antipiastrinici per prevenire uno stroke' (vedi oltre) abbiamo infatti : NNT = 1/ARR = 1/0,10 = 10. In medicina preventiva evitare uno stroke ogni 10 pazienti a rischio trattati con un farmaco è sicuramente un ottimo risultato. In realtà tuttavia l' intervallo di confidenza al 95% per la stima puntuale fornita dal trial è espresso dal range di ARR (0,01 --> 0,2). Questo intervallo non contiene il valore di zero (infatti i valori estremi sono entrambi positivi): il risultato è quindi 'statisticamente significativo ' perché l' ipotesi nulla può essere ricusata. Tuttavia l' intervallo di confidenza è ampio e uno dei suoi estremi è molto vicino al valore zero, quello che soddisfa l' ipotesi nulla FIGURA 1 Analizzando il significato clinico di questa osservazione ciò equivale a dire che con una attendibilità del 95% lo scenario peggiore è rappresentato da un abbattimento del rischio basale di solo un punto percentuale e che nella migliore delle ipotesi l' abbattimento corrisponde a ben venti punti percentuali. Non sappiamo dove sia situato il valore 'vero' di ARR all' interno di questo range e pertanto il nostro atteggiamento deve essere conservativo, vale a dire deve considerare l' ipotesi 6 peggiore. Un abbattimento del rischio basale di un punto è ovviamente un risultato molto più scadente perché è esattamente un decimo di quello espresso dalla stima puntuale. Il significato clinico di queste osservazioni emerge bene anche dal calcolo dell' NNT (vedi oltre). Infatti NNT in base all' intervallo di confidenza varia da NNT= 1/0,2= 5 a NNT=1/0,01=100. Ciò significa che nella miglior delle ipotesi per prevenire uno stroke basterà trattare con antiaggreganti cinque pazienti a rischio per questo evento ; nella peggior delle ipotesi occorrerà invece trattare cento pazienti. 2. Number Needed To Treat (NNT) Il numero dei pazienti da trattare per ottenere un'unità d'efficacia (es: per prevenire l' incidenza di un outcome avverso) è espresso dal rapporto NNT (Number Needed To Treat) dove NNT = 1/ARR Se per esempio in un gruppo di pazienti trattati con il farmaco A la morbilità è 15% e nel braccio di controllo trattato con il farmaco B la morbilità è 20% : ARR = (ARc – ARi) = 0.20-0.15 = 0.05 . Il calcolo del Number Needed To Treat è dato da: NNT = 1/ARR = 1/0.05 = 20. Vale a dire che per prevenire un caso di malattia occorre trattare con il farmaco 20 pazienti. Questo valore fornisce con immediatezza un importante strumento di valutazione della quantità d'efficacia di un intervento (esempio: NNT per prevenire un decesso; NNT per prevenire un determinato sintomo e così via). Inoltre i valori di NNT con molta facilità sono inversamente proporzionali al rischio dell'evento avverso in condizioni basali (ARc). In presenza per esempio di un elevato rischio di base accade più facilmente che le variazioni di rischio indotte dall' intervento (ARR) siano caratterizzate da dimensioni grandi [5]. In linea di massima pertanto NNT è tanto più piccolo quanto più grande è la probabilità dell'evento avverso nel gruppo di controllo. Dalle modalità di calcolo esposte appare evidente che quanto più grandi saranno i valori di ARR tanto più piccolo sarà il valore di NNT: pertanto occorre considerare in modo diverso l' impatto clinico dei valori di NNT registrati in trial che studiano l' efficacia di interventi preventivi (es: vaccinazioni) e di quelli che sono stati registrati in trial che studiano l' efficacia di interventi rivolti alla cura delle melattie (es: antibiotici). Nel primo caso la frequenza degli eventi nei due bracci sarà bassa e sarà piccola anche la differenza tra un braccio e l' altro: piccoli valori di ARR giustificheranno pertanto grandi valori di 1/ARR. Nel secondo caso la frequenza degli eventi nei due bracci sarà più alta e sarà anche più grande la differenza tra un braccio e l' altro: grandi valori di ARR giustificheranno pertanto piccoli valori di 1/ARR. Per valutare clinicamente il significato di NNT è quindi conveniente confrontare il NNT calcolato nel trial con quello di altri trattamenti già sperimentati. A tal fine è presente in Bandolier (accessibile dalla pagina link di questo sito) una banca dati di NNT, che può orientare il lettore. E' importante considerare gli intervalli di confidenza anche per i Valori di NNT. Nell' esempio appena citato se il farmaco A rispetto al farmaco B sembra in grado di ridurre la morbilità di cinque punti percentuali (stima puntuale di ARR = 0.05) ma i valori dell'intervallo di confidenza di AR sono in realtà rappresentati dal range 0,001-0,06, coerentemente i valori di NNT saranno espressi da NTT = 1/ARR= 1/0,06 = 16,6 (ipotesi migliore) e 1/ARR = 1000 (ipotesi peggiore) . Pertanto in tal caso il numero di soggetti da trattare per ottenere un outcome potrebbe essere in realtà anche molto elevato (potrebbe cioè corrispondere a mille pazienti). Utilizzando i valori di NNT l' ipotesi nulla viene soddisfatta (ossia: i risultati del confronto tra i due bracci non sono significativi) quando l' intervallo di confidenza di questa misura di efficacia contiene il valore < infinito >. Infatti il NNT rappresenta il rapporto 1/ARR e per l' ARR il valore che soddisfa l' ipotesi nulla corrisponde a zero. 7 Con un ARR pari a zero l' NNT è uguale a 1/0 = < infinito > Un esempio reale è offerto da un trial in cui in pazienti affetti da neuropatia diabetica sono stati assegnati in modo random a tramadolo o a placebo e i cui i dati dell' outcome espresso in scala dicotomica sono riportati da una metanalisi Cochrane [2]. L' articolo del 1998 è a firma di Haratu & coll, ed è stato pubblicato su Neurology (50:1842). Erano stati considerati nella analisi finale che si riferiva all' outcome primario (=miglioramento del dolore rispetto alla condizione di base) 63 pazienti assegnati al farmaco e 64 pazienti assegnati al placebo. L' outcome (intensità del sintomo) era stato rilevato in un follow-up di 42 giorni utilizzando una apposita scala. Il trattamento era considerato dicotomicamente 'efficace' o 'non efficace ' se il paziente al 42° giorno riportava la sintomatologia con uno score minore o rispettivamente maggiore del 50% rispetto ai valori rilevati prima di iniziare il trattamento. Per 43 pazienti assegnati al tramadolo e 23 pazienti assegnati al placebo il farmaco si era dimostrato efficace contro il dolore neuropatico. Gli autori concludevano che il tramadolo al dosaggio medio di 210 mg/die era significativamente più efficace del placebo nella terapia del dolore da neuropatia diabetica (p <0.01). Per i pazienti trattati con tramadolo : AR(tramadolo) = 43/63 = 0,683: significa che il 68,3 % dei soggetti trattati con il farmaco è migliorato rispetto alle condizioni basali. Per i pazienti trattati con placebo AR(placebo) = 23/64 = 0,359: significa che il 35,9% dei soggetti trattati con placebo è migliorato rispetto alle condizioni basali. Quindi ARR = ( AR(placebo) – AR(tramadolo) ) = 0,359 – 0.683 = - 0,323 Attenzione: in questa ricerca il punto di vista considerato altrove si inverte in quanto qui viene studiato un evento (l' ottenere o no miglioramento clinico) la cui frequenza dovrebbe essere aumentata dal farmaco. Si tratta ovviamente di una situazione ben diversa da quella studiata in un trial dove l' intervento la lo scopo di ridurre la mortalità. Un valore di ARR con segno negativo esprime infatti 'efficacia dell' intervento ' in quanto sta a significare che nel gruppo di intervento la percentuale di soggetti migliorati è maggiore della percentuale rilevata nel gruppo di controllo. In questa esperienza gli intervalli di confidenza di ARR variavano da -0,16 a -0,49: essendo gli estremi entrambi negativi l' ipotesi nulla viene ricusata in quanto il range non contiene il valore zero. Calcolando l' intervallo di confidenza dell' NNT: per ottenere il miglioramento clinico in un paziente nell' ipotesi più favorevole occorre trattare 2 pazienti (=1/0,49) e nella ipotesi meno favorevole 6,1 pazienti (=1/0,16). In questo caso l' intervento può essere considerato senz'altro efficace. 3. (NNT-1) Altrettanto importante del NNT è il valore di (NNT-1), che esprime quanti pazienti dovremo trattare inutilmente per produrre un risultato di efficacia in un paziente. per esempio in ambito algologico se l' NNT di un farmaco antidolorifico fosse 60, significa che su 60 pazienti trattati uno solo di essi subirebbe un miglioramento, mentre 59 pazienti non trarrebbero alcun vantaggio dalla terapia correndo ugualmente il rischio di effetti collaterali dovuti al trattamento. 4. Number Needed To Harm (NNH) Le modalità di calcolo del NNT permettono di determinare anche il NNH (Number Need To Harm) che esprime lo steso concetto dell' NNT per gi eventi avversi. NNH esprime il numero di pazienti da trattare per ottenere un effetto avverso correlato alla terapia. NNH si calcola, come NNT, dalla ARR di un evento avverso. NNH = 1/ARR(evento avverso) Lo studio di Harati sull' efficacia del tramadolo sul dolore della neuropatia diabetica citato dalla metanalisi Cochrane [1] era accompagnato nell' articolo originale [3] da una tabella che illustrava separatAmente nei due gruppi a confronto l' incidenza di effetti avversi potenzialmente legati al 8 trattamento (qusta analisi riguardava 66 pazienti trattati con tramadolo e 66 pazienti trattati con placebo). 15 pazienti nel gruppo di intervento e 2 nel gruppo di controllo avevano accusato nausea durante il follow-up dello studio. 14 pazienti nel gruppo di intervento e 2 nel gruppo di controllo avevano accusato stipsi. 11 pazienti nel gruppo di intervento e 3 nel gruppo di controllo avevano accusato cefalea. 8 pazienti nel gruppo di intervento e 4 nel gruppo di controllo avevano accusato sonnolenza. 9 pazienti nel gruppo di intervento e 1 nel gruppo di controllo avevano abbandonato il trattamento a causa di effetti collaterali attribuiti al trattamento. Calcolando i rispettivi NNH: Tabella 3 NNH nausea stipsi cefalea sonnolenza abbandono AR intervento (ARi) 15/65 14/65 11/65 8/65 9/65 AR controlli (ARc) 2/66 2/66 3/66 4/66 1/66 ARR = (ARc-ARi) -0.20 -0,185 -0,123 -0,062 -0,123 NNH = 1/ARR 1/0,20 1/0,185 1/0,123 1/0,06 6 1/0,123 =4,98 =5,40 =8,07 =16,00 =8,109 5. Numero di eventi avversi per ogni evento desiderato (z X NNT) Conoscendo la probabilità z di un effetto avverso legato ad un trattamento, il numero di eventi avversi prevedibili nel gruppo di pazienti che dobbiamo trattare per ottenere un outcome desiderato sarà uguale a = z x NNT Se conosciamo z potremo quindi stimare il suo impatto clinico moltiplicando z per l' NNT calcolato per l' outcome della ricerca. z X NNT = numero di pazienti che subiranno un effetto collaterale per ogni paziente che ha ottenuto un outcome desiderato. Tale parametro può esserci utile in analisi di convenienza strutturate sul modello costo/efficacia. Lo studio di Harati sull' efficacia del tramadolo sul dolore della neuropatia diabetica [1] riportava nell' articolo originale [3] che gli effetti collaterali più comuni erano rappresentati entro il gruppo trattato con il farmaco da nausea (23.1%) stipsi (21.5%) cefalea (16.9%) e sonnolenza (12.3%). Nove pazienti nel gruppo tramadolo e un paziente trattato con placebo avevano interrotto il trattamento per eventi avversi attribuiti alla terapia. L' articolo riportava molto correttamente in forma tabellare per ogni braccio -vedi sopra - gli eventi avversi potenzialmente legati al trattamento Se questa tabella non fosse stata riportata avremmo potuto stimare in qualche modo la dimensione clinica degli effetti avversi (rinunciando però al confronto con il placebo) tenendo conto solo della loro prevalenza nel braccio di intervento. Questo metodo può essere utile per approssimare il calcolo di un rapporto Rischio-Efficacia di un trattamento quando gli autori (come a volte accade) non riportano in maniera dettagliata gli effetti collaterali del trattamento). Tabella 4- calcolo della percentuale dei pazienti che subirà un evento avverso per ogni paziente che ha ottenuto il miglioramento clinico Effetto avverso Prevalenza (z) NNT miglioramento z X NNT nausea 0,231 3,09 0,714 stipsi 0,215 3,09 0,666 cefalea 0,169 3,09 0,523 sonnolenza 0,123 3,09 0,380 abbandono 0,138 3,09 0,428 z x NNT identifica la dimensione clinica degli eventi avversi per ogni outcome raggiunto: per esempio per ogni paziente migliorato clinicamente nell' intensità del dolore neuropatico 0,714 pazienti sui 3,09 (NNT) trattati per ottenere l' outcome subiranno nausea. 9 Se calcoliamo NNT per cento miglioramenti NNT100 = NNT x 100 = 3,09 x 100 = 309 ossia per ottenere un miglioramento del dolore neuropatico in cento pazienti occorre trattarne 309. Immaginando quindi la situazione in cui il beneficio clinico sia stato raggiunto in cento pazienti in seguito al trattamento complessivo di 309 pazienti lo scotto da pagare sarà rappresentato da insorgenza di nausea in z X NNT100 = 0,231 x 309 = 71,4 pazienti. 5. Likelihood of Being Helped or Harmed (LLH) Un modo ancora più raffinato di stimare il bilancio Rischio-Efficacia di un trattamento è rappresentato dal calcolo di LLH [4] dove LLH = Likelihood of Being Helped or Harmed = (1/NNT)/(1/NNH). Se il numero che si ottiene è maggiore di uno il paziente ha più vantaggi nell' essere trattato che nel non esserlo. In caso contrario (LLH <1) il bilancio Rischio-Beneficio è a favore del Rischio. Ovviamente LLH ha valori diversi a seconda dell' NNT del parametro di efficacia prescelto e a seconda dell' NNH dell' effetto collaterale considerato . E' un metodo particolarmente utile calcolare LLH per l' effetto collaterale ritenuto più importante clinicamente o valorizzato di più dal paziente stesso. In base ai calcoli eseguiti in precedenza (vedi sopra )nell' analisi dello studio di Harati [3] i valori di LLH calcolabili risultano tutti a favore dell' intervento (tabella 5). Tabella 5- calcolo LLH (Likelihood of Being Helped or Harmed) Effetto avverso NNH singoli effetti NNT dell' outcome collaterali 'miglioramento dolore' nausea 4,98 3,09 stipsi 5,40 3,09 cefalea 8,07 3,09 sonnolenza 16,00 3,09 abbandono per ea 8,109 3,09 LLH = (1/NNT)/(1/NNH) 1,612 1,746 2,610 5,173 2,620 BIBLIOGRAFIA [1] Engelter S and Lyrer P Antiplatelet therapy for preventing stroke and other vascular events after carotid endarterectomy The Cochrane Database of Systematic Reviews 2005 Issue 4 This version first published online: 21 July 2003 in Issue 3, 2003 [2] Dühmke RM, Cornblath DD, Hollingshead JRF Tramadol for neuropathic pain The Cochrane Database of Systematic Reviews 2005 Issue 4 This version first published online: 19 April 2004 in Issue 2, 2004 [3] Harati Y et al Double-blind randomized trial of tramadol for the tratment of the pain of diabetic neuropathy Neurology 1998 50:1842 [4] Sackett DL, Straus SE , Richardson ES, Rosemberg W, Haynes R Evidence-Based Medicine - How to Practice and Teach EBM Churchill Livingstone 2001 ISBN 0 443 06240 4 10 [5] Sackett DL Why randomized controlled trial fail but needn't: 2. Failure to employ physiological statistics, or the only formula a clinician-trialist is ever lickely to need (or understand!) JAMC 2001 165:1226 [6] Gardner MJ, Altman DG Gli intervalli di confidenza-Oltre la significatività statistica Il Pensiero Scientifico Editore 1990 ISBN 88-7002-444-X 11