8. Come è stata espressa la precisione della stima? La precisione della stima di un risultato di efficacia dovrebbe essere sempre espressa attraverso la definizione degli intervalli di confidenza al 95%, che esprimono un range che comprende con una attendibilità del 95% tutti i valori delle stime che si otterrebbero ripetendo la stessa ricerca per un numero infinito di volte (vedi sopra). L' argomento è stato trattato in modo abbastanza analitico nei paragrafi dedicati alle singole misure di efficacia, a cui si rimanda. In questa sede ci limiteremo ad una breve sintesi A) Utilizzo degli intervalli di confidenza per esrimere la significatività statistica Gli intervalli di confidenza possono essere utilizzati per valutare l’ esistenza di significatività statistica. Non esiste significatività statistica se l’ intervallo di confidenza comprende un valore ‘cut off’ che per quella misura di efficacia corrisponde all’ ipotesi nulla. In uno studio di eventi ciò corrisponde alla situazione in cui la frequenza dell’ outcome misurata nel braccio di intervento è identica a quella misurata nel braccio di controllo (e in cui ovviamente l' odds dell' evento misurato nel braccio di intervento è identico all' odds dell' evento misurato nel braccio di controllo). In uno studio dove l' outcome è espresso in scala intervallare ciò corrisponde alla situazione in cui la media dell’ outcome misurata nel braccio di intervento è identica alla media dell' outcome misurata nel braccio di controllo. Se la misura di efficacia è espressa da una differenza il ‘cut off’ è uguale a zero (Risk Difference; Mean Difference, RRR). Se la misura di efficacia è espressa da un rapporto il ‘cut off’ è uguale a uno (RR; HR ; OR). Nel caso del NNT (o del NNH) il cut off corrisponde al valore ‘infinito’. In alternativa (o in modo complementare) all’ utilizzo degli intervalli di confidenza la precisione dei risultati può essere espressa dai valori di P ricavati da un test statistico convenzionale . P esprime la probabilità che la differenza riscontrata tra i due bracci sia esclusivamente dovuta al caso. E’ raccomandato allora che gli autori riportino il valore assoluto di P e non il semplice cut off (P>0.05 o P<0.05). B) Utilizzo degli intervalli di confidenza per esprimere la significatività clinica I due vettori di ragionamento sono: a) la dimensione del risultato è clinicamente utile? b) il risultato è riproducibile con fiducia nelle condizioni operative 'reali'? a. Utilità clinica del risultato. Se tutto il range dei valori è molto lontano dal cut-off che esprime l'ipotesi nulla significa che esiste una forte differenza tra i valori dell'outcome misurati nel braccio di intervento e i valori dell'outcome misurati nel bracco di controllo. Il risultato della sperimentazione è pertanto fortemente a favore o a sfavore dell'intervento (a seconda della direzione dei risultati) perché la dimensione dell' effetto è grande. Viceversa, se uno dei limiti estremi dell'intervallo di confidenza è molto vicino al cut off che esprime l'ipotesi nulla l'effetto studiato può essere (anche se è presente significatività statistica) poco importante dal punto di vista clinico in quanto l'intervallo di confidenza non esclude la possibilità che la dimensione dell' effetto sia modesta. b. Riproducibilità del risultato. L'intervallo di confidenza è molto utile per esprimere l'importanza clinica dei risultati anche perché l' ampiezza del range esprime il grado di precisione della stima, vale a dire il grado in cui i risultati del trial possono essere trasferiti con fiducia alle condizioni operative reali. Intervalli di confidenza larghi testimoniano scarsa precisione nella stima (= i risultati sono poco riproducibili); intervalli di confidenza stretti testimoniano buona precisione della stima (= i risultati sono ben riproducibili). Pertanto in presenza di un range ampio anche se esiste 'significatività statistica' occorre considerare che il risultato potrebbe essere poco riproducibile in condizioni reali. Ciò equivale a dire che la dimensione dell' effetto potrebbe essere anche molto diversa da quella suggerita dal trial qualora la sperimentazione venisse ripetuta utilizzando campioni più grandi. Un atteggiamento 'conservativo' nella interpretazione dei risultati di efficacia attraverso gli intervalli di confidenza è quindi altamente consigliabile: il giudizio sulla dimensione dell' effetto e il giudizio sulla riproducibilità dei risultati dovrebbero considerare attentamente l'estremo dell'intervallo di confidenza più vicino al valore 'cut off' della misura di efficacia che identifica il soddisfacimento dell'ipotesi nulla. Esempio. Nello studio di Sindrup del 1999, dove il tramadolo veniva confrontato con placebo nel trattamento sintomatico della neuropatia diabetica (citato nellemetenalisi Cochrane 19 April 2004 in Issue 2, 2004) ARtramadolo = 11/34 = 0,323 ARplacebo = 3/33 = 0,090 . Significa che ha subito un miglioramento clinico il 9% dei pazienti trattati con placebo e il 32,3 % dei pazienti trattati con tramadolo. Calcolando Risk Difference: ARR = 0,090 - 0,323 = -0,232. NB: in questo caso lo scopo della ricerca era valutare se l' intervento fosse in grado di aumentare la frequenza di un effetto desiderato (= la percentuale di miglioramento clinico). Pertanto (vedi sopra) valori negativi di ARR esprimono 'vantaggio', non 'svantaggio' Considerando questa stima puntuale potremmo giudicare il trattamento 'abbastanza efficace' in quanto NNT = 1/ARR = 1/-0,232 = -4,3 ossia: per ottenere il beneficio clinico in un paziente occorre trattare circa 4 pazienti (tre però saranno trattati per niente). L' intervallo di confidenza al 95% di questa stima di ARR è tuttavia espresso dal range: -0.05 --> -0.42. Il range non contiene il valore di zero e pertanto l' ipotesi nulla non è soddisfatta (esiste quindi significatività statistica). Tuttavia la dimensione dell' effetto varia da una Riduzione di Rischio Assoluto pari a -5 punti percentuali a una Riduzione di Rischio Assoluto pari a -42 punti percentuali. Considerando l' estremo dell' intervallo di confidenza più vicino al valore che soddisfa l' ipotesi nulla (zero) possiamo concludere per una efficacia del farmaco piuttosto modesta. Calcolando infatti l' NNT per questo valore estremo dell' intervallo di confidenza: NNT = 1/0.05 = 20 ossia: per ottenere un miglioramento clinico bisogna trattare almeno 20 pazienti; diciannove di essi saranno trattati per niente. Inoltre l' ampiezza del range dell' intervallo di confidenza ci suggerisce che il trial offre una stima molto imprecisa del risultato di efficacia 'vero' (l' estremo superiore dell' intervallo di confidenza di ARR è -0.42 e corrispondente ad un NNT = 1/0.42 = 2.3 !): questo è imputabile alla scarsa numerosità del campione reclutato (in tutto 67 pazienti), che rende la stima puntuale imprecisa e allarga gli intervalli di confidenza intorno a questa stima. © 2006 Progettoasco.it