EQM - Evidenza, Qualità e Metodo in Medicina Generale Mean Difference A cura di Alessandro Battaggia 2004 Immaginiamo un trial randomizzato e controllato dove un farmaco (gruppo di intervento) venga confrontato con placebo (gruppo di controllo) e dove l' outcome sia rappresentato dalla riduzione dei valori medi della pressione sistolica. Un trial del genere ormai non sarebbe più etico ma viene comunque utilizzato in questa sede come esempio di riferimento. Lo studio è organizzato come 'studio di superiorità' e l' ipotesi primaria è rappresentata dal quesito: <il farmaco è superiore al placebo nel ridurre i valori medi della pressione sistolica?>. Per rispondere al quesito primario, come in tutti gli studi di intervento controllati, occorre rispettare queste tappe 1. scegliere una adatta unità di misura dell' outcome 2. misurare l' outcome nel braccio di intervento e nel braccio di controllo 3. segliere una adatta misura di efficacia: serve per confrontare i valori dell' outcome riscontrati in ciascun braccio aggregandoli in un risultato finale 4. stabilire se la differenza riscontrata tra i due bracci è significativa o se al contrario è dovuta solo al caso 5. stabilire se questa differenza è utile clinicamente 1. Scelta dell' unità di misura dell' outcome La pressione arteriosa è una variabile intervallare, vale a dire che analogamente al peso, all' altezza, e a simili parametri clinici è caratterizzata sotto il profilo matematico da uno spettro continuo e (teoricamente) infinito di valori . In questo caso l' unica unità di misura possibile dell' outcome è rapresentata da una media (nell' esempio paradigmatico: media dei valori pressori oppure -vedi oltre- media di differenze in valori pressori). Una media viene sempre espressa accanto alla propria deviazione standard, che rappresenta un indicatore della variabilità dei valori del parametro (=varianza) entro il braccio dove la media è stata calcolata. La deviazione standard è importante non solo come statistica descrittiva ma anche per i calcoli utilizzati per la significatività statistica ;per i particolari, che esulano dallo scopo di queste note medodologiche, si rimanda a testi specializzati [6]. 2. Misura dell' outcome nei due bracci Riferendoci all' esempio sopra descritto, viene così calcolata la media delle pressioni sistoliche nei soggetti che costituiscono i due gruppi a confronto. In alternatva per la misura dell' outcome possono essere utilizzato un modello diverso (vedi oltre): ossia nei due bracci a confronto possono essere rilevate anzichè le medie dei valori pressori alla fine della sperimentazione (after) le medie delle variazioni prima-poi (after-before) dei valori pressori (vedi tabelle 1, 2; vedi figura 3). 3. Calcolo della differenza tra i due bracci nella misura dell' outcome e interpretazione del suo significato 1 EQM - Evidenza, Qualità e Metodo in Medicina Generale Quando l' outcome viene espresso da una media, la differenza tra i due bracci si calcola sottraendo dalla media calcolata nel braccio di controllo la media calcolata nel braccio di intervento. Si calcola in altre parole una 'differenza tra medie' Mean Difference = Meancontrollo - Meanintervento Nota bene: in uno studio di eventi (situazione molto diversa da quella descritta in questo capitolo!) l' outcome è sempre assente nelle condizioni basali. Per esempio in uno studio dove l' outcome è la mortalità ovviamente tutti i partecipanti, in condizioni basali, non hanno ancora avuto l' outcome. Invece in uno studio dove l' intervento dovrebbe modificare una variabile biologica già esistente in condizioni basali (è l' esempio dello studio sul farmaco antiipertensivo che costituisce il paradigma di questo capitolo) il parametro le cui variazioni rappresentano l' outcome della ricerca (qui è la pressione arteriosa) è misurabile anche in condizioni di base . In tal caso può essere interessante per il ricercatore -oltre a confrontare i due bracci per i risultati generali ottenuti- osservare anche le modifiche del parametro prima e dopo l' intervento all' interno di ciascun braccio. Nel primo caso i due bracci verranno confrontati per il valore medio delle pressioni misurate in ciascun braccio alla fine dello studio (after); nel secondo caso verranno confrontati per il valore medio delle differenze prima-poi riscontrato entro ciascun braccio (before-after). L' efficacia del trattamento può essere quindi testata in due modi diversi. Metodo 1- Unità di analisi = valore di pressione 'after' di un singolo individuo Outcome misurato nel braccio di intervento = media dei valori di pressione dei singoli individui misurati dopo (after) la somministrazione del farmaco Outcome misurato nel braccio di controllo= media dei valori di pressione dei singoli individui misurati dopo (after) la somministrazione del placebo Confronto tra i due bracci*: media del braccio di controllo - media del braccio di intervento ossia Mean Difference = Mediacontrollo - Mediaintervento = media 'after' dell' outcome in un braccio versus media 'after' dell' outcome nell' altro braccio (vedi tabella 1 e figura 3). Questa scelta è ampiamente giustificabile se, come avviene nei trial randomizzati e controllati, i gruppi a confronto presentano nelle condizioni di base caratteristiche praticamente identiche In base a questa modalità di calcolo a) se Mean Difference ha un valore positivo: nel braccio di intervento l' outcome presenta valori minori rispetto al braccio di controllo = efficacia del farmaco b) se Mean Difference è uguale a zero: nel braccio di intervento l' outcome presenta valori identici a quelli del braccio di controllo = non efficacia del farmaco c) se Mean Difference ha un valore negativo: nel braccio di intervento l' outcome presenta valori maggiori rispetto al braccio di controllo = dannosità del farmaco Esempio Nello studio ALLHAT [1] sono stati assegnati al braccio di intervento (amlodipina) 9048 pazienti e al braccio di controllo (clortalidone) 15255 pazienti. Al quinto anno di follow-up la PAS media nel gruppo di intervento era 134.7 mmHg, la PAS media nel gruppo di controllo era 133.9 mmHg. Mean difference era 133.9 - 134.7 = -0.79, con significatività statistica (P =0.03 vedi oltre).In questo caso Mean Difference ha un valore negativo: significa che lil farmaco somministrato al braccio di intervento è risultato meno efficace del farmaco somministrato al braccio di controllo nell' 2 EQM - Evidenza, Qualità e Metodo in Medicina Generale abbassare i valori di pressione sistolica. Il valore di P (vedi oltre) testimonia la significatività del risultato. Misura Outcome Tabella 1: confronto della media dell' outcome 'after' dei due bracci Intervento Mean [pressioni after]i Controlli Mean [pressioni after]c Misura di efficacia per il confronto tra i due bacci Mean Difference [pressioni after] Metodo 2- Unità di analisi: differenza (after-before) dei valori di pressione di un singolo individuo Outcome misurato nel braccio di intervento = media delle differenze (after-before) dei singoli individui. Dettagli di calcolo: per ogni soggetto viene misurata la pressione prima della somministrazione del farmaco (before) e dopo la somministrazione del farmaco (after); quindi sempre per ciascun individuo- viene calcolata la differenza (after-before) dei valori pressori; per tutto il braccio di intervento l' outcome è espresso dalla media di queste differenze intraindividuali di pressione (after-before). Outcome misurato nel braccio di controllo = media delle differenze (after-before) dei singoli individui. Dettagli di calcolo: per ogni soggetto viene misurata la pressione prima della somministrazione di placebo (before) e dopo la somministrazione di placebo (after); quindi -sempre per ciascun individuo- viene calcolata la differenza (after-before) dei valori pressori; per tutto il braccio di controllo l' outcome è espresso dalla media di queste differenze intraindividuali di pressione (after-before). Confronto tra i due bracci*: media delle differenze (after-before) del braccio di controllo - media delle differenze (after-before) del braccio di intervento I trial come questo -che utilizzano come unità di analisi le modifiche del parametro a livello dei singoli pazienti (within person changes)- forniscono maggiori informazioni sull' efficacia dell' intervento rispetto ai trial che utlizzano come unità di analisi i valori finali del parametro a livello dei singoli pazienti. In ltri termini sono ricerche 'più efficienti' delle prime [7]. Esempio in uno studio dove l' intervento era rappresentato da un insieme di provvedimenti complessi esercitati su pazienti anziani la Mean Difference [pressioni prima-poi] per il braccio di intervento era -5 mmHg (IC 95% -2.5 ->-7.6)** e la Mean difference [pressione prima-poi] per il braccio di controllo era + 3.4 (IC 95% +1.1->+5.7)** [5]. Il confronto tra il braccio di intervento e il braccio di controllo per i valori medi delle differenze di pressioni prima-poi riscontrate in ciascun braccio era espresso da una Mean difference [differenze pressioni prima-poi] di magnitudo pari a 8.4 mmHg (IC 95% 5->11). 3 EQM - Evidenza, Qualità e Metodo in Medicina Generale Tabella 2: confronto tra i due bracci alla fine dello studio della media delle differenze (after-before) dell' outcome riscontrata entro ciascun braccio Intervento Controlli Misura di outcome Mean [differenze pressioni (after-before)]i Misura di efficacia per il confronto tra i due bacci Mean Difference [differenze pressioni (after-before)] Mean [differenze pressioni (after-before)]c 3- Verifica della significatività statistica del risultato La significatività statistica di una Mean Difference può essere determinata, al pari di qualsiasi altra misura di efficacia , con un test di significatività statistica o attraverso gli intervalli di confidenza. Utilizzo di un test di significatività: il T-test Il T-test* parte (come qualsiasi altro test di signifcatività) da una ipotesi nulla, vale a dire dal presupposto che l' intervento non comporti alcuna modifica nei valori dell' outcome. In questa ipotesi i valori dell' outcome nel braccio di intervento sono considerati praticamente identici. Se l' ipotesi nulla viene accettata ogni differenza (inevitabilmente) registrata tra braccio di intervento e braccio di controllo viene interpretata quindi come effetto esclusivo della casualità con cui è stato scelto il campione. Nella analisi descritta in tabella 1 se le medie della PAS nei due bracci di soggetti a confronto fossero esattamente identiche (=ipotesi nulla accettata) la loro differenza (Mean Difference) sarebbe ovviamente uguale a zero (PASc- PASi=0). In questa situazione avremmo ragione di affermare che l’intervento “non è risultato efficace e nemmeno dannoso”, perché nei soggetti sottoposti al trattamento non è stata riscontrata alcuna modifica rispetto ai “controlli” nei valori della variabile che si supponeva potesse essere influenzata dall’intervento. Il valore di P prodotto dal T-test indica esattamente (come in ogni altro test di significatività) la probabilità che la differenza riscontrata tra i due bracci sia dovuta solo al caso. Se il T-test produce valori di P superiori a 0.05 significa che la probabilità che il risultato sia dovuto al caso è superiore al 5%: per convenzione in questo caso l' ipotesi nulla viene confermata e il risultato viene dichiarato 'non significativo'. Se il T-test produce valori di P inferiori a 0.05 significa che la probabilità che il risultato sia dovuto al caso è inferiore al 5%. Per convenzione statistica questa probabilità viene giudicata 'trascurabile' e l' ipotesi nulla viene -allora- ricusata : la differenza tra i due bracci viene dichiarata 'significativa'. Esempio Nello studio ALLHAT [1] (vedi sopra) i valori di Mean Difference di PAS erano -0.79 con P =0.03. 4 EQM - Evidenza, Qualità e Metodo in Medicina Generale Il valore di P ci dice che la probabilità che questa differenza tra i due bracci sia solo dovuta al caso corrisponde al 3%. Pertanto l' ipotesi nulla viene ricusata e la differenza viene dichiarata 'significativa'. Utilizzo degli intervalli di confidenza per stabilire la significatività statistica In una ricerca dove l’ oggetto di studio è una ‘media’ gli intervalli di confidenza al 95% esprimono il grado di imprecisione della stima offerta dal trial dei valori 'reali' di Mean Difference . In particolare gli intervalli di confidenza rappresentano il range entro cui cadrebbe il 95% delle stime che otterremmo ripetendo innumerevoli volte il trial nelle stesse condizioni. I valori 'reali' di Mean Difference sono quelli della popolazione da cui il campione è stato estratto, ossia quelli che otterremmo reclutando anzichè i soggetti del campione tutti i soggetti della popolazione. E' da sottolineare che non siamo -comunque- a conoscenza della esatta posizione entro questo range dei valori 'reali' della misura di efficacia. L' ipotesi nulla viene soddisfatta (vedi sopra) da valori di Mean Difference uguali a zero. Se gli intervalli di confidenza di una Mean Difference contengono il valore di zero non è pertanto possibile esprimere un giudizio sulla efficacia dell' intervento. Infatti la differenza tra le medie dei due bracci dei valori di pressione sistolica potrebbe essere maggiore di zero (= il farmaco è efficace in quanto nei soggetti trattati la pressione è minore di quelli trattati con placebo); minore di zero (= il farmaco è dannoso in quanto la pressione sistolica nei soggetti trattati è maggiore di quelli trattati con placebo) oppure uguale a zero (= il farmaco non è nè utile nè dannoso in quanto nei soggetti trattati la pressione sistolica è identica a quella dei soggetti trattati con placebo). Pertanto quando gli intervalli di confidenza di una Mean Difference contengono il valore di zero il risultato viene dichiarato 'non significativo' in quanto non può essere escluso che tra un braccio e l' altro non esista alcuna differenza ne:i valori medi dell' outcome (= ipotesi nulla soddisfatta). FIGURA1 Supponiamo che il risultato del trial sia rappresentato da una differenza di 9 mmHg tra i valori after di PAS tra i due bracci. Questo valore rappresenta la 'stima puntuale' fornita dal trial. Supponiamo però che gli intervalli di confidenza al 95% di questa stima comprendano un range da +15mmHg a -10mmHg. Noi sappiamo allora che con una attendibilità pari a 95% il valore 'reale' di Mean Difference si trova tra +15 e -10 mmHg ma non sappiamo dove esso sia posizionato. Potrebbe quindi essere anche zero (=ipotesi nulla soddisfatta). In questo caso la differenza tra i due bracci viene definita 'non significativa'. Esempio Verso la fine degli anni 80 iniziò un filone di ricerca rivolto a stabilire l' origine della variabilità inter individuale nella risposta alla terapia con ACE inibitori [4]. Venne identificato così un particolare polimorfismo genetico riguardante l' enzima ACE (caratterizzato più esattamente da tre diversi 5 EQM - Evidenza, Qualità e Metodo in Medicina Generale genotipi DD, DI, II ) che si suppose in grado di spiegare almeno in parte le diversità tra individuo e individuo nella risposta clinica a tali molecole. Nello studio REIN condotto su 212 pazienti affetti da nefropatia cronica proteinurica di origine non diabetica Perna e coll [3] valutarono in una analisi di tre sottogruppi caratterizzati da polimorfismo DD, DI o II (e rispettivamente composti da 87, 99, 46 soggetti) la risposta della PAS al ramipril (braccio di intervento) o alle terapie tradizionali (braccio di controllo). La misura dell' outcome era rappresentata in questo caso dalla differenza tra le medie delle variazioni prima-poi riscontrate in ciascuno dei due bracci (vale a dire che in tal caso è stato adottato il modello di analisi illustrato nella tabella 2). L' esame degli intervalli di confidenza rivela per il genotipo DD un risultato significativo (l' intervallo non comprende il valore di zero) e a favore dell' intervento (Mean Difference = +5.4). Per i genotipi DI e II il risultato non è significativo in quanto gli intervalli comprendono il valore di zero. Per il primo confronto è qui interessante notare come il limite inferiore dell' intervallo di confidenza (+0.26) è molto vicino al cut off che soddisfa l' ipotesi nulla (per mean Difference = zero). Ciò offre l' opportunità di fare una riflessione sul significato clinico di questo risultato: anche se la stima puntuale è a favore di un risultato clinicamente utile (differenza tra le medie dei valori prima-poi di PAS riscontrati nei due bracci = +5.4 mmHg) l' intervallo di confidenza indica che il valore 'reale' può essere anche pari a +0.26 mmHg. E' evidente che una differenza tra i due bracci di un quinto di mmHg in ternini di differenza tra i valori medi prima-poi è 'clinicamente risibile', anche se 'statisticamente significativa'. Tabella 4 Genotipi ACE e N riduzione media dei valori di PAS sistolica [3] ACEi Mean [differenze pressioni prima-poi]i Terapia convenzionale N (dev.standard) Mean [differenze pressioni prima-poi]c Mean difference [differenze pressione prima-poi] (dev.standard) (Intervalli di confidenza) genotipo DD 42 8.8 (14.5) 45 3.4 (10.6) +5.4 (+0.26 --> +10.97) genotipo DI 47 6.1(13.8) 52 3.3 (12.4) +2.8 (-2.39 --> +7.99) genotipo II 16 5.4 (11.2) 10 9.2 (11.7) -3.8 (-12.9 --> +5.32) Occore in ogni caso considerare che si trattava di una analisi di un outcome secondario eseguita entro una analisi per sottogruppi, con tutti i limiti di questo tipo di approccio 4- Verifica del significato clinico del risultato L' intervallo di confidenza è molto utile per esprimere l' importanza clinica di una mean Difference. L' ampiezza del range esprime il grado di precisione della stima e pertanto in presenza di un range ampio (anche se è significativo) occorre considerare che il risultato della ricerca potrebbe essere nella realtà molto diverso da quello identificato dal trial. Come quantificare allora il valore 'reale' di Mean Difference? L' intervallo di confidenza non ci fornisce alcuna certezza sulla posizione in cui si trova questo valore 'reale' ma ci dice solo che si trova all' interno del proprio range. In mancanza di una informazione precisa è pertanto utile assumere un atteggiamento 'prudente' e 'conservativo' dando per buono lo scenario peggiore. In altri termini consideriamo valore 'reale' di mean Difference quello espresso dall' estremo dell' intervallo di confidenza più vicino al valore di zero. Dato che la dimensione dell' efifcacia del nostro farmaco antiipertensivo è quantificata dai valori di Mean Difference, se l' estremo dell' intervallo di confidenza si trova ad una distanza 6 EQM - Evidenza, Qualità e Metodo in Medicina Generale clinicamente accettabile da zero (esempio: +8 mmHg) possiamo assumere con ragionevole attendibilità che il trattamento sia efficace. Lo studio di Perna [3] ha fornito un esempio paradigmatico di quanto appena esposto (vedi sopra). L' interpretazione della efficacia clinica di un trial attraverso gli intervalli di confidenza non può prescindere da un' altra importante osservazione. In presenza di un intervallo ampio possiamo ovviamente dedurre che la precisione della stima fornita dal trial sia scarsa. Questo implica che se il trial fosse ripetuto con campioni di numerosità maggiore la precisione aumenterebbe e l' ampiezza degli intervalli di confidenza sarebbe pertanto minore. Trial con intervalli di confidenza larghi (figura 2 A) forniscono quindi risultati 'meno riproducibili' ossia non ci forniscono informazioni precise sulla reale dimensione dell' effetto. Questa considerazione è un ulteriore invito ad utilizzare sempre -per un ragionamento clinico- il valore dell' estremo dell' intervallo di confidenza più vicino allo zero. Se il trial infatti fosse di maggiori dimensioni (figura 2 B) questo valore non potrebbe che migliorare (cioè allontanarsi da zero). FIGURA2 7 EQM - Evidenza, Qualità e Metodo in Medicina Generale FIGURA3 8 EQM - Evidenza, Qualità e Metodo in Medicina Generale *NB: il confronto statistico tiene conto della numerosità dei bracci e della deviazione standard del parametro in ciascun braccio (t-test a dati non appaiati) **NB: a volte gli autori testano non solo la significatività delle differenze riscontrate tra un braccio e l' altro ma anche la significatività delle differenze riscontrate tra la media dei valori 'before' e la media dei valori 'after' all' interno di ciascun braccio. In questo caso ciascun braccio viene analizzato in modo indipendente alla stregua di uno studio prima-poi non controllato). In queste condizioni il test di significatività statistica è un t-test a dati appaiati (si utilizza per i confronti primapoi dei valori di un parametro misurati nei singoli pazienti: ciascun paziente in altri termini fa da 'controllo' a se stesso) Bibliografia [1] Major Outcomes in High-Risk Hypertensive Patients Randomized to Angiotensin-Converting Enzyme Inhibitor or Calcium Channel Blocker vs Diuretic The Antihypertensive and Lipid-Lowering Treatment to Prevent Heart Attack Trial (ALLHAT) JAMA 2002 288:2981 [2] Dahlöf B et al Prevention of cardiovascular events with an antihypertensive regimen of amlodipine adding perindopril as required versus atenolol adding bendromethiazide as required, in the Anglo-Scandinavian Cardiac Outcomes Trial-Blood Pressure Lowering Arm (ASCOT-BPLA): a multicentre randomised controlled trial Lancet 2005; 366: 895–906 [3] Perna A et al ACE genotype and ACE inhibitors induced renoprotection in chronic proteinuric nephropathies. Kidney Int 2000, 57:274-281 [4] Scharplatz M et al Does the Angiotensin-converting enzyme (ACE) gene insertion/deletion polymorphism modify the response to ACE inhibitor therapy? – A systematic review Current Controlled Trials in Cardiovascular Medicine 2005, 6:16 [5] Figar S et al. Narrowing the gap in Hypertension: Efficacy of a Complex Antihypertensive Intervention Program in the Elderly – (CAIPE). Clinical Medicin and Health Reseach http://clinmed.netprints.org/cgi/content/full/2002120002v1 Warning: This article has not yet been accepted for publication by a peer reviewed journal. It is presented here mainly for the benefit of fellow researchers. Casual readers should not act on its findings, and journalists should be wary of reporting them. [6] Glantz SA Statistica per disipline biomediche Mc Graw - Hill 1997 ISBN 88-386-2229-9 9 EQM - Evidenza, Qualità e Metodo in Medicina Generale [7] Egger M , Smith GD, Altman DG Systematic reviews in Health Care - Meta-analysis in context - second edition 2001 BMJ Books ISBN 0-7279-1488-X 10