Mean Difference

EQM - Evidenza, Qualità e Metodo in Medicina Generale
Mean Difference
A cura di Alessandro Battaggia 2004
Immaginiamo un trial randomizzato e controllato dove un farmaco (gruppo di intervento) venga
confrontato con placebo (gruppo di controllo) e dove l' outcome sia rappresentato dalla riduzione
dei valori medi della pressione sistolica. Un trial del genere ormai non sarebbe più etico ma viene
comunque utilizzato in questa sede come esempio di riferimento.
Lo studio è organizzato come 'studio di superiorità' e l' ipotesi primaria è rappresentata dal quesito:
<il farmaco è superiore al placebo nel ridurre i valori medi della pressione sistolica?>.
Per rispondere al quesito primario, come in tutti gli studi di intervento controllati, occorre rispettare
queste tappe
1. scegliere una adatta unità di misura dell' outcome
2. misurare l' outcome nel braccio di intervento e nel braccio di controllo
3. segliere una adatta misura di efficacia: serve per confrontare i valori dell' outcome riscontrati in
ciascun braccio aggregandoli in un risultato finale
4. stabilire se la differenza riscontrata tra i due bracci è significativa o se al contrario è dovuta solo
al caso
5. stabilire se questa differenza è utile clinicamente
1. Scelta dell' unità di misura dell' outcome
La pressione arteriosa è una variabile intervallare, vale a dire che analogamente al peso, all'
altezza, e a simili parametri clinici è caratterizzata sotto il profilo matematico da uno spettro
continuo e (teoricamente) infinito di valori .
In questo caso l' unica unità di misura possibile dell' outcome è rapresentata da una media (nell'
esempio paradigmatico: media dei valori pressori oppure -vedi oltre- media di differenze in valori
pressori).
Una media viene sempre espressa accanto alla propria deviazione standard, che rappresenta un
indicatore della variabilità dei valori del parametro (=varianza) entro il braccio dove la media è
stata calcolata. La deviazione standard è importante non solo come statistica descrittiva ma anche
per i calcoli utilizzati per la significatività statistica ;per i particolari, che esulano dallo scopo di
queste note medodologiche, si rimanda a testi specializzati [6].
2. Misura dell' outcome nei due bracci
Riferendoci all' esempio sopra descritto, viene così calcolata la media delle pressioni sistoliche nei
soggetti che costituiscono i due gruppi a confronto. In alternatva per la misura dell' outcome
possono essere utilizzato un modello diverso (vedi oltre): ossia nei due bracci a confronto possono
essere rilevate anzichè le medie dei valori pressori alla fine della sperimentazione (after) le medie
delle variazioni prima-poi (after-before) dei valori pressori (vedi tabelle 1, 2; vedi figura 3).
3. Calcolo della differenza tra i due bracci nella misura dell' outcome e interpretazione del
suo significato
1
EQM - Evidenza, Qualità e Metodo in Medicina Generale
Quando l' outcome viene espresso da una media, la differenza tra i due bracci si calcola
sottraendo dalla media calcolata nel braccio di controllo la media calcolata nel braccio di
intervento. Si calcola in altre parole una 'differenza tra medie'
Mean Difference = Meancontrollo - Meanintervento
Nota bene: in uno studio di eventi (situazione molto diversa da quella descritta in questo capitolo!)
l' outcome è sempre assente nelle condizioni basali. Per esempio in uno studio dove l' outcome è
la mortalità ovviamente tutti i partecipanti, in condizioni basali, non hanno ancora avuto l' outcome.
Invece in uno studio dove l' intervento dovrebbe modificare una variabile biologica già esistente in
condizioni basali (è l' esempio dello studio sul farmaco antiipertensivo che costituisce il paradigma
di questo capitolo) il parametro le cui variazioni rappresentano l' outcome della ricerca (qui è la
pressione arteriosa) è misurabile anche in condizioni di base . In tal caso può essere interessante
per il ricercatore -oltre a confrontare i due bracci per i risultati generali ottenuti- osservare anche le
modifiche del parametro prima e dopo l' intervento all' interno di ciascun braccio. Nel primo caso i
due bracci verranno confrontati per il valore medio delle pressioni misurate in ciascun braccio alla
fine dello studio (after); nel secondo caso verranno confrontati per il valore medio delle differenze
prima-poi riscontrato entro ciascun braccio (before-after).
L' efficacia del trattamento può essere quindi testata in due modi diversi.
Metodo 1- Unità di analisi = valore di pressione 'after' di un singolo individuo
Outcome misurato nel braccio di intervento = media dei valori di pressione dei singoli individui
misurati dopo (after) la somministrazione del farmaco
Outcome misurato nel braccio di controllo= media dei valori di pressione dei singoli individui
misurati dopo (after) la somministrazione del placebo
Confronto tra i due bracci*: media del braccio di controllo - media del braccio di intervento ossia
Mean Difference = Mediacontrollo - Mediaintervento = media 'after' dell' outcome in un braccio versus
media 'after' dell' outcome nell' altro braccio (vedi tabella 1 e figura 3).
Questa scelta è ampiamente giustificabile se, come avviene nei trial randomizzati e controllati, i
gruppi a confronto presentano nelle condizioni di base caratteristiche praticamente identiche
In base a questa modalità di calcolo
a) se Mean Difference ha un valore positivo: nel braccio di intervento l' outcome presenta valori
minori rispetto al braccio di controllo = efficacia del farmaco
b) se Mean Difference è uguale a zero: nel braccio di intervento l' outcome presenta valori identici
a quelli del braccio di controllo = non efficacia del farmaco
c) se Mean Difference ha un valore negativo: nel braccio di intervento l' outcome presenta valori
maggiori rispetto al braccio di controllo = dannosità del farmaco
Esempio
Nello studio ALLHAT [1] sono stati assegnati al braccio di intervento (amlodipina) 9048 pazienti e
al braccio di controllo (clortalidone) 15255 pazienti. Al quinto anno di follow-up la PAS media nel
gruppo di intervento era 134.7 mmHg, la PAS media nel gruppo di controllo era 133.9 mmHg.
Mean difference era 133.9 - 134.7 = -0.79, con significatività statistica (P =0.03 vedi oltre).In
questo caso Mean Difference ha un valore negativo: significa che lil farmaco somministrato al
braccio di intervento è risultato meno efficace del farmaco somministrato al braccio di controllo nell'
2
EQM - Evidenza, Qualità e Metodo in Medicina Generale
abbassare i valori di pressione sistolica. Il valore di P (vedi oltre) testimonia la significatività del
risultato.
Misura Outcome
Tabella 1: confronto della media
dell' outcome 'after' dei due bracci
Intervento
Mean
[pressioni after]i
Controlli
Mean
[pressioni after]c
Misura di efficacia per il
confronto tra i due bacci
Mean Difference
[pressioni after]
Metodo 2- Unità di analisi: differenza (after-before) dei valori di pressione di un singolo individuo
Outcome misurato nel braccio di intervento = media delle differenze (after-before) dei singoli
individui. Dettagli di calcolo: per ogni soggetto viene misurata la pressione prima della
somministrazione del farmaco (before) e dopo la somministrazione del farmaco (after); quindi sempre per ciascun individuo- viene calcolata la differenza (after-before) dei valori pressori; per
tutto il braccio di intervento l' outcome è espresso dalla media di queste differenze intraindividuali
di pressione (after-before).
Outcome misurato nel braccio di controllo = media delle differenze (after-before) dei singoli
individui. Dettagli di calcolo: per ogni soggetto viene misurata la pressione prima della
somministrazione di placebo (before) e dopo la somministrazione di placebo (after); quindi -sempre
per ciascun individuo- viene calcolata la differenza (after-before) dei valori pressori; per tutto il
braccio di controllo l' outcome è espresso dalla media di queste differenze intraindividuali di
pressione (after-before).
Confronto tra i due bracci*: media delle differenze (after-before) del braccio di controllo - media
delle differenze (after-before) del braccio di intervento
I trial come questo -che utilizzano come unità di analisi le modifiche del parametro a livello dei
singoli pazienti (within person changes)- forniscono maggiori informazioni sull' efficacia dell'
intervento rispetto ai trial che utlizzano come unità di analisi i valori finali del parametro a livello dei
singoli pazienti. In ltri termini sono ricerche 'più efficienti' delle prime [7].
Esempio
in uno studio dove l' intervento era rappresentato da un insieme di provvedimenti complessi
esercitati su pazienti anziani la Mean Difference [pressioni prima-poi] per il braccio di intervento
era -5 mmHg (IC 95% -2.5 ->-7.6)** e la Mean difference [pressione prima-poi] per il braccio di
controllo era + 3.4 (IC 95% +1.1->+5.7)** [5]. Il confronto tra il braccio di intervento e il braccio di
controllo per i valori medi delle differenze di pressioni prima-poi riscontrate in ciascun braccio era
espresso da una Mean difference [differenze pressioni prima-poi] di magnitudo pari a 8.4 mmHg
(IC 95% 5->11).
3
EQM - Evidenza, Qualità e Metodo in Medicina Generale
Tabella 2: confronto tra i due
bracci alla fine dello studio
della media delle differenze
(after-before) dell' outcome
riscontrata entro ciascun
braccio
Intervento
Controlli
Misura di outcome
Mean
[differenze pressioni (after-before)]i
Misura di efficacia per il
confronto tra i due bacci
Mean Difference
[differenze pressioni
(after-before)]
Mean
[differenze pressioni (after-before)]c
3- Verifica della significatività statistica del risultato
La significatività statistica di una Mean Difference può essere determinata, al pari di qualsiasi altra
misura di efficacia , con un test di significatività statistica o attraverso gli intervalli di confidenza.
Utilizzo di un test di significatività: il T-test
Il T-test* parte (come qualsiasi altro test di signifcatività) da una ipotesi nulla, vale a dire dal
presupposto che l' intervento non comporti alcuna modifica nei valori dell' outcome. In questa
ipotesi i valori dell' outcome nel braccio di intervento sono considerati praticamente identici. Se l'
ipotesi nulla viene accettata ogni differenza (inevitabilmente) registrata tra braccio di intervento e
braccio di controllo viene interpretata quindi come effetto esclusivo della casualità con cui è stato
scelto il campione.
Nella analisi descritta in tabella 1 se le medie della PAS nei due bracci di soggetti a confronto
fossero esattamente identiche (=ipotesi nulla accettata) la loro differenza (Mean Difference)
sarebbe ovviamente uguale a zero (PASc- PASi=0).
In questa situazione avremmo ragione di affermare che l’intervento “non è risultato efficace e
nemmeno dannoso”, perché nei soggetti sottoposti al trattamento non è stata riscontrata alcuna
modifica rispetto ai “controlli” nei valori della variabile che si supponeva potesse essere influenzata
dall’intervento.
Il valore di P prodotto dal T-test indica esattamente (come in ogni altro test di significatività) la
probabilità che la differenza riscontrata tra i due bracci sia dovuta solo al caso.
Se il T-test produce valori di P superiori a 0.05 significa che la probabilità che il risultato sia dovuto
al caso è superiore al 5%: per convenzione in questo caso l' ipotesi nulla viene confermata e il
risultato viene dichiarato 'non significativo'.
Se il T-test produce valori di P inferiori a 0.05 significa che la probabilità che il risultato sia dovuto
al caso è inferiore al 5%. Per convenzione statistica questa probabilità viene giudicata
'trascurabile' e l' ipotesi nulla viene -allora- ricusata : la differenza tra i due bracci viene dichiarata
'significativa'.
Esempio
Nello studio ALLHAT [1] (vedi sopra) i valori di Mean Difference di PAS erano -0.79 con P =0.03.
4
EQM - Evidenza, Qualità e Metodo in Medicina Generale
Il valore di P ci dice che la probabilità che questa differenza tra i due bracci sia solo dovuta al caso
corrisponde al 3%. Pertanto l' ipotesi nulla viene ricusata e la differenza viene dichiarata
'significativa'.
Utilizzo degli intervalli di confidenza per stabilire la significatività statistica
In una ricerca dove l’ oggetto di studio è una ‘media’ gli intervalli di confidenza al 95% esprimono il
grado di imprecisione della stima offerta dal trial dei valori 'reali' di Mean Difference . In particolare
gli intervalli di confidenza rappresentano il range entro cui cadrebbe il 95% delle stime che
otterremmo ripetendo innumerevoli volte il trial nelle stesse condizioni. I valori 'reali' di Mean
Difference sono quelli della popolazione da cui il campione è stato estratto, ossia quelli che
otterremmo reclutando anzichè i soggetti del campione tutti i soggetti della popolazione. E' da
sottolineare che non siamo -comunque- a conoscenza della esatta posizione entro questo range
dei valori 'reali' della misura di efficacia.
L' ipotesi nulla viene soddisfatta (vedi sopra) da valori di Mean Difference uguali a zero.
Se gli intervalli di confidenza di una Mean Difference contengono il valore di zero non è pertanto
possibile esprimere un giudizio sulla efficacia dell' intervento. Infatti la differenza tra le medie dei
due bracci dei valori di pressione sistolica potrebbe essere maggiore di zero (= il farmaco è
efficace in quanto nei soggetti trattati la pressione è minore di quelli trattati con placebo); minore di
zero (= il farmaco è dannoso in quanto la pressione sistolica nei soggetti trattati è maggiore di
quelli trattati con placebo) oppure uguale a zero (= il farmaco non è nè utile nè dannoso in quanto
nei soggetti trattati la pressione sistolica è identica a quella dei soggetti trattati con placebo).
Pertanto quando gli intervalli di confidenza di una Mean Difference contengono il valore di zero il
risultato viene dichiarato 'non significativo' in quanto non può essere escluso che tra un braccio e
l' altro non esista alcuna differenza ne:i valori medi dell' outcome (= ipotesi nulla soddisfatta).
FIGURA1
Supponiamo che il risultato del trial sia rappresentato da una differenza di 9 mmHg tra i valori after
di PAS tra i due bracci. Questo valore rappresenta la 'stima puntuale' fornita dal trial. Supponiamo
però che gli intervalli di confidenza al 95% di questa stima comprendano un range da +15mmHg a
-10mmHg. Noi sappiamo allora che con una attendibilità pari a 95% il valore 'reale' di Mean
Difference si trova tra +15 e -10 mmHg ma non sappiamo dove esso sia posizionato. Potrebbe
quindi essere anche zero (=ipotesi nulla soddisfatta). In questo caso la differenza tra i due bracci
viene definita 'non significativa'.
Esempio
Verso la fine degli anni 80 iniziò un filone di ricerca rivolto a stabilire l' origine della variabilità inter
individuale nella risposta alla terapia con ACE inibitori [4]. Venne identificato così un particolare
polimorfismo genetico riguardante l' enzima ACE (caratterizzato più esattamente da tre diversi
5
EQM - Evidenza, Qualità e Metodo in Medicina Generale
genotipi DD, DI, II ) che si suppose in grado di spiegare almeno in parte le diversità tra individuo e
individuo nella risposta clinica a tali molecole. Nello studio REIN condotto su 212 pazienti affetti da
nefropatia cronica proteinurica di origine non diabetica Perna e coll [3] valutarono in una analisi di
tre sottogruppi caratterizzati da polimorfismo DD, DI o II (e rispettivamente composti da 87, 99, 46
soggetti) la risposta della PAS al ramipril (braccio di intervento) o alle terapie tradizionali (braccio
di controllo). La misura dell' outcome era rappresentata in questo caso dalla differenza tra le
medie delle variazioni prima-poi riscontrate in ciascuno dei due bracci (vale a dire che in tal caso è
stato adottato il modello di analisi illustrato nella tabella 2). L' esame degli intervalli di confidenza
rivela per il genotipo DD un risultato significativo (l' intervallo non comprende il valore di zero) e a
favore dell' intervento (Mean Difference = +5.4). Per i genotipi DI e II il risultato non è significativo
in quanto gli intervalli comprendono il valore di zero. Per il primo confronto è qui interessante
notare come il limite inferiore dell' intervallo di confidenza (+0.26) è molto vicino al cut off che
soddisfa l' ipotesi nulla (per mean Difference = zero). Ciò offre l' opportunità di fare una riflessione
sul significato clinico di questo risultato: anche se la stima puntuale è a favore di un risultato
clinicamente utile (differenza tra le medie dei valori prima-poi di PAS riscontrati nei due bracci =
+5.4 mmHg) l' intervallo di confidenza indica che il valore 'reale' può essere anche pari a +0.26
mmHg. E' evidente che una differenza tra i due bracci di un quinto di mmHg in ternini di differenza
tra i valori medi prima-poi è 'clinicamente risibile', anche se 'statisticamente significativa'.
Tabella 4 Genotipi
ACE e
N
riduzione
media dei
valori di PAS
sistolica [3]
ACEi
Mean
[differenze
pressioni
prima-poi]i
Terapia convenzionale
N
(dev.standard)
Mean
[differenze
pressioni
prima-poi]c
Mean difference
[differenze pressione
prima-poi]
(dev.standard)
(Intervalli di confidenza)
genotipo DD
42
8.8 (14.5)
45
3.4 (10.6)
+5.4 (+0.26 --> +10.97)
genotipo DI
47
6.1(13.8)
52
3.3 (12.4)
+2.8 (-2.39 --> +7.99)
genotipo II
16
5.4 (11.2)
10
9.2 (11.7)
-3.8 (-12.9 --> +5.32)
Occore in ogni caso considerare che si trattava di una analisi di un outcome secondario eseguita
entro una analisi per sottogruppi, con tutti i limiti di questo tipo di approccio
4- Verifica del significato clinico del risultato
L' intervallo di confidenza è molto utile per esprimere l' importanza clinica di una mean Difference.
L' ampiezza del range esprime il grado di precisione della stima e pertanto in presenza di un range
ampio (anche se è significativo) occorre considerare che il risultato della ricerca potrebbe essere
nella realtà molto diverso da quello identificato dal trial. Come quantificare allora il valore 'reale' di
Mean Difference? L' intervallo di confidenza non ci fornisce alcuna certezza sulla posizione in cui
si trova questo valore 'reale' ma ci dice solo che si trova all' interno del proprio range.
In mancanza di una informazione precisa è pertanto utile assumere un atteggiamento 'prudente' e
'conservativo' dando per buono lo scenario peggiore. In altri termini consideriamo valore 'reale' di
mean Difference quello espresso dall' estremo dell' intervallo di confidenza più vicino al valore di
zero. Dato che la dimensione dell' efifcacia del nostro farmaco antiipertensivo è quantificata dai
valori di Mean Difference, se l' estremo dell' intervallo di confidenza si trova ad una distanza
6
EQM - Evidenza, Qualità e Metodo in Medicina Generale
clinicamente accettabile da zero (esempio: +8 mmHg) possiamo assumere con ragionevole
attendibilità che il trattamento sia efficace.
Lo studio di Perna [3] ha fornito un esempio paradigmatico di quanto appena esposto (vedi sopra).
L' interpretazione della efficacia clinica di un trial attraverso gli intervalli di confidenza non può
prescindere da un' altra importante osservazione. In presenza di un intervallo ampio possiamo
ovviamente dedurre che la precisione della stima fornita dal trial sia scarsa. Questo implica che se
il trial fosse ripetuto con campioni di numerosità maggiore la precisione aumenterebbe e l'
ampiezza degli intervalli di confidenza sarebbe pertanto minore. Trial con intervalli di confidenza
larghi (figura 2 A) forniscono quindi risultati 'meno riproducibili' ossia non ci forniscono
informazioni precise sulla reale dimensione dell' effetto. Questa considerazione è un ulteriore invito
ad utilizzare sempre -per un ragionamento clinico- il valore dell' estremo dell' intervallo di
confidenza più vicino allo zero. Se il trial infatti fosse di maggiori dimensioni (figura 2 B) questo
valore non potrebbe che migliorare (cioè allontanarsi da zero).
FIGURA2
7
EQM - Evidenza, Qualità e Metodo in Medicina Generale
FIGURA3
8
EQM - Evidenza, Qualità e Metodo in Medicina Generale
*NB: il confronto statistico tiene conto della numerosità dei bracci e della deviazione standard del parametro in ciascun
braccio (t-test a dati non appaiati)
**NB: a volte gli autori testano non solo la significatività delle differenze riscontrate tra un braccio e l' altro ma anche la
significatività delle differenze riscontrate tra la media dei valori 'before' e la media dei valori 'after' all' interno di ciascun
braccio. In questo caso ciascun braccio viene analizzato in modo indipendente alla stregua di uno studio prima-poi non
controllato). In queste condizioni il test di significatività statistica è un t-test a dati appaiati (si utilizza per i confronti primapoi dei valori di un parametro misurati nei singoli pazienti: ciascun paziente in altri termini fa da 'controllo' a se stesso)
Bibliografia
[1] Major Outcomes in High-Risk Hypertensive Patients Randomized to Angiotensin-Converting
Enzyme Inhibitor or Calcium Channel Blocker vs Diuretic The Antihypertensive and Lipid-Lowering
Treatment to Prevent Heart Attack Trial (ALLHAT)
JAMA 2002 288:2981
[2] Dahlöf B et al
Prevention of cardiovascular events with an antihypertensive regimen of amlodipine adding
perindopril as required versus atenolol adding bendromethiazide as required, in the
Anglo-Scandinavian Cardiac Outcomes Trial-Blood Pressure Lowering Arm (ASCOT-BPLA): a
multicentre randomised controlled trial
Lancet 2005; 366: 895–906
[3] Perna A et al
ACE genotype and ACE inhibitors induced renoprotection in chronic proteinuric nephropathies.
Kidney Int 2000, 57:274-281
[4] Scharplatz M et al
Does the Angiotensin-converting enzyme (ACE) gene insertion/deletion polymorphism modify the
response to ACE inhibitor therapy? – A systematic review
Current Controlled Trials in Cardiovascular Medicine 2005, 6:16
[5] Figar S et al.
Narrowing the gap in Hypertension: Efficacy of a Complex Antihypertensive Intervention Program
in the Elderly – (CAIPE).
Clinical Medicin and Health Reseach http://clinmed.netprints.org/cgi/content/full/2002120002v1
Warning: This article has not yet been accepted for publication by a peer reviewed journal. It is
presented here mainly for the benefit of fellow researchers. Casual readers should not act on its
findings, and journalists should be wary of reporting them.
[6] Glantz SA
Statistica per disipline biomediche
Mc Graw - Hill 1997 ISBN 88-386-2229-9
9
EQM - Evidenza, Qualità e Metodo in Medicina Generale
[7] Egger M , Smith GD, Altman DG
Systematic reviews in Health Care - Meta-analysis in context - second edition 2001
BMJ Books ISBN 0-7279-1488-X
10