STATISTICA BIVARIATA: ALCUNI STIMOLI DI APPROFONDIMENTO

STATISTICA BIVARIATA: ALCUNI STIMOLI DI APPROFONDIMENTO
(Tecn. Lab. Biomedico e Tecn. Fisiop. e Perfus. Cardiovascolare 3°Anno)
1) ASSOCIAZIONE TRA DUE CARATTERI – RISCHIO RELATIVO E ODDS RATIO
In uno studio retrospettivo1, mirato a verificare se il consumo di caffè influenzi il rischio di infarto
del miocardio, sono stati raccolti i dati su pazienti residenti in una cittadina. Il consumo di caffè è
stato classificato come basso (≤3 tazzine al giorno) o alto (> 3 tazzine al giorno). I risultati sono
mostrati in tabella.
infarto si
consumo di caffè
basso
alto
48
78
infarto no
consumo di caffè
basso
alto
1352
1322
Si vuole valutare l’incidenza di infarto nei consumatori di caffè (alto/basso) e se l’alto consumo di
caffè aumenti il rischio di infarto rispetto al basso consumo.
Si costruisce anzitutto la tabella 2x2:
caffè alto
caffè basso
totale
infarto si
78
48
126
infarto no
1322
1352
2674
totale
1400
1400
2800
Si possono condurre, quindi, i seguenti passi di analisi.
A) Esame delle proporzioni di infarto nei due gruppi (alto/basso):
pa = 78/1400 = 5.6%
pb = 48/1352 = 3.4%.
Differenza = pa−pb = 2.2% : nel gruppo caffè alto c’è il 2.2% in più di eventi rispetto al gruppo caffè
basso.
Rischio relativo = RR = pa/pb = 1.65: nel gruppo caffè alto c’è un rischio di circa 1.6 volte superiore
di avere l’infarto rispetto all’altro gruppo; il rischio relativo è una misura del grado di associazione
tra evento e gruppo e risulta tanto più elevato (superiore a 1) quanto più l’evento è associato al
gruppo.
Variazione percentuale = RR−1 = (pa−pb)/pb = 65%: nel gruppo caffè alto si rileva un 65% in più di
rischio di infarto rispetto all’altro gruppo.
B) Test χ2 per l’analisi di associazione tra infarto e consumo caffè: si sottopone a verifica l'ipotesi
che non esista associazione tra consumo di caffè ed insorgenza dell’infarto.
1
In questi tipi di studio lo sperimentatore inizia raccogliendo i cosiddetti “casi”, ossia gli individui che presentano la
malattia in studio, e sceglie un adatto gruppo di paragone o di “controllo” che comprenderà individui sani.
1
H0: non esiste associazione (la proporzione di persone che si sono ammalate nel gruppo caffè alto è
uguale alla proporzione di coloro che si sono ammalati nel gruppo caffè basso).
H1: esiste un'associazione (la proporzione di persone che si sono ammalate nel gruppo caffè alto è
diverso da quella di coloro che si sono ammalati nell’altro gruppo).
La tabella delle frequenze teoriche è la seguente:
caffè alto
caffè basso
totale
infarto si
63
63
126
infarto no
1337
1337
2674
totale
1400
1400
2800
Si ottiene:
χ2 = (78−63)2/63 + (1322−1337)2/1337 + (48−63)2/63 + (1352−1337)2/1337 = 7.48
p-value = 0.006 <0.01.
Si rifiuta allora l’ipotesi H0 che le proporzioni di persone che hanno avuto l’infarto sono uguali nei
due gruppi caffè alto e caffè basso e si è portati a concludere per un’associazione statisticamente significativa tra infarto e consumo di caffè.
C) Odds Ratio
Considerato un evento di probabilità p, l’Odds dell’evento è definito dalla quantità:
Odds = p/(1−p).
Nel caso di tabelle 2x2:
evento si
a
c
a+c
gruppo 1
gruppo 2
totale
evento no
b
d
b+d
totale
a+b
c+d
n
si definisce l’Odds Ratio come:
OR =
p1 (1 − p1 ) p1 (1 − p 2 ) ad
=
=
.
p 2 (1 − p 2 ) p 2 (1 − p1 ) bc
Poiché il rischio relativo RR è dato da:
P robab(even to nel gruppo 1) a (a + b)
=
P robab(even to nel gruppo 2) c (c + d
Risulta (nel caso di evento raro):
RR =
OR =
a b ad Probab(eve nto nel gruppo 1)
=
≈
.
c d bc Probab(eve nto nel gruppo 2)
2
L’OR è una misura di associazione tra caratteri qualitativi dicotomici e si usa negli studi retrospettivi (caso-controllo) per una stima del rischio di evento tra due gruppi. Così, in situazioni reali, si è
spesso in presenza di un evento (ad es. malattia) e di un fattore di rischio (o un trattamento) dicotomizzato in gruppi e si intende misurare il rischio di evento di uno dei due gruppi rispetto all’altro.
Una valore dell’OR maggiore di 1 indica un aumento di rischio, un valore vicino a 1 si riferisce a
nessuna differenza, mentre per un valore inferiore a 1 c’è diminuzione di rischio. Si può determinare anche l’intervallo di confidenza (IC) per l’OR (ad es. al livello di confidenza del 95%), partendo
1 1 1 1
+ + + . Calcolate le quantità2:
dal fatto che il suo errore standard è dato da: SE(ln(OR)) =
a b c d
inf = ln(OR)−1.96⋅SE(ln(OR)) e sup = ln(OR)+1.96⋅SE(ln(OR)),
l’estremo inferiore e quello superiore dell’intervallo di confidenza sono dati da:
estremo inferiore IC 95% = exp(inf) e estremo superiore IC 95% = exp(sup)
Nel problema inizialmente posto:
caffè alto
caffè basso
totale
infarto si
78
48
126
infarto no
1322
1352
2674
totale
1400
1400
2800
OR = (78⋅1352)/(48⋅1322) = 1.66.
E si determina, poi, l’intervallo di confidenza al 95%:
ln(OR)=ln(1.66)=0.508
SE(ln(OR))= 1 / 78 + 1 / 1322 + 1 / 48 + 1 / 1352 = 0.187
inf = ln(OR)−1.96⋅SE(ln(OR)=0.508−1.96⋅0.187=0.140
sup = ln(OR)+1.96⋅SE(ln(=R)=0.508+1.96⋅0.187=0.875
estremo inferiore IC = exp(inf) = exp(0.140)=1.15
estremo superiore IC = exp(sup) = exp(0.875)=2.40
OR=1.66,
IC 95%: [1.15; 2.40].
Pertanto il consumo di caffè risulta associato con il rischio di sviluppare infarto del miocardio;
l’OR=1.66 indica che chi fa un alto consumo di caffè ha un rischio 1.66 volte più alto di avere
l’infarto rispetto a chi fa un basso consumo di caffè. L’intervallo di confidenza [1.15; 2.40] non
contiene l’unità e quindi, anche con l’analisi dell’OR, si può dire che l’associazione risulta statisticamente significativa.
2
Il simbolo ln che compare nelle formule indica il logaritmo in base il numero di Nepero.
3
2) ASSOCIAZIONE TRA DUE CARATTERI – FATTORI CONFONDENTI
Quando si analizza la relazione tra un fattore di esposizione (o un trattamento) ed una malattia, un
fattore confondente è un terzo carattere che è indipendentemente associato all’esposizione ed è anche un fattore di rischio per la malattia.
La presenza di un fattore confondente può alterare l’associazione osservata tra esposizione ed evento. Ad esempio, nel caso del problema analizzato in 1), si supponga che il ricercatore abbia stratificato i soggetti in fumatori e non fumatori, ottenendo i seguenti risultati:
fumatori
non fumatori
infarto si
consumo caffè
basso
alto
28
70
20
8
infarto no
consumo caffè
basso
alto
372
930
980
392
Calcolando l’incidenza di infarto e l’OR nei i 2 gruppi (fumatori e non) per valutare l’impatto
dell’alto consumo di caffè sul rischio di infarto, si ottiene:
fumatori
caffè alto
caffè basso
totale
infarto si
70
28
98
infarto no
930
372
1302
totale
1000
400
1400
incidenza infarto = 98/1400 = 7%
ORF = 1
IC 95%: [0.63; 1.58]
non fumatori
caffè alto
caffè basso
totale
infarto si
8
20
28
infarto no
392
980
1372
totale
400
1000
1400
incidenza infarto = 28/1400 = 2%
ORNF = 1
IC 95%: [0.43; 2.29]
Pertanto, il fumo è un fattore confondente per l’infarto in relazione al consumo di caffè: chi fuma
tende anche a bere più caffè di chi non fuma e il fumo è un fattore di rischio per l’infarto. Il caffè
non ha influenza sull’infarto e l’associazione che si osserva è solo dovuta al confondimento del fumo. Tale conclusione viene rafforzata attraverso l’analisi di associazione tra infarto e fumo:
fumatori
non fumatori
totale
infarto si
98
28
126
infarto no
1302
1372
2674
totale
1400
1400
2800
χ2 = 40.7 p=1.7⋅10-10
(altamente significativo)
OR = 3.69
IC 95%: [2.41; 5.65].
4
3) SIGNIFICATIVITÀ DELLA RETTA DI REGRESSIONE
Esempio 1
In tabella sono riportati i valori assunti dai due caratteri quantitativi età (ETÀ) e pressione sistolica
(PAS) misurati in un campione di 8 soggetti:
soggetto
1
2
3
4
5
6
7
8
ETÀ (anni)
22
28
35
47
51
56
67
81
PAS (mmHg)
131
114
121
111
130
145
176
217
La semplice rappresentazione grafica dei valori osservati e della retta di regressione fornisce alcune
indicazioni importanti per l'interpretazione delle relazioni esistenti tra i due caratteri PAS (variabile
Y) ed ETÀ (variabile X).
I parametri a e b della retta di regressione
Y = b⋅X + a
si stimano attraverso il principio dei minimi
quadrati e risulta:
b=
CODEV(X, Y)
DEV(X)
e
a = y − b⋅x ,
n
DEV(X)= ∑ (x i − x ) 2
i =1
n
CODEV(X,Y) = ∑ (x i − x )(y i − y) .
i =1
Pertanto:
b= 1.54 e a = 68.75
Interpretando i valori dei coefficienti della retta di regressione si può dire:
•
l’aumento medio della pressione è di circa b=1.5 mmHg per l’aumento di un anno di età.
•
alla nascita il valore della pressione sarebbe (!) di a=68.75 mmHg, ma questa è una indicazione
teorica perché non è possibile stimare il valore della pressione arteriosa per età fuori del range
considerato (22 81 aa).
÷
Il valore del coefficiente di regressione b indica di quanto aumenta in media la variabile dipendente
Y all'aumento di una unità della variabile indipendente X.
Con il metodo dei minimi quadrati è sempre possibile ottenere la retta che meglio si adatta ai dati
rilevati, indipendentemente dalla dispersione dei punti intorno alla retta. Tuttavia il semplice calcolo
della retta non è affatto sufficiente ai fini dell’analisi statistica.
5
La retta potrebbe indicare:
•
•
una relazione reale tra le due variabili, se il valore di b è alto e la dispersione dei punti intorno
alla retta è ridotta;
relazione casuale o non significativa, quando la dispersione dei punti intorno alla retta è aprossimativamente uguale a quella intorno alla media.
La figura che segue esprime alcune situazioni di dipendenza o meno.
Il coefficiente b della retta di regressione, che determina appunto la quantità di variazione di Y per
ogni unità aggiuntiva di X, è calcolato da osservazioni sperimentali. Ciò che tuttavia interessa al ricercatore è la relazione esistente nella popolazione, e sebbene il valore di b sia differente da zero,
non è detto che nella popolazione al variare di X si abbia una variazione di Y.
La significatività del coefficiente di regressione nella popolazione (β) può essere saggiata mediante
la verifica dell’ipotesi nulla:
H 0 : β = 0.
Accettando H0 si assume che il valore reale del coefficiente angolare sia β= 0, dunque al variare di
X, Y resta costante e uguale al valore dell'intercetta a, pertanto non esiste alcun legame tra X e Y.
Rifiutando H0, si accetta l’ipotesi alternativa H1: β ≠ 0. Dunque al variare di X si ha una corrispondente variazione sistematica di Y.
Un metodo per la verifica della significatività della retta calcolata è il test F di Fisher-Snedecor, che
si basa sulla scomposizione delle devianze.
La somma dei quadrati delle distanze tra i tre punti yi , ŷ i e y definiscono le tre devianze: devianza
totale, devianza della regressione o devianza dovuta alla regressione, devianza d'errore o devianza
residua:
n
devianza totale = ∑ (y − y) 2
i =1 i
n
devianza di regressione = ∑ (ŷ − y) 2
i =1 i
n
devianza residua = ∑ (y − ŷ ) 2
i
i =1 i
devianza totale = devianza di regressione +
devianza residua
6
Dividendo la devianza di regressione e quella residua per i relativi gradi di libertà (1 ed n−1 gdl rispettivamente) si stimano la varianza di regressione e la varianza residua.
Il rapporto:
Varianza di Regression e
Varianza Residua
determina il valore del test F di Fisher con 1 e n−2 gdl (indicato con F(1,n-2)). Senza entrare nel merito della trattazione della distribuzione di tale statistica, si tenga semplicemente presente che per
applicare la metodologia del test F si può far riferimento alle Tavole della F :
•
•
Se l’F calcolato sui dati campionari è inferiore a quello tabulato (per il prefissato valore di probabilità e i gradi di libertà corrispondenti) l’ipotesi nulla H0 non può essere rifiutata (non esiste
regressione lineare statisticamente significativa).
Se l’F calcolato supera quello tabulato si rifiuta l'H0 e si accetta H1 (la regressione lineare tra le
due variabili è significativa).
Se β=0, la varianza dovuta alla regressione e quella residua sono stime indipendenti e non viziate
della variabilità dei dati. Se β≠0, la varianza residua è una stima non viziata della variabilità dei dati, mentre la varianza dovuta alla regressione è stima di una grandezza maggiore della varianza residua. Di conseguenza. il rapporto tra le due varianze è da ritenersi utile alla verifica dell'ipotesi β=0.
Si tenga comunque presente che rifiutare H0 :
•
•
non significa che non esiste relazione tra le due variabili, ma solamente che non esiste una relazione di tipo lineare;
significa che potrebbe esistere una relazione di tipo differente, come quella curvilinea di secondo grado o di grado superiore.
La trasformazione di uno o di entrambi gli assi è spesso sufficiente per ricondurre una relazione di
tipo curvilineo a quella lineare:
•
•
•
la crescita esponenziale di una popolazione nel tempo, generata da tassi costanti, diviene lineare
con la trasformazione logaritmica del tempo, usualmente riportato sull'asse delle ascisse;
la relazione curvilinea tra lunghezza e peso di individui della stessa specie diviene lineare con la
trasformazione mediante radice cubica del peso, correlato linearmente al volume;
l'analisi statistica permette qualsiasi tipo di trasformazione che determini una relazione lineare
tra due variabili
Tornando all’esempio 1, supposto che il campione estratto dalla popolazione oggetto di studio sia
significativo, con le tecniche dell’inferenza statistica occorre verificare:
• se la retta può essere assunta come rappresentativa di una relazione lineare tre le due variabili;
• se è corretto affermare che, nella popolazione di riferimento, ad una variazione di età corrisponde un cambiamento lineare della pressione sistolica;
• se, mediante il test F, β=0 (ipotesi H0) oppure β≠0 (ipotesi H1).
Si calcola la seguente tabella:
Regressione
Residua
Totale
Devianza
6543.1
2687.8
9230.9
gdl
1
6
7
Varianza
6543.1
447.9
7
F(1,6) =
6543.1
=14.61
447.9
In merito alla valutazione del risultato si può dire:
•
•
•
il valore critico riportato nelle tavole di F per 1 e 6 gdl e per un livello di significatività α=0.01
è pari a 13.75;
il valore calcolato di F è superiore a quello critico;
si rifiuta H0: si può supporre un rapporto lineare tra le variazioni di età e pressione sistolica.
La stima della significatività della retta (verifica dell'esistenza di una relazione lineare tra le variabili) può essere condotta anche con il test t di Student, con risultati equivalenti al test F.
Il test t è :
•
•
fondato su calcoli didatticamente meno evidenti di quelli del test F, ma offre il vantaggio di poter essere applicato sia in test unilaterali (β>0 oppure β<0) che in test bilaterali (β≠0);
basato sul rapporto tra il valore del coefficiente di regressione b (che rappresenta la risposta media di Y ai diversi valori di X entro il suo intervallo di variazione) ed il suo errore standard
SE(b) dato da: SE(b) = Varianza Residua DEV(X)
e utilizza la statistica:
t(n-2) =
b −β
= F(1, n − 2)
SE(b)
dove β è il valore atteso e i gdl sono n−2.
Constante
ETÀ
Coefficiente
68.748
1.538
Errore Standard
20.850
.402
t
3.297
3.822
Significatività
.016
.009
Si evidenzia anche in tal modo un rapporto lineare significativo tra le variazioni di età e pressione
sistolica.
Utilizzando il software R, dopo aver introdotto i caratteri ETA e PAS e costruito il modello lineare:
> ETA=c(22,28,35,47,51,56,67,81)
> PAS=c(131,114,121,111,130,145,176,217)
> mod=lm(PAS~ETA)
attraverso il comando: anova(mod) si ottiene:
Df Sum Sq
ETA
1 6543.0
Residuals 6 2687.8
Mean Sq F value Pr(>F)
6543.0 14.606 0.008743 **
448.0
dove Df indica i gdl, Sum Sq le devianze, Mean Sq le varianze e Pr(>F) il p-value, essendo
quest’ultimo minore di 0.01 si rifiuta l’H0.
Col comando summary(mod) si ottengono i coefficienti del modello regressivo ma anche valori del
coefficiente di determinazione R-squared, che, per i dati in esame, permette di propendere per la
bontà del modello.
8
Coefficients:
Estimate Std. Error
(Intercept) 68.7481
20.8504
ETA
1.5375
0.4023
Multiple R-squared: 0.7088,
t value
3.297
3.822
Pr(>|t|)
0.01647 *
0.00874 **
Adjusted R-squared: 0.6603
In ogni caso va osservato che l’esempio proposto ha una funzione esclusivamente didattica e che
senza dubbio una inferenza con un numero di dati così eseguo ha scarso significato applicativo.
Di seguito sono proposte altre due applicazioni della regressione, con alcuni risultati, lasciando al
lettore l’opportunità di commentare i risultati.
Esercizio n.2
X = Consumo pro-capite di tabacco per sigarette (kg/anno),
Y = Quoziente di mortalità per tumore maligno della laringe, trachea, bronchi e polmoni
(per 100.000 abitanti)
Anni
X
Y
1985
0.281
5.05
1986
0.417
5.07
1987
0.485
5.81
1988
0.604
6.50
1989
0.648
7.16
1990
0.657
8.38
1991
0.660
8.14
1992
0.719
8.05
1993
0.761
8.56
1994
0.790
9.00
Sempre attraverso l’utilizzo di R si ottengono i risultati del test F ed i coefficienti b ed a:
Df
X
1
Residuals 8
Sum Sq Mean Sq F value Pr(>F)
17.4051 17.4051 61.658 4.993e-05 ***
2.2583 0.2823
Coefficients:
Estimate Std. Error
(Intercept) 1.9759
0.6827
X
8.6285
1.0989
Multiple R-squared: 0.8852,
t value
2.894
7.852
Pr(>|t|)
0.0201 *
4.99e-05 ***
Adjusted R-squared: 0.8708.
Si può dire che qualora il consumo annuo di tabacco pro-capite aumenti di 1 kg si avrà, mediamente, un aumento di circa 9/100.000 della mortalità nella popolazione analizzata.
Analisi dei residui
10
,2
Decessi per 100.000 ab.
8
Y = 1.98 + 8.63 X
7
6
5
4
3
2
R = 0.94
1
Rsq = 0.88
0
Residui relativi (residui/decessi osservati)
9
,1
0,0
-,1
-,2
,1
,2
,3
,4
,5
,6
Consumo tabac co (kg/anno)
,7
,8
4
5
6
7
8
9
Dec essi stimati dal modello
9
Esempio 3
Studio della relazione tra Capacità Vitale CV (=volume massimo di aria che è possibile contenere
nei polmoni dopo un’inspirazione profonda) di un campione di fumatori rispetto al numero di sigarette fumate giornalmente dagli stessi.
Soggetto
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
N° Sigarette (X)
2
4
5
6
7
8
9
10
11
12
13
14
15
16
20
22
CV (l aria)
6.5
6.5
6.0
5.9
5.5
5.5
5.0
4.0
4.0
4.4
4.1
3.5
3.4
3.2
2.8
2.5
(Y)
Ecco i risultati in R:
Df Sum Sq Mean Sq
Sigarette 1 24.1889 24.1889
Residuals 14
1.6911
0.1208
F value Pr(>F)
200.25 1.097e-09 ***
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.9970
0.1935
36.16
3.16e-15 ***
Sigarette -0.2250
0.0159
-14.15
1.10e-09 ***
Multiple R-squared: 0.9347,
Adjusted R-squared: 0.93
Il valore b = −0.225 indica che ogni sigaretta in più fumata comporta in media una diminuzione di
capacità vitale pari a 0.225 l. L’intercetta a = 6.99 rappresenta il valore medio di CV per i non fumatori.
10