Gestione ed Analisi Statistica dei dati 13 giugno 14

Master in “Evidence Based Practice e
Metodologia della Ricerca clinico-assistenziale”
Gestione ed Analisi Statistica dei dati
Daniela Fortuna
13 giugno 2014
ALMA MATER STUDIORUM – Università di Bologna
Argomenti
Parte teorica
Relazioni tra variabili
Analisi univariata
–
Regressione lineare
–
Correlazione
Analisi multivariata
–
Regressione lineare multivariata
–
Regressione logistica
ALMA MATER STUDIORUM – Università di Bologna
Le fasi dell’analisi statistica
Descrizione del campione
1° step
frequenze descrittive delle variabili d’interesse per lo studio
2° step
Inferenza dal campione alla popolazione :Stima
Intervalli di confidenza
3° step
Analisi Univariata
Significatività delle differenze delle caratteristiche tra i
gruppi a confronto Test di ipotesi (p-value)
misure di associazione tra variabili quantitative (correlazione
e regressione)
regressione che esprimono la relazione lineare tra due
variabili misurabili
4° step Analisi multivariata
che esprime la relazione tra l’outcome oggetto dello studio e più
variabili considerate contemporaneamente
ALMA MATER STUDIORUM – Università di Bologna
Misure di associazione tra variabili quantitative
Con il Test di ipotesi si mettono a confronto due
misure per valutare la significatività della loro
differenza
ma il test d’ipotesi non ci dice nulla riguardo il tipo di
relazione che esiste tra 2 variabili
Il passo successivo è trovare una funzione matematica
che esprime la relazione tra le variabili
ALMA MATER STUDIORUM – Università di Bologna
Misure di associazione tra variabili
quantitative
ID
pazienti
Età
Urea
mmol/L
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
60
76
81
89
44
58
55
74
45
67
72
91
76
39
71
56
77
37
64
84
3
5,6
7,8
9,6
5,4
7,3
3,1
6,8
4,7
4
13,69
14,89
7,8
4,6
7,4
4,6
6,2
4,2
11,7
6,9
Partiamo con un esempio : Su un campione
di 20 pazienti abbiamo rilevato l’età e la
concentrazione di urea per misurare
l’associazione tra queste due variabili.
Ovvero vogliamo valutare se al crescere
dell’età la concentrazione di urea
aumenta oppure diminuisce
ALMA MATER STUDIORUM – Università di Bologna
Misure di associazione tra variabili
quantitative
ID
pazienti
Età
Urea
mmol/L
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
60
76
81
89
44
58
55
74
45
67
72
91
76
39
71
56
77
37
64
84
3
5,6
7,8
9,6
5,4
7,3
3,1
6,8
4,7
4
13,69
14,89
7,8
4,6
7,4
4,6
6,2
4,2
11,7
6,9
Dal grafico sembra che ci sia una relazione.
Verifichiamo se questa relazione è lineare e se può
essere espressa mediante l’equazione di una retta
Riportiamo i valori della tabella in un grafico
ID Paz 2
ID Paz 1
ALMA MATER STUDIORUM – Università di Bologna
Misure di associazione tra variabili
quantitative la RETTA di REGRESSIONE
Tra questi punti possono passare diverse rette.
Dobbiamo trovare la retta che sia il più possibile vicina alla maggior parte dei
punti indicati sul grafico, e per individuare la retta che interpola meglio i dati
utilizziamo il metodo dei minimi quadrati
y
y
La retta che si ottiene
mediante il metodo dei
minimi quadrati, è quella
che minimizza la somma
dei quadrati delle
differenze tra ciascun
punto osservato e i punti
della retta.
Retta ottenuta con il metodo dei
minimi quadrati
xx
ALMA MATER STUDIORUM – Università di Bologna
RETTA di REGRESSIONE
METODO DEI MINIMI QUADRATI
Indichiamo con
x= età
y= Urea
ŷ= valori di urea stimati dalla retta per ogni valore di x
La retta che si ottiene
mediante il metodo dei
minimi quadrati, è
quella che minimizza la
seguente somma
y
(y- ŷ)
Retta ottenuta con il metodo dei
minimi quadrati
Σ (y- ŷ)2
x
ALMA MATER STUDIORUM – Università di Bologna
RETTA di REGRESSIONE
ID pazienti
x
y
ŷ (Valori di
urea stimati
dalla retta)
1
60
76
81
89
44
58
55
74
45
67
72
91
76
39
71
56
77
37
64
84
3
5,6
7,8
9,6
5,4
7,3
3,1
6,8
4,7
4
13,69
14,89
7,8
4,6
7,4
4,6
6,2
4,2
11,7
6,9
6,3
8,2
8,8
9,8
4,3
6,0
5,7
8,0
4,5
7,1
7,7
10,0
8,2
3,7
7,6
5,8
8,3
3,5
6,7
9,2
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
2
(y-ŷ)
(y-ŷ)
-3,3
10,7
-2,6
6,7
-1,0
1,0
-0,2
0,0
1,1
1,1
1,3
1,6
-2,6
6,6
-1,2
1,3
0,2
0,1
-3,1
9,7
6,0
35,7
4,9
23,9
-0,4
0,2
0,9
0,7
-0,2
0,0
-1,2
1,4
-2,1
4,5
0,7
0,5
5,0
24,5
-2,3
5,1
Mediante la retta di regressione sono
stati stimati dei valori di urea
corrispondenti all’età.
La differenza tra i valori stimati e i valori
osservati si indicano come residui
La somma dei quadrati delle
differenze (residui) è:
Σ
(y- ŷ)2 = 135,4
E poiché abbiamo usato il
metodo dei minimi quadrati
per individuare la retta che
meglio interpola i dati, questo
è il più piccolo valore che si
poteva ottenere tra tutte le
possibili
rette
ALMA MATER STUDIORUM – Università di Bologna
RETTA di REGRESSIONE
La retta di regressione viene espressa mediante l’equazione:
ŷ=a+bx
a = intercetta (ovvero il valore in cui la retta interseca l’asse delle Y
b = Pendenza della retta
indica di quante volte cresce o diminuisce la Y al crescere di 1 unità della X
La retta che abbiamo stimato sui nostri dati ha la seguente equazione:
ŷ=-0,963+0,12*x
Quindi poiché b=0,12 possiamo concludere che al crescere di 1 anno
di età la concentrazione di urea nel sangue cresce di 0, 12 mmol/L
ALMA MATER STUDIORUM – Università di Bologna
RETTA di REGRESSIONE
ID pazienti
x
y
ŷ (Valori di
urea stimati
dalla retta)
1
60
76
81
89
44
58
55
74
45
67
72
91
76
39
71
56
77
37
64
84
3
5,6
7,8
9,6
5,4
7,3
3,1
6,8
4,7
4
13,69
14,89
7,8
4,6
7,4
4,6
6,2
4,2
11,7
6,9
6,3
8,2
8,8
9,8
4,3
6,0
5,7
8,0
4,5
7,1
7,7
10,0
8,2
3,7
7,6
5,8
8,3
3,5
6,7
9,2
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
2
(y-ŷ)
(y-ŷ)
-3,3
10,7
-2,6
6,7
-1,0
1,0
-0,2
0,0
1,1
1,1
1,3
1,6
-2,6
6,6
-1,2
1,3
0,2
0,1
-3,1
9,7
6,0
35,7
4,9
23,9
-0,4
0,2
0,9
0,7
-0,2
0,0
-1,2
1,4
-2,1
4,5
0,7
0,5
5,0
24,5
-2,3
5,1
Da questa equazione
ŷ=-0,963+0,12*x
Sostituendo ai valori della x l’età,
si ottengono i valori stimati di urea
Ad esempio per x=60
ŷ=-0,963+0,12*60= 6,3
ALMA MATER STUDIORUM – Università di Bologna
Coefficienti non
standardizzati
Modello
1
Deviazion
e
sta
nd
ard
Err
ore
B
(Costante)
età
Coefficienti
standardizzati
-,963
2,633
,120
,039
Beta
Intervallo di confidenza
95,0% per B
t
,589
Sig.
Limite
inf
eri
ore
Limite
su
per
ior
e
-,366
,719
-6,496
4,569
3,096
,006
,039
,202
Riepilogo del modello
Modello
1
R-quadrato
R-quadrato corretto
R
,589
a
,347
,311
Deviazione standard
Errore della stima
2,74346
a. Predittori: (Costante), età
ALMA MATER STUDIORUM – Università di Bologna
Nel valutare la relazione tra variabili quantitative
(cioè misurabili) ci poniamo le seguenti domande
1. Esiste una associazione lineare tra due variabili?
2. Che verso ha tale relazione?
3. Qual è la forza di tale relazione?
ALMA MATER STUDIORUM – Università di Bologna
1.
Esiste una associazione lineare tra due variabili?
Verifica grafica:
La relazione è di tipo lineare se, rappresentata su assi cartesiani, si avvicina alla
forma di una retta.
In questo caso,
all’aumentare di X aumenta Y.
Y
Ad esempio, all’aumentare
dell’altezza (X) di una persona
aumenta anche il suo peso (Y).
X
ALMA MATER STUDIORUM – Università di Bologna
1.
Esiste una associazione lineare tra due variabili?
Verifica grafica:
La relazione è di tipo non lineare,
lineare se rappresentata su assi cartesiani,
ha un andamento curvilineo (parabola o iperbole).
Y
In questo caso a livelli bassi e
alti di X corrispondono livelli
bassi di Y; mentre a livelli
intermedi di X corrispondono
livelli alti di Y.
X
ALMA MATER STUDIORUM – Università di Bologna
2. Che verso ha tale relazione?
Il verso (o direzione) può essere:
positivo, se all’aumentare di una
variabile aumenta anche l’altra.
Il verso (o direzione) può essere:
negativo, se all’aumentare di una
variabile l’altra diminuisce.
Y
Y
X
X
ALMA MATER STUDIORUM – Università di Bologna
Relazione lineare:
retta di regressione
Se esiste una relazione lineare allora
Y può essere espressa in funzione di X
mediante l’equazione :
Variabile dipendente
Variabile indipendente
ovvero Esiste una funzione matematica che esprime
la relazione tra la Y (variabile dipendente) e la X (variabile indipendente)
a = intercetta (ovvero il valore in cui la retta interseca l’asse delle Y
b = Pendenza della retta
indica di quante volte cresce o diminuisce la Y al crescere di 1 unità della X
Y
Y
X
X
ALMA MATER STUDIORUM – Università di Bologna
La regressione lineare con SPSS
Dal dataset Completo che abbiamo creato ieri verificare se tra Età emodialitica (in
mesi) e l’Età BH c’è una relazione lineare
La variabile dipendente è l Età emodialitica
SPSS
Click Analizza
Regressione
lineare…
lineare
SPSS
Click Analizza
Regressione
Stima di curve
Click lineare, includi costante nell’equazione,
visualizza grafici
ALMA MATER STUDIORUM – Università di Bologna
Esempio con SPSS: risultato
Coefficientia
Modello
Coefficienti non
standardizzati
B
(Costante)
1
Età_emodialitica(m
esi)
Coefficienti
standardizz
ati
Deviazione
standard
Errore
23,337
1,551
,120
,016
t
Sig.
Beta
,390
Intervallo di confidenza
95,0% per B
Limite
inferiore
Limite
superiore
15,048
,000
20,286
26,388
7,723
,000
,090
,151
a. Variabile dipendente: Età_BH(mesi)
Il risultato ci dice che l’età BH dipende linearmente dall’età emodialitica in modo
significativo. Al crescere di un unità dell’età emodialitica l’età BH cresce di 0,12 mesi
Quindi l’equazione della retta di regressione è:
Y=23,34+0,12X
Mediante questa equazione possiamo stimare l’età BH per ogni età emodialitica
p-value
ALMA MATER STUDIORUM
– Università di Bologna
Esempio con SPSS: risultato
Quindi non tutta la variabilità dell’Età BH è spiegata
dall’età emodialitica.
Il rapporto tra la varianza della Y stimata e la
varianza osservata della Y, indicata anche come:
Graficamente:
Scarti
positivi
Varianza spiegata = R2
Varianza totale
Scarti negativi
Coefficiente di
determinazione
Riepilogo del modello e stime dei parametri
Variabile dipendente: Età_BH(mesi)
Equazion
e
Riepilogo del modello
Rquadrato
Lineare
,152
F
59,644
df1
Stime di parametri
df2
1
332
Sig.
,000
Costant
e
23,337
b1
,120
La variabile indipendente è Età_emodialitica(mesi).
ALMA MATER STUDIORUM – Università di Bologna
Coefficiente di determinazione
Varianza spiegata = R2
Varianza totale
Varianza spiegata è la varianza attribuibile alla relazione che sussiste tra X ed Y.
Ed è calcolata come differenza della retta di regressione dal valore medio
Varianza spiegata(Y) =
Σ (Ŷ-media di y)2
n
y stimato dalla retta di regressione
Varianza totale è la varianza di Y: varianza(Y) =
Σ (y-media di y)2
n
Quindi il coefficiente di determinazione R2 fornisce la proporzione della varianza
di Y determinata dalla sua relazione con X.
Nel nostro esempio R2 =0,152, significa che l’età emodialitica spiega il 15,8% della
variabilità dell’Età BH ovvero che il rimanente 85% è spiegato da altri fattori che non
sono stati considerati
ALMA MATER STUDIORUM – Università di Bologna
Retta di regressione
La retta di regressione ha la proprietà di minimizzare la somma
dei quadrati delle differenze tra i valori osservati e quelli stimati
mediante la retta
Scarti (differenze) di ciascun valore
rispetto al valore stimato dalla retta
25
20
15
10
5
0
0
20
40
60
80
100
120
ALMA MATER STUDIORUM – Università di Bologna
3. Qual è la forza di tale relazione?
Quanto più i punti sono raggruppati attorno ad una retta, tanto più forte è
la relazione tra due variabili.
Y
Y
X
X
ALMA MATER STUDIORUM – Università di Bologna
Se i punti sono dispersi in maniera uniforme, invece, tra
le due variabili non esiste alcuna relazione.
ALMA MATER STUDIORUM – Università di Bologna
misure di associazione tra variabili quantitative
Correlazione
La retta di regressione esprime la relazione funzionale tra Y ed X , quindi dopo aver
stimato l’intercetta a e la pendenza b, mediante l’equazione della retta
possiamo ottenere i valori di Y corrispondenti a ciascun valore di X
La correlazione indica la tendenza che hanno due variabili (X e Y) a variare
insieme, ovvero, a covariare e quindi indica la forza o l’intensità del loro legame.
ALMA MATER STUDIORUM – Università di Bologna
Coefficiente di correlazione
Può assumere valori compresi tra
-1 e 1
Y
Se assume valori positivi allora tra le 2 variabili
c’è una correlazione positiva:
positiva
al crescere di una variabile anche l’altra cresce
Se assume valori negativi allora tra le 2 variabili
c’è una correlazione negativa :
al crescere di una variabile l’altra decresce
X
Y
X
Se assume valore 0 significa che non esiste
relazione lineare tra le due variabili
ALMA MATER STUDIORUM – Università di Bologna
Coefficiente di correlazione di Pearson
Si usa per variabili
Quantitative
Indicando con X e Y le due variabili di cui vogliamo calcolare la correlazione
Covarianza(X, Y)
R=
varianza(X) *
varianza(Y)
sommatoria
Dove la
Covarianza(X, Y) =
varianza(X) =
varianza(Y) =
Σ (x-media di x)*(y-media di y)
Numerosità del campione
n
Σ (x-media di x)2
n
Σ (y-media di y)2
n
ALMA MATER STUDIORUM – Università di Bologna
La Correlazione con SPSS
Nel dataset Completo calcolate la correlazione
tra l’Età BH e l’ Età emodialitica utilizzando SPSS
SPSS
Click Correlazione
bivariata
ALMA MATER STUDIORUM – Università di Bologna
La Correlazione con SPSS
Correlazioni
Correlazione di
Pearson
Età_BH(mesi)
Età_emod
ialitica(m
esi)
1
,390**
Sig. (2-code)
N
Correlazione di
Pearson
Età_emodialitica
(mesi)
Età_BH(m
esi)
,000
334
334
,390**
1
Sig. (2-code)
,000
N
334
334
**. La correlazione è significativa al livello 0,01 (2-code).
Il coefficiente di correlazione è 0,39 ed è significativo p-value=0,000, è
positivo e quindi tra l’Età BH e l’ età emodialitica esiste una correlazione
positiva. Il quadrato dell’indice di correlazione fornisce il coefficiente di
determinazione: 0,39x0,39=0,152
ALMA MATER STUDIORUM – Università di Bologna
Coefficiente di correlazione
Per calcolare il coefficiente di correlazione è necessario che le
variabili siano quantitative o ordinali:
Quantitative
Ordinali
coefficiente di correlazione di Pearson
coefficienti di correlazione di Spearman (per ranghi)
ALMA MATER STUDIORUM – Università di Bologna
Coefficiente di correlazione di Spearman
Si usa per variabili
Ordinali
ed è un coefficiente di correlazione tra ranghi
Ad es. dai dati rilevati su 357 pazienti, il coefficiente di correlazione tra VAS ed età si ottiene nel
modo seguente:
VAS
N°
ADL
N° pazienti
rango
0
170
1
1
25
2
2
43
3
3
30
4
4
19
5
5
22
6
6
22
7
7
12
8
8
6
9
9
4
10
10
2
11
rango
0
6
1
8
2
10
3
16
4
11
5
30
6
276
1
2
3
4
5
6
rango
Vas
rango
ADL
1
1
1
1
1
1
1
2
2
2
2
2
1
2
3
4
5
6
7
1
2
3
4
5
n°
differenza tra
pazienti
ranghi
2
1
4
7
5
12
139
1
1
2
2
19
0
-1
-2
-3
-4
-5
-6
1
0
-1
-2
-3
7
ALMA MATER STUDIORUM – Università di Bologna
Coefficiente di correlazione di Spearman
rango
Vas
rango
ADL
1
1
1
1
1
1
1
2
2
2
2
2
1
2
3
4
5
6
7
1
2
3
4
5
n°
differenza tra
pazienti
ranghi
2
1
4
7
5
12
139
1
1
2
2
19
0
-1
-2
-3
-4
-5
-6
1
0
-1
-2
-3
Si calcola il coefficiente di correlazione di
Spearman
Rs = 1-
6 Σ D2
n*(n2-1)
Dove
D2 è la differenza al quadrato tra i ranghi
ALMA MATER STUDIORUM – Università di Bologna
Correlazione di Spearman tra VAS e ADL:
risultato di SPSS
Questo è il risultato della correlazione tra la VAS e l’ADL
Misure simmetriche
Valore
Ordinale per
ordinale
Intervallo per
intervallo
N. di casi validi
E.S.
asint.
T
appross.
a
b
Sig.
appross
.
Tau-b di
Kendall
-.080
.045
-1.767
.077
Tau-c di
Kendall
-.049
.028
-1.767
.077
Correlazione di
Spearman
-.093
.052
-1.749
.081
R di Pearson
-.064
.051
-1.202
.230
c
c
355
Correlazione -0,93: è negativa quindi al crescere dell’ADL la VAS
decresce ma questa correlazione non è significativa (p-value=0.081),
ALMA MATER STUDIORUM – Università di Bologna
Coefficiente di correlazione di Spearman
in SPSS
SPSS
Click Analizza
Statistiche descrittive
Tavole di contingenza
Statistiche
Click Correlazioni, Tau-b di Kendall, Tau-c di Kendall
SPSS
Click Analizza
Correlazione
bivariata
ALMA MATER STUDIORUM – Università di Bologna
Esercizio
Utilizzando il dataset Completo Calcolate:
Retta di regressione e correlazione tra le seguenti variabili:
• VAS ed età
• VAS e v_difficoltà_inserimento
• VAS e a_difficoltà_inserimento
• VAS e effetto trampolino
• VAS e a_calibro
• Ematocrito ed età
• Ematocrito ed età emodialitica
• Ematocrito ed età BH
• Età emodialitica e BMI
ALMA MATER STUDIORUM – Università di Bologna
Analisi Statistica multivariata
E’ la parte più importante dello studio
• L’Analisi multivariata permette di stimare un
modello matematico di associazione tra l’endpoint di
interesse (variabile dipendente) e più variabili
considerate contemporaneamente (variabili
indipendenti)
Variabile
dipendente
Y=a+b1X1+b2X2
Variabili
indipendenti
ALMA MATER STUDIORUM – Università di Bologna
Analisi di regressione
Esempio Regressione lineare semplice:
vogliamo stimare la relazione tra la pressione sistolica arteriosa e il peso
corporeo
Dati su 10 soggetti
Diagramma di dispersione
Pressione
1
2
3
4
5
6
7
8
9
10
Totale
media
sistolica
arteriosa
(PAS) (mm
Hg)
130
110
130
120
150
125
140
135
150
160
1350
135
Peso
corporeo
(Kg)
60
60
65
65
70
70
75
75
80
80
700
70
170
PAS (mm Hg)
N°
soggetti
160
150
140
130
120
110
100
55
60
65
70
75
80
85
Peso (Kg)
C’è una tendenza della PAS ad aumentare
al crescere del peso
ALMA MATER STUDIORUM – Università di Bologna
PAS (mm Hg)
Analisi di regressione:
esempio regressione lineare semplice
170
160
150
140
130
120
110
Questi punti sono dispersi intorno
ad una possibile retta di regressione
100
55
60
65
70
Peso (Kg)
75
80
85
L’equazione di questa possibile retta è:
PAS
(variabile dipendente)
Y=a+bX
Peso
(variabile indipendente)
Mediante il metodo dei minimi quadrati che minimizza gli scarti tra la retta e i vari punti
Si ottiene: Y=19,5+1,65X che significa che per ogni valore del Peso (X)
moltiplicandolo per 1,65 e sommandogli 19,5 si ottiene il valore stimato di PAS, a cui va
associato un intervallo di confidenza
Per il peso x=80 si ha la PAS stimata y=19,5+1,65*80=151,5
ALMA MATER STUDIORUM – Università di Bologna
Perché è necessaria l’analisi multivariata ?
Ma la relazione trovata tra PAS e Peso corporeo può risentire dell’effetto di altre variabili
confondenti che è necessario tenere in considerazione
Pressione
sistolica
Peso
N° soggetti arteriosa corporeo
(PAS) (mm (Kg) X1
Hg) Y
1
2
3
4
5
6
7
8
9
10
Totale
media
130
110
130
120
150
125
140
135
150
160
1350
135
60
60
65
65
70
70
75
75
80
80
700
70
Età (anni)
X2
46
22
32
40
75
35
26
26
32
62
396
39,6
Sesso
(F=1,
M=0) X3
1
1
1
1
1
0
0
0
0
0
5
0,5
1. E’ ragionevole pensare che la
relazione tra pressione arteriosa e
peso sia diversa a seconda dell’età
dei pazienti
2. E’ ragionevole pensare che la relazione
tra pressione arteriosa e peso sia
diversa anche in base al sesso
ALMA MATER STUDIORUM – Università di Bologna
esempio regressione multipla
Quindi all’equazione della retta aggiungiamo 2 ulteriori variabili l’età e il sesso:
PAS
(variabile dipendente)
Y=a+b1X1 + b2X2+b3X3
Peso
Pressione
sistolica
Peso
N° soggetti arteriosa corporeo
(PAS) (mm (Kg) X1
Hg) Y
1
2
3
4
5
6
7
8
9
10
Totale
media
130
110
130
120
150
125
140
135
150
160
1350
135
60
60
65
65
70
70
75
75
80
80
700
70
Età (anni)
X2
46
22
32
40
75
35
26
26
32
62
396
39,6
Sesso
(F=1,
M=0) X3
1
1
1
1
1
0
0
0
0
0
5
0,5
Età
Sesso
Vogliamo
stimare Y in base ai valori di X1 X2 e X3
Il modello di regressione multivariato
Y =a+ b1 X1 + b2 X2 + b3 X3
Dai dati si ottiene :
Y =-17,48+ 1,92 X1 + 0,37 X2 + 6,5 X3
ALMA MATER STUDIORUM – Università di Bologna
Costante di
regressione
Coefficienti parziali
di regressione
Y=a+b1X1 + b2X2+b3X3
Dai dati si ottiene :
Y =-17,48+ 1,92 X1 + 0,37 X2 + 6,5 X3
Interpretazione
La PAS (Y) cresce di 1,92 unità al crescere di 1 kg di peso (X1),
di 0,37 unità al crescere di 1 anno di età e di 6,5 unità se il paziente è femmina
ALMA MATER STUDIORUM – Università di Bologna
Come è cambiata la stima di Y passando dalla
regressione univariata a quella multivariata
• La relazione tra PAS e peso senza considerare
l’influenza di altri fattori di rischio, è stimata dalla
retta di regressione
•
Y=19,5+1,65 X1
Aggiungendo altre 2 variabili la relazione stimata tra
PAS e peso cambia
Y = -17,48+ 1,92 X1 + 0,37 X2 + 6,5 X3
ALMA MATER STUDIORUM – Università di Bologna
Regressione univariata
Y=19,5+1,65 X1
output SPSS
Il 65% del valore di PAS
È spiegato dalla sua relazione con l’età
Riepilogo del modello
Modello
R
R-quadrato
,805a
1
R-quadrato corretto
Deviazione
standard Errore
della stima
,604
9,610
,648
a. Predittori: (Costante), Peso corporeo (Kg) X1
Coefficienti
Modello
a
Coefficienti non standardizzati
Coefficienti
t
Sig.
standardizzati
B
Deviazione
Beta
standard Errore
1
(Costante)
Peso corporeo (Kg) X1
19,500
30,236
1,650
,430
,805
,645
,537
3,839
,005
a. Variabile dipendente: Pressione sistolica arteriosa (PAS) (mm Hg) Y
Il peso è in relazione significativa con la pressione sistolica arteriosa(PAS):
al crescere di 1 kg di peso la PAS cresce di 1,65 unità
ALMA MATER STUDIORUM – Università di Bologna
Regressione multivariata
L’89,5% della variabilità
della PAS è spiegata dal
modello multivariato
Y = -17,48+ 1,92 X1 + 0,37 X2 + 6,5 X3
output SPSS
Riepilogo del modello
Modello
1
R
R-quadrato
,946a
R-quadrato
corretto
,895
Deviazione
standard
Errore della
stima
,842
6,075
L’unico coefficiente
significativo
a. Predittori: (Costante), Sesso (F=1 M=0) X3, Età (anni) X2, Peso
corporeo (Kg) X1
Coefficienti
Modello
a
Coefficienti non standardizzati
Coefficienti
t
Sig.
standardizzati
B
Deviazione
Beta
standard Errore
(Costante)
1
Peso corporeo (Kg) X1
Età (anni) X2
Sesso (F=1 M=0) X3
-17,478
46,367
-,377
,719
1,920
,652
,937
2,947
,026
,374
,154
,417
2,425
,052
6,499
9,332
,224
,696
,512
a. Variabile dipendente: Pressione sistolica arteriosa (PAS) (mm Hg) Y
ALMA MATER STUDIORUM – Università di Bologna
La regressione lineare multivariata
con SPSS
Dal dataset Completo verificare se c’è una relazione lineare
tra la VAS e
l’età
Randomizzazione
v_difficoltà_inserimento
v_effetto_trampilino
La variabile dipendente è la VAS
SPSS
Click Analizza
Regressione
lineare…
lineare
ALMA MATER STUDIORUM – Università di Bologna
Riepilogo del modello
Modell
o
R
Rquadrato
1
,276a
R-quadrato
corretto
,076
Deviazione
standard
Errore della
stima
,065
1,543
a. Predittori: (Costante), Età, Randomizzazione,
V_effetto_trampolino, V_difficoltà_inserimento
Coefficientia
Modello
Coefficienti non
standardizzati
B
(Costante)
1
Coefficienti
standardizzati
Deviazione
standard
Errore
Beta
Intervallo di confidenza
95,0% per B
Limite
inferiore
Limite
superiore
,005
1,043
5,690
,026
,49
1
,624
-,253
,421
,343
,021
,34
2
,732
-,557
,792
,595
,260
4,3
02
,000
1,388
3,728
-,004
,07
4
,941
-,014
,013
1,181
Randomizzazione
,084
,171
V_difficoltà_inseri
mento
,117
V_effetto_trampoli
no
2,558
,000
Sig.
2,8
50
3,366
Età
t
,007
a. Variabile dipendente: VAS
Quindi il modello trovato per la VAS è:
Y=-3,36+0,08X1+-0,117X2+2,56X3+0X4
ALMA MATER STUDIORUM – Università di Bologna
Alcune considerazioni sull’Indice di
determinazione R2
l’Indice di determinazione R2 misura la frazione della
variabilità di Y dovuta alla sua dipendenza lineare dai
regressori.
Presenta però degli inconvenienti:
• Assume valori elevati anche quando la relazione non è
di tipo lineare
• Cresce sempre al crescere del numero di regressori
Per ovviare a questi inconvenienti si considera
R2 corretto =1-(1-R2)*(n-1)/(n-m)
dove n è la numerosità del campione ed m è il numero dei
regressori
ALMA MATER STUDIORUM – Università di Bologna
Riepilogo del modello
Modell
o
R
Rquadrato
1
,276a
R-quadrato
corretto
,076
Deviazione
standard
Errore della
stima
,065
1,543
a. Predittori: (Costante), Età, Randomizzazione,
V_effetto_trampolino, V_difficoltà_inserimento
Coefficientia
Modello
Coefficienti non
standardizzati
B
(Costante)
1
Coefficienti
standardizzati
Deviazione
standard
Errore
Beta
Intervallo di confidenza
95,0% per B
Limite
inferiore
Limite
superiore
,005
1,043
5,690
,026
,49
1
,624
-,253
,421
,343
,021
,34
2
,732
-,557
,792
,595
,260
4,3
02
,000
1,388
3,728
-,004
,07
4
,941
-,014
,013
1,181
Randomizzazione
,084
,171
V_difficoltà_inseri
mento
,117
V_effetto_trampoli
no
2,558
,000
Sig.
2,8
50
3,366
Età
t
,007
a. Variabile dipendente: VAS
Quindi il modello trovato per la VAS è:
Y=-3,36+0,08X1+-0,117X2+2,56X3+0X4
ALMA MATER STUDIORUM – Università di Bologna
Analisi Statistica multivariata
per endpoints dicotomici
Nella maggior parte degli studi clinici la variabile dipendente può
assumere solo due valori:
sì, di solito codificato come 1
no codificato come 0.
Queste variabili sono definite variabili dicotomiche
Esempi di variabili dipendenti dicotomiche nella ricerca clinica:
presenza/assenza di una patologia (es. BPCO, Scompenso
cardiaco, Diabete ecc)
Evento sì/no (es. morte, complicanza, riospedalizzazione ecc.)
ALMA MATER STUDIORUM – Università di Bologna
Analisi statistica multivariata
per endpoints dicotomici
il modello di regressione logistica
Il modello di regressione logistica è il modello per
l’analisi multivariata che viene usato quando la variabile
dipendente Y è una variabile dicotomica.
La Y viene espressa come logit di p ovvero il logaritmo del rapporto p
tra la probabilità di avere l’evento e la probabilità di non averlo
E’ espresso come:
Logit(p) =α+ β1 X1 + β2 X2 + β3 X3+..
E’ un modello particolarmente utile perché l’esponenziale dei coefficienti β
Sono gli odds ratio delle corrispondenti variabili indipendenti X:
e β1 =OR(X1), e β2 =OR(X2), ….
Viene utilizzato soprattutto negli studi caso-controllo, in cui i casi sono usualmente
definiti come nuovi eventi nella popolazione in studio e i controlli sono i non casi
ALMA MATER STUDIORUM – Università di Bologna
il modello di regressione logistica
il logit
Logit(p) =α+ β1 X1 + β2 X2 + β3 X3+..
dove
Logit(p) è il ln p/(1-p)
ovvero il logit è il logaritmo naturale (ln) dell’odds p/(1-p)
Ad esempio se l’outcome in studio è la morte il logit è il logaritmo
naturale del rapporto tra la probabilità di morire p e la probabilità di
sopravvivere (1-p).
Da cui p=probabilità di morire=
e (α+ β1 X1 + β2 X2 + β3 X3+..)
1- e (α+ β1 X1 + β2 X2 + β3 X3+..)
ALMA MATER STUDIORUM – Università di Bologna
Analisi statistica multivariata
per endpoints dicotomici
il modello di regressione logistica ESEMPIO
Es. Studio sugli esiti intra-ricovero
dei pazienti con età >=80
anni sottoposti ad intervento cardiochirurgico nei centri
dell’Emilia-Romagna.
Obiettivo individuazione dei fattori di rischio associati alla
mortalità intra-ricovero
analisi statistiche effettuate:
1.
Analisi univariata per verificare quali caratteristiche pre-operatorie
prese singolarmente erano associate alla mortalità intra-ricovero
1.
Analisi multivariata con modello di regressione logistica per
valutare l’associazione di ciascuna delle caratteristiche risultate
significative dall’analisi univariata, al netto di tutte le altre
ALMA MATER STUDIORUM – Università di Bologna
Analisi univariata Mortalità intra-ricovero, ULTRA 80
enni: 1822 interventi Odds Ratio per ciascun fattore di rischio
Caratteristiche pre-operatorie significativamente associate alla mortalità
Caratteristiche pre-operatorie
Intervallo di confidenza
%morti
Odds Ratio
p-value
Procedura in emergenza
28,4
7,2
4,1
12,8
<0,0001
Infarto miocardico recente
8,9
1,8
1,2
2,7
0,008
Scompenso cardiaco
14,9
3,2
2
5,2
<0,0001
Angina instabile
8,9
1,7
1,1
2,7
0,03
Instabilità emodinamica
25,5
5,9
3,1
11,4
<0,0001
Rianimazione cuore-polmone
40
10,6
1,7
63,8
0,0014
Shock cardiogeno
28
6,4
2,6
15,7
<0,0001
FE 30%-50%
9
1,8
1,2
2,8
0,003
NYHA 3 e 4
8,2
1,9
1,3
2,7
0,0015
Creatinina>=2mg/dl
13
2,4
1,1
5,5
0,0301
BPCO severa
10,3
1,9
1,1
3,6
0,044
Reintervento
14
2,6
1,2
6
0,017
Intervento di Bypass + Valvole
8,2
1,6
1
2,4
0,037
ALMA MATER STUDIORUM – Università di Bologna
Risultati analisi multivariata
Fattori di rischio risultati significativamente associati alla mortalità intra-ricovero
da un Modello
di regressione logistica multivariato
Odds Ratio aggiustati per ciascun fattore di rischio
OR
Fattori di rischio
95% Wald
Confidence
Limits
p value
Procedura in emergenza
6.5
3.6
11.9
<.0001
NYHA IV
2.3
1.4
3.8
0.002
EF 30% - 50%
1.6
1.0
2.4
0.0312
BPCO severa
2.1
1.1
4.2
0.0235
Reintervento
2.8
1.2
6.7
0.0164
Inyervento di Bypass + Valvole
1.7
1.1
2.6
0.0196
ALMA MATER STUDIORUM – Università di Bologna
Risultati dell’analisi univariata e dell’analisi multivariata:
Odds ratio dei fattori di rischio significativamente
associati alla mortalità
Con l’analisi multivariata 6 caratteristiche pre-operatorie, che erano risultate
significativamente associate alla mortalità nell’analisi univariata, perdono la
loro significatività statistica
Caratteristiche pre-operatorie
%morti
Analasi univariata
Analisi multivariata
Odds Ratio
p-value
Odds Ratio
p-value
6,5
<0,0001
Procedura in emergenza
28,4
7,2
<0,0001
Infarto miocardico recente
8,9
1,8
0,008
Scompenso cardiaco
14,9
3,2
<0,0001
Angina instabile
8,9
1,7
0,03
Instabilità emodinamica
25,5
5,9
<0,0001
Rianimazione cuore-polmone
40
10,6
0,0014
Shock cardiogeno
28
6,4
<0,0001
FE 30%-50%
9
1,8
0,003
1,6
0,031
NYHA 3 e 4
8,2
1,9
0,0015
2,3
0,002
Creatinina>=2mg/dl
13
2,4
0,0301
BPCO severa
10,3
1,9
0,044
2,1
0,024
Reintervento
14
2,6
0,017
2,8
0.016
Intervento di Bypass + Valvole
8,2
1,6
0,037
1,7
0,02
ALMA MATER STUDIORUM – Università di Bologna
Interpretazione dei risultati dell’analisi multivariata
1. Come interpretare il fatto che 6 caratteristiche pre-operatorie, che erano
risultate significativamente associate alla mortalità nell’analisi univariata,
perdono la loro significatività statistica nell’analisi multivariata
Il motivo è che ciascun paziente può avere più di una caratteristica preoperatoria contemporaneamente e con l’analisi multivariata si stima
l’associazione con la mortalità di ciascuna caratteristica al netto
dell’influenza delle altre
Ad esempio: lo scompenso cardiaco che dall’analisi univariata risultava essere
fortemente associata alla mortalità (OR=3,2) ha perso la sua significatività
statistica nell’analisi multivariata perché i pazienti con scompenso cardiaco
deceduti avevano anche altre caratteristiche maggiormente associate alla
mortalità come ad esempio NYHA 3 o 4, precedente intervento di cardiochirurgia
ecc.
Quindi lo scompenso cardiaco da solo non risulta essere un fattore di
rischio di mortalità dopo intervento cardiochirurgico nei pazienti con più di
80 anni.
ALMA MATER STUDIORUM – Università di Bologna
Interpretazione dei risultati dell’analisi multivariata
(segue…)
2. Come interpretare gli odds ratio stimati dall’analisi multivariata
Fattori di rischio
Procedura in emergenza
FE 30%-50%
NYHA 3 e 4
BPCO severa
Reintervento
Intervento di Bypass + Valvole
%morti
28,4
9
8,2
10,3
14
8,2
Analisi multivariata
Odds Ratio
6,5
1,6
2,3
2,1
2,8
1,7
p-value
<0,0001
0,031
0,002
0,024
0.016
0,02
Interpretazione:
I pazienti ultra 80enni sottoposti ad intervento cardiochirurgico in emergenza
sia che abbiano o non abbiano altri fattori di rischio associati risultati
significativi dall’analisi multivariata (come FE 30%-50%, NYHA 3 o 4, BPCO
severa, reintervento o intervento di Bypass + valvole) hanno un rischio di
morte intra-ricovero 6 volte e mezzo superiore a quelli che vengono operati in
elezione o in urgenza.
Analoga interpretazione può essere data per gli altri fattori di rischio.
ALMA MATER STUDIORUM – Università di Bologna
Analisi multivariata:
proprietà della regressione logistica
Il modello di regressione logistica permette:
1.
Di effettuare l’analisi multivariata per outcome dicotomici (nel
nostro esempio la morte intra-ricovero)
2.
Fornisce direttamente gli odds ratio dei fattori di rischio
3.
Fornisce per ciascun paziente la probabilità di avere l’outcome in
studio in base alle sue caratteristiche
ALMA MATER STUDIORUM – Università di Bologna
Analisi multivariata: regressione
logistica con SPSS
SPSS
Click Regressione
Logistica binaria…
ALMA MATER STUDIORUM – Università di Bologna