Barbati Giulia lezione 4

Corso di Statistica Medica
Studio dell’effetto di più variabili indipendenti su una
variabile dipendente:
• Regressione lineare multipla
• Regressione logistica
Corso di Statistica Medica
Regressione lineare multipla
Nel modello di regressione lineare semplice le variazioni della variabile dipendente
sono spiegate mediante una sola variabile esplicativa. Si ottiene così un modello
semplice che tuttavia non è sempre in grado di spiegare i fenomeni di interesse in
maniera adeguata.
Un modello che spiegasse il consumo di burro soltanto in funzione del prezzo pB
CB=β1+β2pB+ε, potrebbe risultare poco realistico.
I consumatori infatti, nelle loro scelte, considerano anche i prezzi dei beni
sostitutivi, come il prezzo dell’olio pO o della margarina pM e risentono di
modificazioni del reddito R.
Pertanto un modello più realistico dovrebbe considerare quali ulteriori variabili
esplicative pO , pM e R:
R
Corso di Statistica Medica
Un modello di regressione multipla spiega la variabile dipendente Y in funzione di k
variabili esplicative o regressori, con k > 2:
Per convenzione la prima variabile esplicativa x1 assume valore 1.
Il primo coefficiente di regressione β1 rappresenta l’intercetta del modello.
Gli altri coefficienti, di pendenza, costituiscono le derivate parziali della variabile
dipendente rispetto alle variabili esplicative:
la variazione che subisce in
mediaY in seguito a una
variazione unitaria di xj mentre il
valore delle altre variabili rimane
costante.
Corso di Statistica Medica
Ipotesi sui regressori (X1, …, Xk):
(X1, …, Xk) sono variabili deterministiche, ovvero misurate senza errore
Ipotesi su ε:
La media degli errori è zero
La varianza degli errori è costante
Gli errori sono indipendenti (incorrelati)
Y~Normale
La distribuzione degli errori è una v.c Normale
Corso di Statistica Medica
I coefficienti del modello di regressione lineare multipla si stimano a partire dai dati
campionari mediante il metodo dei minimi quadrati o della massima verosimiglianza.
bj stima di βj
Y * = b1 + b2 X 2 + ... + bk X k
I coefficienti di regressione in un modello di regressione multiplo si dicono “coefficienti di regressione
parziale”.
Ciascuno di essi esprime la variazione media della variabile dipendente, per ogni variazione unitaria della
corrispondente variabile indipendente, a parità di valori assunti rispetto agli altri regressori nel modello.
Essendo dotati di unità di misura i valori dei diversi coefficienti di regressione non possono essere tra loro
confrontati e quindi non possono essere indicatori dell’importanza della variabile indipendente associata
nella spiegazione della variabilità della Y.
Se si considerano le variabili ‘standardizzate’, cioè:
Ystd =
Y − µY
X j , std =
σY
X j − µXJ
σX
J
Ystd = β1 + β 2 X 2, std + ... + β k X k , std + ε
j = 1,...k
E’ allora possibile confrontare l’entità dei diversi
coefficienti di regressione parziale.
Corso di Statistica Medica
L’indice di determinazione lineare R2
Per quantificare la bontà di adattamento del modello di regressione ai dati, si può
utilizzare un indice che valuta la quota di variabilità di Y spiegata dal modello
La devianza totale di Y nel modello di regressione lineare multipla può essere
scomposta come segue:
è la devianza totale di Y
è la devianza di regressione di Y
è la devianza residua o di dispersione di Y
Corso di Statistica Medica
L’indice di determinazione lineare R2
L’indice di determinazione lineare varia fra 0 e 1 poiché 0<= DevReg(Y)<=Dev(Y).
R2 misura la frazione della variabilità di Y dovuta alla sua dipendenza lineare dai
regressori.
Presenta però alcuni inconvenienti:
- può assumere valori elevati anche quando la relazione non è di tipo lineare;
- cresce sempre al crescere del numero dei regressori, pertanto non è un indicatore adeguato per
il confronto tra modelli con un diverso numero di regressori.
R2 corretto:
R 2 = 1 − (1 − R 2 )
n −1
n−m
m=# regressori
Corso di Statistica Medica
La scomposizione delle devianze vale anche rispetto ai corrispondenti gradi di libertà:
n = dimensione campione
m = numero regressori
è la varianza totale di Y
è la varianza di regressione di Y
è la varianza residua di Y
Corso di Statistica Medica
Test di ipotesi sui parametri (I)
In questo contesto risulta necessario avvalersi dell’ipotesi di normalità formulata
sui residui. Da essa discende infatti la normalità in distribuzione dello stimatore dei
minimi quadrati ed il rapporto tra la devianza di regressione sulla devianza residua
distribuito come una v.c. F con m ed n-m-1 gdl:
Fissato un livello di significatività α, se Fcampione > Fα allora il test è significativo al
livello α, e H0 va rifiutata.
Corso di Statistica Medica
Se H0 viene rifiutata:
• la variabilità di Y spiegata dal modello è significativamente più elevata della
variabilità residua;
• ad almeno uno degli m regressori corrisponde in popolazione un coefficiente di
regressione significativamente diverso da 0.
Se invece Fcampione <= Fα allora il test NON è significativo al livello α, e H0 non
viene rifiutata; in tal caso il modello non è adeguato, tra Y e gli m regressori non vi
è alcuna relazione di dipendenza lineare.
Poiché:
Corso di Statistica Medica
Test di ipotesi sui parametri (II)
Test sul singolo parametro:
Fissato un livello di significatività α, se t > +tα/2
oppure t < -tα/2 allora il test è significativo al livello α,
e H0 va rifiutata: il contributo di Xj nel modello in cui vi
sono gli altri regressori è significativo.
Corso di Statistica Medica
I software statistici generalmente per ogni parametro stimato forniscono il p-valore
del test. Per ciascuna ipotesi nulla H0: bj=0 i software riportano quindi la probabilità:
dove toss è il valore osservato della statistica test sul campione.
Di seguito è schematizzato un tipico output di un software per la regressione multipla:
Corso di Statistica Medica
“Diagnostica” del modello di regressione
Con il termine “diagnostica”, nell’ambito della regressione, ci si riferisce a un
insieme di tecniche volte all’individuazione di eventuali problemi rispetto al modello
o rispetto ai dati. A questo fine particolare rilievo assumono i residui.
L’analisi dei residui permette di:
- stabilire se le ipotesi formulate sul termine d’errore del modello di regressione
sono valide rispetto al fenomeno analizzato;
- identificare l’eventuale presenza di casi outlier (=anomali rispetto alla variabile
dipendente Y), di leverage (=anomali rispetto alle X), influenti (=la cui esclusione
modifica molto le stime).
Poiché i residui sono gli scarti tra i valori osservati e quelli stimati dal
modello, costituiscono la base per misurare la variabilità di Y non spiegata dal
modello di regressione.
Corso di Statistica Medica
Distribuzione dei residui: dovrebbero
disporsi in maniera casuale intorno all’asse
delle ascisse;
eteroschedasticità
La presenza di strutture nel grafico dei
residui può indicare errori
di specificazione nel modello:
autocorrelazione
Corso di Statistica Medica
Presenza di un trend: indica l’omissione di un
predittore importante.
Residui in presenza di una relazione non
lineare
È stato stimato questo modello:
al posto di:
Corso di Statistica Medica
Quando è possibile individuare dei gruppi
nei residui, ciò può indicare che si è
verificato un cambiamento strutturale nella
relazione fra la variabile dipendente e le
variabili esplicative. Le osservazioni sono
divise in due gruppi (o periodi)
generati da due modelli con diversi valori
dei parametri.
Residui molto distanti dagli altri possono
indicare la presenza di valori anomali,
ossia osservazioni distanti dalla
maggioranza dei dati.
Corso di Statistica Medica
Dimensione del campione e numero di variabili indipendenti:
• Si raccomanda un numero di osservazioni 10-20 volte superiore al numero delle
variabili indipendenti;
Multicollinearità:
• Nel caso si abbiano a disposizione numerose variabili indipendenti, è
opportuno verificare se esse risultano correlate tra loro;
-> bisogna infatti fare attenzione a non includere nel modello di regressione
variabili significativamente correlate;
Costruzione del modello di regressione:
• Dopo aver valutato la multicollinearità ed aver escluso eventuali variabili
esplicative si procede alla costruzione del modello con le variabili rimanenti.
Corso di Statistica Medica
Costruzione del modello di regressione:
• Approccio
forward/backward: partendo da un modello
parziale si procede per passi e di volta in volta si aggiunge
una variabile che contribuisce in maniera significativa al
miglioramento del modello o si elimina una variabile il cui
coefficiente non è significativo.
• Approccio
step-wise: si valutano tutti i possibili modelli di
regressione ricavabili da un certo insieme di variabili
esplicative e si individuano i sottoinsiemi migliori secondo un
certo criterio (per esempio osservando l’R2).
…ci vuole logica e buon senso!
Corso di Statistica Medica
Esempio di applicazione del modello di regressione multipla
Una ditta automobilistica americana ha un registro di vendite dei diversi modelli di
macchine.
Per identificare i modelli che vanno meglio nel mercato e quelli che vanno peggio,
si vuole stabilire una relazione tra le caratteristiche del veicolo e il livello di vendite.
Le informazioni sulle macchine sono nel file ‘regr1.sav’ (file di dati SPSS).
Si utilizza la regressione lineare multipla per identificare i fattori che influenzano in
modo significativo il livello di vendite.
Variabile dipendente Y: vendite (in migliaia)
Variabili esplicative X: Vehicle type (tipo di veicolo), Price in thousands (prezzo), Engine
size (motore), Horsepower (potenza), Wheelbase (interasse), Width (larghezza), Length
(lunghezza), Curb weight (peso), Fuel capacity (capacità serbatoio), Fuel efficiency
(benzina per Km)
Corso di Statistica Medica
La distribuzione della variabile
dipendente Y non è normale…
100
Frequency
80
60
25
40
20
0
0
100
200
300
400
500
600
Sales in thousands
Frequency
20
15
10
5
…operiamo una trasformazione logaritmica
per normalizzare Y:
0
-2
0
2
4
Log-transformed sales
6
8
Corso di Statistica Medica
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
130.300
138.082
268.383
df
10
141
151
Mean Square
13.030
.979
F
13.305
Sig.
.000a
a. Predictors: (Constant), Fuel efficiency, Length, Price in thousands, Vehicle type,
Width, Engine size, Fuel capacity, Wheelbase, Curb weight, Horsepower
b. Dependent Variable: Log-transformed sales
Il test F sul modello stimato con tutti i predittori ha un valore di p <0.001: il modello
di regressione spiega dunque in modo significativo la variabilità delle vendite.
Model Summary
Model
1
R
R Square
a
.697
.486
Adjusted
R Square
.449
Std. Error of
the Estimate
.98960
a. Predictors: (Constant), Fuel efficiency, Length, Price in
thousands, Vehicle type, Width, Engine size, Fuel
capacity, Wheelbase, Curb weight, Horsepower
Quasi la metà della variabilità totale
è spiegata dal modello di regressione
(R2=0.486)
Corso di Statistica Medica
Coefficientsa
Model
1
(Constant)
Vehicle type
Price in thousands
Engine size
Horsepower
Wheelbase
Width
Length
Curb weight
Fuel capacity
Fuel efficiency
Unstandardized
Coefficients
B
Std. Error
-3.017
2.741
.883
.331
-.046
.013
.356
.190
-.002
.004
.042
.023
-.028
.042
.015
.014
.156
.350
-.057
.047
.081
.040
Standardized
Coefficients
Beta
.293
-.502
.281
-.092
.241
-.073
.148
.075
-.167
.262
t
-1.101
2.670
-3.596
1.871
-.509
1.785
-.676
1.032
.447
-1.203
2.023
Sig.
.273
.008
.000
.063
.611
.076
.500
.304
.655
.231
.045
a. Dependent Variable: Log-transformed sales
Anche se il modello spiega bene la variabilità delle vendite, ci sono alcuni fattori non
significativi; ciò significa che il modello stimato ha “troppi” predittori rispetto a quelli necessari.
Per quantificare l’importanza relativa dei predittori, si deve guardare ai coefficienti standardizzati:
anche se il prezzo ha un coefficiente piccolo rispetto al tipo di veicolo, esso contribuisce di più nel
modello perché ha un coefficiente standardizzato più grande.
Corso di Statistica Medica
Coefficientsa
Model
1
Vehicle type
Price in thousands
Engine size
Horsepower
Wheelbase
Width
Length
Curb weight
Fuel capacity
Fuel efficiency
Zero-order
.274
-.552
-.135
-.389
.292
.037
.215
-.041
-.016
.121
Correlations
Partial
.219
-.290
.156
-.043
.149
-.057
.087
.038
-.101
.168
Part
.161
-.217
.113
-.031
.108
-.041
.062
.027
-.073
.122
Collinearity Statistics
Tolerance
VIF
.304
3.293
.187
5.337
.162
6.159
.112
8.896
.200
4.997
.313
3.193
.178
5.605
.131
7.644
.189
5.303
.217
4.604
Proviamo a
ri-stimare il modello
usando il metodo
step-wise
a. Dependent Variable: Log-transformed sales
Multicollinearità: c’è un problema di correlazione tra le variabili esplicative: i coefficienti
di correlazione sono diversi da zero.
La ‘Tolerance’ è la % di varianza in un dato predittore che non può essere spiegata
dagli altri predittori. Per cui i valori bassi di tale indice sono indicazione di forte
collinearità.
Un ‘Variance Inflation Factor’ (VIF) >2 è considerato problematico….
Corso di Statistica Medica
Coefficients
Model
1
2
Unstandardized
Coefficients
B
Std. Error
4.684
.194
-.051
.006
-1.822
1.151
-.055
.006
.061
.011
(Constant)
Price in thousands
(Constant)
Price in thousands
Wheelbase
a
Standardized
Coefficients
Beta
-.552
-.590
.356
t
Sig.
24.090
-8.104
-1.583
-9.487
5.718
.000
.000
.116
.000
.000
a. Dependent Variable: Log-transformed sales
Le variabili selezionate dal modello tramite la procedura stepwise sono il prezzo
e la wheelbase (interasse), in pratica la dimensione del veicolo.
La conclusione è quindi che le vendite sono negativamente influenzate dal prezzo e
positivamente dalla dimensione del veicolo. Ossia, le automobili grandi ed economiche sono
quelle che vendono meglio (negli USA!).
Model Summary
Model
1
2
R
.552a
.655b
R Square
.304
.430
Adjusted
R Square
.300
.422
Std. Error of
the Estimate
1.11553
1.01357
a. Predictors: (Constant), Price in thousands
b. Predictors: (Constant), Price in thousands, Wheelbase
Anche in questo modello ridotto
quasi la metà della variabilità
è spiegata dal modello di regressione
(adjusted R2=0.422)
Corso di Statistica Medica
Diagnostica (I):
Casewise Diagnosticsa
Case Number
53
84
109
116
118
132
Model
Explorer
3000GT
Cutlass
Breeze
Prowler
SW
Std. Residual
2.297
-4.905
-3.610
-2.252
-2.139
-2.012
Log-transfo
rmed sales
5.62
-2.21
.11
1.66
.63
1.65
Predicted
Value
3.2953
2.7638
3.7651
3.9393
2.7955
3.6927
Residual
2.32778
-4.97111
-3.65892
-2.28296
-2.16849
-2.03967
Si selezionano i modelli con i ‘residui’
più grandi: 3000GT e Cutlass
hanno i residui più alti e negativi,
ossia hanno venduto meno di
quanto atteso in base al loro prezzo e
dimensione.
a. Dependent Variable: Log-transformed sales
Anche i modelli Breeze, Prowler e SW hanno avuto una performance peggiore di quella attesa,
ma ad un livello minore.
Il modello Explorer è l’unico che abbia superato le aspettative stimate (residuo positivo).
Breeze, Prowler, SW, e Explorer sono vicini alla
maggioranza dei dati; l’apparente ‘under-performance’
e ‘over-performance’ possono essere quindi attribuite
al caso.
Ci sono poi alcuni modelli che si allontanano dalla
maggioranza dei dati…
Corso di Statistica Medica
Diagnostica (II):
Residui rispetto al prezzo:
i modelli più costosi sono quelli
che si allontanano dalla
maggioranza
dei dati;
Corso di Statistica Medica
Diagnostica (III):
Residui rispetto alla
dimensione:
i modelli più grandi sono quelli
che si allontanano dalla
maggioranza
dei dati;
Corso di Statistica Medica
In conclusione:
Le vendite degli autoveicoli sono determinate principalmente dal prezzo e
dalla dimensione; date queste due informazioni si può prevedere in media
quanto venderà un veicolo.
Usando il metodo stepwise abbiamo selezionato il modello “migliore” per
predire le vendite. Tramite questo modello abbiamo identificato due tipi di
veicoli che stanno andando male nel mercato, nonostante le aspettative,
mentre nessun modello sta vendendo particolarmente sopra le aspettative.
I grafici diagnostici hanno indicato che il modello stimato può essere
influenzato in modo rilevante dai veicoli particolarmente grandi e costosi,
come la classe SL o i Pick-Up.
(Si può suggerire di trasformare mediante logaritmo anche i prezzi e la
wheelbase, per “comprimerne” i valori estremi).
Corso di Statistica Medica
Dalla regressione multipla alla regressione logistica
Una delle applicazioni più utili della regressione multipla potrebbe essere
quella di predire la mortalità o la morbilità (per es. gli incidenti cerebrovascolari,
l'infarto, il cancro o altre malattie). Tuttavia la regressione multipla non può
essere applicata a dati categorici come la morte o l'infarto miocardico.
Queste variabili infatti hanno due sole possibilità 0 o 1 (vivo o morto, infarto o
non infarto, ecc.), non sono misurati su scala continua.
Per analizzare queste variabili con un approccio multivariato, esse devono
essere trasformate.
La trasformazione da utilizzare è quella in “logit” e il
modello analitico è la regressione logistica.
Corso di Statistica Medica
La verosimiglianza (likelihood) nei modelli binari
Questa breve digressione è finalizzata a chiarire il metodo che si adotta per la
costruzione dei modelli logistici, cioè il metodo della probabilità più verosimile
o maximum likelihood.
Se seguiamo un campione di 10 pazienti per un certo periodo di tempo e
siamo interessati a stabilire la mortalità, abbiamo due possibili esiti, vivo o morto.
Definiamo la probabilità di morte con p e quella di sopravvivere con il suo
complemento 1-p :
Corso di Statistica Medica
Dalla Tabella risulta che 3 pazienti sono deceduti (p) nel periodo di osservazione
e 7 sono sopravvissuti (1-p). Le osservazioni sono indipendenti (un paziente può
vivere o morire indipendentemente dagli altri) quindi possiamo utilizzare la regola
moltiplicativa per stimare la probabilità della nostra osservazione:
p x (1-p) x (1-p) x p x (1-p) x (1-p) x (1-p) x p x (1-p) x (1-p)
(p)3 x (1-p)7
Possiamo attribuire varie probabilità al rischio di morte (p). Per esempio un rischio del 10%
(0.10) o 20% (0.20) o altri valori.
La domanda che ci poniamo è: quanto verosimile (likely) è un certo rischio (per es:
mortalità 10%, sopravvivenza 90%) tenuto conto che noi osserviamo una mortalità del 30%
(e una sopravvivenza del 70%)?
Utilizzando i dati possiamo calcolare la verosimiglianza delle varie ipotesi di rischio.
Corso di Statistica Medica
p=10%
p=30%
p=20%
(0.10)3 x (0.90)7 = 0.001 x 0.478 = 0.000478 (o 4.78 x 10-4)
(0.30)3 x (0.70)7 = 0.027 x 0.082 = 0.002214 (o 22.14 x 10-4)
(0.20)3 x (0.80)7= 0.008 x 0.209715 = 0.001677 (o 16.77 x 10-4)
La probabilità più alta è quella che coincide con un rischio del 30%.
• Ripetendo il calcolo (iterativo) per ulteriori valori di rischio troviamo che la più alta probabilità
rimane proprio quella che coincide con la % da noi effettivamente osservata nel campione, il 30%.
• Si dice che l'ipotesi di rischio del 30% è quella meglio supportata dai dati. Siamo arrivati a questa
conclusione applicando il calcolo iterativo, cioé testando tutti i possibili valori che p può assumere.
• Il rischio che ha la verosimiglianza più alta è definito il valore più verosimile (maximum
likelihood). Qualsiasi altro valore di rischio fornisce stime meno credibili rispetto a quella del
valore più verosimile.
Corso di Statistica Medica
Il modello di regressione logistica:
prevedere l'esito (outcome) in base ai determinanti del rischio
Nell'esempio precedente l'esito (vivo/morto) è stato previsto su 10 soggetti e sulla
base di una serie di stime teoriche del rischio (20% o 30%, ecc.).
Se oltre a registrare l'esito (vivo/morto) misuriamo anche una o più variabili che
riteniamo possano influenzarlo (nel nostro esempio l'ipertrofia ventricolare sinistra,
la pressione arteriosa media) possiamo costruire un modello più complesso che
cerca di predire l'esito a partire dalle variabili indipendenti. Per esempio:
mortalità = a + b (massa ventricolare) + c (pressione arteriosa media)
y = a + bx1 + cx2
Corso di Statistica Medica
In questo caso si deve massimizzare la probabilità di ottenere i valori osservati
della variabile dipendente (vivo/morto) in base a un'equazione costruita con i
dati relativi alla pressione arteriosa media e alla massa ventricolare sinistra.
La likelihood sarà massima quando i coefficienti dell'equazione saranno tali da
predire il più accuratamente possibile l'esito caso per caso.
• per stimare la probabilità di morte a partire da una o più variabili indipendenti, generiamo un modello con
coefficienti “casuali” a partire dai nostri dati:
variabile dipendente -> morto/vivo (0/1);
variabili indipendenti -> massa ventricolare sinistra, pressione arteriosa
• Il modello ad ogni iterazione di calcolo potrà risultare efficace o inefficace:
Il modello sarà efficace -> in grado di predire la mortalità realmente osservata -> solo se le variabili
considerate influenzano la mortalità.
Se invece i dati di mortalità (0/1) previsti dal modello non coincidono con i dati di mortalità osservati,
-> il modello è inefficace e concludiamo che le variabili indipendenti non influenzano la mortalità.
• Il metodo di stima si basa sul calcolo iterativo e sulla trasformazione logit; il computer "testa" vari
coefficienti di regressione e il calcolo si arresta quando i coefficienti di regressione (b e c dell'equazione)
massimizzano la previsione della variabile dipendente sulla base dei dati osservati.
Corso di Statistica Medica
Test di ipotesi sul modello:
Il likelihood ratio ‘LR’ è il rapporto tra la likelihood di ottenere i valori della variabile
dipendente quando è vera l'ipotesi nulla, cioè quando il modello non consente
di predire la variabile dipendente (outcome), diviso per la likelihood calcolata sui dati
del nostro campione:
LR=LR(H0)/LR(campione)
Quando il modello non predice la variabile dipendente la likelihood del denominatore
sarà uguale a quella del numeratore e il rapporto sarà ~ 1, l'ipotesi nulla sarà cioè vera.
Tanto più efficace è il modello tanto più basso sarà LR (che tenderà ad avvicinarsi
sempre più allo 0).
2
− 2 ln LR = χ gdl
Consultando la distribuzione del Chi-quadro
possiamo stabilire se il nostro modello predice
significativamente la variabile dipendente.
gdl del Chi-quadro:
# parametri stimati
Corso di Statistica Medica
La trasformazione dei dati in logit
Per motivi di calcolo, la variabile dipendente dell'equazione (la mortalità) si trasforma
in una funzione logistica (continua) utilizzando la formula:
 p 

p = ln
1− p 
In questa funzione ln è il logaritmo naturale e il rapporto tra p (la probabilità di morte)
e (1-p) la probabilità complementare, cioè la sopravvivenza, sono gli odds o
probabilità a favore.
Gli odds sono il tipico modo che gli scommettitori usano per quantificare la
probabilità di vincere. Gli odds quindi ci consentono di trasformare una variabile
categorica (si/no) in una variabile che esprime la probabilità dell'evento.
Corso di Statistica Medica
Quando la probabilità di morte è del 50% (o 0.5) gli odds sono uguali a 1
(perché 0.5/1–0.5 = 1) e la relativa funzione logistica (che coincide coi log odds)
è uguale a 0 (perché il logaritmo di 1 è 0).
Un vantaggio dei logit è che la probabilità ad essi corrispondente può variare da 0 a
1, cioè nell'ambito della stessa scala sulla quale è espressa abitualmente la
probabilità di un evento:
p
ln(p/1-p)
La funzione logaritmo in base e (ln)
è la funzione inversa rispetto alla
funzione esponenziale in base e:
x = ey
y = ln ( x )
e~2.7
Corso di Statistica Medica
Possiamo quindi trasformare la variabile mortalità in termini di probabilità dell'evento
(morte):
 p 
 = a + bx1 + cx 2 + ...
ln
1− p 
[
p = 1 / 1 + e − (a +bx1+ cx 2+...)
p=P(Y=1)=Probabilità dell’evento morte
]
Corso di Statistica Medica
mortalità = a + b (massa ventricolare) + c (pressione arteriosa media)
y = a + bx1 + cx2
y=a+b*LVM+c*MAP
 p 
 = a + b * LVM + c * MAP
ln
1− p 
p = 1 /[1 + e −(a +b*LVM + c*MAP ) ]
Se la funzione logistica stimata dell'equazione che predice la sopravvivenza in base
alla massa ventricolare (LVM) e alla pressione arteriosa media (PAM) è:
ln(p/1-p)= –16.26 + 0.068 LVM + 0.065 MAP
la probabilità di morte per una massa ventricolare di 120 g/m2 e una MAP di 110
mmHg è:
p=1/[1+e-(-16.26 + 0.068 x 120+0.065 x 110)]= 1/[1+ e-(-0.95) ]= 1/[1 + 2.58] = 1/3.58
= 0.30
Corso di Statistica Medica
Ripetendo lo stesso calcolo e variando solo la massa ventricolare, portandola cioè
da 120 a 130 g/m2, la probabilità di morte diventa 0.43. Viceversa riducendola a
110 g/m2 la probabilità di morte si riduce a 0.16.
Questo modo di procedere è particolarmente utile in quanto ci permette di stimare
l'influenza della massa ventricolare sulla sopravvivenza a parità della pressione
arteriosa.
Tuttavia la valutazione è più immediata con il calcolo degli odds ratio:
OR = e0.068*(130-120) = 1.54
odds ratio (OR) di un aumento della massa ventricolare sinistra da 120 a 130 g/m2
la probabilità di morte è 1.54 volte più alta quando la massa ventricolare sinistra
aumenta da 120 a 130 g/m2
Corso di Statistica Medica
Allo stesso modo possiamo calcolare gli OR di un aumento della pressione da 110
a 120 mmHg:
OR = e0.065(120-110) = 1.91
la probabilità di morte è 1.91 volte più alta quando la pressione aumenta da 110 a
120 mmHg.
Definizione formale di OR:
Odds(Y=1| X)=e(bX)
ln(OR)=b
La probabilità che Y=1 quando X “varia” di d unità è:
OR=ebd
Corso di Statistica Medica
Test di ipotesi sul singolo predittore:
b = incremento del log-odds per incremento unitario di X;
Test d’ipotesi H0 : b=0 (test di Wald)
2
β
2
χ =
Varianza(β)
(1 df)
Consultando la distribuzione del Chi-quadro con 1 gdl
possiamo stabilire se il predittore X ha un impatto significativo
sulla variabile dipendente.