Statistica multivariata
Donata Rodi
04/11/2016
La regressione logistica
• Costruzione di un modello che interpreti la dipendenza di una variabile
categoriale dicotomica da un insieme di variabili esplicative
• Trasformazioni da applicare alla variabile categoriale affinché possa essere
opportunamente inserita come variabile dipendente di un modello
• Stima dei parametri del modello e loro interpretazione
Rodi, 2016
La regressione logistica
• I modelli logistici appartengono alla famiglia dei modelli lineari generalizzati
che allargano l’uso dei modelli di regressione lineare alle variabili casuali non
normali, in particolare binomiali.
• Scopo: trovare il modello interpolante che meglio si adatta ai dati, per
descrivere la relazione tra la variabile dipendente e la variabile
indipendente.
• Stessi principi generali usati nella regressione lineare
• Differenze nella scelta del modello parametrico e nelle assunzioni
Rodi, 2016
Modelli di regressione
Rodi, 2016
La regressione logistica
Inserimento di una variabile categoriale in un modello di regressione: occorre
una trasformazione in modo che acquisisca la natura di “variabile
quantitativa”.
1.
Codifica: assegnazione di un valore numerico alle categorie (si introduce
un elemento di arbitrarietà);
2. Uso delle frequenze (relative) con cui le categorie (o modalità) della
variabile si presentano all’osservazione
Rodi, 2016
Esempio
AgeGroup
x
n
CHD Absent
(Y=0)
CHD Present
(Y=1)
Mean (Proportion)
20-29
10
9
1
0.10
30-34
15
13
2
0.13
35-39
12
9
3
0.25
40-44
15
10
5
0.33
45-49
13
7
6
0.46
50-54
8
3
5
0.63
55-59
17
4
13
0.76
60-69
10
2
8
0.80
Total
100
57
43
0.43
Mean
• proporzione di
persone che
hanno la
caratteristica y=1
(dato x) nel
campione
Rodi, 2016
Stima dei valori condizionati
Mean: stima dei valori attesi condizionati E(y│x)
Ey x  π(x)
• proporzione ignota nella popolazione di
soggetti
che
assumono
la
caratteristica di interesse y fissato x.
• le proporzioni calcolate nella
colonna ‘Mean’ sono stime per π(x)
Rodi, 2016
Forma della funzione logistica
• E(Y=1│X)
• La proporzione di disturbi
cardiaci aumenta
al’aumentare dell’età
• Forma sigmoidale
• Crescente o decrescente
• Asintoto alto e basso
Rodi, 2016
Modello di regressione logistica
• La relazione tra media condizionata (CHD) e età non ha andamento lineare
E(y | x)  πx  
1
1e
 β 0  β 1 x 
e β 0  β1 x

1  e β 0  β1 x
(1)
• Il modello di regressione per y è:
Rodi, 2016
Il parametro β
β=1
-10
-5
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
Y
0
5
β=2
10
X
-10
-5
0
5
10
X
1,2
1
0,8
Titolo asse
Y
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0,6
0,4
0,2
0
β=4
-10
-5
0
Titolo asse
5
10
Rodi, 2016
Il parametro β
β<0
ββ>0
>0
.. β>O
π(x)
π(t)
"
Il parametro β determina il tasso di crescita o di decremento della curva
Rodi, 2016
eβ 0 β1x
1
1
π(x) 



β 0 β1x
β 0 β1x
β 0 β1x
1 e
1 e
1
e
 β 0 β1x
β 0 β1x
β 0 β1x
e
e
e
1

1  e β 0 β1x 
1  e β 0  β 1 x   e β 0  β 1 x 
1
1 - πx  

β 0  β 1 x 
β 0  β 1 x 
1e
1e
 π(x) 
  β 0  β 1 x
logit π(x)  ln 
 1  π(x) 
(2)
Rodi, 2016
Funzione logistica
• Funzione flessibile e di facile uso
• L’esponenziale di logit (π(x) è il rapporto tra due probabilità (Odds)
 
π(x)
β 0  β1 x
β 0 β1 x
β0
β1
odds(x) 
e
e e e e
1  π(x)
x
Rodi, 2016
Odds Ratio
π(x  1)
odds(x  1) 1  π(x  1)
OR(x) 


π(x)
odds(x)
1  π(x)
e β 0 β1 (x 1) e β 0 β1x β1
 β 0 β1x  β 0 β1x  e β1 , x
e
e
• Rapporto tra due odds in cui il numeratore è definito per qualunque
incremento unitario di X rispetto al denominatore
Rodi, 2016
Esempio
Confronto tra odds non tra
probabilità!!!
L’evento tra le donne
accade 4 volte più
facilmente che tra gli
uomini
Rodi, 2016
Regressione lineare
Regressione logistica
• β1 esprime l’entità dell’effetto della • β1 esprime l’entità dell’effetto della
variabile X sul valore atteso
condizionato di y
• E’ il tasso di variazione di E(y│x)
per ogni incremento unitario di x.
variabile x sul logit((x))
logit π(x  1)   logit π(x)  
β 0  β1 (x  1)  β 0  β1x  β1 , x
E(y | x  1)  E(y | x) 
 β 0  β1 (x  1)  β 0  β1x  β1 , x
Rodi, 2016
Legge di distribuzione
• La variabile dipendente y non ha legge di distribuzione Normale:
cade anche l’ipotesi di normalità degli errori
• La distribuzione bernoulliana descrive la distribuzione degli errori
e quindi sarà la distribuzione su cui l’analisi statistica è incentrata.
17
Rodi, 2016
Omoschedasticità
• Le variabili casuali di tipo discreto sono caratterizzate dall'avere
media e varianza legate da relazioni “naturali”
• Nel caso specifico, le v.c. di Bernoulli yi|xi sono caratterizzate
dall'avere una media pari a i1 e varianza pari a i1 (1- i1)
• La varianza allora non è più costante ma varia al variare dai valori
assunti dalla media: eteroschedasticità.
• Non è più possibile stimare i coefficienti di regressione con il
metodo dei minimi quadrati ordinari.
Rodi, 2016
Stima dei parametri
Modello con una sola variabile indipendente
Funzione di massima verosimiglianza
Rodi, 2016
Metodo di stima
• Il modello dei minimi quadrati non da stimatori altrettanto efficienti e
corretti
• Criterio della massima verosimiglianza condizionata: determinazione dei
valori per i parametri ignoti in modo da massimizzare la funzione di
verosimiglianza
• Individuare quella distribuzione di probabilità che più verosimilmente ha
generato il campione di osservazioni. La funzione di verosimiglianza esprime,
infatti, la probabilità che si verifichi la n-upla campionaria in funzione dei
parametri incogniti
.
Rodi, 2016
Stime di Massima Verosimiglianza
Parametro
Intercept
Age
Stima
Errore
Stima
Exp(Est)
standard standardizzat
a
-5.0907 1.0975
0.1050
0.0231
0.006
0.6958
1.111
Equazioni del modello stimato:
 forma additiva: logit ˆ ( Age)   5.0907  0.1050 Age
 forma moltiplicativa:
odds( Age)  e5.0907 e0.1050 Age  0.006(1.111) Age
 Odds ratio: OR( Age)  1.111
Rodi, 2016
Interpretazione di β1
logit π(x  1)   logit π(x)   β1
• Significato della differenza tra due logit
Rodi, 2016
Matrice di covarianza stimata
Parametro Intercept Age
Intercept
1.204576 -0.02474
Age
-0.02474
0.000533
Standard error:
^
ˆ 0 )  1.204576  1.0975
S .E.(
^
ˆ )  0.000533  0.0231
S .E.(
1
Rodi, 2016
Bontà di adattamento del modello
• Verifica complessiva
• Verifica di confronto tra due modelli
• Verifica della significatività del singolo parametro
24
Rodi, 2016
Verifica complessiva
• Confronto fra valori osservati e valori teorici
• Devianza
• Nella regressione lineare la valutazione della
bontà di adattamento del
modello viene effettuata con il teorema di scomposizione della devianza
n
n
2
2

SSR  SST  SSE   y i  y     y i  ŷ i  
 i 1
  i 1

Varianza Spiegata
Rodi, 2016
Indice di determinazione multipla
2


ŷ

y
 i
n
R2 
SSR

SST
i 1
n
2


y

y
 i

Regressione lineare
i 1
2


y

ŷ
 i i
n
1
SSE
 1  i n1
2
SST


y

y
 i
i 1
Rodi, 2016
Indice di Cox e Snell
 L(0) 
R  1 

ˆ
 L(β) 
2
2
n
Regressione logistica
L(0): valore della funzione di verosimiglianza calcolato per l’emptymodel (modello che contiene solo l’intercetta)
L(β): valore della funzione di verosimiglianza
Rodi, 2016
Indice di Nagelkerke
2
R
~2
R  2
Rmax
2
Rmax
~2
R
 L(0) 
1 

ˆ
L(β) 


2
1  L(0)n
2
n
 1  L( 0)
2
n
=0
adattamento nullo del modello
= max perfetto adattamento del modello ai dati
Rodi, 2016
Significatività dei parametri
Likelihood Ratio test
La variabile dipendente è spiegata meglio dal modello che contiene la
variabile indipendente o da quello che non la comprende?
H0: β1=0
G  D 0  D mod
H 0 : β1  β 2    β j    β k  0


 L(0) 
 2ln 
  2 l(0)  l( β̂) ,
 L(β̂) 
G ~ χ k2
as.
Rodi, 2016
Significatività dei singoli parametri
Wald test


ˆ
 j

Wj  

^
ˆ j)
 S .E.(


2
Distribuzione del χ2 con 1 DF
Analisi delle stime di massima verosimiglianza
Parametro
DF
Stima
Errore
standard
Chi-quadrato
Wald
Pr > ChiQuadr
Exp(Est)
Intercept
1
-5.0907
1.0975
21.5143
<.0001
0.006
Age
1
0.1050
0.0231
20.7089
<.0001
1.111
Rodi, 2016