Analisi statistica multivariata La regressione logistica

Analisi statistica multivariata
La regressione logistica
Autore
Alesando Lubisco
Stefania Mignani
Marilena Pillati
La regressione logistica
Introduzione
Si vuole descrivere la relazione di dipendenza del possesso di un attributo dicotomico da una o più variabili
indipendenti (X1, X2, …, Xp)=X, di natura qualsiasi (cioè, indifferentemente, quantitative o qualitative).
Alcuni esempi di attributi dicotomici:
•
•
•
•
per un soggetto che ha ottenuto un prestito, la restituzione/non-restituzione del prestito;
per una banca, il fallimento/sopravvivenza dopo un dato periodo di tempo,
per un cliente, il riscontro positivo/negativo ad un’offerta promozionale,
per un paziente sotto osservazione, la presenza/assenza di una data malattia.
La regressione logistica
Introduzione
Gli obiettivi possono essere molteplici:
• individuare tra le variabili indipendenti quelle a maggiore potere esplicativo, che vanno quindi interpretate come
determinanti del possesso o meno dell’attributo: a seconda che siano correlate positivamente o negativamente
con il fenomeno studiato possono essere considerate rispettivamente come fattori di rischio o come fattori di
protezione;
• ricercare la combinazione lineare delle variabili indipendenti che meglio discrimina fra il gruppo delle unità che
possiedono l’attributo e quello delle unità che non lo possiedono;
• stimare la probabilità del possesso dell’attributo per una nuova unità statistica su cui è stato osservato il vettore
di variabili X e, fissato per tale probabilità un valore soglia, classificare l’unità alla categoria delle unità che
possiedono l’attributo o a quello delle unità che non lo possiedono.
La regressione logistica
Assunzioni e specificazione del modello
Si tratta di costruire un modello di regressione per Y, variabile risposta dove
Y dicotomica a valori 0 e 1, corrispondenti rispettivamente all’assenza e alla presenza dell’attributo.
In un modello di regressione la quantità che si ipotizza funzione di X è il valore medio aritmetico della variabile
dipendente Y condizionato ad un dato x, E(Y|x).
Nel caso del modello di regressione logistica, questo valor medio condizionato corrisponde a P(Y=1|x), cioè alla
probabilità di possedere l’attributo in esame condizionata al fatto che il vettore delle variabili indipendenti assume
valore x.
Si vuole descrivere la funzione che lega tale probabilità, che indicheremo con π(x), alla combinazione delle variabili
indipendenti.
Il modello di regressione per Y è dunque:
Y = π (x ) + ε
Un modello di regressione lineare sarebbe del tutto inappropriato a questo scopo.
Una funzione lineare di X, essendo non limitata (né inferiormente, né superiormente), potrebbe dare luogo a valori
stimati di π(x) esterni all’intervallo [0, 1], e quindi privi di senso.
La regressione logistica
Assunzioni e specificazione del modello
Nel modello di regressione lineare l’errore si distribuisce normalmente, con media nulla e varianza costante.
Questa assunzione non è valida quando Y è una variabile dicotomica, perché in tal caso l’errore può assumere solo 2
valori:
1 − π ( x )
con probabilità π ( x )
− π ( x )
con probabilità 1 − π ( x ) ,
ε = Y − π (x ) = 
con media
E (ε ) = [1 − π ( x )]π ( x ) − π ( x )[1 − π ( x )] = 0
e varianza
V (ε ) = [1 − π ( x )] π ( x ) + π ( x ) [1 − π ( x )] = π ( x )[1 − π ( x )],
2
2
che dipende dal valore di X, quindi non è costante.
La variabile aleatoria Y x segue quindi la distribuzione di Bernoulli Ber( π ( x ) ) con
y
(1− y )
f ( y x ) = π ( x ) [1 − π ( x )]
con
E (Y x ) = π ( x ) e V (Y x ) = π ( x )[1 − π ( x )]
La regressione logistica
Il modello
Per descrivere la relazione di dipendenza della probabilità
π ( x ) = P(Y = 1 | x )
dai valori di X=(X1, X2, …, Xp)
Si può usare la distribuzione logistica1:
p
π (x ) =
e
β0 + ∑ β j x j
β 0 + β1x1 + β 2 x2 +...+ β p x p
1+ e
β 0 + β1x1 + β 2 x2 +...+ β p x p
=
e
j =1
p
1+ e
β0 + ∑ β j x j
.
j =1
Il grafico di tale funzione descrive una curva monotona a forma di S allungata (detta “sigmoide”), limitata
superiormente dalla retta y = 1 e inferiormente dalla retta y = 0 , alle quali tende asintoticamente.
Si considerino i seguenti due esempi riferiti al caso, più semplice, in cui vi è una sola variabile esplicativa, X,
continua:
La regressione logistica
Il modello
Si considerino i seguenti due esempi riferiti al caso, più semplice, in cui vi è una sola variabile esplicativa, X,
continua:
1
0
-5
-3
-1
1
3
5
grafico della funzione
ex
π (x ) =
1+ ex
grafico della funzione
e 2− x
π (x ) =
1 + e 2− x
(quindi,
β0 = 0
e
β1 = 1 )
1
0
-2
0
2
4
6
(quindi,
β0 = 2
e
1
β1 = −1 )
La regressione logistica
Il modello
Si consideri, ora, la seguente funzione di
 π ( x) 
logit (π ( x ) ) = ln 
;
1 − π ( x ) 
π ( x) ,
detta logit,
(3)
Che è il logaritmo naturale del rapporto della probabilità condizionata di possedere l’attributo alla probabilità
condizionata di non possederlo.
Il rapporto fra probabilità associate ad una dicotomia, cioè fra probabilità complementari, è detto odds
Sostituendo è possibile dimostrare che
p
logit (π ( x ) ) = β 0 + ∑ β j x j
j =1
Quindi, mentre π ( x ) è funzione non lineare delle variabili X1, X2, …, Xp, il logaritmo dell’odds , detto logit, è funzione
lineare delle stesse.
La regressione logistica
I modelli lineari generalizzati
Il modello logistico appartiene alla famiglia dei
modelli lineari generalizzati (in inglese GLM, generalized linear models).
Un modello lineare generalizzato mette in relazione una funzione del valore atteso della variabile dipendente Y con le
variabili esplicative attraverso un’equazione lineare.
Esso è specificato da tre componenti:
• la componente aleatoria:
Y1, Y2, …Yi, …, Yn ,
costituita da un insieme di variabili aleatorie assunte reciprocamente indipendenti e con distribuzione di probabilità
appartenente alla famiglia esponenziale,
• la componente sistematica:
p
∑β jxj ,
j =1
che specifica una combinazione lineare delle variabili esplicative nel modello
• la funzione legame:
p
g (E (Yi ) ) = ∑ β j xij
,
j =1
che mette in relazione la componente aleatoria e la componente sistematica del modello, specificando quale funzione
g del valore atteso di Yi dipende linearmente dalle variabili esplicative.
La regressione logistica
I modelli lineari generalizzati
Specificando diverse funzioni come funzioni legame si ottengono i seguenti casi particolari di modello lineare
generalizzato:
• prendendo come funzione legame la funzione identità, g (E (Yi )) = E (Yi ) , si ottiene
p
E (Yi ) = ∑ β j xij
j =1
che è il tradizionale modello di regressione lineare
•
 E (Yi ) 
 , si ha
1 − E (Yi ) 
prendendo come funzione legame la funzione logit, g (E (Yi ) ) = ln 
 E (Yi )  p
ln 
 = ∑ β j xij
1
−
E
(
Y
)
i 
j =1

che, posto Yi dicotomica a valori 0 e 1, è il modello di regressione logistica
•
prendendo come funzione legame la funzione logaritmo, g (E (Yi ) ) = ln[E (Yi )] , si ha
p
ln[E (Yi )] = ∑ β j xij
j =1
che è denominato modello log-lineare.
La regressione logistica
Stima dei parametri
Poiché non vale l’omoschedasticità dei residui non è possibile adottare il metodo di stima dei minimi quadrati. Si può
usareil metodo della massima verosimiglianza.
Consideriamo, per semplicità il modello con una sola variabile indipendente, X,
π (x ) =
e β 0 + β1x
1 + e β 0 + β1x
,
in termini di logit
 π (x ) 
g (x ) = ln 
 = β 0 + β1 x
π
−
x
1
(
)


Ricordando l’ipotesi di indipendenza reciproca delle variabili campionarie
del campione osservato y1 , ..., yi , ..., y n si scrive:
n
n
i =1
i =1
L(β 0 , β1 ) = ∏ f ( yi xi ) =∏ π ( xi ) i [1 − π (xi )]
y
(1− yi )
Y1 , ..., Yi , ..., Yn ,
la funzione di verosimiglianza
La regressione logistica
La stima dei parametri
Ricaviamo la funzione di log-verosimiglianza:
n
l (β 0 , β1 ) = ∑ {yi ln[π ( xi )] + (1 − yi ) ln[1 − π ( xi )]} =
i =1


 π ( xi ) 
= ∑  yi ln 
+
ln
[
1
−
π
(
x
)
]
=
i

(
)
1
−
x
π

i
i =1 



n


e β0 + β1xi
= ∑  y i (β 0 + β1 xi ) + ln1 −
β 0 + β1xi
i =1 
 1+ e

n
n

1

= ∑  y i (β 0 + β1 xi ) + ln 
1 + e β0 + β1xi
i =1 
n
{
[

 =

]}
= ∑ yi (β 0 + β1 xi ) − ln 1 + e β 0 + β1xi .
i =1

 =


La regressione logistica
La stima dei parametri
Calcolando le derivate parziali della (4) rispetto ai parametri β0 e β1, e ponendole uguali a 0,
si ricava il sistema delle equazioni di verosimiglianza, la cui soluzione restituisce le stime di massima
verosimiglianza, che indichiamo rispettivamente con b0 e b1 :
n 
1
b0 + b1xi 
e
=0
∑  y i −
b0 + b1xi
1
e
+


 i =1

n 
1

e b0 +b1xi xi  = 0
∑  y i xi −
b0 + b1xi
1+ e

 i =1 
Le equazioni ottenute non sono lineari nelle incognite b0 e b1 , quindi la loro soluzione non è immediata, ma richiede
l’impiego di metodi numerici iterativi comunemente implementati nei software di analisi statistica dei dati.
La regressione logistica
La stima dei parametri
Gli stimatori di massima verosimiglianza godono della proprietà di equivarianza rispetto a trasformazioni funzionali
differenziabili la stima di π (xi ) risulta quindi:
πˆ (xi ) =
e b0 +b1xi
1 + e b0 +b1xi
,
e rappresenta il valore di Y stimato dal modello di regressione logistica in corrispondenza di X=xi.
Asintoticamente, sotto condizioni non particolarmente restrittive, gli stimatori di massima verosimiglianza sono
corretti, normodistribuiti ed efficienti.
La regressione logistica
Verifica d’ipotesi
Queste proprietà permettono di costruire opportune statistiche-test per il controllo di ipotesi sui parametri e di
costruire intervalli di confidenza per i parametri incogniti.
n0
n


 n1  1  n0 


   
n
n
 verosim. modello senza la variabile 





G = −2 ln 
= −2 ln  n


(
1
−
y
)
i 
 verosim. modello con la variabile 
y
 ∏ πˆ ( xi ) i [1 − πˆ ( xi )]

 i =1

Tale statistica-test è detta “test rapporto di verosimiglianza” (likelihood ratio test).
Sotto l’ipotesi zero H0:β1=0 che l’inserimento della variabile X nel modello non apporti un contributo significativo1,
nell’universo dei campioni la variabile campionaria G si distribuisce asintoticamente come una variabile aleatoria
χ (21)
; confrontando il p-value corrispondente al valore gcalc di G, calcolato sul campione osservato, con un prefissato
livello di significatività α è possibile concludere circa l’ipotesi H0:
P( χ (1) >gcalc)< α
2
P(
χ (21)
>gcalc)> α
→
rifiuto H0
→
non rifiuto H0
La regressione logistica
Interpretazione dei parametri
Nel modello semplice di regressione lineare il valore di β1 rappresenta la variazione media di Y al crescere di un’unità
di X.
Nel modello semplice di regressione logistica
π (x ) =
e β 0 + β1x
1 + e β 0 + β1x ,
in termini di logit
 π (x ) 
g ( x) = ln 
 = β 0 + β1 x ,
1 − π ( x ) 
si ha che
g ( x + 1) − g (x ) = β 0 + β 1 (x + 1) − β 0 − β 1 x = β 1
β 1 esprime la variazione del logit corrispondente ad un incremento unitario di X.
Per l’interpretazione numerica si devono distinguere diverse situazioni
La regressione logistica
Variabile indipendente dicotomica
X indica l’assenza o la presenza di un dato attributo, assumendo rispettivamente i valori 0 e 1.
Allora anche l’odds assumerà solo due valori, qui di seguito riportati:
P(Y = 1 | X = 0)
π (0)
=
,
1 − P(Y = 1 | X = 0) 1 − π (0)
P(Y = 1 | X = 1)
π (1)
=
.
1 − P(Y = 1 | X = 1) 1 − π (1)
Il rapporto dei due valori di odds, detto odds ratio, è uguale a
e β 0 + β1
odds ratio =
β 0 + β1
π (1)
π (0)
= 1+ e
1
1 − π (1) 1 − π (0)
1 + e β0 + β1
e β0
1 + e β 0 = e β0 + β1 e β 0 = e β1 .
1
1 + e β0
Quindi, applicando ad entrambi i termini dell’uguaglianza la trasformata logaritmica, si ha
 π (1)
 π (1) 
 π (0) 
π (0) 
= ln 
− ln 


=
1 − π (1) 1 − π (0) 
1 − π (1) 
1 − π (0) 
β1 = ln 
= logit (π (1)) − logit (π (0)) = g (1) − g (0) .
Ovvero, β1 misura la variazione nel logit dovuta al possesso dell’attributo descritto da X.
La regressione logistica
Variabile indipendente categorica o ordinale
Sia X una variabile categorica o ordinale a k modalità.
Si ricordi le k modalità di X attraverso k − 1 variabili dummy .
Se nel calcolo degli odds ratio il gruppo delle unità portatrici della modalità corrispondente all’annullamento di tutte
le dummy viene preso come “gruppo di riferimento” quel tipo di codifica garantisce che il logaritmo dell’odds ratio
del gruppo delle unità che portano l’i-esima modalità di X rispetto al gruppo di riferimento è (per i=1, …, k-1):
 odds per X = modalità i - esima 
 =
ln
odds
per
X
=
modalità
di
riferiment
o


= ln(odds per X = modalità i - esima ) − ln(odds per X = modalità di riferimento ) =
= g (D1 = 0, ..., Di = 1, ..., Dk −1 = 0) − g (D1 = 0, ..., Di = 0, ..., Dk −1 = 0) =
= β 0 + β1,1 0 + ... + β1,i 1 + ... + β1,k −1 0 − (β 0 + β1,1 0 + ... + β1,i 0 + ... + β1,k −1 0) = β1,i
Quindi, l’odds ratio di questo gruppo rispetto al gruppo di riferimento è uguale a
e
β1,i
;
La regressione logistica
Variabile indipendente continua
Per X continua, espressa in una data unità di misura, si ha che
 odds per X = x + 1 
 = ln(odds per X = x + 1) − ln (odds per X = x ) =
ln
odds
per
X
=
x


= g ( x + 1) − g ( x ) = β 0 + β1 ( x + 1) − (β 0 − β1 x ) = β1 ;
quindi l’odds ratio corrispondente ad un incremento unitario di X è uguale a
e β1 .
Se, ai fini interpretativi, è più interessante considerare un incremento di c unità (c ≠ 1) piuttosto che un incremento
unitario di X, allora il logaritmo dell’odds ratio corrispondente è uguale a
 odds per X = x + c 
 = β 0 + β1 ( x + c ) − (β 0 − β1 x ) = cβ1
ln
odds
per
X
=
x


e quindi l’odds ratio per un incremento di X pari a c unità vale
e cβ1 .
La regressione logistica
Valutazione della bonta’ di adattamento
Vogliamo valutare quanto il modello adattato sia efficace nel descrivere la variabile dipendente Y, ovvero valutare la
bontà di adattamento (goodness of fit).
Occorre definire cosa significa che un modello è “adatto” o “adeguato” a descrivere il fenomeno in esame.
Scelta un’opportuna misura sintetica della differenza tra i valori di Y osservati, yi , e quelli stimati dal modello, ŷ i
( i = 1, ..., n ), un modello è adeguato se produce valori “piccoli” di questa misura e se il contributo dell’i-esimo
confronto a tale misura rientra nei limiti della variabilità intrinseca del fenomeno, descritta dal termine d’errore del
modello.
Quindi una valutazione completa del grado di adeguatezza del modello richiede:
Il calcolo di opportune misure di sintesi sui residui del modello (indicative dell’adattamento globale del
modello)
un esame accurato dei singoli residui, spesso attraverso un’ispezione grafica
La regressione logistica
Misure sintetiche della qualità dell’adattamento
Danno un’indicazione dell’adattamento globale del modello sul complesso delle unità statistiche osservate:
valori “grandi” segnalano una bassa qualità del modello, ma valori “piccoli” non escludono la possibilità che per
qualche unità si verifichi un adattamento particolarmente scarso
Esistono modi alternativi di misurare la divergenza tra il valore osservato per la variabile risposta e il corrispondente
valore stimato dal modello, cioè di misurare i residui. In particolare, i residui più comunemente impiegati sono:
il residuo di Pearson e
il residuo di deviance.
Sia J il numero di combinazioni diverse (covariate pattern),di valori delle variabili indipendenti osservate nelle n unità
statistiche ( J < n ), che corrisponde al numero di logit stimati dal modello di regressione logistica.
Sia nk il numero di unità statistiche che portano una generica combinazione di valori xk, k=1,…, J.
Siano
y k e ŷ k rispettivamente il numero osservato e il numero stimato di unità statistiche per cui Y=1 in
corrispondenza del suddetto covariate pattern
yˆ k = nk πˆ ( x k ) = nk
e gˆ ( xk )
1 + e gˆ ( xk )
xk ,
cioè
La regressione logistica
Misure sintetiche della qualità dell’adattamento
Poiché ognuno dei J valori yk corrisponde a una numerosità differente nk e ad una differente probabilità di successo
πˆ ( xk ) = πˆ k , i residui ( y k − ŷ k ) sono difficili da interpretare.
La confrontabilità può essere ottenuta dividendo ciascun residuo per il corrispondente scarto quadratico medio,
ottenendo il residuo di Pearson.
Tale residuo per il generico covariate pattern x k è così definito:
r ( y k , πˆ k ) =
y k − nk πˆ k
nk πˆ k (1 − πˆ k )
.
Il corrispondente residuo di deviance si definisce come segue:
1
 
 nk − yk   2
 yk 
 + (nk − yk ) ln
  ,
d(yk , ˆ
πk ) = 2yk ln
n
π
n
(
1
−
π
)
ˆ
ˆ
 
 k k
 k
k  

dove il segno è quello di ( y k − yˆ k ) .
La regressione logistica
Misure sintetiche della qualità dell’adattamento
Le misure sintetiche di adattamento globale che si basano su questi due tipi di residui sono costruiti come somma dei
quadrati dei residui.
Nel caso dei residui di Pearson si ha la statistica chi-quadrato di Pearson:
χ 2 = ∑ r ( y k , πˆ k )2 ,
k
Se si adoperano i residui di deviance, la somma dei loro quadrati è la deviance:
D = ∑ d ( y k , πˆ k ) ,
2
k
La distribuzione asintotica di queste due statistiche nell’universo dei campioni nell’ipotesi che il modello adattato
rappresenti adeguatamente i dati è quella di un χ (2J −( p +1))
La distribuzione asintotica di queste due statistiche nell’universo dei campioni nell’ipotesi che il modello adattato
rappresenti adeguatamente i dati è quella di un χ (2J −( p +1))
Valori “piccoli” della statistica indicano un buon adattamento, mentre valori grandi suggeriscono che il divario tra
l’osservato e l’atteso non è da attribuire al solo errore di campionamento. Quindi se il valore calcolato della statisticatest non è significativo, ovvero che il corrispondente p-value è maggiore di un livello α prefissato, l’ipotesi zero di
La regressione logistica
Diagnostiche sui residui
L’ispezione dei residui consente in primo luogo di controllare la validità delle assunzioni dalle quali l’analisi ha preso
le mosse.
Per esempio, è possibile controllare l’ipotesi di linearità della relazione fra il logit(P[Y=1|X=x]) e un dato regressore
continuo X attraverso la rappresentazione grafica dei punti di coordinate (xk , yˆ k ) , per k=1, …, J (con J ≤ n ).
Se la numerosità campionaria non è troppo elevata, può essere utile analizzare un semplice grafico dei residui (in
ordinata) corrispondenti alle varie unità statistiche (elencate in ascissa). Dato che in un buon modello i residui
dovrebbero essere prossimi allo 0, l’utilità di questo grafico sta nella possibilità di evidenziare la presenza di residui
“grandi” (in valore assoluto; di solito esterni all’intervallo [-2, 2]), cioè di valori che il modello non è in grado di
spiegare.
Un altro grafico utile per valutare l’adeguatezza del modello è quello contenente i valori stimati in ascissa e i residui
in ordinata: in un buon modello tali punti dovrebbero essere disposti casualmente intorno all’asse delle ascisse. Se
invece si evidenziano andamenti particolari potrebbe non essere corretta la scelta del logit come funzione legame.
Questa eventualità può rappresentare una spiegazione anche per comportamenti difformi dall’atteso nel grafico che
controlla la normalità dei residui.
La ricerca di valori anomali può essere effettuata anche valutando la differenza nella stima dei parametri conseguente
all’esclusione dal data set di un’unità alla volta