Note sulla regressione logistica

1
Regressione logistica
Come in tutti i modelli regressivi, ci sono dei fattori X1 ; :::; Xp misurabili, ed un
output Y anch’esso misurabile, tutti relativamente ad un insieme di individui.
Tuttavia, nella regressione logistica l’output Y è dicotomico: 0 o 1, mentre i
predittori assumono valori reali generici, come nella regressione lineare multipla
tradizionale.
Si pensa che, dati i valori dei predittori, l’output Y 2 f0; 1g sia casuale ma
con legge univocamente determinata dai predittori. Inoltre, il modo di dipendere
dai predittori non è qualsiasi ma avviene solo attraverso una loro combinazione
a¢ ne, detta predittore lineare
= a1 X1 + ::: + ap Xp + b:
Mettiamo a confronto regressione logistica (RLog) e regressione lineare multipla (RLM) tradizionale, per spiegare meglio il modello RLog. Nella RLM, dati
i valori x1 ; :::; xp dei predittori, noti i coe¢ cienti a1 ; :::; ap ; b, l’output è una v.a.
gaussiana Y di media = (media uguale al predittore lineare) e varianza 2 ,
quindi rappresentabile nella forma
Y = a1 x1 + ::: + ap xp + b + "
con " N 0; 2 . Invece, nella RLog, dati i valori x1 ; :::; xp dei predittori, noti
i coe¢ cienti a1 ; :::; ap ; b, l’output è una v.a. di Bernoulli Y , di parametro p che
dipende da attraverso una certa funzione.
Pensiamo ad un esempio: supponiamo che gli individui siano le nazioni europee e che, per una certa nazione, sia Y = 1 se la nazione migliora la propria
condizione economica (Y = 0 altrimenti) durante l’anno 2011. I predittori
potrebbero essere gli investimenti in ricerca, e così via del 2010. Noti i valori
dei predittori, la casualità non è certo esaurita, quindi Y resta aleatorio, ma
la sua legge è ora determinata, nota. La legge, trattandosi di una Bernoulli, è
riassunta nel numero p. Nel modello RLog si suppone che la probabilità p di
miglioramento sia nota quando sono noti i predittori. Inoltre si suppone che p
dipenda dai predittori solo attraverso la loro combinazione a¢ ne .
Un altro esempio: gli individui sono esemplari di complessi sistemi meccanici
o elettronici, Y = 1 se il sistema funziona per un anno, i predittori possono essere
valori misurati di caratteristiche meccaniche ecc. di sottoparti, del materiale ecc.
Essendo p una probabilità, non possiamo pensare che la relazione tra p ed
sia del tipo p = , cioè
p = a1 x1 + ::: + ap xp + b
altrimenti otterremmo per p valori anche esterni a [0; 1]. Si deve adottare un
modello del tipo
g (p) = a1 x1 + ::: + ap xp + b
dove g è una funzione de…nita in [0; 1] a valori reali, invertibile. In modo che sia
p=g
1
(a1 x1 + ::: + ap xp + b) :
1
Una scelta molto comune è la funzione detta logit
g (p) = log
p
1
p
:
Per p ! 0 essa tende a 1, mentre per p ! 1 tende a +1; ed è strettamente
crescente, oltre che regolare. La sua funzione inversa è
g
[Infatti log
exp ( ), p =
Y
p
=
1 p
exp( )
1+exp( ) .]
,
p
1 p
1
( )=
exp ( )
1 + exp ( )
= exp ( ), p = (1
p) exp ( ), p (1 + exp ( )) =
In de…nitiva, il modello è
B (1; p) con p =
exp ( )
dove
1 + exp ( )
= a1 x1 + ::: + ap xp + b:
Quando i coe¢ cienti a1 ; :::; ap ; b sono divenuti noti, preso un nuovo individuo,
calcolati i valori dei suoi predittori x1 ; :::; xp , si calcola la probabilità p relativa
a quell’individuo (probabilità di questo o quell’accadimento, dipende dal problema). Se p è molto elevata, siamo abbastanza sicuri che per quell’individuo sarà
Y = 1, mentre se è molto bassa, conteremo che sia Y = 0; nel mezzo ovviamente
c’è molta indecisione sul valore di Y di quell’individuo, pur valendo comunque
che se p > 1=2 è più probabile Y = 1 e viceversa.
Nella teoria generale dei modelli lineari generalizzati, il numero = a1 x1 +
::: + ap xp + b viene detto predittore lineare, la funzione g 1 viene detta link
function e la funzione g viene detta mean function. Nella regressione logistica,
la link function è la funzione logistica, rappresentata in …gura.
y
1.0
0.8
0.6
0.4
0.2
-5
-4
-3
-2
-1
0
Funzione logistica
1
2
3
4
5
x
exp( )
1+exp( ) .
Resta il problema di trovare i coe¢ cienti. Si devono avere n individui di cui
si conoscano i valori dei predittori Xi e di Y . Si usa il metodo della massima
2
verosimiglianza. Noti i valori x1 ; :::; xp dei predittori di un individuo, abbiamo
detto che Y è B (1; p), con p = g 1 ( ), = a1 x1 + ::: + ap xp + b. Quindi
P (Y = 1) = p, P (Y = 0) = 1 p. Se indichiamo uno dei due numeri 0 o 1 con
y, si può scrivere in una sola formula
P (Y = y) = py (1
1 y
p)
:
Supponiamo come abbiamo detto che, per un individuo noto, sia noto anche il
1 y
valore di Y , che chiamiamo con y. Il numero py (1 p)
è la verosimiglianza
relativa a quell’individuo. In astratto, la verosimiglianza è funzione di molte
grandezze: x1 ; :::; xp , y, a1 ; :::; ap ; b. Trattandosi di un individuo con x1 ; :::; xp ,
y noti, ben precisi, la verosimiglianza è funzione di a1 ; :::; ap ; b. Se poi consid(i)
(i)
eriamo gli n individui indipendenti, ed indichiamo con x1 ; :::; xp , y (i) i loro
valori noti, vale
P Y (1) = y (1) ; :::; Y (n) = y (n) =
n
Y
p(i)
y (i)
1
p(i)
1 y (i)
i=1
dove
p(i) = g
1
(i)
;
(i)
(i)
= a1 x1 + ::: + ap xp(i) + b:
Questa è la verosimiglianza del campione sperimentale, funzione di a1 ; :::; ap ; b.
Il metodo di massima verosimiglianza consiste nel cercare i valori di a1 ; :::; ap ; b
n
Y
y (i)
1 y (i)
p(i)
1 p(i)
. Tecche rendono massima la verosimiglianza, cioè
i=1
nicamente, conviene massimizzare il logaritmo della verosimiglianza (è equivalente), cioè
n
X
y (i) log p(i) + 1 y (i) log 1 p(i) :
i=1
Il software esegue la massimizzazione con un procedimento iterativo.
1.1
Classi…cazione
Il metodo della regressione logistica serve ad esempio per e¤ettuare una classi…cazione non perentoria. L’output Y può assumere due valori, che per comodità
espositiva chiamiamo A e B. Assume A con probabilità p.
A partire da un set di dati, cioè di individui di cui si conoscano sia i predittori sia la classe, A o B, a cui appartengono, si calcolano i coe¢ cienti del
modello. Poi, esaminando nuovi individui che vogliamo classi…care sulla base
della sola conoscenza dei predittori, calcoliamo il numero p di un individuo, ed
assegnamolo alla classe che ha probabilità maggiore (A se p > 1=2). Eseguita
così è una classi…cazione perentoria, ma è corredata dal numero p stesso, che
fornisce un’indicazione del grado di sicurezza che abbiamo, nella classi…cazione
appena eseguita.
3
2
Modelli lineari generalizzati
Sono una generalizzazione del modello base, gaussiano,
Y = a1 X1 + ::: + ap Xp + b + "
e di quello bernoulliano (detto modello binomiale, in questo contensto) appena
visto
Y
B (1; p) con p =
exp ( )
dove
1 + exp ( )
= a1 x1 + ::: + ap xp + b:
In generale, si ipotizza che l’output Y abbia distribuzione di una certa classe,
ad esempio appunto gaussiana, Bernoulli, Poisson, ecc., e si ipotizza che un suo
parametro fondamentale , di solito la media ( per la gaussiana, p per la
Bernoulli, per la Poisson) sia legato ai fattori attraverso una formula del tipo
=g
1
( )
dove
= a1 x1 + ::: + ap xp + b
è chiamiato predittore lineare. Chiamiamo link function la funzione g. Nella regressione logistica si prende come g la funzione logit. Nella regressione tradizionale,
g è l’identità.
Il comando di R che esegue la regressione per i modelli lineari generalizzati
è glm.
4