Metodi Quantitativi per Economia, Finanza
e Management
Lezione n° 12
Regressione Logistica
Il modello di regressione logistica
Obiettivo
• si vuole modellare la relazione tra una variabile
dipendente dicotomica (0-1) e un insieme di regressori
che si ritiene influenzino la variabile dipendente
• la variabile dicotomica rappresenta presenza/assenza di
un fenomeno oppure successo/fallimento
• l’obiettivo è stimare l’equazione
i
logit ( i )  log(
)    1 xi1   2 xi 2  ...   k xik
1  i
dove π:= Pr(Y=1 l X) è la probabilità che il fenomeno si verifichi
Il modello di regressione logistica
La stima del modello
Analogamente al modello di regressione lineare, la relazione tra la
variabile dipendente e le variabili indipendenti è nota a meno del valore
dei parametri:
i
lo git (  i )  lo g(
)     1 x i 1   2 x i 2  ...   k x i k
1i
E’ necessario fare delle ipotesi sulla componente erratica modello
E’ necessario un metodo che permetta di ottenere delle “buone” stime dei
parametri sulla base delle osservazioni campionarie disponibili.
Il modello di regressione logistica
La stima del modello
Si dimostra che gli stimatori ottenuti mediante il metodo dei Minimi
Quadrati non godono delle proprietà ottimali garantite nel caso della
regressione lineare.
Viene utilizzato il metodo più generale della Massima Verosimiglianza,
che si basa sulla massimizzazione della probabilità di osservare l’insieme
di dati campionari disponibili, in funzione di β.
•Le equazioni di verosimiglianza non sono lineari nei parametri e non
ammettono (salvo casi particolari) soluzione esplicita.
•E’ necessario ricorrere a metodi numerici iterativi per approssimare
la soluzione (Algoritmo di Newton-Raphson o di Scoring’s Fisher )
Il modello di regressione logistica
La stima del modello
Gli stimatori di massima verosimiglianza godono di proprietà ottimali in
presenza di campioni numericamente grandi:
– asintoticamente corretti (le stime sono non distorte, si avvicinano
al valore vero)
– asintoticamente efficienti (con standard error delle stime sono
piccoli almeno come quelli di ogni altro metodo di stima)
– asintoticamente normali (è possibile usare la distribuzione
normale o chi quadro per calcolare gli intervalli di confidenza)
Il modello di regressione logistica
Le ipotesi del modello
Si dimostra che
lo g it (  i )  lo g it ( P r ( Y i  1 | X i ) )  X i 
T
LOGIT
equivale a
exp( X i  )
T
P r( Y i  1 | X i ) 
1  exp( X i  )
T
LOGISTICA
(che è l’inverso
del logit)
Il modello di regressione logistica
Come valutare un modello di regressione logistica
Fase
Misura/Test
Valutazione
Indicatori sintetici di bontà del
Modello
Percentuale di Concordant
Tanto maggiore è il numero dei
CONCORDANT, tanto più il
modello rappresenterà
adeguatamente il fenomeno
indagato.
Indicatori sintetici di bontà del
Modello
Altre misure di associazione tra
valori predetti e valori osservati
Tanto più questi indicatori sono
elevati, tanto più il modello è
“corretto”.
Indicatori sintetici di bontà del
Modello
Test per valutare la significatività
congiunta dei coefficienti
Se il p-value è piccolo, cioè < del
livello di significatività α fissato a
propri, allora rifiuto H0, quindi il
modello ha buona capacità
esplicativa
Verifica della bontà delle stime
Test per valutare la significatività
dei singoli coefficienti
Se il p-value è piccolo, cioè < del
livello di significatività α fissato a
propri, allora rifiuto H0, quindi 
il regressore a cui il coefficiente
è associato è rilevante per la
spiegazione del fenomeno
Il modello di regressione logistica
Indicatori sintetici di bontà del Modello
Si definiscono PAIRS il numero di coppie di osservazioni (i,h con i≠h)
che in un caso hanno Y=1 e nell’altro Y=0.
La coppia di osservazioni (i,h con i≠h) per la quale Yi =1 e Yh =0 è:
– concordante se
– tied se
– discordante se
ˆ i  ˆ
ˆ i  ˆ
ˆ i  ˆ
h
h
h
Tanto maggiore è il numero dei CONCORDANT (e quindi tanto minore è il
numero dei DISCORDANT), tanto più il modello rappresenterà adeguatamente
il fenomeno indagato.
Il modello di regressione logistica
Indicatori sintetici di bontà del Modello
Le statistiche seguenti sono calcolate sulla base del numero di coppie
CONCORDANT, DISCORDANT e TIED.
CD
N
CD
Gamma 
CD
CD
Somer' sD 
C  D T
c  0.5  (1  Somer' sD )
Tau  a 
Indicando con:
•C è il numero di coppie concordanti,
•D il numero di coppie discordanti,
•T il numero di ties
•N il numero totale di coppie
Tanto più questi indicatori sono elevati, tanto più il modello è “corretto”.
Queste misure variano tra 0 ed 1. Valori più grandi corrispondono a più forte
associazione tra valori predetti e valori osservati.
Il modello di regressione logistica
Indicatori sintetici di bontà del Modello
Test per valutare la significatività congiunta dei coefficienti (“Testing
Global Null Hypothesis: BETA=0”)
H 0 :    ...   p  0
– Likelihood Ratio
– Score
– Wald
Queste statistiche hanno distribuzione Chi-quadro con n gradi di libertà
dove n corrisponde al numero di coefficienti stimati delle variabili
indipendenti.
Se il p-value è piccolo ,cioè < del livello di significatività α fissato a propri,
allora rifiuto H0, quindi il modello ha buona capacità esplicativa.
N.B. Equivalenti al Test F della regressione lineare
Il modello di regressione logistica
Indicatori sintetici di bontà del Modello
Testing Global Null Hypothesis: BETA=0
Test
Chi-Square DF Pr > ChiSq
Likelihood Ratio 2192.4978
7
<.0001
Score
1399.0552
7
<.0001
Wald
876.2357
7
<.0001
Se il p-value è piccolo, cioè < del livello di significatività α fissato a
propri, allora rifiuto H0, quindi il modello ha buona capacità esplicativa!
Il modello di regressione logistica
Verifica della bontà delle stime
Test per valutare la significatività dei singoli coefficienti
H 0: j  0
– Wald Chi-square: il quadrato del rapporto tra stima e standard error
Se il p-value è piccolo, cioè < del livello di significatività α fissato a
propri, allora rifiuto H0(ossia, rifiuto l’ipotesi di coefficiente nullo)  il
regressore a cui il coefficiente è associato è rilevante per la
spiegazione del fenomeno (il coefficiente stimato è significativamente
diverso da zero).
N.B. Equivalente al Test t della regressione lineare
Il modello di regressione logistica
Verifica della bontà delle stime
Analysis of Maximum Likelihood Estimates
Parameter DF Estimate Standard Wald
Pr > ChiSq Standardized
Error
Chi-Square
Estimate
Intercept
1
-1.2530
0.1147
119.3602
<.0001
PAG_ORD 1
0.000070 5.295E-6
175.1845
<.0001
1.1035
TOT_ORD 1
0.5151
142.1610
<.0001
0.6494
PAG_MES 1
0.000120 8.608E-6
194.9225
<.0001
0.6074
SUD
1
-0.8965
0.1038
74.6650
<.0001
-0.2381
CEN
1
-0.2745
0.1294
4.5039
0.0338
-0.0571
SESSO
1
0.2729
0.1005
7.3780
0.0066
0.0695
LISTA
1
-0.00293
0.0553
0.0028
0.9577
-0.00134
0.0432
Se il p-value è piccolo, cioè < del livello di significatività α fissato a
propri, allora rifiuto H0, quindi  il regressore a cui il coefficiente è
associato è rilevante per la spiegazione del fenomeno
Il modello di regressione logistica
Selezione automatica dei regressori
Analogamente alla regressione lineare è possibile avvalersi di vari
metodi di selezione automatica delle variabili.
Anche in questo caso gli algoritmi operano secondo le logiche di:
•
forward selection  inserisce nell’equazione una variabile per volta,
basandosi sul contributo del regressore inserito alla spiegazione della
variabilità di Y
•
backward selection  rimuove dall’equazione una variabile per volta,
basandosi sulla perdita di capacità esplicativa della variabilità di Y
conseguente all’eliminazione del regressore
•
stepwise selection (forward+backward selection)  ogni variabile può
entrare/uscire dal modello
Il modello di regressione logistica
Multicollinearità
Analogamente a quanto visto per la regressione lineare, anche per la
logistica il problema della multicollinearità può causa effetti indesiderati
sulla stabilità delle stime.
I metodi di gestione della problematica sono analoghi a quelli trattati nel
modello di regressione lineare:
• rimozione delle variabili correlate
• selezione di una variabile rappresentativa dal gruppo di variabili legate
da relazione lineare
• analisi fattoriale trasformazione dei regressori in componenti non
correlate
Il modello di regressione logistica
L’importanza dei regressori
In presenza di regressori quantitativi, i coefficienti standardizzati
possono essere utili per valutare l’importanza relativa delle variabili,
capire quali sono quelle che pesano di più nel modello.
Si ordinano i regressori in modo decrescente rispetto al valore assoluto
del coefficiente standardizzato (analogamente a quanto visto per la
regressione lineare).
Il modello di regressione logistica
Interpretazione dei coefficienti stimati
i
lo git (  i )  lo g(
)     1 x i 1   2 x i 2  ...   k x i k
1i
Nella regressione logistica un coefficiente pari a 0.2 ci dice che il logit di
Y aumenta di 0.2 in corrispondenza in corrispondenza di un aumento
unitario di X.
Ma cosa significa un aumento di 0.2 del logit?
Dato che la relazione tra probabilità e regressore non è lineare, i
coefficienti stimati, a parte per il segno, non sono interpretabili.
 Nella regressione logistica si può interpretare l’odds ratio (l’esponenziale del
coefficiente), ma non sarà oggetto di questo corso.
Il modello di regressione logistica
Analisi del segno dei coefficienti
Analysis of Maximum Likelihood Estimates
Parameter DF Estimate Standard Wald
Pr > ChiSq
Error
Chi-Square
Intercept 1 -1.253
0.1147
119.3602
<.0001
var1
1 0.5151
0.0432
142.161
<.0001
var2
1 -0.8965 0.1038
74.665
<.0001
segno positivo
• Più aumenta il regressore var1, più aumenta la probabilità
che si verifichi l’evento
segno negativo
• Più aumenta il regressore var2, più diminuisce la
probabilità che si verifichi l’evento
Standardized
Estimate
0.6494
-0.2381
Si guarda il
segno del
coeff.
Il modello di regressione logistica
Esempio – data set
Un data set contenente le informazioni su 38,163 clienti di una banca.
La variabile dipendente è dicotomica, l’evento è l’abbandono.
Variabile
dipendente
DATA SET: banca_churn
#
Variable
Label
1 cliente
Cliente
2 target
Target: abbandono
3 mavere
Numero movimenti avere
4 mdare
Numero movimenti dare
5 utenze
Numero utenze in c/c
6 pprod
Percentuale famiglie prodotti posseduti
7 flag_acc_sti
Accredito stipendio Y/N
8 mesi_bmov
Numero mesi bassa movimentazione ultimo semestre
9 PremiVita
Totale premi ass.ni Vita
10 NumAssDanni Num ass.ni Danni
11 PremiDanni
Totale premi ass.ni Danni
12 AnzCliente
Anzianità cliente
13 NumAssVita Num ass.ni Vita
14 eta
Età Cliente
Il modello di regressione logistica
Esempio – Tasso di churn osservato
La variabile dipendente (target) dicotomica vale:
• 1 se il cliente ha “abbandonato” la banca
• 0 altrimenti
Si vuole prevedere la probabilità di abbandono
target Frequency Percent Cumulative Cumulative
Frequency
Percent
0
31281
81.97
31281
81.97
1
6882
18.03
38163
100
Tasso di abbandono (churn) osservato
Il modello di regressione logistica
Esempio - Indicatori sintetici di bontà del Modello
Association of Predicted Probabilities and
Percent Concordant
86.8 Somers' D 0.74
Percent Discordant
13 Gamma
0.74
Percent Tied
0.2
Tau-a
0.22
Pairs
215275842
c
0.87
Tanto maggiore è il numero dei CONCORDANT (e quindi tanto minore è il
numero dei DISCORDANT), tanto più il modello rappresenterà
adeguatamente il fenomeno indagato.
Il modello di regressione logistica
Esempio - Indicatori sintetici di bontà del Modello
Association of Predicted Probabilities and
Percent Concordant
86.8 Somers' D 0.74
Percent Discordant
13 Gamma
0.74
Percent Tied
0.2
Tau-a
0.22
Pairs
215275842
c
0.87
Tanto più questi indicatori sono elevati, tanto più il modello è “corretto”. Queste
misure variano tra 0 ed 1. Valori più grandi corrispondono a più forte
associazione tra valori predetti e valori osservati.
Il modello di regressione logistica
Esempio - Test per valutare la significatività congiunta dei coefficienti
Testing Global Null Hypothesis: BETA=0
Test
Chi-Square DF Pr > ChiSq
Likelihood Ratio
Score
Wald
11618.788
11214.235
6923.4937
6 <.0001
6 <.0001
6 <.0001
Se il p-value è piccolo ,cioè < del livello di significatività α fissato a propri, allora
rifiuto H0, quindi il modello ha buona capacità esplicativa.
Il modello di regressione logistica
Esempio - Test per valutare la significatività dei singoli coefficienti
Analysis of Maximum Likelihood Estimates
Parameter
DF Estimate Standard
Wald
Pr > ChiSq Standardized
Error
Chi-Square
Estimate
Intercept
Label
1
0.3771
0.0445
71.7005 <.0001
mesi_bmov Numero mesi bassa movimentazione ultimo semestre
1
0.4456 0.00847 2764.9054 <.0001
0.3856
pprod
Percentuale famiglie prodotti posseduti
1 -5.3232
0.1986
718.4034 <.0001
-0.3603
utenze
Numero utenze in c/c
1 -0.0584
0.0134
19.1126 <.0001
-0.0596
mdare
Numero movimenti dare
1 -0.0441 0.00317
193.4787 <.0001
-0.2414
mavere
Numero movimenti avere
1 -0.2835
0.0145
384.2701 <.0001
-0.4671
flag_acc_sti Accredito stipendio Y/N
1
-0.858
0.0496
298.7248 <.0001
-0.2163
Se il p-value è piccolo, cioè < del livello di significatività α fissato a
propri, allora rifiuto H0(ossia, rifiuto l’ipotesi di coefficiente nullo)  il
regressore a cui il coefficiente è associato è rilevante per la
spiegazione del fenomeno (il coefficiente stimato è significativamente
diverso da zero).
Il modello di regressione logistica
Esempio - Multicollinearietà
Parameter Estimates
Variable
Label
DF Parameter
Estimate
Intercept Intercept
1
0.34349
mesi_bmov Numero mesi bassa movimentazione ultimo semestre
1
0.09278
pprod
Percentuale famiglie prodotti posseduti
1
-0.5298
utenze
Numero utenze in c/c
1
-0.0035
mdare
Numero movimenti dare
1
-0.00303
mavere
Numero movimenti avere
1
-0.00542
flag_acc_sti Accredito stipendio Y/N
1
-0.07997
Standard t Value Pr > |t| Variance
Error
Inflation
0.00473 72.55 <.0001
0
0.00113 82.19 <.0001 1.14794
0.01649 -32.13 <.0001 1.49788
0.0011
-3.18 0.002 1.51868
0.000206
-14.7 <.0001 1.52716
0.0006185
-8.76 <.0001 1.24908
0.00388
-20.6 <.0001 1.15148
Per investigare il problema della multicollinearità di calcolano i
Variance Inflation Factors.
Si stima una regressione lineare di Xj sui rimanenti p-1
regressori e per misurare il grado di relazione lineare tra Xj e i
rimanenti p-1 regressori si calcola VIFj = 1 / (1 – Rj²)
 valori alti= multicollinearità
Il modello di regressione logistica
Esempio – Importanza dei regressori
Parameter
mavere
mesi_bmov
pprod
mdare
flag_acc_sti
utenze
Label
Numero movimenti avere
Numero mesi bassa movimentazione ultimo semestre
Percentuale famiglie prodotti posseduti
Numero movimenti dare
Accredito stipendio Y/N
Numero utenze in c/c
Standardized Valore assoluto del coeff
Estimate
standardizzato
-0.4671
0.4671
0.3856
0.3856
-0.3603
0.3603
-0.2414
0.2414
-0.2163
0.2163
-0.0596
0.0596
Si ordinano i regressori in modo decrescente rispetto al valore assoluto
del coefficiente standardizzato.
Il numero movimenti avere è il regressione maggiormente influente nel
modello.
Il modello di regressione logistica
Analisi del segno dei coefficienti
Analysis of Maximum Likelihood Estimates
Parameter
DF Estimate Standard
Wald
Pr > ChiSq Standardized
Error
Chi-Square
Estimate
Intercept
Label
1
0.3771
0.0445
71.7005 <.0001
mesi_bmov Numero mesi bassa movimentazione ultimo semestre
1
0.4456 0.00847 2764.9054 <.0001
0.3856
pprod
Percentuale famiglie prodotti posseduti
1 -5.3232
0.1986
718.4034 <.0001
-0.3603
utenze
Numero utenze in c/c
1 -0.0584
0.0134
19.1126 <.0001
-0.0596
mdare
Numero movimenti dare
1 -0.0441 0.00317
193.4787 <.0001
-0.2414
mavere
Numero movimenti avere
1 -0.2835
0.0145
384.2701 <.0001
-0.4671
flag_acc_sti Accredito stipendio Y/N
1
-0.858
0.0496
298.7248 <.0001
-0.2163
• Più è bassa la movimentazione di C/C nell’ ultimo semestre più aumenta la
probabilità di abbandono (coeff. std. di mesi_bmov=0.3856 segno positivo)
• Piu è alta la % di famiglie di prodotti bancari posseduti più diminuisce la
probabilità di abbandono (coeff. std. di pprod= - 0.3603 segno negativo)
Le variabili dummy….
• La presenza dell’accredito dello stipendio in C/C diminuisce la probabilità di
abbandono (coeff. std. di flag_acc_sti= - 0.2163 segno negativo)
Il modello di regressione logistica
Summary
• Scegliere la variabile dipendente, deve essere dicotomica e rappresentare una
assenza/presenza o un fallimento/successo.
• Scegliere i potenziali regressori: un insieme di variabili quantitative o dummy
(codificate con 0/1) – in questo corso non tratteremo l’utilizzo di variabili
qualitative
• Stimare il modello di regressione logistica
• Valutare il modello:
• Indicatori sintetici di bontà del Modello
• Verifica bontà delle stime
• Multicollinearietà (per ovviare a tale problema usare i fattori di un’analisi
fattoriale come regressori)
• Spiegare il modello:
• Importanza dei regressori
• Analisi dei segni