Metodi Quantitativi per Economia,
Finanza e Management
Lezione n°13
Il modello di regressione logistica
Indicatori sintetici di bontà del Modello
Tanto maggiore è il numero dei CONCORDANT (e quindi tanto
minore è il numero dei DISCORDANT), tanto più il modello
rappresenterà adeguatamente il fenomeno indagato.
Tanto più questi indicatori sono elevati, tanto più il modello è
“corretto”. Queste misure variano tra 0 ed 1. Valori più grandi
corrispondono a più forte associazione tra valori predetti e valori
osservati.
Il modello di regressione logistica
Indicatori sintetici di bontà del Modello
Test per valutare la significatività congiunta dei coefficienti
H
0
:    ...  
p
 0
Testing Global Null Hypothesis: BETA=0
Test
Chi-Square DF Pr > ChiSq
Likelihood Ratio 2192.4978
7
<.0001
Score
1399.0552
7
<.0001
Wald
876.2357
7
<.0001
Se il p-value è piccolo, cioè < del livello di significatività α fissato a
propri, allora rifiuto H0, quindi il modello ha buona capacità esplicativa!
Il modello di regressione logistica
Verifica della bontà delle stime
Test per valutare la significatività dei singoli coefficienti
H
0
:
j
 0
Se il p-value è piccolo, cioè < del livello di significatività α fissato a
propri, allora rifiuto H0, quindi  il regressore a cui il coefficiente è
associato è rilevante per la spiegazione del fenomeno
Il modello di regressione logistica
Multicollinearità
Analogamente a quanto visto per la regressione lineare, anche per la
logistica il problema della multicollinearità può causa effetti indesiderati
sulla stabilità delle stime.
I metodi di gestione della problematica sono analoghi a quelli trattati nel
modello di regressione lineare:
• rimozione delle variabili correlate
• selezione di una variabile rappresentativa dal gruppo di variabili legate
da relazione lineare
• analisi fattoriale trasformazione dei regressori in componenti non
correlate
Il modello di regressione logistica
Importanza dei regressori
In presenza di regressori quantitativi, i coefficienti standardizzati
possono essere utili per valutare l’importanza relativa delle variabili,
capire quali sono quelle che pesano di più nel modello.
Parameter
mavere
mesi_bmov
pprod
mdare
flag_acc_sti
utenze
Label
Numero movimenti avere
Numero mesi bassa movimentazione ultimo semestre
Percentuale famiglie prodotti posseduti
Numero movimenti dare
Accredito stipendio Y/N
Numero utenze in c/c
Standardized Valore assoluto del coeff
Estimate
standardizzato
-0.4671
0.4671
0.3856
0.3856
-0.3603
0.3603
-0.2414
0.2414
-0.2163
0.2163
-0.0596
0.0596
Si ordinano i regressori in modo decrescente rispetto al valore assoluto
del coefficiente standardizzato.
Il modello di regressione logistica
Analisi del segno dei coefficienti
Dato che la relazione tra probabilità e regressore non è lineare, i
coefficienti stimati, a parte per il segno, non sono interpretabili.
Analysis of Maximum Likelihood Estimates
Parameter DF Estimate Standard Wald
Pr > ChiSq
Error
Chi-Square
Intercept 1 -1.253
0.1147
119.3602
<.0001
var1
1 0.5151
0.0432
142.161
<.0001
var2
1 -0.8965 0.1038
74.665
<.0001
segno positivo
• Più aumenta il regressore var1, più aumenta la probabilità
che si verifichi l’evento
segno negativo
• Più aumenta il regressore var2, più diminuisce la
probabilità che si verifichi l’evento
Standardized
Estimate
0.6494
-0.2381
Si guarda il
segno del
coeff.
Regressione Logistica
Target: acquisto prodotto bancario «carta di
credito» (0/1)
Potenziali regressori: informazioni relative ai
comportamenti dei clienti di una banca (ad
saldo CC, importo e numero operazioni,
affidamenti, accredito stipendio, titoli, polizze
assicurative, certificati di deposito, ecc.).
Regressione Logistica
Regressori selezionati dal metodo stepwise:
• IMPA importo operazioni avere
• NTIT numero operazioni titoli
• NAVERE: numero operazioni avere
• STICONV: importo totale accredito stipendio su conto corrente
• S_UTENZE: domiciliazione utenze (si=1; no=0)
Regressione Logistica
1. Valutazione della bontà del modello:
-
% di concordant
Misure di associazione tra valori predetti e valori osservati
Test per valutare la significatività congiunta dei coefficienti
Test per valutare la significatività dei singoli coefficienti
2. Verifica della presenza di multicollinearità e
gestione della problematica
3. Ristima del modello, ripetere punto 1 e 2
4. Importanza dei regressori e Analisi del segno
dei coefficienti