Regressione logistica

annuncio pubblicitario
10/20/2015
Regressione logistica
Regressione logistica
Strumenti quantitativi per la gestione
Emanuele Taufer
Metodi di classificazione
Tecniche principali
Alcuni esempi
Data set Default
I dati
La regressione logistica
Esempio
Il modello logistico
Odds
Logit
Regressione logistica o lineare?
Confronto grafico
Stima dei coefficienti
Interpretazione dei risultati
Predittori qualitativi
Regressione logistica con più predittori
Esempio
Confounding
Spiegazione grafica
Regressione logistica con più classi di previsione
Riferimenti bibliografici
Metodi di classificazione
I metodi usati per analizzare situazioni in cui Y è una variabile qualitativa sono noti come metodi di
classificazione.
Prevedere una variabile risposta qualitativa significa assegnare l’osservazione ad una categoria o
una classe.
D’altra parte, i metodi utilizzati per la classificazione prima di tutto predicono la probabilità che l’unità
appartenga ad una certa classe e poi effettuano la classificazione. In questo senso sono anche dei
metodi di regressione.
In molti casi può essere in effetti più interessante stimare la probabilità di appartenenza ad una certa
classe che effettuare una mera classificazione.
Ad esempio, per una compagnia assicuratrice, può essere più importante conoscere la probabilità
che una richiesta di risarcimento sia fraudolenta piuttosto che una semplice classificazione in
fraudolenta/non­fraudolenta.
Tecniche principali
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html
1/10
10/20/2015
Regressione logistica
I metodi di classificazione più tradizionali sono
La regressione logistica
L’analisi discriminante (lineare e quadratica)
La classificazione KNN
Altri metodi, computer intensive, sono
I modelli additivi generalizzati
Gli alberi di classificazione, foreste casuali e boosting
Support vector machines
Alcuni esempi
Una società di analisi vuole stimare la probabilità di fallimento di un’impresa sulla base di
indicatori di bilancio e di tendenza del mercato
Un servizio di online banking deve essere in grado di determinare se un’operazione svolto sul
sito è fraudolenta, sulla base dell’indirizzo IP dell’utente, cronologia delle transazioni passate, e
così via
Un general store vuole classificare i consumatori e stimare le probabilità di acquisto di
determinate categorie di prodotti in base ad alcune caratteristiche demografiche (età, titolo di
studio, sesso, etc.)
Data set Default
Un data set simulato (10000 casi) disponibile nella libreria ISLR in cui una società creditizia vuole
stimare la probabilità di default (incapacità di fare fronte ai pagamenti ) in base ad alcune
caratteristiche del debitore
Y
­ default: variabile binaria (default o no)
X1
­ student: variabile binaria (studente o no)
X2
­ balance: l’importo medio di debito residuo sulla carta di credito dopo i versamenti mensili
X3
­ income: il reddito dell’unità
I dati
library(ISLR)
Warning: package 'ISLR' was built under R version 3.2.2
data(Default)
str(Default)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html
2/10
10/20/2015
Regressione logistica
'data.frame': 10000 obs. of 4 variables:
$ default: Factor w/ 2 levels "No","Yes": 1 1 1 1 1 1 1 1 1 1 ...
$ student: Factor w/ 2 levels "No","Yes": 1 2 1 1 1 2 1 2 1 1 ...
$ balance: num 730 817 1074 529 786 ...
$ income : num 44362 12106 31767 35704 38463 ...
head(Default)
default student balance income
1 No No 729.5265 44361.625
2 No Yes 817.1804 12106.135
3 No No 1073.5492 31767.139
4 No No 529.2506 35704.494
5 No No 785.6559 38463.496
6 No Yes 919.5885 7491.559
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html
3/10
10/20/2015
Regressione logistica
Defaut=Yes (arancio). Default=No (blu)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html
4/10
10/20/2015
Regressione logistica
La regressione logistica
La regressione logistica, anzichè modellare direttamente Y , propone un modello per la probabilità
che Y appartenga ad una particolare categoria.
Nel caso dei dati Default, abbiamo
Y = {
1
se Default
0
altrimenti
Supponiamo in prima istanza di avere un solo predittore, X. La regressione logistica propone un
modello per stimare
p(X) = P (Y = 1|X)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html
5/10
10/20/2015
Regressione logistica
Le stime prodotte dal modello sono usate per analisi e classificazione
Esempio
Nel caso dei dati Default, utilizzando, ad esempio, balance come predittore, interessa stimare
p(balance) = P (def ault = Y es|balance)
Per ogni valore dato di balance, si può fare una previsione per default.
Ad esempio, si potrebbe prevedere default = Yes per ogni individuo per il quale p(balance)
> 0.5
.
Alternativamente, se la società creditizia vuole essere prudente allora si può scegliere di utilizzare
una soglia più bassa, come ad esempio p(balance) > 0.1 .
Il modello logistico
Poiché l’obbiettivo è quello di modellare una probabilità, sempre compresa in [0, 1] il modello
logistico propone di utilizzare la funzione logistica
e
β +β X
0
p(X) =
1 + e
1
β +β X
0
1
con un po’ di manipolazione si ottiene
p(X)
= e
β +β X
0
1
1 − p(X)
La quantità p(X)/[1 − p(X)] è chiamata odds, e può assumere qualsiasi valore in[0, ∞) .
Odds
Un odds vicino a 0 indica una probabilità molto bassa di default
Ad esempio, tra gli individui con odds=
implica un odds pari a
1/4
in media 1 ogni 5 andrà in default poiché p(X)
= 0.2
0.2
= 1/4
1 − 0.2
Gli odds sono tradizionalmente utilizzati al posto delle probabilità nelle scommesse.
Dato un odds è possibile ricavare la probabilità da
odds
p(X) =
1 + odds
Logit
Il logaritmo naturale dell’odds ottiene
p(X)
log (
1 − P (X)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html
) = β0 + β1 X
6/10
10/20/2015
Regressione logistica
che prende il nome di logit o log­odds ed è lineare in X
Nella regressione logistica dunque il coefficiente β 1 è legato alla variazione del logit e non alla
variazione della probabilità cui è legato non­linearmente
β
Spesso si analizza il coefficiente e1 che indica la variazione dell’odds in corrispondenza di una
variazione di X poiché
p(X)
= e
β +β X
0
1
= e
β
0
(e
β
1
)
X
1 − p(X)
Regressione logistica o lineare?
Una regressione lineare propone il modello
p(X) = β 0 + β 1 X
La regressione logistica propone il modello
e
β +β X
0
p(X) =
1 + e
1
β +β X
0
1
Pur essendo di fatto utilizzabile in questo contesto il modello di regressione lineare può produrre
stime di probabilità negative o superiori a 1
Se il numero di categorie di Y è superiore a 2 il modello lineare diventa inappropriato.
Confronto grafico
Stima dei coefficienti
Il metodo dei minimi quadrati non è adatto ai modelli di regressione logistica.
Si usa invece il metodo della massima verosimiglianza
Per i dati Default si ottiene
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html
7/10
10/20/2015
Regressione logistica
## Warning: package 'xtable' was built under R version 3.2.2
EstimateStd. Errorz valuePr(>|z|)
(Intercept) ­10.6513 0.3612 ­29.49 0.0000
balance 0.0055 0.0002 24.95 0.0000
Interpretazione dei risultati
Vediamo che β^1 = 0.0055 ; ciò indica che un aumento in balance è associato a un aumento della
probabilità di default.
Per essere precisi, un aumento di una unità di balance è associato ad un aumento del log­odds di
default di 0.0055 unità.
^
In alternativa eβ = e0.0055
variazione di balance
1
= 1.0055
indica la variazione dell’odds in corrispondenza di una
Ad esempio se balance=1500 $ allora l’odds è pari a
p(1500)
= e
−10.6513+0.0055×(1500)
= 0.0906
1 − p(1500)
Con relativa probabilità di default pari a
odds
p(1500) =
0.0906
=
(1 + odds)
= 0.08307
1 + 0.0906
Una variazione di balance pari a 200 implica una variazione dell’odds pari a 3.00417. Si verifichi infatti
che
p(1700)
= 0.27218 = 0.0906 × 3.00417
1 − p(1700)
La statistica z = β^1 /S E(β^1 ) ed il relativo p­value sono usati per la verifica dell’ipotesi H0
contro Ha : β 1 ≠ 0
: β1 = 0
Predittori qualitativi
Il caso dei predittori qualitativi è trattato esattamente come nella regressione lineare, ossia attraverso
l’uso di variabili dummy.
Ad esempio, se per i dati Default proviamo a stimare p(student) ,
EstimateStd. Errorz valuePr(>|z|)
(Intercept) ­3.5041 0.0707 ­49.55 0.0000
studentYes 0.4049 0.1150 3.52 0.0004
I risultati indicano che uno studente ha, in media, probabilità di default più elevata rispetto ad un non­
studente
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html
−3.5041+0.4049
8/10
10/20/2015
Regressione logistica
e
^
P (def ault = Y es|student = Y es) =
−3.5041+0.4049
1 + e
−3.5041+0.4049
e
^
P (def ault = Y es|student = N o) =
= 0.0431
−3.5041
1 + e
−3.5041
= 0.0292
Regressione logistica con più predittori
Per X
= (X 1 , … , X p )
il modello di regressione logistica multipla è
e
β +β X1 +…β Xp
0
p(X) =
1 + e
1
p
β +β X1 +…β Xp
0
1
p
ed il logit
p(X)
logit(p(X)) = log
1 − p(X)
= β 0 + β 1 X1 + … β p Xp
Esempio
Per il data set Default, utilizzando tutti i predittori otteniamo
EstimateStd. Errorz valuePr(>|z|)
(Intercept) ­10.8690 0.4923 ­22.08 0.0000
balance 0.0057 0.0002 24.74 0.0000
I(income/1000) 0.0030 0.0082 0.37 0.7115
studentYes ­0.6468 0.2363 ­2.74 0.0062
I p­value associati a balance e student sono molto piccoli, indicando che ciascuna di queste variabili è
associata alla probabilità di default.
Al contrario di quanto visto prima, il coefficiente per la variabile student è negativo, indicando che gli
studenti hanno meno probabilità di default dei non­studenti.
Confounding
Il coefficiente negativo per student nella regressione logistica multipla indica che per un dato valore di
balance e income, uno studente ha minor probabilità di default di un non­studente.
Il problema è dovuto al fenomeno, già discusso, della distorsione da variabili omesse, (o
confounding) ed al fatto che le variabili student e balance sono correlate.
Gli studenti hanno maggior probabilità di avere balance più elevato che è associato a tassi di default
più elevati.
Così, anche se un singolo studente, per un dato balance e income, tenderà ad avere una minor
probabilità di default rispetto ad un non­studente, il fatto che gli studenti nel complesso tendano ad
avere un balance più elevato significa che, nel complesso, gli studenti tendono al default ad un tasso
superiore a quello dei non studenti.
Questa distinzione è importante per una società di carte di credito che sta cercando di stabilire a quali
persone dovrebbero offrire credito.
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html
9/10
10/20/2015
Regressione logistica
Uno studente è “più rischioso” di un non­studente in assenza di indicazioni relative a balance.
La situazione si rovescia a parità di balance
Spiegazione grafica
Studenti: arancio. Non­studenti: blu
Sinistra: il tasso di default per student è uguale o inferiore a quello dei non­studenti per ogni dato
valore di balance.
Le linee tratteggiate, corrispondenti alle probabilità di default medie (calcolate du tutti i valori di
balance e income) suggeriscono il contrario.
Destra: Spiegazione: student e balance sono correlate. Gli studenti tendono ad avere livelli elevati di
debito, che è a sua volta associato ad una maggiore probabilità di default.
Regressione logistica con più classi di
previsione
La regressione logistica può essere estesa al caso in cui la variabile Y abbia più di due categorie.
Tuttavia in questi casi l’analisi discriminante è molto più agevole da usare e pertanto più diffusa
nell’utilizzo pratico.
Riferimenti bibliografici
An Introduction to Statistical Learning, with applications in R. (Springer, 2013)
Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G.
James, D. Witten, T. Hastie e R. Tibshirani
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html
10/10
Scarica