10/20/2015 Regressione logistica Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello logistico Odds Logit Regressione logistica o lineare? Confronto grafico Stima dei coefficienti Interpretazione dei risultati Predittori qualitativi Regressione logistica con più predittori Esempio Confounding Spiegazione grafica Regressione logistica con più classi di previsione Riferimenti bibliografici Metodi di classificazione I metodi usati per analizzare situazioni in cui Y è una variabile qualitativa sono noti come metodi di classificazione. Prevedere una variabile risposta qualitativa significa assegnare l’osservazione ad una categoria o una classe. D’altra parte, i metodi utilizzati per la classificazione prima di tutto predicono la probabilità che l’unità appartenga ad una certa classe e poi effettuano la classificazione. In questo senso sono anche dei metodi di regressione. In molti casi può essere in effetti più interessante stimare la probabilità di appartenenza ad una certa classe che effettuare una mera classificazione. Ad esempio, per una compagnia assicuratrice, può essere più importante conoscere la probabilità che una richiesta di risarcimento sia fraudolenta piuttosto che una semplice classificazione in fraudolenta/non­fraudolenta. Tecniche principali file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html 1/10 10/20/2015 Regressione logistica I metodi di classificazione più tradizionali sono La regressione logistica L’analisi discriminante (lineare e quadratica) La classificazione KNN Altri metodi, computer intensive, sono I modelli additivi generalizzati Gli alberi di classificazione, foreste casuali e boosting Support vector machines Alcuni esempi Una società di analisi vuole stimare la probabilità di fallimento di un’impresa sulla base di indicatori di bilancio e di tendenza del mercato Un servizio di online banking deve essere in grado di determinare se un’operazione svolto sul sito è fraudolenta, sulla base dell’indirizzo IP dell’utente, cronologia delle transazioni passate, e così via Un general store vuole classificare i consumatori e stimare le probabilità di acquisto di determinate categorie di prodotti in base ad alcune caratteristiche demografiche (età, titolo di studio, sesso, etc.) Data set Default Un data set simulato (10000 casi) disponibile nella libreria ISLR in cui una società creditizia vuole stimare la probabilità di default (incapacità di fare fronte ai pagamenti ) in base ad alcune caratteristiche del debitore Y ­ default: variabile binaria (default o no) X1 ­ student: variabile binaria (studente o no) X2 ­ balance: l’importo medio di debito residuo sulla carta di credito dopo i versamenti mensili X3 ­ income: il reddito dell’unità I dati library(ISLR) Warning: package 'ISLR' was built under R version 3.2.2 data(Default) str(Default) file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html 2/10 10/20/2015 Regressione logistica 'data.frame': 10000 obs. of 4 variables: $ default: Factor w/ 2 levels "No","Yes": 1 1 1 1 1 1 1 1 1 1 ... $ student: Factor w/ 2 levels "No","Yes": 1 2 1 1 1 2 1 2 1 1 ... $ balance: num 730 817 1074 529 786 ... $ income : num 44362 12106 31767 35704 38463 ... head(Default) default student balance income 1 No No 729.5265 44361.625 2 No Yes 817.1804 12106.135 3 No No 1073.5492 31767.139 4 No No 529.2506 35704.494 5 No No 785.6559 38463.496 6 No Yes 919.5885 7491.559 file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html 3/10 10/20/2015 Regressione logistica Defaut=Yes (arancio). Default=No (blu) file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html 4/10 10/20/2015 Regressione logistica La regressione logistica La regressione logistica, anzichè modellare direttamente Y , propone un modello per la probabilità che Y appartenga ad una particolare categoria. Nel caso dei dati Default, abbiamo Y = { 1 se Default 0 altrimenti Supponiamo in prima istanza di avere un solo predittore, X. La regressione logistica propone un modello per stimare p(X) = P (Y = 1|X) file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html 5/10 10/20/2015 Regressione logistica Le stime prodotte dal modello sono usate per analisi e classificazione Esempio Nel caso dei dati Default, utilizzando, ad esempio, balance come predittore, interessa stimare p(balance) = P (def ault = Y es|balance) Per ogni valore dato di balance, si può fare una previsione per default. Ad esempio, si potrebbe prevedere default = Yes per ogni individuo per il quale p(balance) > 0.5 . Alternativamente, se la società creditizia vuole essere prudente allora si può scegliere di utilizzare una soglia più bassa, come ad esempio p(balance) > 0.1 . Il modello logistico Poiché l’obbiettivo è quello di modellare una probabilità, sempre compresa in [0, 1] il modello logistico propone di utilizzare la funzione logistica e β +β X 0 p(X) = 1 + e 1 β +β X 0 1 con un po’ di manipolazione si ottiene p(X) = e β +β X 0 1 1 − p(X) La quantità p(X)/[1 − p(X)] è chiamata odds, e può assumere qualsiasi valore in[0, ∞) . Odds Un odds vicino a 0 indica una probabilità molto bassa di default Ad esempio, tra gli individui con odds= implica un odds pari a 1/4 in media 1 ogni 5 andrà in default poiché p(X) = 0.2 0.2 = 1/4 1 − 0.2 Gli odds sono tradizionalmente utilizzati al posto delle probabilità nelle scommesse. Dato un odds è possibile ricavare la probabilità da odds p(X) = 1 + odds Logit Il logaritmo naturale dell’odds ottiene p(X) log ( 1 − P (X) file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html ) = β0 + β1 X 6/10 10/20/2015 Regressione logistica che prende il nome di logit o log­odds ed è lineare in X Nella regressione logistica dunque il coefficiente β 1 è legato alla variazione del logit e non alla variazione della probabilità cui è legato non­linearmente β Spesso si analizza il coefficiente e1 che indica la variazione dell’odds in corrispondenza di una variazione di X poiché p(X) = e β +β X 0 1 = e β 0 (e β 1 ) X 1 − p(X) Regressione logistica o lineare? Una regressione lineare propone il modello p(X) = β 0 + β 1 X La regressione logistica propone il modello e β +β X 0 p(X) = 1 + e 1 β +β X 0 1 Pur essendo di fatto utilizzabile in questo contesto il modello di regressione lineare può produrre stime di probabilità negative o superiori a 1 Se il numero di categorie di Y è superiore a 2 il modello lineare diventa inappropriato. Confronto grafico Stima dei coefficienti Il metodo dei minimi quadrati non è adatto ai modelli di regressione logistica. Si usa invece il metodo della massima verosimiglianza Per i dati Default si ottiene file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html 7/10 10/20/2015 Regressione logistica ## Warning: package 'xtable' was built under R version 3.2.2 EstimateStd. Errorz valuePr(>|z|) (Intercept) ­10.6513 0.3612 ­29.49 0.0000 balance 0.0055 0.0002 24.95 0.0000 Interpretazione dei risultati Vediamo che β^1 = 0.0055 ; ciò indica che un aumento in balance è associato a un aumento della probabilità di default. Per essere precisi, un aumento di una unità di balance è associato ad un aumento del log­odds di default di 0.0055 unità. ^ In alternativa eβ = e0.0055 variazione di balance 1 = 1.0055 indica la variazione dell’odds in corrispondenza di una Ad esempio se balance=1500 $ allora l’odds è pari a p(1500) = e −10.6513+0.0055×(1500) = 0.0906 1 − p(1500) Con relativa probabilità di default pari a odds p(1500) = 0.0906 = (1 + odds) = 0.08307 1 + 0.0906 Una variazione di balance pari a 200 implica una variazione dell’odds pari a 3.00417. Si verifichi infatti che p(1700) = 0.27218 = 0.0906 × 3.00417 1 − p(1700) La statistica z = β^1 /S E(β^1 ) ed il relativo p­value sono usati per la verifica dell’ipotesi H0 contro Ha : β 1 ≠ 0 : β1 = 0 Predittori qualitativi Il caso dei predittori qualitativi è trattato esattamente come nella regressione lineare, ossia attraverso l’uso di variabili dummy. Ad esempio, se per i dati Default proviamo a stimare p(student) , EstimateStd. Errorz valuePr(>|z|) (Intercept) ­3.5041 0.0707 ­49.55 0.0000 studentYes 0.4049 0.1150 3.52 0.0004 I risultati indicano che uno studente ha, in media, probabilità di default più elevata rispetto ad un non­ studente file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html −3.5041+0.4049 8/10 10/20/2015 Regressione logistica e ^ P (def ault = Y es|student = Y es) = −3.5041+0.4049 1 + e −3.5041+0.4049 e ^ P (def ault = Y es|student = N o) = = 0.0431 −3.5041 1 + e −3.5041 = 0.0292 Regressione logistica con più predittori Per X = (X 1 , … , X p ) il modello di regressione logistica multipla è e β +β X1 +…β Xp 0 p(X) = 1 + e 1 p β +β X1 +…β Xp 0 1 p ed il logit p(X) logit(p(X)) = log 1 − p(X) = β 0 + β 1 X1 + … β p Xp Esempio Per il data set Default, utilizzando tutti i predittori otteniamo EstimateStd. Errorz valuePr(>|z|) (Intercept) ­10.8690 0.4923 ­22.08 0.0000 balance 0.0057 0.0002 24.74 0.0000 I(income/1000) 0.0030 0.0082 0.37 0.7115 studentYes ­0.6468 0.2363 ­2.74 0.0062 I p­value associati a balance e student sono molto piccoli, indicando che ciascuna di queste variabili è associata alla probabilità di default. Al contrario di quanto visto prima, il coefficiente per la variabile student è negativo, indicando che gli studenti hanno meno probabilità di default dei non­studenti. Confounding Il coefficiente negativo per student nella regressione logistica multipla indica che per un dato valore di balance e income, uno studente ha minor probabilità di default di un non­studente. Il problema è dovuto al fenomeno, già discusso, della distorsione da variabili omesse, (o confounding) ed al fatto che le variabili student e balance sono correlate. Gli studenti hanno maggior probabilità di avere balance più elevato che è associato a tassi di default più elevati. Così, anche se un singolo studente, per un dato balance e income, tenderà ad avere una minor probabilità di default rispetto ad un non­studente, il fatto che gli studenti nel complesso tendano ad avere un balance più elevato significa che, nel complesso, gli studenti tendono al default ad un tasso superiore a quello dei non studenti. Questa distinzione è importante per una società di carte di credito che sta cercando di stabilire a quali persone dovrebbero offrire credito. file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html 9/10 10/20/2015 Regressione logistica Uno studente è “più rischioso” di un non­studente in assenza di indicazioni relative a balance. La situazione si rovescia a parità di balance Spiegazione grafica Studenti: arancio. Non­studenti: blu Sinistra: il tasso di default per student è uguale o inferiore a quello dei non­studenti per ogni dato valore di balance. Le linee tratteggiate, corrispondenti alle probabilità di default medie (calcolate du tutti i valori di balance e income) suggeriscono il contrario. Destra: Spiegazione: student e balance sono correlate. Gli studenti tendono ad avere livelli elevati di debito, che è a sua volta associato ad una maggiore probabilità di default. Regressione logistica con più classi di previsione La regressione logistica può essere estesa al caso in cui la variabile Y abbia più di due categorie. Tuttavia in questi casi l’analisi discriminante è molto più agevole da usare e pertanto più diffusa nell’utilizzo pratico. Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/4a_RLg.html 10/10