I modelli di scoring Slides tratte da: Andrea Resti Andrea Sironi Rischio e valore nelle banche Misura, regolamentazione, gestione Egea, 2008 Rischio e valore nelle banche I modelli di scoring AGENDA • I modelli di Scoring • L’analisi discriminante lineare • Lo Z-score di Altman • Probabilità e calibrazione dei cut-off • I modelli di regressione • I modelli logit e probit • I modelli di natura induttiva • Esercizi © Resti e Sironi, 2008 2 Rischio e valore nelle banche I modelli di scoring I modelli di scoring • I modelli di scoring sono tradizionalmente i più diffusi per la previsione dell’insolvenza di un’impresa Modelli multivariati che utilizzano come input i principali indici economico-finanziari di un’impresa, ottenendo un valore numerico rappresentativo della probabilità di insolvenza • Le tecniche sottostanti tali modelli sono state elaborate a partire dagli anni trenta Ad esempio: • Fisher 1936 • Durand 1941 • Beaver 1967 • Altman 1968 © Resti e Sironi, 2008 3 Rischio e valore nelle banche I modelli di scoring L’analisi discriminante lineare • Vengono identificate le variabili (ad es. indici economico-finanziari) che consentono di “discriminare” meglio fra imprese sane e imprese anomale o insolventi • I dati di un campione di imprese vengono utilizzati per tracciare un confine tra imprese sane e insolventi Funzione discriminante x1 A Modello di Fisher (caso semplificato) B x2 Cut -off Z © Resti e Sironi, 2008 Le imprese affidabili (gruppo A) e insolventi (gruppo B) sono descritte da due variabili x1 e x2: sull’asse z è rappresentato lo score generato combinando le due variabili. Lo score prende il nome di funzione discriminante 4 Rischio e valore nelle banche I modelli di scoring L’analisi discriminante lineare • L’analisi discriminante lineare, costruisce lo score come combinazione lineare delle variabili indipendenti n • Date n variabili indipendenti: z g j x j j 1 • Per l’i-esima impresa lo score sarà quindi dato da: n zi g j xi , j j 1 • I coefficienti gj vengono scelti in modo da ottenere uno score z che discrimini in modo netto le imprese anomale da quelle sane Gli zi ottenuti devono massimizzare la distanza tra le medie zA e zB dei due gruppi di imprese (centroidi) © Resti e Sironi, 2008 5 Rischio e valore nelle banche I modelli di scoring L’analisi discriminante lineare - Esempio Imprese “affidabili” (gruppo A): Impresa 1 Impresa 2 Impresa 3 Impresa 4 Impresa 5 Impresa 6 Impresa 7 Impresa 8 Impresa 9 Impresa 10 Impresa 11 Impresa 12 Impresa 13 Impresa 14 Impresa 15 Impresa 16 Impresa 17 Impresa 18 Impresa 19 Impresa 20 Impresa 21 Impresa 22 Impresa 23 Impresa 24 Valori medi: x1: oneri finanziari x2: sconfinamenti Imprese su fatturato su fido accordato “insolventi” (gruppo B): 0% 72% 75% 7% 2% 1% 27% 42% 36% 12% 65% 16% 45% 0% 65% 16% 70% 29% 0% 0% 54% 9% 0% 57% 29,1% © Resti e Sironi, 2008 0% 40% 31% 2% 0% 2% 5% 3% 12% 9% 25% 9% 5% 0% 0% 2% 33% 15% 32% 0% 19% 0% 4% 24% 11,3% Impresa 25 Impresa 26 Impresa 27 Impresa 28 Impresa 29 Impresa 30 Impresa 31 Impresa 32 Impresa 33 Impresa 34 Impresa 35 Impresa 36 Impresa 37 Impresa 38 x1: oneri finanziari su fatturato x2: sconfinamenti su fido accordato 74% 85% 67% 71% 70% 72% 52% 81% 60% 72% 58% 64% 55% 65% 36% 10% 42% 38% 43% 64% 37% 32% 51% 0% 6% 11% 21% 47% 67,4% 31,2% • La Tabella mostra un campione di 24 imprese sane e 14 anomale • Sono state rilevate, per semplicità, solo due variabili indipendenti Rapporto tra gli sconfinamenti e il credito totale accordato dalla banca Rapporto tra oneri finanziari e fatturato 6 Rischio e valore nelle banche I modelli di scoring L’analisi discriminante lineare - Esempio • I dati per le imprese anomale sono stati rilevati un certo numero di mesi prima del dissesto Il modello deve individuare le imprese destinate a diventare insolventi in un prossimo futuro 70% x2 - sconfinamenti su accordato • 60% 50% 40% Affidabili 30% Entrambe le variabili (e in particolare x1) assumono spesso valori più elevati che per le imprese sane Insolventi 20% Valori medi: 10% 0% 0% 20% 40% 60% 80% x1 - oneri finanziari su fatturato © Resti e Sironi, 2008 100% 0,29 0,67 xA ;xB 0 , 11 0 , 31 7 Rischio e valore nelle banche I modelli di scoring L’analisi discriminante lineare - Esempio • Calcoliamo le matrici di varianze e covarianze per il gruppo delle imprese sane (SA) e per il gruppo delle imprese anomale (SB): 0,076 0,023 0,000 0,001 ΣA ;ΣB 0 , 023 0 , 016 0 , 001 0 , 036 • S (valida per entrambi i gruppi) viene ricavata attraverso una media di SA e SB ponderata per il numero di imprese (nA, nB) presenti nei due gruppi: 0,052 0,014 nA 1 nB 1 23 13 Σ ΣA ΣB ΣA ΣB 0 , 014 0 , 023 n A nB 2 n A nB 2 36 36 • Per calcolare il vettore gamma è necessario invertire la matrice varianze e covarianze: 23,4 14,3 Σ 14 , 3 51 , 9 1 © Resti e Sironi, 2008 8 Rischio e valore nelle banche I modelli di scoring L’analisi discriminante lineare - Esempio 23,4 14,3 0,29 0,67 14,3 51,9 0,11 0,31 23,4 (0,38) 14,3 (0,20) 6,09 14,3 (0,38) 51,9 (0,20) 4,84 • I valori dei coefficienti g sono: γ Σ 1 (x A x B ) • Lo score della generica impresa è: • x1 riceve un peso maggiore zi γ x i 6,09 x1,i 4,84 x2,i Può indicare maggiore capacità discriminante • Ad esempio, per l’Impresa 7: z7 = -6, 09 × 0, 27- 4,84× 0, 05 @ -1,85 © Resti e Sironi, 2008 9 Rischio e valore nelle banche I modelli di scoring L’analisi discriminante lineare - Esempio Imprese “affidabili” (gruppo A): Impresa 1 Impresa 2 Impresa 3 Impresa 4 Impresa 5 Impresa 6 Impresa 7 Impresa 8 Impresa 9 Impresa 10 Impresa 11 Impresa 12 Impresa 13 Impresa 14 Impresa 15 Impresa 16 Impresa 17 Impresa 18 Impresa 19 Impresa 20 Impresa 21 Impresa 22 Impresa 23 Impresa 24 Valori medi: zi 0,000 -6,295 -6,065 -0,526 -0,097 -0,131 -1,850 -2,733 -2,784 -1,167 -5,186 -1,397 -2,975 0,000 -3,957 -1,067 -5,847 -2,498 -1,549 -0,005 -4,195 -0,548 -0,213 -4,591 -2,32 © Resti e Sironi, 2008 PD 1,1% 85,7% 82,6% 1,8% 1,2% 1,2% 6,6% 14,5% 15,2% 3,4% 66,4% 4,3% 17,8% 1,1% 36,6% 3,1% 79,3% 11,9% 4,9% 1,1% 42,3% 1,9% 1,3% 52,2% 22,4% Imprese “insolventi” (gruppo B): Impresa 25 Impresa 26 Impresa 27 Impresa 28 Impresa 29 Impresa 30 Impresa 31 Impresa 32 Impresa 33 Impresa 34 Impresa 35 Impresa 36 Impresa 37 Impresa 38 zi -6,237 -5,657 -6,085 -6,106 -6,349 -7,481 -4,920 -6,479 -6,130 -4,352 -3,809 -4,403 -4,362 -6,189 -5,61 PD 85,0% 76,0% 82,9% 83,2% 86,3% 95,2% 60,2% 87,8% 83,6% 46,2% 33,3% 47,5% 46,4% 84,3% 71,3% • La tabella mostra i valori per il nostro campione di 38 imprese • I due gruppi risultano “addensati” attorno ai rispettivi centroidi zA e zB (-2,32 per le imprese sane e -5,61 per quelle anomale) • I due gruppi non sono perfettamente separati: esistono imprese sane con punteggi bassi e imprese anomale con score elevati Non è possibile prevedere il dissesto di un’impresa facendo riferimento a due soli indici 10 Rischio e valore nelle banche I modelli di scoring L’analisi discriminante lineare - Esempio • Come soglia (“cut-off point”) al di sotto della quale un’impresa viene scartata si può ad esempio utilizzare il punto a metà strada tra i due centroidi: z A zB 1 γ (x A x B ) 3,97 2 2 • Ciò condurrebbe a rifiutare il credito a sei imprese sane e a concedere credito ad un’impresa anomala (la 35) La capacità discriminante del modello è piuttosto limitata © Resti e Sironi, 2008 11 Rischio e valore nelle banche I modelli di scoring Il lambda di Wilks • Per misurare l’effettiva capacità discriminante di un modello, un indice usato è il Lambda di Wilks: ( zi z A ) 2 iA ( zi z B ) 2 iB n ( zi z ) 2 i 1 • Se un modello è efficace: media di zi sull’intero campione di imprese sane o anomale i valori degli score per le singole imprese sane (o anomale) sono molto simili tra loro Le due devianze al numeratore si avvicinano a 0 e con esse l’intero Lambda di Wilks • Se la capacità discriminante è bassa, il quoziente sarà vicino ad 1 • Nel nostro esempio il valore del Lambda di Wilks è pari a circa 55,3% © Resti e Sironi, 2008 12 Rischio e valore nelle banche I modelli di scoring Lo Z-score di Altman • Il più noto score discriminante è quello sviluppato da Edward Altman nel 1968 per le imprese quotate statunitensi. • Esso è funzione di cinque variabili indipendenti: zi 1,2 xi ,1 1,4 xi , 2 3,3 xi ,3 0,6 xi , 4 1,0 xi ,5 capitale circolante/totale attivo utili non distribuiti/totale attivo utile ante interessi e imposte/totale attivo valore di mercato del patrimonio/valore contabile delle passività verso terzi fatturato/totale attivo • Maggiore è il valore dello z di un’impresa, migliore è la sua qualità • Il cut-off point fissato da Altman è 1,81 © Resti e Sironi, 2008 13 Rischio e valore nelle banche I modelli di scoring Probabilità e calibrazione dei cut-off • L’analisi discriminante può essere utilizzata per stimare la probabilità di default associata alle singole imprese • Se le variabili indipendenti si distribuiscono secondo una normale multipla, la probabilità che un’impresa sia anomala è: PD p B x i 1 1 1pB pB cut-off (slide 11) e zi “probabilità di default a priori”, probabilità di una misura della qualità “media” appartenere al gruppo B del portafoglio crediti della banca (anomale), dato il vettore di che dipende dalle caratteristiche variabili indipendenti xi generali del mercato • Riprendendo l’esempio della slide 6, pB è pari all’incidenza delle imprese anomale nel campione (14/3837%), in mancanza di informazioni più accurate • Il risultato è riportato nella Tabella di slide 10: la probabilità di default è tanto più alta quanto più basso è lo score © Resti e Sironi, 2008 14 Rischio e valore nelle banche I modelli di scoring Probabilità e calibrazione dei cut-off • Sempre riferendosi alla tabella di slide 10, i risultati sono tutt’altro che perfetti: a diverse imprese sane viene assegnata un’elevata probabilità di default per l’impresa 35, destinata a fallire nei mesi successivi, la PD stimata è pari al 33% • Con un valore di pB più basso, le probabilità di default sarebbero più basse e viceversa. La formula che calcola la probabilità di default non tiene conto solo dei suoi indici economici, ma anche della qualità media del portafoglio. È possibile rendere la formula maggiormente ottimistica o più conservativa © Resti e Sironi, 2008 15 Rischio e valore nelle banche I modelli di scoring Probabilità e calibrazione dei cut-off • Il valore soglia può essere modificato per tenere conto della PD e della qualità media del portafoglio (pB) • Si potrebbe decidere di rifiutare il credito a un cliente soltanto se la sua PD è superiore al 50%: 1 PD 1 • Tale condizione equivale a: 1pB pB z i ln 1pB un cliente viene considerato eccessivamente rischioso quando il suo score è inferiore ad ’ © Resti e Sironi, 2008 pB e zi 0,5 se la qualità media del portafoglio è scadente e dunque pB è elevato, la soglia viene alzata 16 Rischio e valore nelle banche I modelli di scoring Probabilità e calibrazione dei cut-off • Nel nostro esempio pB 37% (valore inferiore al 50%) • La soglia calcolata è più bassa, più “ottimista”, di quella calcolata in precedenza. 0,37 a ¢ = -3, 97 + ln @ -4, 5 1- 0, 37 • Casi come l’impresa 21 (precedentemente scartata) verranno considerati accettabili, visto che la loro PD è inferiore al 50% e che quindi il loro score è superiore alla nuova soglia ’ © Resti e Sironi, 2008 17 Rischio e valore nelle banche I modelli di scoring Calibrazione dei cut-off – I costi degli errori • È evidente che nessuna banca sceglierebbe di prestare denaro a imprese con PD del 30% o del 40% sono accettabili valori di PD ragionevolmente prossimi a zero, come 0,5%, 1% o 2% • Possono essere fatti 2 errori: 1. la classificazione di un’impresa insolvente fra quelle sane Il costo di questo errore ( C ( A | B) ) corrisponde agli interessi e al capitale perduto in seguito all’insolvenza dell’impresa erroneamente classificata come “sana” © Resti e Sironi, 2008 2. la classificazione di un’impresa sana fra quelle insolventi Il secondo tipo di errore produce un costo corrispondente al mancato guadagno, causato dal rifiuto del cliente “sano” C ( B | A) . 18 Rischio e valore nelle banche I modelli di scoring Calibrazione dei cut-off – I costi degli errori • Il cut-off point può essere calibrato in modo tale da considerare il diverso costo associato ai due tipi di errori • É possibile decidere di rifiutare il credito al cliente quando il costo atteso dal primo tipo di errore è superiore al costo atteso dal secondo tipo di errore, cioè: C( A | B) PD C(B | A) (1 PD) Sostituendo PD con la formula di slide 16: zi log p B C ( A | B) (1 p B ) C ( B | A) • Tornando all’esempio ipotizziamo : Costo del primo errore = perdita del 70% del capitale prestato Costo del secondo errore = mancato guadagno dello spread del 2% sul capitale prestato © Resti e Sironi, 2008 19 Rischio e valore nelle banche I modelli di scoring Calibrazione dei cut-off – I costi degli errori • Il cut-off point sarà: 3,97 ln 0,37 70% 0,95 (1 0,37) 2% • La tabella mostra come, nel passaggio da ’ a ”, il modello è diventato più selettivo • La fissazione della soglia a” dipende anche dalla LGD (loss given default). Se i clienti producessero maggiori garanzie, ci sarebbero più affidamenti © Resti e Sironi, 2008 Imprese sane Punto di cut- Imprese off anomale ' " Punto di cutoff ' " Impresa 1 Impresa 2 Impresa 3 Impresa 4 Impresa 5 Impresa 6 Impresa 7 Impresa 8 Impresa 9 Impresa 10 Impresa 11 Impresa 12 Impresa 13 Impresa 14 Impresa 15 Impresa 16 Impresa 17 Impresa 18 Impresa 19 Impresa 20 Impresa 21 Impresa 22 Impresa 23 Impresa 24 x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x Impresa 25 Impresa 26 Impresa 27 Impresa 28 Impresa 29 Impresa 30 Impresa 31 Impresa 32 Impresa 33 Impresa 34 Impresa 35 Impresa 36 Impresa 37 Impresa 38 x x x x x x x x x x x x x x x x x x x x x x x x 20 Rischio e valore nelle banche I modelli di scoring La selezione delle variabili discriminanti • La selezione delle variabili discriminanti può seguire due modalità: metodo simultaneo metodo stepwise Il modello è costruito in modo aprioristico. Le variabili sono selezionate con un ragionamento teorico e i coefficienti discriminanti vengono stimati congiuntamente Le variabili vengono selezionate sulla base della capacità discriminante dimostrata sui dati del campione di stima Le procedure di stepwise selection ibride combinano entrambi i metodi (backward + forward) © Resti e Sironi, 2008 backward elimination: partendo da tutte le variabili vengono rimosse quelle con un minore potere discriminante forward selection: partendo da un’unica variabile si aggiungono quelle con maggior potere discriminante 21 Rischio e valore nelle banche I modelli di scoring La selezione delle variabili discriminanti • I metodi stepwise possono condurre all’inclusione di variabili senza un chiaro significato economico o con un coefficiente gj di segno opposto a quanto ci si attenderebbe • Qualsiasi sia il metodo seguito, è necessario adottare un criterio per comprendere se l’aggiunta di una variabile esplicativa migliora la capacità discriminante del modello • Ad esempio si può calcolare il lambda di Wilks due volte, con e senza la variabile xj, controllando se la sua aggiunta riduce il lambda Test F-to-remove 1 ( m ) / ( m 1) F N m 1 ( m ) ( m 1) / lambda di Wilks di un modello con m-1 variabili lambda di Wilks di un modello con m variabi il numero di osservazioni nel campione © Resti e Sironi, 2008 22 Rischio e valore nelle banche I modelli di scoring La selezione delle variabili discriminanti • Sotto l’ipotesi nulla che xj sia irrilevante, F (il test F-to-Remove) si distribuisce secondo una F di Snedecor con (1, N-3) gradi di libertà • ESEMPIO: passiamo dal modello a 2 variabili (m=2) della slide 6 ad un modello ad 1 variabile (manteniamo solo il quoziente tra sconfinamenti e fido accordato) Il lambda di Wilks passerebbe da (m)=55,3% a (m-1)=70,5% 1 55,3% / 70,5% F 38 2 1 55,3% / 70,5% 9, 61 Valore del test • Il p-value associato a tale valore è 0,4%: il rischio di considerare rilevante xj, quando in realtà non lo è, è inferiore all’1% • Il test ci induce a conservare nel modello il rapporto tra oneri finanziari e fatturato © Resti e Sironi, 2008 23 Rischio e valore nelle banche I modelli di scoring Ipotesi sottostanti l’analisi discriminante • Ipotesi 1: le matrici di varianze e covarianze delle variabili indipendenti (le xj) sono uguali per i due gruppi di imprese considerate. Spesso i dati empirici sembrano suggerire il contrario Nell’analisi discriminante eteroschedastica o quadratica si tiene conto di questo problema: tuttavia devono essere stimati più parametri e le funzioni risultanti risultano meno facilmente leggibili • Ipotesi 2: le formule utilizzate per trasformare lo score in una probabilità di default assumono che le variabili indipendenti siano caratterizzate da una distribuzione normale multivariata. Le analisi empiriche mostrano sovente che tale ipotesi è irrealistica Una distribuzione illimitata, come la normale, non può rappresentare variabili come molti indici economicofinanziari strutturalmente limitati tra 0 e 100 © Resti e Sironi, 2008 24 Rischio e valore nelle banche I modelli di scoring I modelli di regressione – linear probabilistic model • Le variabili che determinano l’insolvenza di un’impresa e il loro peso vengono identificate con una semplice regressione lineare 1. Selezione del campione. Viene selezionato un numero sufficientemente elevato di imprese. Esse vengono suddivise in due gruppi, identificati da una variabile di stato binaria, y, (yi = 1 se l’impresa i è anomala, yi =0 se è sana) • 4 Fasi: 2. Selezione delle variabili indipendenti. Per ogni impresa i vengono misurate m variabili rilevanti (indici economico-finanziari misurati in anticipo rispetto all’eventuale default) 3. Stima dei coefficienti, di norma yi attraverso l’approccio dei minimi quadrati m x j i, j i j 1 4. Stima della probabilità di insolvenza. © Resti e Sironi, 2008 25 Rischio e valore nelle banche I modelli di scoring I modelli di regressione – linear probabilistic model yi 0,03 0,25 xi ,1 5 xi , 2 0,7 xi ,3 • ESEMPIO: rapporto tra oneri finanziari e margine operativo lordo rapporto tra margine (indicatore di operativo lordo e totale attivo sostenibilità (indicatore di redditività operativa) del debito) rapporto tra debito e capitale proprio (indicatore di leva finanziaria) • Immaginiamo che una nuova impresa si rivolga alla banca per un finanziamento, con x1=5; x2=0,3; x3=0,4. La PD dell’impresa è: y 0,03 0,25 5 5 0,3 0,7 0,4 6% • PROBLEMA: è possibile che y (probabilità di insolvenza) assuma valori esterni all’intervallo compreso tra 0 e 100% Nel caso in cui y sia superiore a 100% o inferiore a 0%, viene solitamente troncato in corrispondenza di questi estremi © Resti e Sironi, 2008 26 Rischio e valore nelle banche I modelli di scoring I modelli logit e probit • Un ulteriore problema del linear probabilistic model è che la varianza dei residui del modello lineare non è costante, ma risente di un problema di eteroschedasticità • La forma lineare non viene quasi mai utilizzata favorendo di funzioni non lineari, come nei modelli probit e logit Modello logit: la relazione lineare viene corretta con una trasformazione esponenziale (logistica) m wi j xi , j 1 yi f ( wi ) 1 e wi j 1 Sostituendo la forma estesa di wi si ottiene: yi 1 1 e j x j i j La funzione logistica ha codominio limitato all’intervallo (0,1) yi è sempre compresa fra 0 e 100 © Resti e Sironi, 2008 27 Rischio e valore nelle banche I modelli di scoring I modelli logit e probit • E’ possibile utilizzare altre trasformazioni oltre alla logistica, sempre con codominio compreso tra 0 e 1 Es. una funzione di densità di probabilità cumulata normale, N(wi) il modello finale è detto normit, o più comunemente probit • La funzione logistica si caratterizza per code più spesse; in pratica, ciò non produce differenze rilevanti fra i due modelli I modelli logit e probit non sono molto diversi, a meno che il campione non includa parecchi valori estremi di wi © Resti e Sironi, 2008 28 Rischio e valore nelle banche I modelli di scoring I modelli di natura induttiva – Le reti neurali • I modelli finora presentati sono fondati sulle caratteristiche strutturali che spiegano le condizioni di salute di un’impresa • La scelta delle variabili rilevanti riflette sempre una scelta a priori basata sul ragionamento economico • Le reti neurali seguono invece un procedimento induttivo: Se si riscontra una certa “regolarità” in un campione di dati, essa viene utilizzata, in modo acritico e “agnostico”, per prevedere il default di altre imprese • I modelli strutturali sono modelli trasparenti che utilizzano test inferenziali per verificare la significatività dei coefficienti stimati • I modelli induttivi sono spesso dei black box la cui logica non è facilmente comprensibile fino in fondo © Resti e Sironi, 2008 29 Rischio e valore nelle banche I modelli di scoring I modelli di natura induttiva – Le reti neurali • I modelli strutturati possono essere però “imparati” dalle imprese Potrebbero adottare politiche di bilancio per condizionarne il risultato, rendendo il modello meno efficace • La mancata esplicitazione della struttura funzionale dei modelli induttivi può quindi rappresentare un vantaggio. • Le reti neurali tentano di riprodurre il meccanismo di apprendimento che caratterizza la conoscenza e la memoria umana Una rete neurale si compone di un numero elevato di “neuroni”, collegati fra loro tramite relazioni elementari dette “sinapsi” © Resti e Sironi, 2008 30 Rischio e valore nelle banche I modelli di scoring I modelli di natura induttiva – Le reti neurali • I neuroni sono collocati a “strati” (layers): ogni neurone dello strato più esterno della rete riceve in input n variabili le elabora con una funzione input strato 1 x1 n1 … f(x1,…xn) … Score … … il risultato della funzione viene passato ai neuroni dello strato successivo output n3 x2 … strato 2 (nascosto) f(n1,n2) … … xn n2 n4 Dopo uno o più “strati nascosti” (hidden layers) la rete genera un risultato finale © Resti e Sironi, 2008 31 Rischio e valore nelle banche I modelli di scoring I modelli di natura induttiva – Le reti neurali • I coefficienti delle singole funzioni elementari che compongono la rete vengono messi a punto mediante un meccanismo di tipo iterativo Si modificano gradualmente i valori dei coefficienti in modo da ottenere risultati quanto più simili a quelli desiderati • Esempio: Osservazioni A B C D E F x1 6 5 7 8 6 3 x2 4 3 6 5 8 9 y 10 8 13 13 14 12 Partendo dai valori delle variabili x1 e x2, vogliamo ricostruire il valore di y (y è semplicemente la somma di x1 e x2) Attraverso ripetuti tentativi (“epoche”) la rete riuscirà a ridurre progressivamente l’errore commesso, ottenendo i risultati della tabella a fianco (chiaramente troppo imprecisi per il problema proposto) © Resti e Sironi, 2008 Osservazione x1 x2 y reale A B C D E F 6 5 7 8 6 3 4 3 6 5 8 9 10 8 13 13 14 12 y generato dalla rete 10,60 9,41 12,56 12,52 13,31 12,04 Errore -0,60 -1,41 0,44 0,48 0,69 -0,04 32 Rischio e valore nelle banche I modelli di scoring I modelli di natura induttiva – Gli algoritmi genetici • Gli algoritmi genetici sono stati sviluppati da John Holland negli anni ‘60 e ’70 e si ispirano al comportamento degli organismi biologici • Il loro funzionamento si fonda infatti su una trasposizione artificiale dei principi darwiniani di selezione naturale e “survival of the fittest”. Processo di evoluzione naturale: Charles Darwin “The Origin of Species” Gli individui di una medesima specie animale competono tra loro per accaparrarsi le risorse fondamentali per l’esistenza e per l’accoppiamento Gli individui che hanno le migliori caratteristiche hanno una maggior probabilità di sopravvivere e di riprodursi. © Resti e Sironi, 2008 Solo gli individui migliori arrivano a trasferire il loro bagaglio genetico alle generazioni future 33 Rischio e valore nelle banche I modelli di scoring I modelli di natura induttiva – Gli algoritmi genetici • Oltre alla selezione naturale, altri due meccanismi concorrono all’evoluzione e al miglioramento della specie: La ricombinazione genetica (cross-over) può condurre ad una progenie con caratteristiche migliori (superfit) Il bagaglio genetico può cambiare anche in seguito ad improvvise e rarissime, mutazioni casuali di singoli geni • Nel caso degli algoritmi genetici gli “individui” da fare evolvere sono le possibili soluzioni a un problema • Immaginiamo di voler generare una funzione basata su indicatori di bilancio (x1, x2, …, xn) in modo tale da assegnare valori elevati alle imprese sane e valori bassi a quelle anomali z 0 1 x1 2 x2 ....... m xm © Resti e Sironi, 2008 34 Rischio e valore nelle banche I modelli di scoring I modelli di natura induttiva – Gli algoritmi genetici • Ogni individuo è rappresentato da un vettore α= [α0 … αm]’ • Valori di αj nulli indicano che il corrispondente indice economico-finanziario non viene utilizzato da questo individuo-soluzione • Per selezionare le soluzioni migliori e affinarle: 1. viene generata casualmente una prima popolazione di s individui-soluzioni; 2. utilizzando una funzione di valutazione, viene calcolata la bontà (fitness) degli s individui (capacità di rappresentare una buona soluzione per il problema); 3. si applica un algoritmo (detto “operatore genetico”) di selezione che identifica gli individui destinati a sopravvivere; 4. si applica un secondo “operatore genetico” che permette agli individui sopravvissuti di riprodursi, producendo una seconda generazione di soluzioni i cui vettori α sono combinazioni delle soluzioni della generazione precedente; © Resti e Sironi, 2008 35 Rischio e valore nelle banche I modelli di scoring I modelli di natura induttiva – Gli algoritmi genetici 5. Con l’operatore genetico di mutazione si introduce la possibilità di registrare una improvvisa modifica di una o più soluzioni della nuova generazione 6. Viene misurata la fitness di ogni individuo della nuova generazione di soluzioni. Se non è soddisfacente, allora il processo viene ulteriormente replicato, fino ad una soluzione attraente o sino a quando il miglioramento di fitness passando da una generazione all’altra è nullo. Generazione di una popolazione iniziale Valutazione della fitness delle soluzioni Una soluzione è pienamente soddisfacente? Soluzione sì no ? Problema Generazione di una nuova popolazione Selezione Crossover Mutazione © Resti e Sironi, 2008 36 Rischio e valore nelle banche I modelli di scoring I modelli di natura induttiva – Gli algoritmi genetici • Gli algoritmi genetici realizzano una ricerca “adattiva” (adaptive search) • Si muovono nello spazio facendosi guidare dalla memoria: l’esplorazione avviene grazie alle informazioni acquisite nell’attività di ricerca già svolta • Gli algoritmi genetici vengono utilizzati con particolare successo in quelle aree problematiche caratterizzate da uno spazio di soluzioni ampio e “rumoroso” © Resti e Sironi, 2008 37 Rischio e valore nelle banche I modelli di scoring Utilizzi e limiti dei modelli di scoring • I modelli di scoring possono essere impiegati con due obiettivi: previsione delle insolvenze fissazione di una soglia minima di score al di sotto della quale la richiesta di credito viene respinta stima del livello di rischio ad ogni debitore viene assegnata una PD La stima della PD può essere effettuata a livello di singolo debitore oppure I clienti con score simile vengono raggruppati in classi: la percentuale di default effettivamente avvenuti su ogni classe negli anni successivi viene utilizzata come stima della PD © Resti e Sironi, 2008 38 Rischio e valore nelle banche I modelli di scoring Limiti dei modelli di scoring La definizione di impresa “anomala” o “insolvente” L’importanza relativa delle variabili indipendenti utilizzate dal modello di analisi discriminante potrebbe variare nel tempo I modelli di scoring trascurano numerosi fattori qualitativi, come la reputazione dell’impresa, la fase del ciclo economico, la qualità del management etc. Le imprese del campione di stima dovrebbero, per quanto possibile, appartenere al medesimo settore produttivo (lo stesso indice potrebbe avere una diversa importanza nel determinare l’insolvenza nei diversi settori) I campioni di stima possono essere “sbilanciati” ed includere una percentuale di imprese sane troppo elevata (le imprese insolvente di cui esistono i dati sono troppo poche) © Resti e Sironi, 2008 39 Rischio e valore nelle banche I modelli di scoring Esercizi/1 1. Una banca ha analizzato i bilanci di un gruppo di clienti “sani” e “anomali” e ha riscontrato che • il rapporto tra patrimonio e totale attivo è in media 50% per i “sani” e 20% per gli “anomali”; • il rapporto tra attivi liquidi e passività a breve termine è in media 2 per i “sani” e 0,4 per gli “anomali”; • la matrice di varianze/covarianze tra i due rapporti è la seguente: 0.04 0.07 S 0 . 07 0 . 51 32.9 4.52 • e la sua inversa è S 4 . 52 2 . 58 1 © Resti e Sironi, 2008 40 Rischio e valore nelle banche I modelli di scoring Esercizi/1 La banca vuole utilizzare queste informazioni per costruire un modello di analisi discriminante. A tal fine, calcolate: • i coefficienti della funzione discriminante; • i centroidi; • la soglia per separare i clienti sani da quelli anomali, nel caso in cui la probabilità a priori (prior) di incontrare un cliente anomalo sia il 10% e il costo degli errori non sia noto; • la soglia (basata sullo stesso prior di prima) per un cliente con costi dell’errore rispettivamente di 20.000 euro (in caso di prestito erogato ad un’impresa anomala) e 1.800 euro (in caso di prestito rifiutato ad un impresa sana. © Resti e Sironi, 2008 41 Rischio e valore nelle banche I modelli di scoring Esercizi/2 2. Un cliente ha richiesto un prestito di 500.000 euro fornendo garanzie reali in contante per 100.000 euro (così che, in caso di default, la perdita per la banca sarebbe pari all’80% del prestito). Il tasso applicato sul prestito sarebbe 12%; il costo dei fondi prestabili, unito a tutte le altre spese operative della banca, sarebbe pari a 10%, lasciando un margine di profitto netto del 2%. Lo score del cliente, basato su un modello di analisi discriminante, è pari a 6,1. Si tratta di un valore inferiore alla soglia minima sotto la quale non è possibile concedere un prestito; tale soglia (sulla base dei costi dell’errore indicati in precedenza e di una probabilità a priori del 10% che l’impresa sia anomala) è pari a 7. © Resti e Sironi, 2008 42 Rischio e valore nelle banche I modelli di scoring Esercizi/2 Di quanto dovrebbe aumentare la garanzia reale in contante fornita dal cliente (lasciando il tasso attivo al 12%) affinché la sua richiesta venga approvata? Sulla base dei dati forniti in questo esercizio, sapreste ricavare anche la PD del cliente? © Resti e Sironi, 2008 43 Rischio e valore nelle banche I modelli di scoring Esercizi/3 3. Considerate le seguenti affermazioni sui modelli logit e sui linear probability models: I. è necessario troncare tra zero e uno i risultati di un linear probability model, affinché essi coincidano con quelli di un modello logit; II. è necessario troncare tra zero e uno i risultati di un linear probability model, affinché il loro codominio coincida con quello di un modello logit; © Resti e Sironi, 2008 44 Rischio e valore nelle banche I modelli di scoring Esercizi/3 III.I linear probability models e i modelli logit hanno sempre i medesimi coefficienti, ma le PD stimate sono diverse perché i modelli logit comportano l’utilizzo di una funzione-filtro non lineare; IV. I linear probability models, diversamente dai modelli logit, generano stime distorte. Quali sono corrette? a) b) c) d) La II e la III; solo la IV; la II e la IV; tutte. © Resti e Sironi, 2008 45