I modelli di scoring
Slides tratte da:
Andrea Resti
Andrea Sironi
Rischio e valore
nelle banche
Misura, regolamentazione, gestione
Egea, 2008
Rischio e valore nelle banche
I modelli di scoring
AGENDA
• I modelli di Scoring
• L’analisi discriminante lineare
• Lo Z-score di Altman
• Probabilità e calibrazione dei cut-off
• I modelli di regressione
• I modelli logit e probit
• I modelli di natura induttiva
• Esercizi
© Resti e Sironi, 2008
2
Rischio e valore nelle banche
I modelli di scoring
I modelli di scoring
• I modelli di scoring sono tradizionalmente i più diffusi per la previsione
dell’insolvenza di un’impresa
Modelli multivariati che utilizzano come input i
principali indici economico-finanziari di
un’impresa, ottenendo un valore numerico
rappresentativo della probabilità di insolvenza
• Le tecniche sottostanti tali modelli sono state elaborate a partire dagli anni trenta
Ad esempio:
• Fisher 1936
• Durand 1941
• Beaver 1967
• Altman 1968
© Resti e Sironi, 2008
3
Rischio e valore nelle banche
I modelli di scoring
L’analisi discriminante lineare
• Vengono identificate le variabili (ad es. indici economico-finanziari) che
consentono di “discriminare” meglio fra imprese sane e imprese anomale o
insolventi
• I dati di un campione di imprese vengono utilizzati per tracciare un confine tra
imprese sane e insolventi
Funzione
discriminante
x1
A
Modello di Fisher
(caso semplificato)
B
x2
Cut -off
Z
© Resti e Sironi, 2008
Le imprese affidabili (gruppo A) e
insolventi (gruppo B) sono descritte
da due variabili x1 e x2: sull’asse z è
rappresentato lo score generato
combinando le due variabili.
Lo score prende il nome di
funzione discriminante
4
Rischio e valore nelle banche
I modelli di scoring
L’analisi discriminante lineare
• L’analisi discriminante lineare, costruisce lo score come combinazione lineare
delle variabili indipendenti
n
• Date n variabili indipendenti:
z  g j x j
j 1
• Per l’i-esima impresa lo score sarà quindi dato da:
n
zi  g j xi , j
j 1
• I coefficienti gj vengono scelti in modo da ottenere uno score z che discrimini in
modo netto le imprese anomale da quelle sane
Gli zi ottenuti devono massimizzare la distanza tra le
medie zA e zB dei due gruppi di imprese (centroidi)
© Resti e Sironi, 2008
5
Rischio e valore nelle banche
I modelli di scoring
L’analisi discriminante lineare - Esempio
Imprese
“affidabili”
(gruppo A):
Impresa 1
Impresa 2
Impresa 3
Impresa 4
Impresa 5
Impresa 6
Impresa 7
Impresa 8
Impresa 9
Impresa 10
Impresa 11
Impresa 12
Impresa 13
Impresa 14
Impresa 15
Impresa 16
Impresa 17
Impresa 18
Impresa 19
Impresa 20
Impresa 21
Impresa 22
Impresa 23
Impresa 24
Valori medi:
x1: oneri finanziari x2: sconfinamenti Imprese
su fatturato
su fido accordato “insolventi”
(gruppo B):
0%
72%
75%
7%
2%
1%
27%
42%
36%
12%
65%
16%
45%
0%
65%
16%
70%
29%
0%
0%
54%
9%
0%
57%
29,1%
© Resti e Sironi, 2008
0%
40%
31%
2%
0%
2%
5%
3%
12%
9%
25%
9%
5%
0%
0%
2%
33%
15%
32%
0%
19%
0%
4%
24%
11,3%
Impresa 25
Impresa 26
Impresa 27
Impresa 28
Impresa 29
Impresa 30
Impresa 31
Impresa 32
Impresa 33
Impresa 34
Impresa 35
Impresa 36
Impresa 37
Impresa 38
x1: oneri
finanziari su
fatturato
x2: sconfinamenti
su fido accordato
74%
85%
67%
71%
70%
72%
52%
81%
60%
72%
58%
64%
55%
65%
36%
10%
42%
38%
43%
64%
37%
32%
51%
0%
6%
11%
21%
47%
67,4%
31,2%
• La Tabella mostra
un campione di 24
imprese sane e 14
anomale
• Sono state rilevate,
per semplicità, solo
due variabili
indipendenti
Rapporto tra gli
sconfinamenti e
il credito totale
accordato dalla
banca
Rapporto tra oneri
finanziari e fatturato
6
Rischio e valore nelle banche
I modelli di scoring
L’analisi discriminante lineare - Esempio
• I dati per le imprese anomale sono stati rilevati un certo numero di mesi prima
del dissesto
Il modello deve individuare le
imprese destinate a diventare
insolventi in un prossimo futuro
70%
x2 - sconfinamenti su accordato
•
60%
50%
40%
Affidabili
30%
Entrambe le variabili
(e in particolare x1)
assumono spesso valori
più elevati che per le
imprese sane
Insolventi
20%
Valori medi:
10%
0%
0%
20%
40%
60%
80%
x1 - oneri finanziari su fatturato
© Resti e Sironi, 2008
100%
0,29
0,67 
xA  
;xB  


0
,
11
0
,
31




7
Rischio e valore nelle banche
I modelli di scoring
L’analisi discriminante lineare - Esempio
• Calcoliamo le matrici di varianze e covarianze per il gruppo delle imprese sane
(SA) e per il gruppo delle imprese anomale (SB):
0,076 0,023
 0,000  0,001
ΣA  
;ΣB  


0
,
023
0
,
016

0
,
001
0
,
036




• S (valida per entrambi i gruppi) viene ricavata attraverso una media di SA e SB
ponderata per il numero di imprese (nA, nB) presenti nei due gruppi:
0,052 0,014
nA  1
nB  1
23
13
Σ
ΣA 
ΣB 
ΣA 
ΣB  

0
,
014
0
,
023
n A  nB  2
n A  nB  2
36
36


• Per calcolare il vettore gamma è necessario invertire la matrice varianze e
covarianze:
 23,4  14,3
Σ 


14
,
3
51
,
9


1
© Resti e Sironi, 2008
8
Rischio e valore nelle banche
I modelli di scoring
L’analisi discriminante lineare - Esempio
 23,4  14,3 0,29  0,67




 14,3 51,9   0,11  0,31 
 23,4  (0,38)  14,3  (0,20)   6,09




 14,3  (0,38)  51,9  (0,20)  4,84
• I valori dei coefficienti g sono: γ  Σ 1 (x A  x B )  
• Lo score della generica impresa è:
• x1 riceve un peso maggiore
zi  γ x i  6,09  x1,i  4,84  x2,i
Può indicare maggiore capacità discriminante
• Ad esempio, per l’Impresa 7:
z7 = -6, 09 × 0, 27- 4,84× 0, 05 @ -1,85
© Resti e Sironi, 2008
9
Rischio e valore nelle banche
I modelli di scoring
L’analisi discriminante lineare - Esempio
Imprese “affidabili”
(gruppo A):
Impresa 1
Impresa 2
Impresa 3
Impresa 4
Impresa 5
Impresa 6
Impresa 7
Impresa 8
Impresa 9
Impresa 10
Impresa 11
Impresa 12
Impresa 13
Impresa 14
Impresa 15
Impresa 16
Impresa 17
Impresa 18
Impresa 19
Impresa 20
Impresa 21
Impresa 22
Impresa 23
Impresa 24
Valori medi:
zi
0,000
-6,295
-6,065
-0,526
-0,097
-0,131
-1,850
-2,733
-2,784
-1,167
-5,186
-1,397
-2,975
0,000
-3,957
-1,067
-5,847
-2,498
-1,549
-0,005
-4,195
-0,548
-0,213
-4,591
-2,32
© Resti e Sironi, 2008
PD
1,1%
85,7%
82,6%
1,8%
1,2%
1,2%
6,6%
14,5%
15,2%
3,4%
66,4%
4,3%
17,8%
1,1%
36,6%
3,1%
79,3%
11,9%
4,9%
1,1%
42,3%
1,9%
1,3%
52,2%
22,4%
Imprese “insolventi”
(gruppo B):
Impresa 25
Impresa 26
Impresa 27
Impresa 28
Impresa 29
Impresa 30
Impresa 31
Impresa 32
Impresa 33
Impresa 34
Impresa 35
Impresa 36
Impresa 37
Impresa 38
zi
-6,237
-5,657
-6,085
-6,106
-6,349
-7,481
-4,920
-6,479
-6,130
-4,352
-3,809
-4,403
-4,362
-6,189
-5,61
PD
85,0%
76,0%
82,9%
83,2%
86,3%
95,2%
60,2%
87,8%
83,6%
46,2%
33,3%
47,5%
46,4%
84,3%
71,3%
• La tabella mostra i valori per il
nostro campione di 38 imprese
• I due gruppi risultano
“addensati” attorno ai rispettivi
centroidi zA e zB (-2,32 per le
imprese sane e -5,61 per quelle
anomale)
• I due gruppi non sono
perfettamente separati:
esistono imprese sane con
punteggi bassi e imprese
anomale con score elevati
Non è possibile prevedere
il dissesto di un’impresa
facendo riferimento
a due soli indici
10
Rischio e valore nelle banche
I modelli di scoring
L’analisi discriminante lineare - Esempio
• Come soglia (“cut-off point”) al di sotto della quale un’impresa viene scartata si
può ad esempio utilizzare il punto a metà strada tra i due centroidi:
z A  zB
1
  γ (x A  x B ) 
 3,97
2
2
• Ciò condurrebbe a rifiutare il credito a sei imprese sane e a concedere credito ad
un’impresa anomala (la 35)
La capacità discriminante del modello
è piuttosto limitata
© Resti e Sironi, 2008
11
Rischio e valore nelle banche
I modelli di scoring
Il lambda di Wilks
• Per misurare l’effettiva capacità discriminante di un modello, un indice usato è il
Lambda di Wilks:


( zi  z A ) 2 
iA

( zi  z B ) 2
iB
n

( zi  z ) 2
i 1
• Se un modello è efficace:
media di zi sull’intero campione
di imprese sane o anomale
i valori degli score per le singole
imprese sane (o anomale)
sono molto simili tra loro
Le due devianze al numeratore si avvicinano a 0 e con esse l’intero Lambda di Wilks
• Se la capacità discriminante è bassa, il quoziente sarà vicino ad 1
• Nel nostro esempio il valore del Lambda di Wilks è pari a circa 55,3%
© Resti e Sironi, 2008
12
Rischio e valore nelle banche
I modelli di scoring
Lo Z-score di Altman
• Il più noto score discriminante è quello sviluppato da Edward Altman nel 1968
per le imprese quotate statunitensi.
• Esso è funzione di cinque variabili indipendenti:
zi  1,2  xi ,1  1,4  xi , 2  3,3  xi ,3  0,6  xi , 4  1,0  xi ,5
capitale
circolante/totale attivo
utili non distribuiti/totale attivo
utile ante interessi e imposte/totale attivo
valore di mercato del patrimonio/valore
contabile delle passività verso terzi
fatturato/totale attivo
• Maggiore è il valore dello z di un’impresa, migliore è la sua qualità
• Il cut-off point fissato da Altman è 1,81
© Resti e Sironi, 2008
13
Rischio e valore nelle banche
I modelli di scoring
Probabilità e calibrazione dei cut-off
• L’analisi discriminante può essere utilizzata per stimare la probabilità di default
associata alle singole imprese
• Se le variabili indipendenti si distribuiscono secondo una normale multipla, la
probabilità che un’impresa sia anomala è:
 
PD  p B x i 
1
1
1pB
pB
cut-off (slide 11)
e zi 
“probabilità di default a priori”,
probabilità di
una misura della qualità “media”
appartenere al gruppo B
del portafoglio crediti della banca
(anomale), dato il vettore di
che dipende dalle caratteristiche
variabili indipendenti xi
generali del mercato
• Riprendendo l’esempio della slide 6, pB è pari all’incidenza delle imprese anomale
nel campione (14/3837%), in mancanza di informazioni più accurate
• Il risultato è riportato nella Tabella di slide 10: la probabilità di default è tanto più
alta quanto più basso è lo score
© Resti e Sironi, 2008
14
Rischio e valore nelle banche
I modelli di scoring
Probabilità e calibrazione dei cut-off
• Sempre riferendosi alla tabella di slide 10, i risultati sono tutt’altro che perfetti:
a diverse imprese sane
viene assegnata un’elevata
probabilità di default
per l’impresa 35, destinata
a fallire nei mesi successivi,
la PD stimata è pari al 33%
• Con un valore di pB più basso, le probabilità di default sarebbero più basse e
viceversa.
La formula che calcola la probabilità di default
non tiene conto solo dei suoi indici economici,
ma anche della qualità media del portafoglio.
È possibile rendere la formula maggiormente
ottimistica o più conservativa
© Resti e Sironi, 2008
15
Rischio e valore nelle banche
I modelli di scoring
Probabilità e calibrazione dei cut-off
• Il valore soglia può essere modificato per tenere conto della PD e della qualità
media del portafoglio (pB)
• Si potrebbe decidere di rifiutare il credito a un cliente soltanto se la sua PD è
superiore al 50%:
1
PD 
1
• Tale condizione equivale a:
1pB
pB
z i    ln
 
1pB
un cliente viene
considerato eccessivamente
rischioso quando il suo
score è inferiore ad ’
© Resti e Sironi, 2008
pB
e zi 
 0,5
se la qualità media del
portafoglio è scadente e
dunque pB è elevato, la
soglia viene alzata
16
Rischio e valore nelle banche
I modelli di scoring
Probabilità e calibrazione dei cut-off
• Nel nostro esempio pB  37% (valore inferiore al 50%)
• La soglia calcolata è più bassa, più “ottimista”, di quella calcolata in precedenza.
0,37
a ¢ = -3, 97 + ln
@ -4, 5
1- 0, 37
• Casi come l’impresa 21 (precedentemente scartata) verranno considerati
accettabili, visto che la loro PD è inferiore al 50% e che quindi il loro score è
superiore alla nuova soglia ’
© Resti e Sironi, 2008
17
Rischio e valore nelle banche
I modelli di scoring
Calibrazione dei cut-off – I costi degli errori
• È evidente che nessuna banca sceglierebbe di prestare denaro a imprese con PD
del 30% o del 40%
sono accettabili valori di PD ragionevolmente
prossimi a zero, come 0,5%, 1% o 2%
• Possono essere fatti 2 errori:
1. la classificazione di un’impresa
insolvente fra quelle sane
Il costo di questo errore
( C ( A | B) ) corrisponde agli interessi
e al capitale perduto
in seguito all’insolvenza
dell’impresa erroneamente
classificata come “sana”
© Resti e Sironi, 2008
2. la classificazione di
un’impresa sana fra
quelle insolventi
Il secondo tipo di errore
produce un costo
corrispondente al
mancato guadagno,
causato dal rifiuto del
cliente “sano” C ( B | A)
.
18
Rischio e valore nelle banche
I modelli di scoring
Calibrazione dei cut-off – I costi degli errori
• Il cut-off point può essere calibrato in modo tale da considerare il diverso costo
associato ai due tipi di errori
• É possibile decidere di rifiutare il credito al cliente quando il costo atteso dal
primo tipo di errore è superiore al costo atteso dal secondo tipo di errore, cioè:
C( A | B)  PD  C(B | A)  (1  PD)
Sostituendo PD con la formula di slide 16:
zi    log
p B C ( A | B)
  
(1  p B )  C ( B | A)
• Tornando all’esempio ipotizziamo :
Costo del primo errore = perdita del 70% del capitale prestato
Costo del secondo errore = mancato guadagno dello spread del 2%
sul capitale prestato
© Resti e Sironi, 2008
19
Rischio e valore nelle banche
I modelli di scoring
Calibrazione dei cut-off – I costi degli errori
• Il cut-off point sarà:
   3,97  ln
0,37  70%
 0,95
(1  0,37)  2%
• La tabella mostra come, nel
passaggio da ’ a ”, il modello è
diventato più selettivo
• La fissazione della soglia a”
dipende anche dalla LGD (loss
given default). Se i clienti
producessero maggiori garanzie,
ci sarebbero più affidamenti
© Resti e Sironi, 2008
Imprese
sane
Punto di cut- Imprese
off
anomale
 ' "
Punto di cutoff
 ' "
Impresa 1
Impresa 2
Impresa 3
Impresa 4
Impresa 5
Impresa 6
Impresa 7
Impresa 8
Impresa 9
Impresa 10
Impresa 11
Impresa 12
Impresa 13
Impresa 14
Impresa 15
Impresa 16
Impresa 17
Impresa 18
Impresa 19
Impresa 20
Impresa 21
Impresa 22
Impresa 23
Impresa 24

x
x







x





x



x


x
x
x
x
x
x
x
x
x
x
x

x
x
x

x
x







x





x






x

x
x



x
x
x
x
x
x
x

x
x
x
x
x

x


x
Impresa 25
Impresa 26
Impresa 27
Impresa 28
Impresa 29
Impresa 30
Impresa 31
Impresa 32
Impresa 33
Impresa 34
Impresa 35
Impresa 36
Impresa 37
Impresa 38
x
x
x
x
x
x
x
x
x




x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
20
Rischio e valore nelle banche
I modelli di scoring
La selezione delle variabili discriminanti
• La selezione delle variabili discriminanti può seguire due modalità:
metodo simultaneo
metodo stepwise
Il modello è costruito in modo
aprioristico. Le variabili sono
selezionate con un ragionamento
teorico e i coefficienti
discriminanti vengono stimati
congiuntamente
Le variabili vengono selezionate
sulla base della capacità
discriminante dimostrata sui
dati del campione di stima
Le procedure di stepwise
selection ibride combinano
entrambi i metodi
(backward + forward)
© Resti e Sironi, 2008
backward elimination: partendo da
tutte le variabili vengono rimosse quelle
con un minore potere discriminante
forward selection: partendo da
un’unica variabile si aggiungono quelle
con maggior potere discriminante
21
Rischio e valore nelle banche
I modelli di scoring
La selezione delle variabili discriminanti
• I metodi stepwise possono condurre all’inclusione di variabili senza un chiaro
significato economico o con un coefficiente gj di segno opposto a quanto ci si
attenderebbe
• Qualsiasi sia il metodo seguito, è necessario adottare un criterio per
comprendere se l’aggiunta di una variabile esplicativa migliora la
capacità discriminante del modello
• Ad esempio si può calcolare il lambda di Wilks due volte, con e senza la variabile
xj, controllando se la sua aggiunta riduce il lambda
Test F-to-remove
1   ( m ) /  ( m 1)
F   N  m  1 ( m ) ( m 1)
 /
lambda di Wilks di un
modello con m-1 variabili
lambda di Wilks di un
modello con m variabi
il numero di osservazioni nel campione
© Resti e Sironi, 2008
22
Rischio e valore nelle banche
I modelli di scoring
La selezione delle variabili discriminanti
• Sotto l’ipotesi nulla che xj sia irrilevante, F (il test F-to-Remove) si distribuisce
secondo una F di Snedecor con (1, N-3) gradi di libertà
• ESEMPIO: passiamo dal modello a 2 variabili (m=2) della slide 6 ad un modello
ad 1 variabile (manteniamo solo il quoziente tra sconfinamenti e fido accordato)
Il lambda di Wilks passerebbe da (m)=55,3% a (m-1)=70,5%
1  55,3% / 70,5%
F   38  2  1
55,3% / 70,5%
9, 61
Valore del test
• Il p-value associato a tale valore è 0,4%: il rischio di considerare rilevante xj,
quando in realtà non lo è, è inferiore all’1%
• Il test ci induce a conservare nel modello il rapporto tra oneri finanziari e
fatturato
© Resti e Sironi, 2008
23
Rischio e valore nelle banche
I modelli di scoring
Ipotesi sottostanti l’analisi discriminante
• Ipotesi 1: le matrici di varianze e covarianze delle variabili indipendenti (le xj)
sono uguali per i due gruppi di imprese considerate.
Spesso i dati empirici sembrano suggerire il contrario
Nell’analisi discriminante eteroschedastica o quadratica
si tiene conto di questo problema: tuttavia devono essere
stimati più parametri e le funzioni risultanti risultano meno
facilmente leggibili
• Ipotesi 2: le formule utilizzate per trasformare lo score in una probabilità di
default assumono che le variabili indipendenti siano caratterizzate da una
distribuzione normale multivariata.
Le analisi empiriche mostrano sovente che tale ipotesi è irrealistica
Una distribuzione illimitata, come la normale, non può
rappresentare variabili come molti indici economicofinanziari strutturalmente limitati tra 0 e 100
© Resti e Sironi, 2008
24
Rischio e valore nelle banche
I modelli di scoring
I modelli di regressione – linear probabilistic model
• Le variabili che determinano l’insolvenza di un’impresa e il loro peso vengono
identificate con una semplice regressione lineare
1. Selezione del campione. Viene selezionato un numero
sufficientemente elevato di imprese. Esse vengono suddivise
in due gruppi, identificati da una variabile di stato binaria, y,
(yi = 1 se l’impresa i è anomala, yi =0 se è sana)
• 4 Fasi:
2. Selezione delle variabili indipendenti. Per ogni
impresa i vengono misurate m variabili rilevanti (indici
economico-finanziari misurati in anticipo rispetto
all’eventuale default)
3. Stima dei coefficienti, di norma
yi   
attraverso l’approccio dei minimi quadrati
m
 x
j i, j
 i
j 1
4. Stima della probabilità di insolvenza.
© Resti e Sironi, 2008
25
Rischio e valore nelle banche
I modelli di scoring
I modelli di regressione – linear probabilistic model
yi  0,03  0,25  xi ,1  5  xi , 2  0,7  xi ,3
• ESEMPIO:
rapporto tra oneri
finanziari e margine
operativo lordo
rapporto tra margine
(indicatore di
operativo lordo e totale attivo
sostenibilità
(indicatore di redditività operativa)
del debito)
rapporto tra debito e capitale
proprio (indicatore di leva finanziaria)
• Immaginiamo che una nuova impresa si rivolga alla banca per un finanziamento,
con x1=5; x2=0,3; x3=0,4. La PD dell’impresa è:
y  0,03  0,25  5  5  0,3  0,7  0,4  6%
• PROBLEMA: è possibile che y (probabilità di insolvenza) assuma valori esterni
all’intervallo compreso tra 0 e 100%
Nel caso in cui y sia superiore a 100% o inferiore a 0%,
viene solitamente troncato in corrispondenza di questi estremi
© Resti e Sironi, 2008
26
Rischio e valore nelle banche
I modelli di scoring
I modelli logit e probit
• Un ulteriore problema del linear probabilistic model è che la varianza dei residui
del modello lineare non è costante, ma risente di un problema di
eteroschedasticità
• La forma lineare non viene quasi mai utilizzata favorendo di funzioni non lineari,
come nei modelli probit e logit
Modello logit: la relazione lineare viene corretta
con una trasformazione esponenziale (logistica)
m
wi      j xi , j
1
yi  f ( wi ) 
1  e wi
j 1
Sostituendo la forma estesa di wi si ottiene:
yi 
1
1 e
   j x j
 i
j
La funzione logistica ha codominio limitato all’intervallo (0,1)
yi è sempre compresa fra 0 e 100
© Resti e Sironi, 2008
27
Rischio e valore nelle banche
I modelli di scoring
I modelli logit e probit
• E’ possibile utilizzare altre trasformazioni oltre alla logistica, sempre con
codominio compreso tra 0 e 1
Es. una funzione di densità di probabilità
cumulata normale, N(wi)
il modello finale è detto normit, o più comunemente probit
• La funzione logistica si caratterizza per code più spesse; in pratica, ciò non
produce differenze rilevanti fra i due modelli
I modelli logit e probit
non sono molto diversi,
a meno che il campione non includa
parecchi valori estremi di wi
© Resti e Sironi, 2008
28
Rischio e valore nelle banche
I modelli di scoring
I modelli di natura induttiva – Le reti neurali
• I modelli finora presentati sono fondati sulle caratteristiche strutturali che
spiegano le condizioni di salute di un’impresa
• La scelta delle variabili rilevanti riflette sempre una scelta a priori basata sul
ragionamento economico
• Le reti neurali seguono invece un procedimento induttivo:
Se si riscontra una certa “regolarità” in un campione di dati,
essa viene utilizzata, in modo acritico e “agnostico”,
per prevedere il default di altre imprese
• I modelli strutturali sono modelli trasparenti che utilizzano test inferenziali
per verificare la significatività dei coefficienti stimati
• I modelli induttivi sono spesso dei black box la cui logica non è facilmente
comprensibile fino in fondo
© Resti e Sironi, 2008
29
Rischio e valore nelle banche
I modelli di scoring
I modelli di natura induttiva – Le reti neurali
• I modelli strutturati possono essere però “imparati” dalle imprese
Potrebbero adottare politiche di bilancio per condizionarne
il risultato, rendendo il modello meno efficace
• La mancata esplicitazione della struttura funzionale dei modelli induttivi può
quindi rappresentare un vantaggio.
• Le reti neurali tentano di riprodurre il meccanismo di apprendimento che
caratterizza la conoscenza e la memoria umana
Una rete neurale si compone di un numero
elevato di “neuroni”, collegati fra loro tramite
relazioni elementari dette “sinapsi”
© Resti e Sironi, 2008
30
Rischio e valore nelle banche
I modelli di scoring
I modelli di natura induttiva – Le reti neurali
• I neuroni sono collocati a “strati” (layers):
ogni neurone dello
strato più esterno
della rete riceve in
input n variabili
le elabora con
una funzione
input
strato 1
x1
n1
…
f(x1,…xn)
…
Score
…
…
il risultato della
funzione viene passato
ai neuroni dello strato
successivo
output
n3
x2
…
strato 2
(nascosto)
f(n1,n2)
…
…
xn
n2
n4
Dopo uno o più “strati nascosti” (hidden layers)
la rete genera un risultato finale
© Resti e Sironi, 2008
31
Rischio e valore nelle banche
I modelli di scoring
I modelli di natura induttiva – Le reti neurali
• I coefficienti delle singole funzioni elementari che compongono la rete vengono
messi a punto mediante un meccanismo di tipo iterativo
Si modificano gradualmente i valori dei coefficienti in modo
da ottenere risultati quanto più simili a quelli desiderati
• Esempio:
Osservazioni
A
B
C
D
E
F
x1
6
5
7
8
6
3
x2
4
3
6
5
8
9
y
10
8
13
13
14
12
Partendo dai valori delle variabili x1 e x2,
vogliamo ricostruire il valore di y
(y è semplicemente la somma di x1 e x2)
Attraverso ripetuti tentativi (“epoche”)
la rete riuscirà a ridurre progressivamente
l’errore commesso, ottenendo i risultati
della tabella a fianco (chiaramente troppo
imprecisi per il problema proposto)
© Resti e Sironi, 2008
Osservazione x1 x2 y reale
A
B
C
D
E
F
6
5
7
8
6
3
4
3
6
5
8
9
10
8
13
13
14
12
y generato
dalla rete
10,60
9,41
12,56
12,52
13,31
12,04
Errore
-0,60
-1,41
0,44
0,48
0,69
-0,04
32
Rischio e valore nelle banche
I modelli di scoring
I modelli di natura induttiva – Gli algoritmi genetici
• Gli algoritmi genetici sono stati sviluppati da John Holland negli anni ‘60 e ’70 e
si ispirano al comportamento degli organismi biologici
• Il loro funzionamento si fonda infatti su una trasposizione artificiale dei principi
darwiniani di selezione naturale e “survival of the fittest”.
Processo di evoluzione naturale:
Charles Darwin “The Origin of Species”
Gli individui di una medesima specie animale competono
tra loro per accaparrarsi le risorse fondamentali per
l’esistenza e per l’accoppiamento
Gli individui che hanno le migliori
caratteristiche hanno una maggior
probabilità di sopravvivere e di
riprodursi.
© Resti e Sironi, 2008
Solo gli individui migliori arrivano
a trasferire il loro bagaglio genetico
alle generazioni future
33
Rischio e valore nelle banche
I modelli di scoring
I modelli di natura induttiva – Gli algoritmi genetici
• Oltre alla selezione naturale, altri due meccanismi concorrono all’evoluzione e al
miglioramento della specie:
La ricombinazione genetica
(cross-over) può condurre ad
una progenie con caratteristiche
migliori (superfit)
Il bagaglio genetico può cambiare
anche in seguito ad improvvise e
rarissime, mutazioni casuali di
singoli geni
• Nel caso degli algoritmi genetici gli “individui” da fare evolvere sono le possibili
soluzioni a un problema
• Immaginiamo di voler generare una funzione basata su indicatori di bilancio (x1,
x2, …, xn) in modo tale da assegnare valori elevati alle imprese sane e valori bassi
a quelle anomali
z   0  1 x1   2 x2  .......  m xm
© Resti e Sironi, 2008
34
Rischio e valore nelle banche
I modelli di scoring
I modelli di natura induttiva – Gli algoritmi genetici
• Ogni individuo è rappresentato da un vettore α= [α0 … αm]’
• Valori di αj nulli indicano che il corrispondente indice economico-finanziario non
viene utilizzato da questo individuo-soluzione
• Per selezionare le soluzioni migliori e affinarle:
1. viene generata casualmente una prima popolazione di s individui-soluzioni;
2. utilizzando una funzione di valutazione, viene calcolata la bontà (fitness) degli
s individui (capacità di rappresentare una buona soluzione per il problema);
3. si applica un algoritmo (detto “operatore genetico”) di selezione che identifica
gli individui destinati a sopravvivere;
4. si applica un secondo “operatore genetico” che permette agli individui
sopravvissuti di riprodursi, producendo una seconda generazione di soluzioni
i cui vettori α sono combinazioni delle soluzioni della generazione precedente;
© Resti e Sironi, 2008
35
Rischio e valore nelle banche
I modelli di scoring
I modelli di natura induttiva – Gli algoritmi genetici
5. Con l’operatore genetico di mutazione si introduce la possibilità di registrare
una improvvisa modifica di una o più soluzioni della nuova generazione
6. Viene misurata la fitness di ogni individuo della nuova generazione di
soluzioni. Se non è soddisfacente, allora il processo viene ulteriormente
replicato, fino ad una soluzione attraente o sino a quando il miglioramento di
fitness passando da una generazione all’altra è nullo.
Generazione di
una popolazione
iniziale
Valutazione
della fitness
delle soluzioni
Una soluzione è
pienamente
soddisfacente?
Soluzione
sì
no
?
Problema
Generazione
di una nuova
popolazione
Selezione
Crossover
Mutazione
© Resti e Sironi, 2008
36
Rischio e valore nelle banche
I modelli di scoring
I modelli di natura induttiva – Gli algoritmi genetici
• Gli algoritmi genetici realizzano una ricerca “adattiva” (adaptive search)
• Si muovono nello spazio facendosi guidare dalla memoria: l’esplorazione avviene
grazie alle informazioni acquisite nell’attività di ricerca già svolta
• Gli algoritmi genetici vengono utilizzati con particolare successo in quelle aree
problematiche caratterizzate da uno spazio di soluzioni ampio e “rumoroso”
© Resti e Sironi, 2008
37
Rischio e valore nelle banche
I modelli di scoring
Utilizzi e limiti dei modelli di scoring
• I modelli di scoring possono essere impiegati con due obiettivi:
previsione delle
insolvenze
fissazione di una
soglia minima di
score al di sotto della
quale la richiesta di
credito viene respinta
stima del livello di rischio
ad ogni debitore viene assegnata una PD
La stima della PD può essere effettuata
a livello di singolo debitore
oppure
I clienti con score simile vengono
raggruppati in classi: la percentuale di
default effettivamente avvenuti su ogni
classe negli anni successivi viene
utilizzata come stima della PD
© Resti e Sironi, 2008
38
Rischio e valore nelle banche
I modelli di scoring
Limiti dei modelli di scoring
 La definizione di impresa “anomala” o “insolvente”
 L’importanza relativa delle variabili indipendenti utilizzate dal modello
di analisi discriminante potrebbe variare nel tempo
 I modelli di scoring trascurano numerosi fattori qualitativi, come la
reputazione dell’impresa, la fase del ciclo economico, la qualità del management
etc.
 Le imprese del campione di stima dovrebbero, per quanto possibile,
appartenere al medesimo settore produttivo (lo stesso indice potrebbe
avere una diversa importanza nel determinare l’insolvenza nei diversi settori)
 I campioni di stima possono essere “sbilanciati” ed includere una
percentuale di imprese sane troppo elevata (le imprese insolvente di cui esistono
i dati sono troppo poche)
© Resti e Sironi, 2008
39
Rischio e valore nelle banche
I modelli di scoring
Esercizi/1
1. Una banca ha analizzato i bilanci di un gruppo di clienti “sani” e
“anomali” e ha riscontrato che
• il rapporto tra patrimonio e totale attivo è in media 50% per i
“sani” e 20% per gli “anomali”;
• il rapporto tra attivi liquidi e passività a breve termine è in media
2 per i “sani” e 0,4 per gli “anomali”;
• la matrice di varianze/covarianze tra i due rapporti è la seguente:
0.04 0.07 
S

0
.
07
0
.
51


 32.9  4.52
• e la sua inversa è S  


4
.
52
2
.
58


1
© Resti e Sironi, 2008
40
Rischio e valore nelle banche
I modelli di scoring
Esercizi/1
La banca vuole utilizzare queste informazioni per costruire un
modello di analisi discriminante. A tal fine, calcolate:
• i coefficienti della funzione discriminante;
• i centroidi;
• la soglia per separare i clienti sani da quelli anomali, nel caso in
cui la probabilità a priori (prior) di incontrare un cliente
anomalo sia il 10% e il costo degli errori non sia noto;
• la soglia (basata sullo stesso prior di prima) per un cliente con
costi dell’errore rispettivamente di 20.000 euro (in caso di
prestito erogato ad un’impresa anomala) e 1.800 euro (in caso di
prestito rifiutato ad un impresa sana.
© Resti e Sironi, 2008
41
Rischio e valore nelle banche
I modelli di scoring
Esercizi/2
2. Un cliente ha richiesto un prestito di 500.000 euro fornendo
garanzie reali in contante per 100.000 euro (così che, in caso di
default, la perdita per la banca sarebbe pari all’80% del
prestito). Il tasso applicato sul prestito sarebbe 12%; il costo dei
fondi prestabili, unito a tutte le altre spese operative della
banca, sarebbe pari a 10%, lasciando un margine di profitto
netto del 2%.
Lo score del cliente, basato su un modello di analisi
discriminante, è pari a 6,1. Si tratta di un valore inferiore alla
soglia minima sotto la quale non è possibile concedere un
prestito; tale soglia (sulla base dei costi dell’errore indicati in
precedenza e di una probabilità a priori del 10% che l’impresa
sia anomala) è pari a 7.
© Resti e Sironi, 2008
42
Rischio e valore nelle banche
I modelli di scoring
Esercizi/2
Di quanto dovrebbe aumentare la garanzia reale in contante
fornita dal cliente (lasciando il tasso attivo al 12%) affinché la
sua richiesta venga approvata?
Sulla base dei dati forniti in questo esercizio, sapreste ricavare
anche la PD del cliente?
© Resti e Sironi, 2008
43
Rischio e valore nelle banche
I modelli di scoring
Esercizi/3
3. Considerate le seguenti affermazioni sui modelli logit e sui linear
probability models:
I.
è necessario troncare tra zero e uno i risultati di un linear
probability model, affinché essi coincidano con quelli di un
modello logit;
II.
è necessario troncare tra zero e uno i risultati di un linear
probability model, affinché il loro codominio coincida con
quello di un modello logit;
© Resti e Sironi, 2008
44
Rischio e valore nelle banche
I modelli di scoring
Esercizi/3
III.I linear probability models e i modelli logit hanno sempre i
medesimi coefficienti, ma le PD stimate sono diverse perché i
modelli logit comportano l’utilizzo di una funzione-filtro non
lineare;
IV. I linear probability models, diversamente dai modelli logit,
generano stime distorte.
Quali sono corrette?
a)
b)
c)
d)
La II e la III;
solo la IV;
la II e la IV;
tutte.
© Resti e Sironi, 2008
45