VALUTAZIONE DEL MERITO DI CREDITO – PRIMA PARTE
I modelli di previsione delle insolvenze basati su
metodologie di carattere statistico si inquadrano nella fase
quantitativo del processo di valutazione del merito credito.
Tali modelli consentono una valutazione automatica delle
aziende sottoposte ad analisi, fornendo per ognuna un
numero (score) che ne individua in misura sintetica lo stato
di salute dal punto di vista dei creditori.
In tal modo si ha la possibilità di rilevare tempestivamente
il sorgere di squilibri, segnalando situazioni di crisi prima
della loro manifestazione conclamata.
Al fine di poter applicare un modello statistico è necessario
disporre di un campione composto da clienti che nel
passato si sono rivelati affidabili o insolventi.
Successivamente occorre individuare una combinazione di
variabili che abbiano un contenuto informativo sufficiente
a discriminare piuttosto nettamente tra il gruppo di
prenditori “sani” e quello degli insolventi.
Una volta scelti il campione e le variabili, ognuno viene
inserito in una funzione che determina lo score di ogni
cliente.
In base al punteggio ottenuto, l’azienda sarà considerata
più o meno rischiosa. Una volta calcolati i punteggi e le
relative fasce di rischio, è possibile che la banca stabilisca u
valore soglia (cut-off score) al di sotto del quale le richieste
di finanziamento vengono respinte o sottoposte a
revisione.
La scelta del valore di cut-off dipende dalla propensione al
rischio: un più elevato valore di soglia comporta minori
possibilità di perdita, ma anche il rischio di respingere un
numero consistente di prenditori “sani”.
Vantaggi dei metodi di scoring rispetto alle tecniche
tradizionali :
- maggiore oggettività;
- maggiore rapidità;
- quadro di riferimento omogeneo.
Dell’analisi degli score medi per settori e rami di attività
economica (nonché per classi dimensionali e aree
geografiche) è possible derivare utili informazioni per
quanto concerne il grado di rischiosità associato a
determinati aggregati settoriali e/o dimensionali.
La rilevazione dei coefficienti medi per singola filiale
fornisce inoltre indicatori in merito all’ambiente in cui essa
opera e all’efficacia dimostrata nella selezione della
clientela.
Limiti: cambiamenti strutturali o nel ciclo economico
oppure mutamenti nei criteri decisionali delle banche o
nella normativa possono modificare considerevolmente le
relazioni tra variabili. Risulta quindi necessaria una verifica
periodica dei modelli ed una nuova stima quando la loro
efficacia discriminante tende a ridursi.
Costi di errata classificazione
Situazione
reale
Fallite
Sane
Totale
Situazione prevista
Fallite
Classificazione
corretta
Sane
Errori del I
tipo
Errori del II
tipo
Classificazione
corretta
Numero
Numero
aziende class. aziende class.
fallite
sane
Totale
Numero
aziende
fallite
Numero
aziende
sane
Numero
totale
campione
Due tecniche sono assai diffuse:
- analisi discriminante lineare
- regressione logistica
Analisi discriminante lineare
Si basa su dati retrospettivi, relativi a indici di bilancio, di
gruppi di aziende sane o in stato di crisi.
Fasi
1. Elencare le aziende operanti nello stesso settore che
nel periodo sono in crisi e quelle sane.
2. Si considerano gli indici di bilancio di tali aziende uno,
due o più anni prima della crisi.
3. Si confrontano gli indici delle aziende appartenenti ai
gruppi di aziende sane e in crisi (uso del test t di
student).
4. Si seleziona un sottoinsieme di indicatori di bilancio
rilevanti
5. Si costruisce la combinazione lineare di tali indici che
la proprietà di discriminare nel modo migliore
possibile le aziende sane da quelle destinate ad uno
stato di crisi.
A rigore, la combinazione lineare individuata è ottimale
solo con riferimento ai dati retrospettivi.
L’analisi discriminante lineare si basa sulla costruzione di
combinazioni lineari delle variabili esplicative che
consentono di costruire un nuovo sistema di riferimento
in cui viene massimizzata la distanza tra i centroidi delle
classi e minimizzata la distanza delle unità assegnata a
ciascuna classe dal rispettivo centroide.
Analisi preliminari dei dati
1. Le variabili utilizzate come predittori devono mostrare
valori significativamente diversi nei diversi gruppi.
2. I predittori X1, X2,…, Xp non devono essere
linearmente dipendenti.
3. Non devono essere presenti osservazioni anomale.
4. Le variabili esplicative devono mostrare una
distribuzione simmetrica.
Funzioni discriminanti lineari
n1 e n2 sono le numerosità dei due campioni;
1 e 2 sono le popolazioni di riferimento,
omoschedastiche;
π‘₯1 𝑒 Μ…Μ…Μ…
Μ…Μ…Μ…
π‘₯2 i vettori delle medie nei due campioni;
π‘₯1 , π‘₯2 , … , π‘₯𝑝 le variabili esplicative;
S1 e S2 le matrici di varianza-covarianza campionaria nei
due gruppi.
Determiniamo π‘Œ = 𝛾 ′ 𝑋 ottenuta come combinazione
lineare degli X. Come determinare  ?
Sia
𝑦𝑖𝑗 = 𝛾1 π‘₯𝑖𝑗1 + 𝛾2 π‘₯𝑖𝑗2 + β‹― + 𝛾𝑝 π‘₯𝑖𝑗𝑝 = 𝛾 ′ 𝑋
campionaria dell’i-mo campione è data da:
𝑦̅𝑖 =
1
𝑛
𝑖
∑𝑛𝑗=1
𝑦𝑖𝑗 = 𝛾 ′ π‘₯̅𝑖
La corrispondente varianza risulta essere:
la media
π‘£π‘Žπ‘Ÿ(𝑦𝑖 ) =
1
𝑛−1
1
𝑛−1
1
𝑛−1
∑𝑛𝑖
̅𝑖 )2 =
𝑗=1(𝑦𝑖𝑗− 𝑦
∑𝑛𝑖
π‘₯𝑖1 − 𝛾𝑝 Μ…Μ…Μ…Μ…
π‘₯𝑖𝑝 )2 =
𝑗=1(𝛾1 π‘₯𝑖𝑗1 + β‹― + 𝛾𝑝 π‘₯𝑖𝑗𝑝 − 𝛾1 Μ…Μ…Μ…Μ…
2
∑𝑛𝑖
(𝛾
(
π‘₯
−
π‘₯
)
+
β‹―
+
𝛾
(π‘₯
−
π‘₯
Μ…Μ…Μ…Μ…))
=
1
𝑖𝑗1
𝑖1
𝑝
𝑖𝑗𝑝
𝑖𝑝
𝑗=1
𝛾 ′ 𝑆𝑖 𝛾
La varianza entro i gruppi è data quindi da
𝛾 ′ 𝑆𝛾
con
n = n1 + n2
𝑛1−1
𝑛2−1
𝑆=
𝑆 +
𝑆
𝑛 1
𝑛
La varianza tra i gruppi è data da
2
π‘£π‘Žπ‘Ÿ(𝑦)π‘‘π‘Ÿπ‘Ž = ∑ 𝑛𝑖 (𝑦̅𝑖 − 𝑦̅)2 = 𝛾 ′ 𝐡𝛾
𝑖=1
L’obiettivo di massimizzare la varianza tra e
contemporaneamente di minimizzare la varianza entro si
realizza trovando il massimo rispetto a  di:
𝛾 ′ 𝐡𝛾
𝛷= ′
𝛾 𝑆𝛾
Si dimostra che
(π‘₯
Μ…Μ…Μ…1 − Μ…Μ…Μ…Μ…
π‘₯2 )
𝛾=
𝑆
Determinati i coefficienti occorre costruire la regola di
assegnazione.
Si assegna x a 1 se
𝑦 = 𝛾 ′ π‘₯ è più vicino a Μ…Μ…Μ…che
𝑦1
non a Μ…Μ…Μ….
𝑦2
ESEMPIO
Immaginiamo un collettivo 38 imprese, 24 sane e 14
insolventi.
Per semplicità consideriamo soltanto due indicatori:
x1, il rapporto tra sconfinamenti e il credito totale
accordato dalla banca;
x2, il rapporto tra oneri finanziari e fatturato.
I valori medi nei due gruppi sono i seguenti
x1 = (0,29 ; 0,11)
x2 = (0,67 ; 0,31)
Le matrici di varianze covarianze nei due gruppi sono
S1 =(
0,076
0,023
0,023
)
0,016
0,000
S2 =(
−0,001
−0,001
)
0,036
La matrice (comune) delle varianze-covarianze è
S =(
0,052
0,014
0,014
)
0,023
L’inversa è data
S-1 =(
23,4 −14,3
)
−14,3 51,9
I valori dei coefficienti sono
(-6,09 ; -4,84).
Il punteggio della generica impresa è quindi dato da
𝑦𝑖 = 𝛾 ′ π‘₯𝑖 = −6,09π‘₯1,𝑖 − 4,84π‘₯2,𝑖
Assumiamo come valore soglia
𝛼=
1
2
𝛾 ′ ( Μ…Μ…Μ…
π‘₯1 + Μ…Μ…Μ…
π‘₯2 ) = −3,97 )
Si rifiuta il merito di credito a sei imprese sane e lo si
concede ad un’impresa anomala.
La capacità discriminante del modello è piuttosto
limitata.
Probabilità di default e calibrazione dei cut-off
L’analisi discriminante può essere utilizzata per stimare
la probabilità di default associata alla singola impresa.
Se le variabili indipendenti si distribuiscono secondo una
normale multivariata, la probabilità che un’impresa sia
anomala è:
𝑃𝐷 = 𝑝(𝐡|Η€π‘₯𝑖 ) =
1
1−πœ‹2
1+
πœ‹2
𝑒 𝑧ì−𝛼
In cui 2 è la probabilità di appartenere al gruppo di
imprese in crisi e  è la soglia.
Dal nostro esempio, 2 è uguale a 14/37 = 0,37.
Il valore soglia può essere modificato per tener conto
della PD e della qualità media del portafoglio (2 )
Ad esempio si potrebbe decidere di rifiutare il credito ad
un’impresa soltanto se la sua PD è superiore a 0,50:
1 − πœ‹2 𝑧ì−𝛼
𝑃𝐷 = 1 +
𝑒
> 0,5
πœ‹2
Il che equivale a porre
πœ‹2
𝛼 = 𝛼 + ln(
)
1 − πœ‹2
′
Nel nostro esempio
0,37
𝛼 = −3,97 + ln (
) = −4.5
1 − 0.37
′
Calibrazione del cut-off. Costi degli errori
E’ evidente che nessuna banca accetterebbe di prestare
denaro ad imprese con PD intorno al 30-40%.
Sono accettabili valori di PD ragionevolmente prossimi a
zero, fino a 0,02.
Come si è già visto, possono essere commessi due tipi di
errori:
1) La classificazione di un’impresa insolvente come
affidabile. Il costo di questo errore
(C(1|2))
corrisponde al capitale e agli interessi perduti in
seguito all’insolvenza dell’impresa classificata
erroneamente come affidabile;
2) La classificazione come insolvente di un’impresa
affidabile. Il secondo tipo di errore produce un costo
corrispondente al mancato guadagno derivante
dall’aver rifiutato la concessione del fido (C(2|1)).
Il cut-off point può essere calibrato in modo tale da
considerare il diverso costo associato ai due tipi di errori.
E’ possibile decidere di rifiutare il credito al cliente quando
il costo atteso provocato dal primo tipo di errore è
maggiore del costo atteso provocato dal secondo tipo di
errore. In termini simbolici
(C(1|2)) PD ≥ (C(2|1)) (1-PD).
Sostituendo a PD la sua formula otteniamo:
πœ‹2 (C(1Η€|2))
𝛼 = 𝛼 + ln(
)
1 − πœ‹2 )(C(2Η€|1))
′′
Tornando all’esempio, se
(C(1|2)) è pari al 70% del capitale prestato e
(C(2|1)) è pari al 2% sul capitale prestato
Il cut-off point sarà
0,37 ∗ 0,70)
−0,95 = −3,97 + ln(
)
1 − 0,37)0,02
La selezione delle variabili discriminanti
La selezione delle variabili discriminanti può seguire due
modalità:
metodo simultaneo. Il modello è costruito in modo
aprioristico. Le variabili sono selezionate sulla base di un
modello concettuale e i coefficienti vengono stimati
simultaneamente;
metodo stepwise. Le variabili vengono selezionate sulla
base della capacità discriminante sui dati del campione
di stima. Si distingue tra:
backward elimination; partendo da tutte le
variabili vengono rimosse quelle con un minor
potere discriminante;
forward selection; partendo da un’unica
variabile si aggiungono quelle con maggior
potere discriminante.
I metodi stepwise possono condurre all’inclusione di
variabili senza un chiaro significato economico o con un
coefficiente di segno opposto a quanto ci si attenderebbe.
Qualsiasi sia il metodo seguito, è necessario adottare un
criterio per comprendere se l’aggiunta di una variabile
esplicativa migliora la capacità discriminante del modello.
Ad esempio si può calcolare il lambda di Wilks due volte,
con e senza la variabile xj controllando se la sua aggiunta
riduce il lambda.
Test F-to-remove
F =(N-m-1)
1−πœ†(π‘š)
πœ†(π‘š−1)
πœ†(π‘š)
πœ†(π‘š−1)
λ(m-1) = lambda di Wilks di un modello con m-1 variabili
λ(m) = lambda di Wilks di un modello con m variabili.
π›Œ di Wilks è dato da
|π‘Š |
|π‘Š + 𝐡 |
La selezione delle variabili discriminanti
Sotto l’ipotesi nulla che xj sia irrilevante , F (il test F-toRemove) si distribuisce secondo una F di Snedecor-Fisher
con (1, N-3) gradi di libertà.
Esempio: passiamo dal modello a due variabili illustrato in
precedenza ad un modello ad 1 variabile (manteniamo solo
il quoziente tra sconfinamenti e fido accordato).
Il lambda di Wilks passerebbe da 2 = 55,3% a 1 = 70,5%.
𝐹 = (38 − 2 − 1)
1−0,553
0,705
0,553
0,705
=9,61.
Il p-value associato a tale valore è 0,04.
I MODELLI DI REGRESSIONE.
Il linear probability model
Le variabili che determinano l’insolvenza di un’impresa e il
loro peso vengono identificate con una semplice
regressione lineare.
Siccome la variabile dipendente y è binaria, la funzione di
regressione della popolazione corrisponde alla probabilità
che la variabile dipendente sia uguale ad uno, dato x.
Il coefficiente b1 associato ai regressori X è la variazione
nella probabilità che y=1 associata ad una variazione
unitaria di x. Similmente il valore predetto della variabile
dipendente, calcolato usando la funzione di regressione
stimata con gli OLS, è la probabilità predetta che la
variabile dipendente sia uguale ad uno, e lo stimatore OLS
stima quindi la variazione nella probabilità che y=1
associata ad una variazione unitaria in X.
Il modello lineare di probabilità è il modello di regressione
multipla:
π‘Œπ‘– = 𝛽0 + 𝛽1 π‘₯1𝑖 + β‹― 𝛽𝑝 π‘₯𝑝𝑖 + 𝑒𝑖
dove Yi è binaria, cosicché
Pr(π‘Œ = 1|π‘₯1 , … , π‘₯𝑝 ) = 𝛽0 + 𝛽1 π‘₯1𝑖 + β‹― 𝛽𝑝 π‘₯𝑝𝑖
Il coefficiente di regressione bi rappresenta la variazione
nella probabilità che y=1 associata ad una variazione
unitaria in xi, tenendo costanti gli altri repressori, e così via
per 2,…,p. I coefficienti di regressione possono essere
stimati con gli OLS e i comuni errori OLS (robusti
all’eteroschedasticità) possono essere usati per gli
intervalli di confidenza e i test d’ipotesi.
La regressione probit
Le regressioni probit e logit sono modelli di regressione
non lineari specificatamente disegnati per variabili
dipendenti binarie. Siccome una regressione con una
variabile dipendente binaria y modella la probabilità che
y=1, è ragionevole adottare una formulazione non lineare
che costringa i valori predetti ad assumere valori comprei
tra zero e uno. Nelle regressioni logit e probit si utilizzano
pertanto le funzioni di ripartizione, poiché producono
valori tra zero ed uno: la funzione di ripartizione normale
standard per la regressione probit e la “logistica” per la
logit, detta anche regressione logistica.
La regressione probit con un solo regressore
Il modello di regressione probit con un singolo regressore X
è
Pr(𝑦 = 1|π‘₯) = 𝛷 (𝛽0 + 𝛽1 π‘₯ )
dove  è la funzione di ripartizione normale standard.
Nel caso multivariato la formulazione è la seguente:
Pr(𝑦 = 1|π‘₯1 , … , π‘₯𝑛 ) = 𝛷(𝛽0 + 𝛽1 π‘₯1 + β‹― + 𝛽𝑝 π‘₯𝑝 )
I coefficienti probit non hanno un’interpretazione
immediata. Il calcolo delle probabilità predette e
dell’effetto di una variazione in un regressore permette di
interpretare meglio il modello.
La probabilità predetta che y=1, dati i valori di x1, …, xp si
ottiene calcolando il valore z – 𝑧 = 𝛽0 + 𝛽1 π‘₯1 + β‹― + 𝛽𝑝 π‘₯𝑝
e cercando poi il valore ottenuto nella tabella della
distribuzione normale standard.
L’effetto di una variazione in un regressore si ottiene:
1. calcolando la probabilità predetta in corrispondenza
del valore iniziale dei repressori;
2. calcolando la probabilitg predetta in corrispondenza
del valore nuovo dei regressori;
3. calcolando la differenza.
I coefficienti probit vengono stimati con il metodo della
massima verosimiglianza che dà luogo a stime
consistenti e si distribuisce normalmente in grandi
campioni, cosicchè la statistica t e gli intervalli di
confidenza per i coefficienti posono essere costruiti nel
modo usuale.
Il modello di regressione logit è simile al modello di
regressione probit, eccetto che la funzione di ripartizione
normale standard è rimpiazzata dalla funzione di
ripartizione logistica standard, indicata con F.
Come per il modello probit, i coefficienti del modello logit
si interpretano meglio calcolando le probabilità predette e
le differenze nelle differenze predette.
I coefficienti logit possono essere stimati con il metodo
della massima verosimiglianza. Lo stimatore di massima
verosimiglianza è consistente e si distribuisce
normalmente in grandi campioni, cosicchè la statistica t e
gli usuali intervalli di confidenza per i coefficienti possono
essere usati.
In formule, il modello logit è il seguente:
Pr(𝑦 = 1|π‘₯1 , … , π‘₯𝑝 ) = 𝐹 (𝛽0 + 𝛽1 π‘₯1 + β‹― + 𝛽𝑝 π‘₯𝑝 ) =
1
1+𝑒 −𝛽0+𝛽1π‘₯1 +β‹―+𝛽𝑝 π‘₯𝑝