lezione 2

Teoria della scelta: otto pezzi di media difficoltà
© Giorgio Rampa, [email protected]
2. Sincopato
La scelta sotto incertezza
Il ritmo sincopato crea sempre delle difficoltà all’ascoltatore e,
inizialmente, anche all’esecutore. Credevamo di aver capito tutto,
e d’improvviso ci troviamo senza terreno sotto i piedi
1. Lotterie e variabili casuali
Come già anticipato nella prima lezione, un decisore può avere problemi di informazione se non conosce esattamente quali saranno le conseguenze delle sue scelte, a causa per esempio di qualche circostanza esterna a lui non perfettamente nota: tale circostanza è tuttavia rilevante per il suo problema di scelta, perché contribuisce direttamente a determinare gli effetti delle sue scelte sulle sue conseguenze, e quindi sul risultato delle scelte in termini di qualche ordinamento che dovremo adottare.
L’incertezza che il decisore deve affrontare rende il problema di scelta più difficile: le cose non sono così lisce come avevamo immaginato sinora. Il fatto è che quando io compio una scelta s mi potrebbe capitare qualcosa che varia da una volta all’altra, e dunque le mie previsioni circa il risultato
ottenibile possono andare pesantemente deluse. Io potrei continuare a fare sempre la stessa cosa, ma
il mondo attorno a me zoppica: una situazione davvero scoraggiante, come uno voglia seguire rigorosamente un ritmo ma avvertisse sincopi ad ogni passaggio.
Per affrontare questo problema cominciamo a fare una semplificazione ragionevole. Spesso i risultati che il decisore si aspetta di ottenere sono rappresentabili tramite numeri: profitto ottenibile in
seguito ad un certo investimento, vincita ottenibile avendo partecipato ad una scommessa, guadagno
in conto capitale ottenibile per aver acquistato qualche titolo in borsa. Considereremo allora solo
casi di questo tipo. L’incertezza verte sì sul meccanismo esterno che genera il risultato (rottura del
tornio, impercettibili variazioni della posizione iniziale della pallina della roulette, umori di tutti gli
altri speculatori in borsa), ma in ultima istanza verte sul risultato numerico che arriva nelle tasche
del decisore. Per tale ragione possiamo supporre che l’incertezza della quale parliamo assuma il
formato generale di una lotteria: nel momento in cui decido di parteciparvi, e prima che l’incertezza
si risolva, i risultati possibili sono molti numeri (usualmente somme monetarie) alternativi.
Le conseguenze c delle scelte s in presenza di circostanze esterne e si determinano, come
sappiamo, secondo il meccanismo c = Γ(s; e ) . Il decisore è incerto su e, cioè ragiona in
termini di una distribuzione di probabilità g (e ) , che è una funzione che assegna ad ogni
possibile evento e un numero chiamato probabilità: g (e ) deve avere certe proprietà formali
che qui non approfondiamo (quantomeno le probabilità devono essere numeri compresi tra
zero e uno, e la loro somma deve essere uno). Allora il decisore è di fatto incerto su
c = Γ(s; e ) , e riesce a “indurre”, tramite opportuni calcoli, una distribuzione di probabilità
sulle conseguenze.
Una lotteria è un esempio particolare di variabile casuale. Una variabile casuale è una variabile che
potrebbe, ex ante, assumere uno solo tra molti diversi valori possibili, ciascuno con una certa probabilità. Quindi la descrizione corretta di una variabile casuale è una lista di coppie di numeri: ogni
singolo possibile esito numerico e la corrispondente probabilità. In effetti molto spesso si può fare il
grafico di tale descrizione (in ascissa i possibili valori e in ordinata le loro probabilità).
1
Per esempio la variabile casuale “risultato della prima estrazione del lotto” si descrive come: “numero 1 con probabilità 1/90; numero 2 con probabilità 1/90; …numero 90 con probabilità 1/90”.
Supponendo che alla prima estrazione sia uscito il numero 1, la variabile casuale “risultato della seconda estrazione del lotto” si descrive come segue: “numero 1 con probabilità 0; numero 2 con probabilità 1/89; numero 3 con probabilità 1/89; …numero 90 con probabilità 1/89”. Eccetera.
Questo esempio delle estrazioni del lotto ci fa capire che la descrizione della variabile casuale “seconda estrazione” è influenzata dall’esito della “prima estrazione”. In tal caso si
dice, in genere, che le due variabili sono tra loro correlate: le probabilità degli esiti della
seconda dipendono dall’effettivo esito della prima. Invece le due variabili “prima estrazione del 27 novembre” e “prima estrazione del 4 dicembre” sono tra loro, come si dice, indipendenti: qualsiasi cosa succeda in una certa settimana, la descrizione della prima estrazione della settimana successiva rimane la stessa. Questo ci fa capire che non sempre le persone ragionano in modo formalmente corretto, visto quanto è diffusa la mania di giocare
sui numeri “ritardatari”: una vera follia, un esempio tecnico di irrazionalità. Sapreste dire
quale ragione corretta fa da sfondo a questa convinzione errata?
Naturalmente esistono variabili casuali di ogni tipo: a pochi o a molti valori, con un numero infinito
o addirittura continuo di valori. Per i nostri scopi conviene pensare che anche una variabile certa sia
un caso particolare di variabile casuale: per esempio, la variabile certa x = 50 si può raccontare come “0 con probabilità 0; 50 con probabilità 1; 100 con probabilità 0”, e ovviamente in infiniti altri
modi possibili (sarà il contesto a suggerirci quello più conveniente di volta in volta).
La descrizione data prima della variabile casuale “prima estrazione del lotto” era piuttosto noiosa:
sarebbe stato meglio dire “ogni numero tra 1 e 90 con probabilità 1/90”. Ma non sempre è facile è
sintetizzare la descrizione di una variabile casuale. La statistica è proprio la disciplina che si occupa, tra l’altro, di studiare indicatori sintetici per rappresentare in breve le variabili casuali. Un primo
indicatore sintetico di una certa importanza è il valore atteso di una variabile casuale: si calcola come “media” di tutti i possibili valori, utilizzando come pesi le probabilità di ogni valore. Si tratta di
un indicatore di quanto in media ci si aspetta di ottenere. Intuitivamente, di fronte a variabili casuali
che siano risultati monetari, un elevato valore atteso è una proprietà ben accetta per il decisore.
Consideriamo la variabile casuale x a n valori x1 , x 2 , K , x n , le cui probabilità sono rispettivamente p1 , p 2 ,K , p n (questa è un esempio del caso generale p = g(x), dove g è una distribuzione di probabilità). Il valore atteso si calcola come una media, cioè è la somma di tanti
termini, ciascuno dei quali è il prodotto fra un valore e la sua probabilità. Dunque il valore
n
atteso della variabile casuale x è VA = x1 p1 + x 2 p 2 + K x n p n = ∑ xi pi .
i =1
Per esempio se la variabile casuale è “100 se esce testa, niente se esce croce”, e se la moneta non è
truccata (cioè le probabilità dei due esiti sono ½), allora il valore atteso della vincita (cioè la vincita
attesa) è 100· ½ + 0· ½ = 50. Anche la variabile casuale “80 se esce testa, 20 se esce croce, con
probabilità ½” ha vincita attesa pari a 50; anche la variabile “50 se esce testa, 50 se esce croce”,
cioè “50 con probabilità 1”, ha la stessa vincita attesa pari a 50. (NB: il valore atteso di una variabile certa è dunque il suo valore, l’unico che ha probabilità uno).
2
Il valore atteso è funzione lineare delle probabilità. Consideriamo per semplicità tante variabili casuali con i due stessi possibili valori B e A, con B < A. Indichiamo con p la probabilità dell’esito A, cosicché (1–p) è la probabilità di B. Il valore atteso di ognuna di queste variabili è VA = B ⋅ (1 − p ) + A ⋅ p = B + ( A − B ) ⋅ p . Il valore atteso può essere pensato come la
somma dell’esito peggiore più il “guadagno atteso”, cioè il maggior guadagno (A – B) ottenibile se si verifica l’esito migliore, moltiplicato per la probabilità p che l’esito migliore si
verifichi davvero. Fissi i valori B e A, il valore atteso VA è una funzione lineare della probabilità p. Naturalmente, se avessimo indicato con p la probabilità dell’esito B avremmo concluso che il valore atteso si può pensare come la differenza fra l’esito migliore e la “perdita
attesa”.
Prima dell’ultimo riquadro abbiamo fatto esempi di variabili casuali caratterizzate dal medesimo valore atteso, e dunque da questo punto di vista parrebbero tra loro “uguali”. Tuttavia esse differiscono per un particolare aspetto: in alcune le singole vincite possono essere molto alte, ma anche molto
basse; in altre le due vincite possibili sono invece simili da loro. Da questo punto di vista, cioè, alcune variabili casuali presentano maggiore rischio, altre ne presentano meno. Il rischio può essere
misurato da un altro importante indicatore sintetico utilizzato in statistica, la varianza.
La varianza è il valore atteso di una particolare variabile casuale costruita a partire da quella che
stiamo considerando: si tratta di una variabile i cui singoli valori sono gli scarti quadratici dei valori originali rispetto al loro valore atteso, e le probabilità sono le stesse della variabile originale. Si
tratta cioè di una media di scostamenti dei possibili esiti dal valore centrale.
Consideriamo allora la precedente variabile casuale x a n valori x1 , x 2 , K , x n , le cui probabin
lità sono rispettivamente p1 , p 2 , K, p n . La varianza è allora VAR = ∑ ( xi − VA)2 ⋅ pi .
i =1
Tornando ai precedenti esempi, la variabile “100 con probabilità ½ e zero con probabilità ½” ha varianza par a (100 − 50 )2 ⋅ ½ + (0 − 50 )2 ⋅ ½ = 50 2 ⋅ ½ + (− 50 )2 ⋅ ½ = 2500 ⋅ ½ + 2500 ⋅ ½ = 2500 . Invece la variabile “80 con probabilità ½ e 20 con probabilità ½” ha varianza pari a:
(80 − 50)2 ⋅ ½ + (20 − 50)2 ⋅ ½ = 30 2 ⋅ ½ + (− 30)2 ⋅ ½
= 900 ⋅ ½ + 900 ⋅ ½ = 900 . La variabile “50 con
probabilità 1” ha ovviamente varianza pari a zero. La varianza è una misura del rischio.
Quest’ultimo esempio rinvia ad una nozione che potrebbe essere espressa in modo preciso,
ma che esprimiamo invece in maniera più intuitiva: quando la probabilità di una variabile
casuale si “addensa”, cioè si concentra, verso i valori centrali della variabile stessa, la varianza diminuisce. Nell’esempio precedente ciò avviene perché i valori possibili (cioè gli unici che hanno probabilità positiva) si avvicinano sempre più tra loro, e quindi al proprio van
lore atteso. Considerando la formula più generale della varianza, ∑ ( xi − VA)2 ⋅ pi , tuttavia,
i =1
vediamo che la varianza può diminuire non solo quando a parità di probabilità i valori si avvicinano al valore atteso, e cioè gli scarti quadratici diminuiscono; ma anche quando, a parità dei diversi scarti quadratici, aumenta la probabilità degli scarti inferiori e diminuisce quella degli scarti maggiori. In altre parole, se i valori estremi (le “code”) della variabile casuale
diventano meno probabili la varianza diminuisce.
Se la varianza è un indicatore di rischio o “incertezza”, qualche suo indicatore inverso può
essere un indicatore di certezza: in effetti, per molti tipi standard di variabile casuale è possibile riferirsi all’inverso della varianza, 1/VAR, come la “precisione”, cioè il grado di vicinanza ad una situazione certa.
3
Benché la statistica utilizzi anche altri indicatori per sintetizzare le proprietà delle variabili casuali,
noi ci accontenteremo solo del valore atteso e della varianza, che sintetizzano due proprietà rilevanti
dell’incertezza: quando in media ci si può attendere di ottenere, e quanto rischio è implicato da una
certa variabile casuale.
Arrivati a questo punto, abbiamo già compiuto un buon numero dei passi necessari per arrivare a
rappresentare la scelta sotto incertezza come caso particolare di un problema generale di scelta discusso nella prima lezione: l’insieme di scelta è costituito da varie lotterie alternative, di cui alcune
possono essere “degenerate” (rappresentazione di variabili certe come caso particolare di variabili
casuali); le conseguenze delle diverse scelte sono diverse variabili casuali, caratterizzate da diversi
valore atteso e varianza; i vincoli, ovviamente, dipendono dalla precisa descrizione di ogni diversa
lotteria disponibile, incluso il costo di partecipazione ad ognuna; l’informazione è incorporata nel
fatto che stiamo descrivendo situazioni in cui l’esito delle scelte non è noto, e ne possediamo solo
una descrizione imprecisa sotto la forma di variabile casuale. Ciò che ancora manca è la definizione
dell’ordinamento delle diverse opzioni, cioè lotterie, dal punto di vista del decisore.
La statistica non studia solo variabili singole. Molto più interessanti sono i mondi popolati
da molte variabili contemporaneamente, di cui ci interessano le relazioni reciproche (così
come siamo interessati a relazioni quando tracciamo grafici di funzioni tra variabili deterministiche). Dal punto di vista formale la descrizione è quella già definita in precedenza: se
abbiamo un mondo multi–dimensionale E, composto da molti elementi e ∈ E (“vettori”,
“punti nello spazio a più variabili”, “fatti possibili nel mondo multi–dimensionale ”), la sua
descrizione statistica sarà un distribuzione di probabilità g (e ) , che assegna una probabilità
ad ogni elemento. Se per esempio la distribuzione di probabilità è “uniforme”, cioè ad ogni
elemento è assegnata la medesima probabilità, allora non esiste alcuna relazione privilegiata
fra le diverse variabili: rappresentando, nello spazio multi–dimensionale, i diversi punti possibili con un colore più carico in corrispondenza dei fatti più probabili, osserveremmo una
“nuvola” diffusa uniformemente sull’insieme di definizione.
Se invece alcune configurazioni delle variabili e sono più probabili di altre, osserveremo una
rappresentazione in cui alcune zone sono più cariche di colore di altre. Se poi queste zone o
“nuvole” somigliano a, o si addensano presso, qualche forma riconoscibile (per esempio una
retta o una curva), allora abbiano indizi che le variabili tendono ad avere qualche dipendenza
reciproca, che però è “sporcata” dalla presenza di altri disturbi casuali (“rumore”). Lo studio
dell’esistenza di relazioni, benché non deterministiche, tra variabili che formano un mondo
multi–dimensionale si può chiamare studio della correlazione tra quelle variabili.
Non è questa la sede per perseguire questo tipo di studio. Ci accontentiamo delle seguenti
definizioni intuitive: due variabili si dicono indipendenti se l’eventuale conoscenza di diversi valori assunti da una di esse non ci fa cambiare opinione sulla distribuzione di probabilità
dell’altra. Per esempio, può accadere che per qualsiasi valore di una delle due variabili,
l’altra continui ad essere distribuita in modo uniforme sul suo insieme di definizione (nuvola
uniforme). Due variabili si dicono invece correlate nel caso contrario: per ogni diverso possibile valore di una delle due la distribuzione dell’altra si modifica. Per esempio, potrebbe
darsi che per ogni diverso valore di una delle due l’altra tenda a concentrarsi attorno ad un
punto diverso particolare; se, in aggiunta, i punti attorno a cui la seconda tende ad addensarsi
sono in qualche relazione sistematica con i diversi valori possibili della prima, ecco che osserveremo nuvole concentrate attorno a linee ne riconoscibili (rette o curve). Se queste linee
corrispondono a relazioni crescenti si parla di correlazione positiva; abbiamo correlazione
negativa nel caso opposto. Se poi non solo i valori della seconda variabile si addensano attorno a singoli punti, ma coincidono tutti con un solo valore (un solo valore con probabilità
uno), la correlazione si dice perfetta, e ricadiamo nel caso di relazione deterministica. (NB è
4
la relazione ad essere deterministica, non le due variabili: esse continuano ad assumere valori secondo una certa legge probabilistica, ma i valori di una variabile sono perfettamente correlati a quelli dell’altra).
2. Utilità attesa
Le conseguenze che una lotteria prospetta al decisore hanno duplice valenza. Da una parte esiste il
valore atteso della vincita (o valore atteso monetario): ci si attende che un maggior valore atteso
monetario sia preferibile. Dall’altra parte una lotteria costituisce anche una prospettiva rischiosa, e
da questo punto di vista diversi decisori potrebbero avere diversi atteggiamenti.
Si dice che un soggetto è avverso al rischio se, a parità di valore atteso monetario, preferisce le lotterie caratterizzate da minor varianza; il decisore è invece propenso al rischio nel caso contrario; infine un decisore si dice neutrale nei confronti del rischio se è indifferente fra tutte le lotterie che
hanno uguale valore monetario atteso, indipendentemente dalla varianza.
Non è detto però che un soggetto avverso al rischio scelga necessariamente una lotteria con varianza ridotta: infatti un valore monetario atteso sufficientemente elevato potrebbe indurlo ad affrontare
un maggior rischio. Il problema è allora adottare un ordinamento che tenga conto di entrambe le caratteristiche di ogni lotteria.
La prima cosa da osservare a questo proposito è che una somma monetaria è rilevante per un decisore non in quanto tale, ma in quanto gli dà una certa soddisfazione personale, o utilità. Non tutti,
infatti, assegnano il medesimo valore ad una somma monetaria. Supporremo dunque, in questa lezione, che ogni decisore sia dotato di una funzione di utilità, che misura numericamente quanta utilità egli deriva dalle diverse somme monetarie che potrebbe possedere.
Ciò significa ovviamente che dobbiamo imporre ipotesi sufficientemente restrittive sulle
preferenze di ogni decisore, in modo tale da poter dedurre un “teorema di rappresentazione”, cioè una rappresentazione delle sue preferenze che sia compatibile con l’ordinamento
tipico dei numeri.
La proprietà minimale che è ragionevole ipotizzare per una funzione di utilità è quella di essere crescente: somme monetarie maggiori danno utilità maggiori al decisore. Ciò posto, siamo liberi di
pensare che la funzione di utilità sia, come si dice, concava oppure convessa.
La figura seguente riporta una funzione di utilità concava (a), ed una convessa (b).
Utilità
Utilità
(a)
0
(b)
Somma
monetaria
0
5
Somma
monetaria
In termini intuitivi: una funzione concava ha un grafico tale per cui, presi due punti qualsiasi sul grafico e uniti questi due punti con un segmento, il segmento giace al di sotto della curva. Il contrario accade per una funzione convessa. Per la precisione, in questi casi
parliamo di funzioni strettamente concave o convesse.
Naturalmente, una funzione che sta a metà strada tra i due tipi è necessariamente lineare, cioè il suo
grafico è una retta.
Torniamo ora al problema dell’ordinamento delle lotterie: per semplicità supponiamo di considerare
una lotteria a due soli esiti, basso (B) e alto (A), le cui probabilità sono ½. Consideriamo, esemplificativamente, il caso di un soggetto la cui funzione di utilità sia concava. Il decisore è incerto sui valori monetari che può ottenere, ma ciò che per lui conta sono le utilità di tali valori monetari, che
sono rispettivamente U(B) e U(A).
Utilità
U(A)
UA
U(B)
0
B
A
A
Somme monetarie
A
L’utilità è la grandezza da cui dipende il benessere del decisore. Costui, allora, si trova di fronte ad
una variabile casuale costituita da due possibili livelli di utilità, ciascuno ottenibile con una probabilità pari a quella dei due esiti monetari: nel nostro esempio le due probabilità sono pari a ½. Possiamo allora definire il valore atteso di tale variabile casuale, che naturalmente chiamiamo utilità
attesa. Nell’esempio considerato l’utilità attesa, misurata sullo stesso asse dove stiamo misurando le
utilità, e cioè l’ordinata, si situa a metà strada fra U(B) e U(A): si tratta dunque del livello di utilità
UA= ½U(A) + ½U(B).
La teoria standard della scelta sotto incertezza propone che l’ordinamento delle lotterie sia quello
indotto dalle loro utilità attese, che sono dei numeri: tra due diverse lotterie un decisore preferisce
quella dotata di una maggiore utilità attesa. Questa ipotesi prende il nome di principio dell’utilità
attesa, e in questa sede accettiamo tale principio. Resta il problema di vedere se tale principio è in
grado in qualche modo di catturare anche gli atteggiamenti individuali dei diversi soggetti nei confronti del rischio.
Studiamo allora una situazione semplice, nella quale il problema di scelta di un soggetto sia quello
di partecipare o meno ad una certa lotteria equa: una lotteria si dice equa se il suo costo di partecipazione è uguale alla sua vincita monetaria attesa. In tale problema, dunque, il decisore deve scegliere se tenere in tasca (e godere per certo) una certa somma X, oppure privarsi di quella somma
per ottenere in cambio invece una lotteria la cui vincita monetaria attesa X. Come abbiamo già detto, questa è una scelta fra due lotterie diverse, delle quali la prima è di fatto un evento certo, ed ha
varianza (rischio) pari a zero, mentre la seconda ha varianza positiva. Ci aspettiamo che un avverso
al rischio preferisca non partecipare alla lotteria rischiosa, un propenso al rischio preferisca partecipare, e una neutrale nei confronti del rischio sia indifferente fra le due opzioni.
6
Cominciamo col considerare un soggetto la cui funzione di utilità sia concava. La lotteria ha esiti B
e A, e il valore atteso monetario è X, a metà strada fra i due esiti in quanto supponiamo che le probabilità di questi siano ½. Il costo di partecipazione è X, poiché la lotteria è equa. Se il soggetto che
stiamo considerando decide di partecipare, potrebbe ottenere i due livelli di utilità U(B) oppure
U(A), e dunque l’utilità attesa della lotteria è per lui UA= ½U(A) + ½U(B). Se invece non partecipa
tiene in tasca la somma X, la cui utilità è per lui U(X). Siccome U(X) > UA, questo soggetto decide
di non partecipare alla lotteria, e dunque si configura come avverso al rischio.
Utilità
U(A)
U(X)
UA
U(B)
0
B
X
A
A
Somme monetarie
A
Studiamo invece la scelta di un soggetto la cui funzione di utilità sia convessa. La seguente figura
riporta la sua situazione.
Utilità
U(A)
UA
U(X)
U(B)
0
B
X
A
A
Somme monetarie
A
Con argomenti analoghi a quelli precedentemente svolti, troviamo in questo caso che il decisore
preferisce partecipare alla lotteria, in questo questa gli dà un’utilità attesa maggiore di quanto egli
ottenga se non partecipa: si tratta di un propenso al rischio. Lasciamo a voi di studiare il caso di un
soggetto la cui funzione di utilità è lineare, ottenendo che costui è indifferente fra partecipare e non
partecipare.
Ne segue che una funzione di utilità concava (convessa, lineare) indica avversione (propensione,
indifferenza) nei confronti del rischio.
In termini formali, una funzione U (m ) di dice (strettamente) concava se, per 0 < α < 1 e
per ogni B, A dell’insieme di definizione succede αU (B ) + (1 − α )U ( A) < U [αB + (1 − α )A] .
Chiaramente il termine sul lato sinistro si può interpretare come l’utilità attesa di una lotte7
ria che ha esiti B e A, e assegna probabilità α al caso B; il termine sul lato destro è invece
l’utilità del valore atteso monetario della lotteria. La disuguaglianza ci conferma allora che
una funzione concava equivale ad avversione al rischio. La disuguaglianza è rovesciata nel
caso di stretta convessità (propensione al rischio), e diventa un’uguaglianza in caso di funzione lineare (neutralità nei confronti del rischio).
Si potrebbe sospettare che questo risultato derivi dall’aver confrontato opzioni di cui una sola è una
“vera” lotteria, mentre l’altra è una variabile certa. La figura seguente vi convincerà invece che se
un decisore avverso al rischio affronta il problema di scegliere due “vere” lotterie di uguale vincita
monetaria attesa, preferirà quella che ha minor varianza (che ha esiti più vicini al comune valore
monetario atteso). Le lotterie sono rispettivamente (B1, A1) e (B2, A2), e in entrambe la probabilità
degli esiti è ½; la seconda lotteria ha varianza inferiore. Chiaramente UA2 > UA1, e il decisore preferisce la seconda lotteria: avversione al rischio. Potete esercitarvi anche nel caso di funzione convessa e propensione al rischio.
Utilità
U(A1)
U(A2)
UA2
UA1
U(B2)
U(B1)
O
B1
B2
A2
A1
Somme monetarie
3. Assicurazioni e altro
Assicurazioni. A questo punto, però, non si deve pensare che un soggetto avverso al rischio scelga
sempre, tra diverse lotterie, quella che ha varianza più bassa: ciò è vero solo se le lotterie a disposizione hanno il medesimo valore monetario atteso. Se una lotteria ha un valore monetario atteso sufficientemente elevato (promette in media una vincita elevata) potrebbe darsi che anche un avverso
al rischio la preferisca ad una situazione più rischiosa.
Tornate all’esempio della figura che sta all’inizio di pagina 7, e domandatevi: qual è quella
somma monetaria certa che darebbe al decisore la stessa utilità (attesa) della lotteria? Troverete che per questo decisore avverso al rischio è un valore inferiore a X: si tratta del valore
indicato dal trattino verticale sull’asse, a sinistra di X, che prima non avevamo nominato: potremmo chiamarlo Y. Tale valore si chiama “equivalente certo” della lotteria incerta, nel senso che dà al decisore la medesima utilità attesa; la differenza fra X e l’equivalente certo si
chiama “premio per il rischio”, e misura a quanto valore monetario atteso il decisore è disposto a rinunciare per trovarsi in una situazione certa anziché in quella incerta. Ovviamente, se questo decisore dovesse confrontare la lotteria incerta con un valore certo inferiore a Y
preferirebbe la lotteria, che pure comporta maggior rischio.
8
Una importante implicazione di questo fatto la si trova nel mondo delle assicurazioni. Di per sé
un’assicurazione è un modo tramite cui un soggetto avverso al rischio riesce a ridurre i rischi che
deve affrontare. Immaginiamo un decisore che viva in un ambiente incerto, per cui il suo reddito
può essere basso oppure alto, a seconda per esempio del clima che influenza il raccolto. Prendendo
come riferimento la figura all’inizio di questa pagina, i suoi redditi possibili in seguito alle bizze
climatiche potrebbero essere A1 e B1. Un’assicurazione consiste nel pagamento di un premio, e
nell’ottenimento di un risarcimento nel caso si verifichi la situazione sfavorevole B1: il risarcimento, però, è superiore al premio, cosicché il risarcimento netto dovuto nel caso sfavorevole è positivo.
Una volta siglato il contratto di assicurazione, la posizione del soggetto è tale per cui se capita il caso migliore il suo reddito finale è inferiore a A1, in quanto occorre dedurre da questo reddito il premio pagato; se invece capita il caso peggiore, il suo reddito finale è superiore a B1, in quanto occorre aggiungere a questo reddito il risarcimento netto. Dunque la posizione reddituale dell’assicurato è
una lotteria caratterizzata da redditi A2 e B2: se per semplicità la probabilità del caso sfavorevole è
½, ecco che il nostro soggetto preferisce assicurarsi.
In realtà, come abbiamo detto poco fa, un avverso al rischio è disposto a pagare premi superiori al
risarcimento netto, cioè ad accettare una situazione post−assicurazione che gli assicura un reddito
monetario atteso inferiore a quello goduto senza assicurazione: ciò in nome dal minor rischio che
l’assicurazione stessa gli garantisce. Consideriamo la seguente figura.
Utilità
H
S
M
N
Utilità attesa
senza assicurazione
L
Premio
massimo
0
B R
E
A
Reddito
Se prima di assicurarsi i redditi possibili del decisore sono B e A (probabilità ½), le corrispondenti
utilità sono L e H, e dunque l’utilità attesa è M. Supponiamo che un assicuratore prometta al decisore un risarcimento netto pari a BR nel caso sfavorevole: qualsiasi sia il premio pagato, il risarcimento netto è BR. Qual è il premio massimo che il decisore è disposto a pagare per ottenere il diritto al
risarcimento? Siccome il reddito del caso sfavorevole diventa ora R, la corrispondente utilità è N.
Affinché l’utilità attesa continui a rimanere almeno M (condizione che induce il decisore ad accettare il contratto), occorre che l’utilità alternativa sia almeno S (cosicché la media è almeno M). Ma il
reddito che dà al decisore un’utilità S è E: dunque il decisore è disposto, in caso favorevole, a rinunciare a tutta la parte EA del reddito alto. Ne segue che EA è proprio il premio massimo che costui è
disposto a pagare, e i suoi redditi possibili sono di conseguenza R ed E. Vedete chiaramente che il
contratto assicurativo che il decisore è disposto ad accettare riduce sì la varianza dei suoi redditi
possibili, ma ne riduce anche il valore monetario atteso: l’avverso al rischio “paga” con un po’ di
reddito monetario atteso la possibilità di essere sottoposto a minor rischio.
9
Naturalmente il contratto di assicurazione trasferisce parte del rischio all’assicuratore: costui prima
se ne poteva stare tranquillo in poltrona, ma ora può trovarsi meglio di prima, avendo incassato un
premio e verificandosi il caso favorevole per l’assicurato; ma potrebbe trovarsi anche peggio, dovendo pagare un risarcimento netto positivo, cioè un risarcimento superiore al premio incassato.
Dovreste riuscire a capire che il contratto di assicurazione può avvenire solo se l’assicuratore è in
qualche modo meno avverso al rischio dell’assicurato. Solo così, infatti, il rischio che viene trasferito è “meno importante” per l’assicuratore che per l’assicurato. Quando questo accade, è possibile
trovare contratti assicurativi (cioè coppi premio−risarcimento) tali per cui entrambi i lati stanno meglio di prima , cioè godono di maggiore utilità attesa.
Supponiamo che l’assicuratore sia avverso al rischio, benché lo sia ovviamente meno degli assicurati, e consideriamo ora la sua posizione nei confronti di due assicurati contemporaneamente: cosa significa dire che l’assicuratore preferisce “ripartire”, o diluire, il rischio tra i suoi diversi assicurati
(comportamento analogo a quello di chi acquista molti titoli azionari diversi, oppure di chi non mette tutte le uova nello stesso paniere)?
Supponiamo che entrambi gli assicurati, separatamente, siano sottoposti all’evento sfavorevole con
probabilità ½; il premio pagato da ciascuno è 10 e il risarcimento lordo da pagarsi in caso sfavorevole è 20. L’assicuratore, dunque, dovrebbe mettere in gioco “riserve” per 20, perché il caso peggiore che gli possa capitare è, avendo incassando premi per 20, pagare risarcimenti per 40: supponiamo dunque che la ricchezza iniziale dell’assicuratore sia 20.
I rischi degli assicurati potrebbero avere vari gradi di correlazione tra loro (si veda il box a pagina
4). Per semplicità ipotizziamo tre casi particolari:
• gli eventi dei due assicurati sono perfettamente correlati in modo positivo: l’evento sfavorevole
dell’uno si verifica se e solo se si verifica quello sfavorevole dell’altro. Di conseguenza,
all’assicuratore possono capitare solo due casi: o paga due risarcimenti, e la sua ricchezza finale
(= ricchezza iniziale + premi incassati − risarcimenti pagati) è zero; oppure non paga alcun risarcimento, e la sua ricchezza finale è 40. Quindi la “lotteria” affrontata dall’assicuratore è “zero
con probabilità ½, 20 con probabilità 0, e 40 con probabilità ½” e la ricchezza finale attesa è 20.
• gli eventi dei due assicurati sono indipendenti: qualsiasi evento capiti ad uno dei due (probabilità
½) la probabilità che all’altro capiti uno dei due eventi rimane sempre ½. Dunque all’assicuratore
potrebbero capitare quattro situazioni: non pagare alcun risarcimento e avere una ricchezza finale
di 40 (probabilità ¼); pagare due risarcimenti e avere una ricchezza finale di zero (probabilità
¼); pagare un solo risarcimento a avere una ricchezza finale di 20: ma esistono due di questi casi
(l’unico evento sfavorevole capita all’uno oppure all’altro dei due assicurati), e dunque la probabilità di questo caso è ¼ + ¼ = ½. La lotteria dell’assicuratore è “zero con probabilità ¼, 20 con
probabilità ½, e 40 con probabilità ¼”. Anche in questo caso la ricchezza finale attesa è 20.
• gli eventi dei due assicurati sono perfettamente correlati in modo negativo: l’evento sfavorevole
dell’uno si verifica se e solo se si verifica quello favorevole dell’altro. Di conseguenza
l’assicuratore dovrà sempre pagare un solo risarcimento, e la sua ricchezza finale attesa è in realtà il valore certo 20 (“zero con probabilità 0, 20 con probabilità 1, e 40 con probabilità 0”).
Benché i tre casi diano all’assicuratore la medesima ricchezza finale attesa, la varianza della ricchezza finale è progressivamente più bassa nei tre casi (si veda il box in fondo a pagina 3). Siccome
l’assicuratore è per ipotesi avverso al rischio, il secondo caso è migliore del primo, e il terzo è migliore del secondo. Ecco perché è meglio affrontare rischi indipendenti piuttosto che rischi correlati
positivamente: è come se la posizione di un assicurato “contro−assicurasse” l’assicuratore nei confronti del rischio sopportato per aver assicurato l’altro.
La perfetta correlazione negativa, cioè il caso certo per l’assicuratore, potrebbe apparire alquanto
raro, ma si consideri il seguente argomento. Se noi effettuiamo moltissime estrazioni indipendenti
della medesima variabile casuale, la frequenza degli eventi tende ad essere simile alla loro probabilità (lanciando innumerevoli volte una moneta, il numero dei casi in cui esce testa è metà del numero dei lanci). Questa è la cosiddetta “legge dei grandi numeri”. Lo stesso accade quando aumenta di
10
molto il numero degli assicurati i cui rischi siano indipendenti: il numero di risarcimenti pagati in
rapporto al numero di assicurati diventa pari alla probabilità del caso sfavorevole. Di conseguenza
la somma complessivamente pagata dall’assicuratore per risarcimenti è una variabile praticamente
certa: la varianza è minima, dunque l’assicuratore si potrebbe accontentare di premi bassi per accettare di fare il suo mestiere.
Abbiamo dunque imparato che se certe assicurazioni sono obbligatorie, questo può andare a favore
di tutti quanti: l’assicuratore affronta rischi sempre più indipendenti e in numero sempre maggiore,
cosicché può far pagare premi sempre più bassi (non stiamo ovviamente dicendo che l’assicuratore
faccia davvero così: occorre un po’ di concorrenza fra diversi assicuratori!).
Illegalità e prevenzione [questo racconto è un poco sofisticato, ma istruttivo per gli scienziati
sociali]. Commettere un atto illecito può essere risultato di una scelta: se commettendo un illecito
mi posso arricchire, e se inoltre la probabilità di essere condannato (non solo a restituire il maltolto,
ma anche ad una pena) è inferiore a uno, allora commettere un illecito è una lotteria. Potrei infatti
finire meglio di prima, ma anche peggio (restituzione più pena), con probabilità che dipendono dal
controllo attuato dal sistema giudiziario. Se l’utilità attesa di questa lotteria è maggiore dell’utilità
che ottengo astenendomi dal commettere l’illecito, posso decidere di commetterlo.
Supponiamo che io abbia un reddito iniziale pari a X, e che gli esiti dell’illecito siano misurabili in
modo monetario: potrei ottenere un maggior reddito A ed un possibile minor reddito B, con probabilità pari a ½ per semplicità. Il “minor reddito” significa che oltre a perdere l’arricchimento illecito
io sto peggio, in quanto per esempio la condanna ad una certa detenzione mi impedisce di guadagnare. Considerando le due figure di pagina 7, posso allora dedurre che un avverso al rischio si astiene dal commettere l’illecito, mentre un propenso al rischio lo commette.
Intuitivamente, pene più severe oppure probabilità di condanna maggiori dovrebbero ridurre
l’incentivo a commettere il crimine per chiunque: entrambe dovrebbero infatti ridurre l’utilità attesa
del commettere il crimine. Questo è il problema della prevenzione del crimine: severità della pena e
probabilità di condanna sono i due strumenti a disposizione del sistema giudiziario per la prevenzione. Il problema però va affrontato tenendo conto che sia una maggiore attività di controllo (che
accresce la probabilità di infliggere la pena) sia una maggiore severità della pena (detenzione) sono
costose per la collettività. Se la collettività ha un vincolo di budget, si assiste in genere ad trade−off
tra i due strumenti: se voglio accrescere l’uno devo ridurre l’altro. L’obiettivo dell’autorità, allora, è
cercare di infliggere il massimo svantaggio atteso a chi sta valutando se gli conviene commettere
l’illecito, tenendo però conto del vincolo di bilancio cui gli strumenti di prevenzione sono sottoposti: un problema di scelta piuttosto standard.
Per studiare questo problema consideriamo la seguente figura, dove supponiamo che il potenziale
criminale sia avverso al rischio (il caso di propensione al rischio si affronta in modo analogo).
Utilità
H
G
F
0
B
A
11
Risultato
Il termine “risultato” indica la valutazione monetaria dell’esito del crimine, e può essere alto (A),
con utilità H, se la condanna non è comminata; oppure può essere basso (B), con utilità F, in caso
contrario: la distanza BA misura dunque la severità della pena. Ciò che conta per il potenziale criminale è l’utilità attesa G del commettere il crimine: se p è la probabilità di condanna, allora abbiamo G = pF + (1 − p )H = H − (H − F ) p . A parole, l’utilità attesa è pari all’utilità alta del caso favorevole H, meno il danno atteso del caso sfavorevole (H − F)⋅p: l’utilità attesa G diminuisce sia
quando aumenta p sia quando aumenta (H − F), cioè quando aumenta la severità della pena misurata dalla distanza BA.
Come abbiamo già osservato nel box a cavallo fra pagina 2 e 3, l’utilità attesa è lineare nella probabilità di condanna, fissi A e B, cioè H e F: ogni volta che la probabilità di condanna aumenta
dell’1% l’utilità attesa diminuisce sempre dello stesso ammontare (H − F)⋅1%.
La strategia di ragionamento che utilizziamo è questa: immaginiamo tante situazioni alternative in
cui il potenziale criminale riceve diverse utilità attese dalla prospettiva di commettere il crimine.
L’obiettivo dell’autorità è ridurre il più possibile la sua utilità attesa, per disincentivare il crimine,
compatibilmente con il vincolo di bilancio sulle risorse da destinare all’attività di prevenzione. Il
fatto è che ognuna delle situazioni alternative di data utilità attesa per il potenziale criminale può essere generata da varie combinazioni di severità della pena e probabilità della condanna. Tutte le
combinazioni diverse di severità e probabilità che lasciano inalterata l’utilità attesa del criminale
costituiscono quella che possiamo chiamare una “curva di indifferenza” per il criminale: tale curva
va disegnata in un piano dove gli assi riportano l’ammontare utilizzato dei due strumenti. Ovviamente una curva di indifferenza di questo tipo deve essere decrescente: infatti l’utilità attesa del
criminale può rimanere costante solo se al crescere della probabilità di condanna diminuisce la severità della pena, come desumiamo dalla formula G = H − (H − F ) p . Esistono tante curve di indifferenza, e quelle situate più in alto e più a destra costituiscono prospettive peggiori per il criminale.
Al contempo, anche il vincolo di bilancio dell’autorità va disegnato sul medesimo piano in cui disegniamo le curve di indifferenza del criminale: è una linea decrescente, in quanto se vogliamo aumentare la spesa da sostenere per l’attività di controllo al fine di aumentare p dobbiamo ridurre
quella da destinare alla severità della pena (detenzione). Il problema dell’autorità può allora essere
descritto nel seguente modo: posizionare il criminale sulla più alta curva di indifferenza compatibilmente con il requisito che la combinazione severità/probabilità prescelta stia sulla linea che rappresenta il vincolo di bilancio.
Il nostro obiettivo, ora, è imparare a disegnare le curve di indifferenza del criminale. Consideriamo
la seguente figura.
Utilità
H
F1
F2
F3
0
B3
B2
B1
A
Risultato
Diverse severità della pena corrispondono a diverse posizioni del risultato B: maggiore è la severità
e minore è B. Quando la severità aumenta sempre dello stesso ammontare (B1A = B2B1 = B3B2)
l’utilità F di essere condannati diminuisce di un ammontare sempre maggiore (F1H < F2F1 < F3F2).
12
Questo fatto deriva dalla concavità della funzione di utilità. Dunque al crescere della severità, BA, il
danno del criminale in termini di benessere, H − F, aumenta più che proporzionalmente. Data la
probabilità di condanna p, il danno atteso l’utilità attesa del crimine, (H − F)⋅p, cresce allora più che
proporzionalmente al crescere della severità BA. Ne segue infine che l’utilità attesa del crimine,
G = H − (H − F ) p , decresce sempre più velocemente man mano che la severità della pena aumenta
sempre dello stesso ammontare. Detto in altri termini, per far diminuire sempre dello stesso ammontare l’utilità attesa occorre che gli incrementi della severità siano sempre più piccoli.
Riassumiamo: per far aumentare l’utilità attesa del criminale di un dato ammontare occorre sempre
la stessa diminuzione della probabilità di condanna; per far invece diminuire l’utilità attesa del criminale di un dato ammontare occorrono incrementi sempre più piccoli della severità della pena.
Dunque: al fine di lasciare inalterata l’utilità attesa del criminale avverso al rischio, man mano che
la probabilità di condanna diminuisce dello stesso ammontare occorrono aumenti sempre più piccoli della severità della pena. Riflettete bene su queste parole, e vi accorgere di questo: una curva di
indifferenza di un potenziale criminale avverso al rischio è concava, come nella seguente figura.
Probabilità
Severità
L’opposto accade, ovviamente, nel caso di un potenziale criminale che sia propenso al rischio: le
sue curve di indifferenza fra probabilità e severità sono convesse.
Riportiamo questi risultati nella seguente figura, dove è indicata anche la linea del vincolo di bilancio dell’autorità, per semplicità una retta decrescente. Nella parte (a) si riporta il caso di avversione
al rischio, nella (b) quello di propensione. In entrambe le parti la linea FG rappresenta il vincolo di
bilancio dell’autorità.
Probabilità
Probabilità
(a)
A3
A2
F
(b)
A1
F
EP
P3
P2
P1
EA
0
A
G
A
Severità
13
0
G
A
Severità
In entrambe le parti della figura le curve di indifferenza del potenziale criminale (dell’Avverso e del
Propenso) sono numerate in ordine peggioramento della sua utilità attesa. Risulta allora evidente la
conclusione: nel caso di avversione al rischio la scelta migliore per l’autorità (nella posizione EA) è
rendere minima la probabilità di condanna, enfatizzando invece la severità della pena. Nel caso invece di un criminale propenso al rischio la soluzione migliore (nella posizione EP) è usare un giusto
mix di probabilità e severità. Siccome, come visto prima, chi scegliere di delinquere è in genere
propenso al rischio, è inutile annunciare pene draconiane se la probabilità di condanna è minima.
Altri esempi. L’impostazione qui adottata dei problemi di scelta sotto incertezza può essere estesa
ad altri importanti campi. Indichiamo brevemente alcuni casi rilevanti.
• Acquistare titoli sui mercati finanziari dà luogo a maggiore o minore incertezza in relazione ai
rendimenti annui ed al valore di rimborso a date future prefissate. Si suggerisce agli avversi al rischio di accedere a titoli il cui prezzo di mercato sia poco variabile, nel caso in cui sia necessaria
una improvvisa liquidazione. Si potrebbe anche consigliare a costoro di comprare un mix di titoli
i cui prezzi di mercato siano poco correlati tra loro, anziché un solo titolo o pochi titoli molto correlati tra loro. Il problema è che in momenti particolari di boom o crollo, guarda caso proprio
quando è importante decidere se “entrare” o “uscire” dalla borsa con parti rilevanti della propria
ricchezza, vi è una certa tendenza di tutti i titoli ad avere andamenti correlati.
• Ovviamente anche il problema della salute va affrontato in termini assicurativi: la cosa difficile
può essere convincere chi crede di non avere problemi (giovani, sani) che prima o poi il problema
si potrebbe porre. Solo aumentando il numero di assicurati (non tutti in pessime condizioni) la varianza dei risarcimenti (prestazioni sanitarie) si riduce.
• Anche la disoccupazione costituisce un rischio per il reddito dei lavoratori. Si può inventare un
fondo disoccupazione. Un’alternativa è un “contratto implicito” tra lavoratori e datore di lavoro: i
lavoratori si accontentano di un salario medio e stabile, cioè di un salario più basso di quanto il
datore di lavoro potrebbe essere disposto a pagare quando le cose gli vanno bene, in cambio di
una promessa di non licenziamento quando le cose vanno peggio. Attenti però: assicurare tutti i
dipendenti presso il solo loro datore di lavoro aumenta di molto il rischio, perché quando fallisce
quella singola impresa tutti i lavoratori sono nei guai. Molto meglio sarebbe (in termini di diversificazione) avere un fondo cui contribuiscono lavoratori di molte imprese o meglio di settori
produttivi diversi.
• La tassazione progressiva può essere pensata come un’assicurazione contro la variabilità del
reddito personale o familiare. La condizione, però, è che esista mobilità sociale, cioè rischio di
variabilità dei propri redditi: questa è, tra le altre cose, una delle proprietà che una società liberale
dovrebbe avere secondo i classici. se ciò accade, la richiesta di maggiori prelievi quando si è ricchi, in cambio di una promessa di trasferimenti di reddito quando si è poveri, costituisce una prospettiva di riduzione del rischio. Il fatto che esistano così tante obiezioni alla tassazione progressiva da parte di chi si sente sempre “tartassato” è ovviamente un indice che nelle nostre società,
quando pure chiamano se stesse liberali o liberiste, esiste poca mobilità.
4. Obiezioni e prime risposte
Sino ad ora, in questa lezione, abbiamo ipotizzato che l’incertezza di un decisore assuma una forma
ben precisa: quella di una distribuzione di probabilità su certe variabili esterne che possono influenzare le conseguenze delle scelte. Non solo: negli esempi considerati sinora, i soggetti coinvolti nel
problema di scelta (nel caso fossero più di uno, come nei problemi di assicurazione) sembravano
14
condividere la medesima visione statistica del mondo, cioè la stessa distribuzione sugli eventi rilevanti. In ogni caso, l’incertezza riguardava fenomeni “oggettivi”, riconoscibili da tutti.
In alcuni casi queste ipotesi sono ragionevoli, ma in molti casi non lo sembrano. Di fronte al problema di decidere se acquistare o vendere una certa azione in borsa, e quindi avere un’opinione circa il suo prezzo futuro per valutare il guadagno che si potrà ottenere, non è detto che esista un modello condiviso da tutti. Anzi: è del tutto ovvio che in generale, se avviene una transazione fra due
speculatori, chi vende è convinto che il prezzo del titolo diminuirà, mentre chi compra è convinto
esattamente del contrario: se così non fosse i due non procederebbero a quello scambio!
La cosiddetta “analisi tecnica” dei mercati finanziari si propone di studiare, tramite modelli
statistici anche molto sofisticati (che ovviamente non devono essere svelati alla concorrenza, e quindi sono difficilmente controllabili), la relazione che sussiste fra i prezzi di certi titoli, o di vettori (liste) di titoli, ad una certa data e quegli stessi prezzi a date successive.
Questi metodi di “autoregressione vettoriale” (o VAR, secondo l’acronimo inglese) dovrebbero consentire di prevedere in modo attendibile l’andamento dei prezzi dei titoli, onde effettuare acquisti e vendite profittevoli. Ora, immaginate che tutti gli analisti al servizio
degli intermediari finanziari abbiano davvero il medesimo modello, e dunque suggeriscano
le stesse operazioni. Ne seguirebbe ciò che abbiamo detto prima, che cioè non si potrebbero osservare transazioni, perché tutti vorrebbero fare le medesime transazioni su ogni dato
titolo. Se, invece che tutti, ad avere modelli tra loro uguali fossero solo una parte maggioritaria degli analisti, le transazioni avverrebbero; ma siccome ci sarebbe un eccesso di domanda o di offerta per ogni dato titolo, il corrispondente prezzo aumenterebbe o diminuirebbe: guarda caso, aumenterebbe (diminuirebbe) proprio il prezzo di quei titoli che gli analisti avevano suggerito di comprare (vendere), ovviamente perché avevano previsto che
il prezzo sarebbe aumentato (diminuito). Gli analisti avevano il modello “giusto”? Torneremo ancora su questo punto cruciale in lezioni successive, ma ciò che possiamo onestamente concludere a questo punto è che, semplicemente, avevano il modello condiviso dalla
maggioranza. Naturalmente un modello condiviso dalla maggioranza, relativo alle operazioni speculative, prima o poi comincia a destare sospetti ai suoi stessi detentori (una bolla
non può continuare in eterno). Per tale ragione qualcuno prima o poi cercherà di proporre
ai suoi datori di lavoro un modello “innovativo” o “più sofisticato” (sempre da non svelare
alla concorrenza); e magari le cose cominceranno a cambiare.
Se la fase durante la quale i modelli “funzionano” perdura per qualche tempo, i previsori
guadagneranno grande reputazione. Nel periodo fra il 1996 e il 2000, mentre tutte le borse
continuavano a salire, molti econometrici (utilizzatori di modelli statistici per la stima e la
previsione degli andamenti economici), e anche molti fisici dotati di modelli ancora più sofisticati e inizialmente non usuali tra gli econometrici, guadagnavano un sacco di soldi. A
partire dalla metà del 2001, invece, i valori di borsa si sono sgonfiati e la domanda di analisti da parte degli intermediari finanziari pare diminuita alquanto.
Qualcuno, a partire dalle precedenti osservazioni, suggerisce che convenga distinguere tra due tipi
di situazioni: quelle di rischio e quelle di incertezza. Le prime riguardano i casi in cui le distribuzioni di probabilità sulle variabili esterne non creano problemi di ambiguità e sono condivisibili da
tutti (tipo: la roulette non truccata); le seconde riguardano invece tutti gli altri casi, molto comuni in
economia, in cui non esiste una base fattuale ferma su cui fondare un’opinione probabilistica condivisibile da tutti. Per tale ragione la descrizione dei problemi di scelta “sotto incertezza”, così come li
abbiamo rappresentati nelle pagine precedenti, può suscitare alcuni sospetti: siamo sicuri che i decisori compiano le proprie scelte sulla base del modello descritto, cioè come se la descrizione delle
propria situazione fosse esente dai problemi della “vera incertezza”?
Per essere onesti, occorre dire che la statistica non presume che necessariamente i modelli detenuti
dai decisori abbiano caratteristiche di “oggettività”. La statistica di tradizione “soggettivista” o “ba15
yesiana” ritiene che gli unici requisiti di un modello statistico siano quelli della correttezza formale
del modello: per il resto il modello probabilistico può essere del tutto personale.
Peraltro, nella tradizione stessa dei modelli bayesiani è incorporata l’idea che i soggetti possano apprendere dall’esperienza: a partire da un’opinione a priori sulle relazioni fra un certo insieme di variabili, ogni segnale relativo al valore assunto da una delle variabili può darmi qualche informazione
a posteriori sul comportamento di altre variabili. Quindi, se osservo qualche segnale su alcune delle
variabili esterne, posso precisare la mia opinione sulle altre variabili.
Come abbiamo detto nel riquadro a pagina 4, ogni distribuzione di probabilità g (e ) su un
vettore di variabili e rappresenta, in modo implicito, qualche forma di correlazione fra le diverse variabili del vettore e. Supponiamo che le variabili rilevanti siano solo due, e1 ed e2,
per cui g (e ) = g (e1 , e2 ) . Allora è possibile dedurre da g (e1 , e2 ) una distribuzione di probabilità su e1 “condizionata” da ogni possibile valore assegnato di e2 (e viceversa): questa distribuzione condizionata mi dice quale è la probabilità dei diversi valori di e1 nel caso in cui
e2 assuma un determinato valore. Ipotizzando di aver già potuto osservare quel valore di e2,
si dice che le probabilità condizionate di e1 sono probabilità a posteriori. Ovviamente, però,
tali probabilità dipendono dalla correlazione già incorporata nel modello a priori g (e1 , e2 ) .
Il modo di calcolare tali probabilità condizionate è descritto dalla cosiddetta “formula di Bayes”, sulla quale non conviene insistere in questo momento.
Supponiamo, però, che il modello soggettivo verta anche su una terza variabile c, che è un
parametro (ignoto) che misura la correlazione tra e1 ed e2. Supponiamo inoltre che il modello g (e1 , e2 , c ) faccia qualche ipotesi su come si comportano varie “estrazioni” successive
delle coppie (e1 , e2 ) data lo loro correlazione (per esempio, le estrazioni sono indipendenti
le une dalle altre). Allora l’osservazione di più valori successivi di e1 e e2 mi può dare sempre più informazioni sulla distribuzione della terza variabile c, la correlazione (ignota) fra e1
ed e2. Anche questa aggiunta di informazione può essere rappresentata per mezzo di qualche
versione della formula di Bayes. In questo senso la struttura dei modelli bayesiani dà luogo a
possibili processi di apprendimento.
Si deve però tenere a mente che l’aggiunta di informazioni sulla correlazione c è vincolata
dal modello a priori g (e1 , e2 , c ) : le distribuzioni condizionate su c dipendono in modo preciso dall’idea che si ha a priori sul comportamento congiunto di (e1 , e2 , c ) . Se, per esempio, io
sono convinto a priori che la relazione fra e1 ed e2 sia una relazione lineare senza intercetta
con coefficiente angolare c (ignoto), allora ogni successiva osservazione di coppie (e1 , e2 )
potrà modificare la mia opinione sul coefficiente angolare c, ma non la mia ipotesi iniziale
di linearità.
Facciamo un semplice esempio di apprendimento. Supponiamo di essere convinti che una certa variabile x si manifesti variabile nel tempo solo a causa di un “disturbo casuale” imprevedibile (“rumore bianco” = white noise). Dunque l’idea che ho di quella variabile è che, in assenza di disturbo,
essa assumerebbe un valore costante x * che non conosco. L’unico modo di stimare x * è osservare
tante realizzazioni della variabile in esperimenti successivi, e calcolare la media aritmetica x di
quei valori, in modo tale che alla lunga arriverò a stimare correttamente x * : si tratta di una implicazione della cosiddetta “legge dei grandi numeri” (calcolo la media aritmetica perché penso che ogni
esperimento abbia la stessa “importanza” degli altri). Un esempio specifico è dato da una eventuale
mia incertezza circa il fatto che una moneta sia truccata in modo da dare probabilità p alla faccia
“croce”: non conoscendo p posso stimarla misurando, dopo ogni sequenza di lanci, la proporzione
di “croce” rispetto al numero totale dei lanci effettuati. Bene, non è difficile capire che ogni nuovo
esperimento mi dà nuove informazioni sulla mia stima x del valore x * , e che la nuova stima sarà
in qualche modo una via di mezzo fra la precedente stima e la nuova osservazione.
16
In seguito a n esperimenti indipendenti, ciascuno dei quali dà risultato xi, la media aritmetica
1 n
è data da x n = ∑ xi . Ora, immaginiamo di aver preventivamente osservato n−1 risultati di
n i =1
esperimenti, e di passare ad un successivo esperimento. La media aritmetica dopo
1 n
1 n−1
1
n −1
1
l’ennesimo lancio si può scrivere come x n = ∑ xi = ∑ xi + x n =
x n−1 + x n .
n i =1
n 1
n
n
n
n
L’ultimo passaggio deriva dalla definizione generale x n ⋅ n = ∑ xi applicata al caso (n−1).
i =1
Osserviamo dunque che la nuova media aritmetica x n , cioè la nuova stima del vero valore
x*, è una media ponderata fra la precedente stima x n −1 e la nuova osservazione xn: i pesi
n −1 1
dei due termini di questa media ponderata sono, rispettivamente,
e . Al crescere del
n
n
numero di osservazioni, cioè, l’importanza dell’ultima osservazione è sempre più piccola.
Ne segue che man mano che si accumulano osservazioni io modificherò sempre di meno la
mia opinione precedente sul vero valore x*, data da x n −1 .
Come si è appena visto nel riquadro precedente, l’apprendimento circa il valore di qualche variabile
sulla quale si è incerti procede nel tempo (disponendo di sempre nuove osservazioni), in modo tale
che la nuova opinione si discosta sempre meno dell’opinione precedente. Alla lunga, si potrebbe
supporre tuttavia che l’apprendimento arrivi a compimento, cioè che si imparino le vere caratteristiche della variabile su cui si è incerti.
Bisogna però ricordare che l’apprendimento, in generale, non parte da una tabula rasa: in molti casi
il modello a priori è espresso nella forma di qualche opinione probabilistica sulle caratteristiche
(media o varianza) di una variabile casuale su cui si è incerti. Ciò significa che il modello a priori
può essere visto come una distribuzione di probabilità soggettiva su qualche distribuzione di probabilità alla quale si è interessati. Per esempio, essere incerti su un parametro della distribuzione di
una variabile casuale si può esprimere con una distribuzione di probabilità soggettiva su quel parametro. Se la distribuzione di probabilità soggettiva a priori su quel parametro ha una varianza molto
bassa (cioè abbiamo un’opinione piuttosto ben definita su quel parametro), ci aspettiamo che eventuali nuovi segnali relativi al parametro faranno modificare di poco la nostra opinione precedente.
Di conseguenza, il “rallentamento” del processo di apprendimento può verificarsi anche molto prima di aver accumulato tante osservazioni: il rallentamento si può verificare in fretta, se la nostra opinione iniziale era già molto “precisa”.
Il concetto di “precisione statistica” si riferisce appunto alla maggiore o minore varianza della distribuzione soggettiva circa alcuni parametri di una certa distribuzione di probabilità. La
precisione, in generale, è inversamente legata alla varianza della distribuzione soggettiva.
Torniamo all’esempio della stima di un singolo valore x*, che riteniamo stabile nel tempo a
meno di “rumori bianchi” che danno luogo a diverse realizzazioni della variabile casuale x.
Potrebbe darsi che la nostra opinione iniziale non sia tabula rasa, ma includa qualche idea
sul valore x*, idea più o meno “precisa”. Bene: si può mostrare che in generale, ad ogni
nuova osservazione di una realizzazione di x, la stima a posteriori di x* differisce dalla sua
stima a priori in misura che non dipende solo (in modo decrescente) dal numero di realizzazioni già osservate, ma anche (ancora in modo decrescente) dalla precisione della stima a
priori. Inoltre le precisione della stima cresce monotonicamente al crescere del numero di
osservazioni. Ne segue che un’ulteriore ragione per il “rallentamento” del processo di apprendimento è l’aumento progressivo della precisione dell’opinione soggettiva.
17
Gli statistici sono in grado di dimostrare che, nonostante opinioni iniziali molto convinte (precise),
il processo di apprendimento “converge da qualche parte” se si suppone che le osservazioni che si
possono effettuare si localizzino in qualche insieme opportunamente limitato, e che le osservazioni
disponibili si distribuiscano in quell’insieme in modo sufficientemente “diffuso” (questa proprietà e
chiamata “ergodicità”). Per ottenere tale convergenza occorre un numero n molto elevato di osservazioni: si parla infatti di “convergenza asintotica”, cioè per n che tende ad infinito. Non solo: se
l’opinione iniziale non esclude il (cioè non assegna probabilità zero al) valore vero che si cerca di
stimare, allora asintoticamente il processo di apprendimento converge alla verità.
Per fare un esempio: io potrei credere che la probabilità di “croce” nel lancio di una certa moneta
(non truccata, ma non lo so) sia prossima a uno. Se tuttavia la mia opinione iniziale non esclude la
remota possibilità che tale probabilità sia un numero minore di uno, anche se io assegno inizialmente una bassa probabilità a questi altri casi, all’infinito mi convincerò che la probabilità è ½.
Ciò significa che l’apprendimento bayesiano porta davvero, alla lunga, alla conoscenza del “vero”?
Questa è una domanda cruciale, che affronteremo meglio in successive lezioni. Per ora basti considerare il seguente contro−esempio.
Poniamo che la variabile x ad ogni data t assuma il seguente valore: xt = 3,9 ⋅ xt −1 ⋅ (1 − xt −1 ) .
In altri termini, il valore ad una data dipende in modo deterministico dal suo valore alla data
precedente. Io invece credo che la variabile assuma un valore casuale (indotto da un rumore
bianco) in qualche zona dell’intervallo [0,1]. Dunque, osservo tutte le realizzazioni e ne faccio la media aritmetica per stimare il valore “vero” indipendentemente dal disturbo casuale.
Per chi non conoscesse l’equazione sopra definita, si consiglia di provarla per esempio tramite un foglio Excel, e poi di fare il grafico dei valori ottenuti per iterazione. Si sappia che
questo è l’esempio di un’equazione “caotica”, tale per cui il valore della variabile sembra talora indistinguibile da una variabile uniformemente distribuito tra zero e uno.
Qui di seguito è riportato tale grafico, calcolato per le prime duecento iterazioni a partire da
un valore iniziale casuale.
1
0,5
0
0
20
40
60
80
100
120
140
160
180
200
Calcolando la media aritmetica delle prime 200 realizzazioni in questo caso si ottiene 0,52.
Dunque concludo che il vero valore di x è prossimo a 0,5 a meno di un disturbo casuale imprevedibile. Ho appreso il vero comportamento della variabile?
Qualcuno potrebbe, giustamente, obiettare che un bravo statistico non solo deve calcolare le
medie aritmetiche, ma anche preoccuparsi di studiare se esista “auto−correlazione”, cioè dipendenza nel tempo, fra le osservazioni alle diverse date: così facendo, per esempio tramite
un grafico che riporta x+1 in funzione di xt, ci si accorge subito del trucco. La risposta a que18
sta obiezione è che il vero problema è la complessità relativa del modello adottato rispetto al
comportamento effettivo delle variabili oggetto di incertezza: bisogna scommettere che il
proprio modello sia della stessa famiglia del modello “vero”. In caso contrario ciò che “apprendo” è determinato in gran parte da ciò che credo in origine.
Occorre poi sottolineare un punto di importanza non secondaria. Usualmente per apprendere occorre sostenere dei costi: raccolta dei dati, loro immissione ordinata in un modello, stima del modello,
confronto con ipotesi alternative, eccetera. Potrebbe darsi che i costi da sostenere siano troppo elevati rispetto al guadagno che, sulla base della mia attuale opinione, io potrei ottenere. Allora mi
conviene interrompere l’apprendimento, e dunque accettare il modello attuale anche se penso che
esso potrebbe essere migliorato marginalmente, ma il beneficio marginale sarebbe superiore al costo marginale.
Per quanto riguarda infine la contrapposizione, giustamente proposta da alcuni, fra rischio e incertezza, per il momento non affrontiamo il problema e rinviamo a successive lezioni. Un suggerimento che potremmo per ora tenere a mente è però il seguente. Capita di essere incerti circa qualcosa
quando si verificano due tipi di circostanze radicalmente diversi tra loro: quando quel qualcosa dipende da fattori esogeni, “fisici” e non perfettamente noti (la massa di un asteroide) o troppo complicati per essere descritti in modo deterministico (il lancio di una moneta); oppure quando quel
qualcosa dipende dalle scelte presenti e future di qualche altro decisore come noi (il valore futuro
dei titoli in borsa, la produzione complessiva di beni nel sistema). Naturalmente, nessuno (tanto
meno la statistica bayesiana) ci vieta di rappresentare il secondo tipo di circostanze come il primo,
cioè come se si trattasse di fenomeno esogeno. Se però includiamo nella descrizione del secondo tipo di circostanze il fatto che anche gli altri decisori sono intelligenti e riflettono essi stessi sugli effetti delle altrui scelte, il problema potrebbe complicarsi assai, e potremmo temere che da un momento all’altro tutti quanti (o almeno molti) potrebbero cambiare idea. Alcuni direbbero, forse a ragione, che questa è “vera” incertezza.
Per l’approfondimento
I. Lavanda e G. Rampa, Microeconomia. Scelte individuali e benessere sociale, Roma, Carocci,
2004 (cap. 3)
A. Montesano, “La nozione di razionalità in economia”, di prossima pubblicazione in Rivista Italiana di Economia, 2005 (parte 2)
L. Guiso, D. Terlizzese, Economia dell’incertezza e dell’informazione: scelte individuali, mercati,
contratti, Milano, Hoepli, 1994
F. Knight, Risk, Uncertainty and Profit, Boston, 1921 (trad. it. La Nuova Italia Firenze 1957)
B. De Finetti, Un matematico e l’economia, Milano, Angeli, 1969
19