OSSERVANZA DELLE NORME E REPUTAZIONE
1. Effetti di reputazione esplicitamente modellati
 Si introduce una peculiare forma di incertezza sul comportamento dei giocatori.
- i giocatori o alcuni di loro, risultano incerti sul tipo dell’avversario.
- il giocatore di un dato tipo segue una determinata regola di condotta che si
identifica con una strategia del gioco ripetuto, la quale detta quale azione usare nei
singoli giochi componenti.
- i tipi possono essere visti come impegni (commitment) alternativi: un giocatore
può essere visto come impegnato a seguire ciascuna delle strategie,
indipendentemente da un ragionamento strategico sul gioco.
 l’incertezza riguarda lo stato di informazione di un giocatore a proposito dell'altro ad esempio del giocatore 1 sul giocatore 2
- il giocatore 1 crede che il giocatore 2 con probabilità p possa essere un tipo
idiosincratico, che segue una regola predeterminata, non strategicamente e in
modo stereotipato,
- perciò il giocatore 1 massimizza il payoff atteso, data la distribuzione di
probabilità sulle azioni dell’avversario indotta dalla probabilità dei tipi.
- In realtà 2 è strategicamente razionale
- Ma allora il comportamento razionale di 2 non può non tener conto
dell’incertezza di 1.
- 2 sceglierà il suo comportamento in modo da avvalorare le credenze di 1, date le
quali l'avversario sceglie azioni che danno i payoff più elevati al giocatore 2.
2. Il gioco della fiducia
 un giocatore costante (in tutte le ripetizioni) gioca contro una successione infinita
di giocatori monoperiodali, ciascuno dei quali partecipa a turno ad una delle
ripetizioni del gioco componente. Cfr Fudenberg e Levine (1989, 1992).
Interpretazione:
- l'impresa, interagisce a turno con un singolo lavoratore o un singolo consumatore,
- un ospedale o un'istituzione universitaria interagisce a turno con un singolo malato
o studente alla volta,
- tali interazioni si ripetono con una successione infinita di lavoratori o
consumatori, malati o studenti ogni volta diversi dal precedente.
2
 Gioco componente: trust game
- il giocatore monoperiodale deve per primo decidere se entrare o non entrare (e
oppure non-e) in relazione con il giocatore costante
- poi il giocatore costante deve decidere se abusare o non abusare di lui (a oppure
non-a),
- assumiamo che i due giocatori apprendano l'esito del gioco con i relativi payoff
simultaneamente, al termine delle mosse di entrambi,
- la forma normale del gioco (fig. 2.1) è equivalente alla forma estensiva (fig. 2.2).
- Nel gioco componente la coppia di azioni (non-e, a) è l'unico equilibrio di Nash,
ed è subottimale dal momento che l'esito (0,0) è paretianamente dominato da (2,2).
3
2
a
non-a
1
-1. 3
2, 2
0, 0
0, 0
e
non-e
(fig.2.1)
(-1, 3)
a
giocatore 2
e
non-a
giocatore 1
(2,2)
non-e
(0,0)
4
(fig.2.2)
3. Il gioco ripetuto tra un giocatore costante e infiniti giocatori monoperiodali
 Le strategie del giocatore costante (di lungo periodo)
- ht è una storia del gioco ripetuto: è una possibile successione di mosse dei
giocatori fino alla ripetizione t
- Con Ht definiamo l'insieme di tutte le possibili storie del gioco fino alla ripetizione
t.
- Una strategia del giocatore costante è definita come una funzione che per
ciascuna storia htHt stabilisce quale azione del gioco componente il giocatore
costante impiegherà in ciascuna delle ripetizioni che restano da giocare a partire
dall'iterazione t+1 in poi, per qualsiasi valore di t (da 1 a infinito).
si: f(Ht)Ai t+1
t
 strategia del giocatore monoperiodale:
una funzione che, per le storie del gioco possibili fino alla ripetizione precedente quella
alla quale egli partecipa, stabilisce l'azione che egli sceglierà nel gioco componente
corrente.
s t+1: f(Ht)A t+1
5
 Le funzioni di payoff.
-
Ciascun giocatore monoperiodale, è interessato soltanto all'esito del gioco
corrente al quale egli partecipa.
 è miope: cerca di prevedere semplicemente l'azione che il giocatore costante
sceglierà nel gioco corrente al quale egli partecipa
- Il giocatore costante al contrario ha una funzione di payoff che è costruita come la
sommatoria infinita dei payoff che egli riceve da ciascun gioco componente,
 tu(a(t))
- Vi è un tasso di sconto pari a 1 alla prima iterazione,  (tra 0 e 1) alla seconda
iterazione, 2 alla terza, 3 alla quarta, 4 alla quinta e così via.
- Il tasso di sconto esprime il suo livello di "impazienza".
- a meno che la sua impazienza sia tale da fargli valutare positivamente solo i payoff
ricevuti dalle ripetizioni più prossime, è lungimirante
 egli sceglie una strategia del gioco ripetuto guardando agli effetti che tale strategia
indurrà sul comportamento miope del giocatori monoperiodali nella prosecuzione del
gioco.
6
 Il tipi possibili
- tutti i giocatori monoperiodali ritengono possibile più di un tipo del giocatore
costante,
- A fini espositivi limitiamo a tre i tipi possibili del giocatore costante:
o 1, il tipo che non abusa: la strategia di 1 è usare sempre non-a
indipendentemente dalle storie del gioco;
o 2, il tipo razionale nel gioco componente: la strategia di 2 è usare
sempre la strategia dominante del gioco componente
o 3, il tipo imprevedibile: 3 usa una strategia mista che con probabilità
0.75 seleziona la strategia dominante in ciascun gioco componente, ma
che con probabilità 0.25 seleziona la strategia non-a in ciascun gioco
componente.
- il tipo 3 è un esemplare di un ampia famiglia di tipi le cui strategie usano qualche
combinazione probabilistica delle due azioni nel corso del gioco ripetuto,
- In un'analisi più generale è ragionevole ammettere che i giocatori monoperiodali
ritengano possibili un maggior numero di tipi di questo genere,
- più tipi misti implicano altri equilibri
7

Le credenze iniziali
- assegnazione di probabilità a priori soggettive ai tipi.
- la probabilità a priori di 1 sia q° (piccola a piacere )
- i tipi residui si spartiscono la restante massa di probabilità 1- q°.
 La regola di aggiornamento.
-
dopo ogni esito osservato del gioco monoperiodale, i giocatori monoperiodali
calcolano la probabilità condizionata di ciascun tipo secondo la regola di Bayes.,
- dopo una storia ht in cui si sono osservate solo azioni non-a, e data l'osservazione
non-a nella ripetizione più recente, la probabilità condizionata del tipo 1 sarà
prob(non-a|1,ht) q(1|ht)
q(1|non-a,ht) = 
p(non-a|ht)
ove
p(non-a|ht) = prob(non-a|1, ht)  q(1| ht) + prob(non-a|2,ht)  q(2| ht)
+prob(non-a|3, ht)q(3| ht)
8
Esempio
- la probabilità del primo tipo dopo la storia ht sia
q(1| ht) = 0.1
- le probabilità, alla luce della storia trascorsa, degli altri due tipi siano 0.45 e 0.45
(in effetti se la storia ht include solo osservazioni non-a, il tipo 2, che non usa mai
non-a, dovrebbe avere probabilità zero.Possiamo ragionare come se t = 0 oppure come
se il tipo 2 fosse più sofisticato di quello considerato e prevedesse di confondere le
idee dei giocatori monoperiodali adottando l'azione non-a nelle prime t ripetizioni, e
cominciasse ad usare l'azione dominante da t+1 in avanti).
-
Le funzioni di verosimiglianza dell'evidenza per vari tipi
prob(non-a|1, ht) =1
(il tipo 1 deve sempre usare non-a
prob(non-a|2, ht ) = 0
(il tipo 2 non usa mai non-a),
prob(non-a |3, ht) = 0.25 (questa è la probabilità secondo la quale il tipo 3 usa
non-a),
 le probabilità iniziali siano come detto
9
q(1| ht) = 0.1
q(2| ht) = q(3| ht) =0.45
 le probabilità ex post saranno allora
o la probabilità condizionata del tipo 1 sarà
q(1|non-a, ht) = 0.1/0.2125 = 0.47.
o la probabilità condizionata degli altri due tipi sarà
q(2|non-a, ht) = 0 (infatti l'osservazione non-a falsifica l'ipotesi che il
giocatore 1 sia del tipo 2)
q(3|non-a, ht) = 0.52.
10

La reputazione del giocatore costante
-
è la distribuzione di probabilità sui suoi tipi possibili, cioè il giocatore costante ha
la reputazione di essere
il tipo 1 con probabilità q1,
il tipo 2 con probabilità q2 = x(1-q1)
il tipo 3 con probabilità q3 =1-x(1-q1),
per 1  x  0.
-
la reputazione di essere il tipo 1 si annulla se i giocatori monoperiodali osservano
una sola occasione in cui il giocatore costante impiega l'azione a.
-
la reputazione di essere il tipo 2 si annulla se i giocatori monoperiodali osservano
una sola volta non-a.
-
Ma la reputazione degli altri tipi, ad esempio 3, è compatibile con l'osservazione
sia di a che non-a.
(NB: E' la presenza di questi alti tipi che dà al modello la forma di un processo di
aggiornamento continuo delle probabilità e della reputazione).
11

La scelte razionale dei giocatori monoperiodali.
-Calcolano l'utilità attesa di scegliere e oppure non-e nel gioco componente alla luce
delle probabilità degli esiti derivate dalle probabilità condizionate assegnate ai vari
tipi.
- dopo l’osservazione di non-a, il giocatore monoperiodale che partecipa alla
ripetizione t+1 sceglierà e se
Prob composta di non a
EU t+1 (e) = U t+1 (e, non-a) [q(1|non-a, ht)+ 0.25 q(3|non-a, ht) ] *
+ Ut+1(e, a) [ q(2|non-a, ht) + 0.75 q(3|non-a, ht) ] > 0
- Data l'ulteriore evidenza non-a la scelta ottima del giocatore monoperiodale diviene
e, poiché
2  (0.47 + 0.25  0.52) - 1  (0.75  0.52) 0.
- Ciò che conta è la probabilità composta p dell'azione non-a derivabile dalla
probabilità dei tipi che usano non-a.
- Quando la probabilità p eccede un livello critico p*, la scelta ottima del giocatore
monoperiodale è la strategia che caratterizza il tipo 1
12
- Se
p(non-a) = 0.47 + (0.25  0.52), allora pp*
la risposta ottima del giocatore monoperiodale nel gioco corrente è e .
 La scelta razionale del giocatore costante.
- se sceglie una strategia identica a quella che caratterizza un tipo, egli
simula il tipo e i giocatori monoperiodali giungeranno a credere che egli
sia proprio il tipo in questione.
Può giocare una strategia finalizzata a generare una determinata
distribuzione di probabilità sui suoi tipi, cioè ottenere una certa reputazione.
 Il risultato.
- se il giocatore costante non è troppo impaziente allora esiste un percorso
d'equilibrio del gioco ripetuto nel quale la strategia del giocatore è tale che
egli può ottenere quasi in ogni gioco componente il payoff che otterrebbe
qualora egli potesse effettivamente assumere un impegno vincolante a
utilizzare l'azione non-a,
 il giocatore costante può ottenere quasi in tutte le ripetizioni del gioco
il payoff di Stackelberg.
13
 Per spiegare:
-
Gioco di Stackelberg: un leader può annunciare un impegno irremovibile
su una data strategia, cioè annunciare per primo la strategia prescelta, e alla
controparte (il follower) non resta che scegliere la risposta ottima
all'impegno irremovibile annunciato dal leader
-
Il leader sceglie in modo ottimo il suo impegno irremovibile:
- per ciascuna risposta ottima del follower a possibili impegni del leader, si
prende, se ne esiste più d'uno, l'impegno con utilità maggiore per il leader
- quindi, tra tutti gli impegni che soddisfano questa proprietà, si sceglie
quello che in assoluto massimizza l'utilità del leader
Max Max uL(a|b)
aA*, aA
ove a è un impegno, b è una risposta ottima del follower all’impegno, A* è
l’insieme degli impegni ottimi di F
14
 Esempio: se il gioco in forma normale fosse un gioco di Stackelberg
-
il giocatore costante potrebbe annunciare irrevocabilmente che egli userà
una delle due strategie pure, a oppure non-a, oppure al strategia mista
(0.25 non-a; 0.75°),
(limitiamo l’analisi ai tipi cioè alla strategie pure e alla strategia mista non
di equilibrio: ma che impegno è questo? )
-
Contro l'impegno su a, la risposta ottima del giocatore monoperiodale
sarebbe non-e, mente contro l'impegno su non-a la risposta ottima sarebbe
e, con esito (e,non-a) = (2,2) (contro al strategia mista la risposta ottima è
sempre non-e)
la soluzione di Stackelberg è (e,non-a)

Il risultato dice che esiste una strategia del giocatore costante tale che in
quasi tutte le ripetizioni del gioco componente egli ottiene il payoff 2 (e
quindi quasi tutti i giocatori monoperiodali ottengono 2).
15

Il risultato dimostrato da Fudenberg e Levine 1989, 1990, 1991) :
Se c’è probabilità non nulla per almeno un tipo caratterizzato
dall'impiego dell'azione di Stackelberg del gioco componente,
allora esiste un valore del tasso di sconto <1 tale che il payoff che il
giocatore costante può ottenere in ogni equilibrio di Nash del gioco
ripetuto è
(i)
al massimo pari a un'approssimazione della somma dei
payoff di Stackelberg (di ogni ripetizione)
(ii) al minimo pari a un'approssimazione della somma dei
payoff che otterrebbe se in tutti i giochi ottenesse il payoff
mass- minimo
16
 Schema di dimostrazione.
Se il giocatore costante è paziente e se usa la strategia corrispondente al tipo
1, che prescrive l'uso di non-a, allora (numerando i periodi dal primo in
avanti):
(i) Occorrono al massimo N periodi perché la probabilità condizionata del
tipo 1 divenga abbastanza elevata da indurre i giocatori monoperiodali a
usare l'azione e;
(ii) cioè la probabilità di non-a - data la distribuzione di probabilità sui tipi e
le probabilità da questa generate sulle azioni del giocatore costante e
sugli esisti del gioco - sarà tale da indurre a usare la strategia del
giocatore mono-periodale e, che appartiene alla soluzione di Stackelberg,
che è ottima contro la strategia caratterizzante il tipo 1.
(iii) Nel nostro esempio, se la probabilità di non-a cresce fino a p = (0.47 +
0.25  0.52) > p*, allora i giocatori monoperiodali da quel punto in poi
usano, come risposta ottima nel gioco componente, l'azione e
17
(iv) Questa azione è anche la risposta ottima all'azione che il tipo 1 prescrive
in ogni gioco componente e congiuntamente con essa costituisce la
soluzione di Stackelberg nel gioco in esame (in mancanza di altre
strategie miste!!!) .
(v) D'altra parte data la q0 è semplice calcolare quante osservazioni di non-a
occorrano perché la probabilità condizionata assegnata al tipo 1 possa
generare il livello di probabilità p* per l'azione non-a.
Nel nostro esempio se q0 = 0.1 è sufficiente un solo periodo per ottenere
tale risultato!
(vi) Fino al periodo N il giocatore costante avrà totalizzato un payoff parziale
nullo (0N), ma poiché dopo N periodi esistono ancora infinite
ripetizioni da giocare, egli potrà scegliere tra ottenere in una singola
occasione 3 oppure una successione infinita di 2 nei periodi successivi a
N.
(vii) Così ,se il giocatore costante non svaluta eccessivamente le utilità
future, un payoff di continuazione dal periodo N+1 a infinito, composto
di soli payoff di Stackelberg più che ricompensa il giocatore per il payoff
18
nullo degli N periodi iniziali ed eccede quello di continuazione
alternativo, composto un serie infinita di (0,0)
(viii) Seguire la strategia caratteristica del tipo 1 è dunque un equilibrio
di Nash del gioco ripetuto che approssima la sommatoria di payoff di
Stackelberg ed è anche l'equilibrio con il massimo payoff totale per il
giocatore costante.
(ix) Che si tratti di un'approssimazione è implicato dal fatto che il payoff
totale di questo equilibrio per il giocatore costante differisce da quello di
Stackelberg per 2N, cioè per il costo (investimento) dei periodi spesi per
convincere i giocatori monoperiodali della bontà della sua reputazione
19

Commento
1) assunzione di simultaneità: se i giocatori non apprendessero
simultaneamente il giocatore monoperiodale non avrebbe nulla da apprendere
circa il tipo del giocatore costante in tutti i casi in cui egli non entra e quindi
il giocatore costante non avrebbe modo di segnalare il suo tipo.
2) il risultato dipende dal fatto che ogni giocatore monoperiodale possa
osservare con certezza e senza vaghezza l'esito di ciascun gioco
componente e in particolare le azioni del giocatore costante che rientrano
nella storia precedente al suo ingresso.
- il comportamento conforme al tipo deve quindi essere definito in ogni
ripetizione
- Mancando le evidenze, mancherebbe la base dell'aggiornamento delle
probabilità condizionate e della dinamica delle credenze
3) Se avessimo assunto come possibili tutte le strategie miste allora
esisterebbero equilibri di opportunismo sofisticato (l’equilibrio di Stakelberg è
proprio quello)
20
4. Problemi fondazionali
 aspetto apparentemente paradossale: la cooperazione diventa possibile se
esiste un certo grado di incertezza sul livello di razionalità dei giocatori.
- Se l'informazione sui tipi cresce, la probabilità del tipo irrazionale decresce
e con questa decresce la stessa possibilità di insorgenza della cooperazione.
- Così la cooperazione è in relazione inversa col grado di informazione sui
tipi dei giocatori.
- Se i tipi sono caratterizzati secondo la dicotomia "razionali" e "irrazionali"
, allora la nozione di razionalità diventa paradossale:
 Più la società è popolata da individui razionali, che sanno di interagire con
altri individui razionali, e peggio essi si devono aspettare di poter stare.
21
 Un’interpretazione migliore del modello è data in termini di commitment su
regole predeterminate di comportamento.
- schemi di comportamento relativamente neutrali rispetto alla nozione di
razionalità strategica.
- Nel caratterizzare gli schemi comportamentali noi non facciamo ipotesi di
tipo normativo: ci limitiamo a descrivere le modalità regolari di condotta.
- Nessuno di tali schemi comportamentali è di per sé razionale (prima del
calcolo degli equilibri del gioco ripetuto)
 gli schemi di comportamento sono assunti come entità esogene rispetto alla
teoria del comportamento razionale
- dobbiamo presupporre che esista tra gli schemi di comportamento presenti
nella popolazione, quello consistente nel seguire una regola in modo
indefettibile.
- Perché dovrebbero esistere ed essere probabili cose come codici
indefettibili in un mondo popolato da giocatori razionali?
22
 La spiegazione endogena del codice ha a che fare con la razionalità limitata.
- Pianificare ed istituire una regola di condotta è la modalità di condotta
razionale di fronte ai limiti della capacità di previsione delle contingenze
future.
- E' un modo per stabilire impegni contingenti non su una completa
descrizione degli stati possibili del mondo, ma solo su una descrizione
incompleta e data una conoscenza vaga e non dettagliata degli stati che
potranno occorrere in futuro.
 In conclusione, la sequenza corretta sarebbe:
- il codice aiuta a risolvere un problema di razionalità limitata,
- per questo ci si può attendere che un agente individualmente razionale si doti di
un codice.
- Perciò è ammissibile una probabilità iniziale non nulla associata al tipo
dell'agente che agisce nel modo suddetto.
23
- Ma tale probabilità iniziale, crea l'incentivo affinché l'agente stesso sostenga la
sua reputazione di essere proprio quel tipo che istituisce ed osserva il codice.
24