OSSERVANZA DELLE NORME E REPUTAZIONE 1. Effetti di reputazione esplicitamente modellati Si introduce una peculiare forma di incertezza sul comportamento dei giocatori. - i giocatori o alcuni di loro, risultano incerti sul tipo dell’avversario. - il giocatore di un dato tipo segue una determinata regola di condotta che si identifica con una strategia del gioco ripetuto, la quale detta quale azione usare nei singoli giochi componenti. - i tipi possono essere visti come impegni (commitment) alternativi: un giocatore può essere visto come impegnato a seguire ciascuna delle strategie, indipendentemente da un ragionamento strategico sul gioco. l’incertezza riguarda lo stato di informazione di un giocatore a proposito dell'altro ad esempio del giocatore 1 sul giocatore 2 - il giocatore 1 crede che il giocatore 2 con probabilità p possa essere un tipo idiosincratico, che segue una regola predeterminata, non strategicamente e in modo stereotipato, - perciò il giocatore 1 massimizza il payoff atteso, data la distribuzione di probabilità sulle azioni dell’avversario indotta dalla probabilità dei tipi. - In realtà 2 è strategicamente razionale - Ma allora il comportamento razionale di 2 non può non tener conto dell’incertezza di 1. - 2 sceglierà il suo comportamento in modo da avvalorare le credenze di 1, date le quali l'avversario sceglie azioni che danno i payoff più elevati al giocatore 2. 2. Il gioco della fiducia un giocatore costante (in tutte le ripetizioni) gioca contro una successione infinita di giocatori monoperiodali, ciascuno dei quali partecipa a turno ad una delle ripetizioni del gioco componente. Cfr Fudenberg e Levine (1989, 1992). Interpretazione: - l'impresa, interagisce a turno con un singolo lavoratore o un singolo consumatore, - un ospedale o un'istituzione universitaria interagisce a turno con un singolo malato o studente alla volta, - tali interazioni si ripetono con una successione infinita di lavoratori o consumatori, malati o studenti ogni volta diversi dal precedente. 2 Gioco componente: trust game - il giocatore monoperiodale deve per primo decidere se entrare o non entrare (e oppure non-e) in relazione con il giocatore costante - poi il giocatore costante deve decidere se abusare o non abusare di lui (a oppure non-a), - assumiamo che i due giocatori apprendano l'esito del gioco con i relativi payoff simultaneamente, al termine delle mosse di entrambi, - la forma normale del gioco (fig. 2.1) è equivalente alla forma estensiva (fig. 2.2). - Nel gioco componente la coppia di azioni (non-e, a) è l'unico equilibrio di Nash, ed è subottimale dal momento che l'esito (0,0) è paretianamente dominato da (2,2). 3 2 a non-a 1 -1. 3 2, 2 0, 0 0, 0 e non-e (fig.2.1) (-1, 3) a giocatore 2 e non-a giocatore 1 (2,2) non-e (0,0) 4 (fig.2.2) 3. Il gioco ripetuto tra un giocatore costante e infiniti giocatori monoperiodali Le strategie del giocatore costante (di lungo periodo) - ht è una storia del gioco ripetuto: è una possibile successione di mosse dei giocatori fino alla ripetizione t - Con Ht definiamo l'insieme di tutte le possibili storie del gioco fino alla ripetizione t. - Una strategia del giocatore costante è definita come una funzione che per ciascuna storia htHt stabilisce quale azione del gioco componente il giocatore costante impiegherà in ciascuna delle ripetizioni che restano da giocare a partire dall'iterazione t+1 in poi, per qualsiasi valore di t (da 1 a infinito). si: f(Ht)Ai t+1 t strategia del giocatore monoperiodale: una funzione che, per le storie del gioco possibili fino alla ripetizione precedente quella alla quale egli partecipa, stabilisce l'azione che egli sceglierà nel gioco componente corrente. s t+1: f(Ht)A t+1 5 Le funzioni di payoff. - Ciascun giocatore monoperiodale, è interessato soltanto all'esito del gioco corrente al quale egli partecipa. è miope: cerca di prevedere semplicemente l'azione che il giocatore costante sceglierà nel gioco corrente al quale egli partecipa - Il giocatore costante al contrario ha una funzione di payoff che è costruita come la sommatoria infinita dei payoff che egli riceve da ciascun gioco componente, tu(a(t)) - Vi è un tasso di sconto pari a 1 alla prima iterazione, (tra 0 e 1) alla seconda iterazione, 2 alla terza, 3 alla quarta, 4 alla quinta e così via. - Il tasso di sconto esprime il suo livello di "impazienza". - a meno che la sua impazienza sia tale da fargli valutare positivamente solo i payoff ricevuti dalle ripetizioni più prossime, è lungimirante egli sceglie una strategia del gioco ripetuto guardando agli effetti che tale strategia indurrà sul comportamento miope del giocatori monoperiodali nella prosecuzione del gioco. 6 Il tipi possibili - tutti i giocatori monoperiodali ritengono possibile più di un tipo del giocatore costante, - A fini espositivi limitiamo a tre i tipi possibili del giocatore costante: o 1, il tipo che non abusa: la strategia di 1 è usare sempre non-a indipendentemente dalle storie del gioco; o 2, il tipo razionale nel gioco componente: la strategia di 2 è usare sempre la strategia dominante del gioco componente o 3, il tipo imprevedibile: 3 usa una strategia mista che con probabilità 0.75 seleziona la strategia dominante in ciascun gioco componente, ma che con probabilità 0.25 seleziona la strategia non-a in ciascun gioco componente. - il tipo 3 è un esemplare di un ampia famiglia di tipi le cui strategie usano qualche combinazione probabilistica delle due azioni nel corso del gioco ripetuto, - In un'analisi più generale è ragionevole ammettere che i giocatori monoperiodali ritengano possibili un maggior numero di tipi di questo genere, - più tipi misti implicano altri equilibri 7 Le credenze iniziali - assegnazione di probabilità a priori soggettive ai tipi. - la probabilità a priori di 1 sia q° (piccola a piacere ) - i tipi residui si spartiscono la restante massa di probabilità 1- q°. La regola di aggiornamento. - dopo ogni esito osservato del gioco monoperiodale, i giocatori monoperiodali calcolano la probabilità condizionata di ciascun tipo secondo la regola di Bayes., - dopo una storia ht in cui si sono osservate solo azioni non-a, e data l'osservazione non-a nella ripetizione più recente, la probabilità condizionata del tipo 1 sarà prob(non-a|1,ht) q(1|ht) q(1|non-a,ht) = p(non-a|ht) ove p(non-a|ht) = prob(non-a|1, ht) q(1| ht) + prob(non-a|2,ht) q(2| ht) +prob(non-a|3, ht)q(3| ht) 8 Esempio - la probabilità del primo tipo dopo la storia ht sia q(1| ht) = 0.1 - le probabilità, alla luce della storia trascorsa, degli altri due tipi siano 0.45 e 0.45 (in effetti se la storia ht include solo osservazioni non-a, il tipo 2, che non usa mai non-a, dovrebbe avere probabilità zero.Possiamo ragionare come se t = 0 oppure come se il tipo 2 fosse più sofisticato di quello considerato e prevedesse di confondere le idee dei giocatori monoperiodali adottando l'azione non-a nelle prime t ripetizioni, e cominciasse ad usare l'azione dominante da t+1 in avanti). - Le funzioni di verosimiglianza dell'evidenza per vari tipi prob(non-a|1, ht) =1 (il tipo 1 deve sempre usare non-a prob(non-a|2, ht ) = 0 (il tipo 2 non usa mai non-a), prob(non-a |3, ht) = 0.25 (questa è la probabilità secondo la quale il tipo 3 usa non-a), le probabilità iniziali siano come detto 9 q(1| ht) = 0.1 q(2| ht) = q(3| ht) =0.45 le probabilità ex post saranno allora o la probabilità condizionata del tipo 1 sarà q(1|non-a, ht) = 0.1/0.2125 = 0.47. o la probabilità condizionata degli altri due tipi sarà q(2|non-a, ht) = 0 (infatti l'osservazione non-a falsifica l'ipotesi che il giocatore 1 sia del tipo 2) q(3|non-a, ht) = 0.52. 10 La reputazione del giocatore costante - è la distribuzione di probabilità sui suoi tipi possibili, cioè il giocatore costante ha la reputazione di essere il tipo 1 con probabilità q1, il tipo 2 con probabilità q2 = x(1-q1) il tipo 3 con probabilità q3 =1-x(1-q1), per 1 x 0. - la reputazione di essere il tipo 1 si annulla se i giocatori monoperiodali osservano una sola occasione in cui il giocatore costante impiega l'azione a. - la reputazione di essere il tipo 2 si annulla se i giocatori monoperiodali osservano una sola volta non-a. - Ma la reputazione degli altri tipi, ad esempio 3, è compatibile con l'osservazione sia di a che non-a. (NB: E' la presenza di questi alti tipi che dà al modello la forma di un processo di aggiornamento continuo delle probabilità e della reputazione). 11 La scelte razionale dei giocatori monoperiodali. -Calcolano l'utilità attesa di scegliere e oppure non-e nel gioco componente alla luce delle probabilità degli esiti derivate dalle probabilità condizionate assegnate ai vari tipi. - dopo l’osservazione di non-a, il giocatore monoperiodale che partecipa alla ripetizione t+1 sceglierà e se Prob composta di non a EU t+1 (e) = U t+1 (e, non-a) [q(1|non-a, ht)+ 0.25 q(3|non-a, ht) ] * + Ut+1(e, a) [ q(2|non-a, ht) + 0.75 q(3|non-a, ht) ] > 0 - Data l'ulteriore evidenza non-a la scelta ottima del giocatore monoperiodale diviene e, poiché 2 (0.47 + 0.25 0.52) - 1 (0.75 0.52) 0. - Ciò che conta è la probabilità composta p dell'azione non-a derivabile dalla probabilità dei tipi che usano non-a. - Quando la probabilità p eccede un livello critico p*, la scelta ottima del giocatore monoperiodale è la strategia che caratterizza il tipo 1 12 - Se p(non-a) = 0.47 + (0.25 0.52), allora pp* la risposta ottima del giocatore monoperiodale nel gioco corrente è e . La scelta razionale del giocatore costante. - se sceglie una strategia identica a quella che caratterizza un tipo, egli simula il tipo e i giocatori monoperiodali giungeranno a credere che egli sia proprio il tipo in questione. Può giocare una strategia finalizzata a generare una determinata distribuzione di probabilità sui suoi tipi, cioè ottenere una certa reputazione. Il risultato. - se il giocatore costante non è troppo impaziente allora esiste un percorso d'equilibrio del gioco ripetuto nel quale la strategia del giocatore è tale che egli può ottenere quasi in ogni gioco componente il payoff che otterrebbe qualora egli potesse effettivamente assumere un impegno vincolante a utilizzare l'azione non-a, il giocatore costante può ottenere quasi in tutte le ripetizioni del gioco il payoff di Stackelberg. 13 Per spiegare: - Gioco di Stackelberg: un leader può annunciare un impegno irremovibile su una data strategia, cioè annunciare per primo la strategia prescelta, e alla controparte (il follower) non resta che scegliere la risposta ottima all'impegno irremovibile annunciato dal leader - Il leader sceglie in modo ottimo il suo impegno irremovibile: - per ciascuna risposta ottima del follower a possibili impegni del leader, si prende, se ne esiste più d'uno, l'impegno con utilità maggiore per il leader - quindi, tra tutti gli impegni che soddisfano questa proprietà, si sceglie quello che in assoluto massimizza l'utilità del leader Max Max uL(a|b) aA*, aA ove a è un impegno, b è una risposta ottima del follower all’impegno, A* è l’insieme degli impegni ottimi di F 14 Esempio: se il gioco in forma normale fosse un gioco di Stackelberg - il giocatore costante potrebbe annunciare irrevocabilmente che egli userà una delle due strategie pure, a oppure non-a, oppure al strategia mista (0.25 non-a; 0.75°), (limitiamo l’analisi ai tipi cioè alla strategie pure e alla strategia mista non di equilibrio: ma che impegno è questo? ) - Contro l'impegno su a, la risposta ottima del giocatore monoperiodale sarebbe non-e, mente contro l'impegno su non-a la risposta ottima sarebbe e, con esito (e,non-a) = (2,2) (contro al strategia mista la risposta ottima è sempre non-e) la soluzione di Stackelberg è (e,non-a) Il risultato dice che esiste una strategia del giocatore costante tale che in quasi tutte le ripetizioni del gioco componente egli ottiene il payoff 2 (e quindi quasi tutti i giocatori monoperiodali ottengono 2). 15 Il risultato dimostrato da Fudenberg e Levine 1989, 1990, 1991) : Se c’è probabilità non nulla per almeno un tipo caratterizzato dall'impiego dell'azione di Stackelberg del gioco componente, allora esiste un valore del tasso di sconto <1 tale che il payoff che il giocatore costante può ottenere in ogni equilibrio di Nash del gioco ripetuto è (i) al massimo pari a un'approssimazione della somma dei payoff di Stackelberg (di ogni ripetizione) (ii) al minimo pari a un'approssimazione della somma dei payoff che otterrebbe se in tutti i giochi ottenesse il payoff mass- minimo 16 Schema di dimostrazione. Se il giocatore costante è paziente e se usa la strategia corrispondente al tipo 1, che prescrive l'uso di non-a, allora (numerando i periodi dal primo in avanti): (i) Occorrono al massimo N periodi perché la probabilità condizionata del tipo 1 divenga abbastanza elevata da indurre i giocatori monoperiodali a usare l'azione e; (ii) cioè la probabilità di non-a - data la distribuzione di probabilità sui tipi e le probabilità da questa generate sulle azioni del giocatore costante e sugli esisti del gioco - sarà tale da indurre a usare la strategia del giocatore mono-periodale e, che appartiene alla soluzione di Stackelberg, che è ottima contro la strategia caratterizzante il tipo 1. (iii) Nel nostro esempio, se la probabilità di non-a cresce fino a p = (0.47 + 0.25 0.52) > p*, allora i giocatori monoperiodali da quel punto in poi usano, come risposta ottima nel gioco componente, l'azione e 17 (iv) Questa azione è anche la risposta ottima all'azione che il tipo 1 prescrive in ogni gioco componente e congiuntamente con essa costituisce la soluzione di Stackelberg nel gioco in esame (in mancanza di altre strategie miste!!!) . (v) D'altra parte data la q0 è semplice calcolare quante osservazioni di non-a occorrano perché la probabilità condizionata assegnata al tipo 1 possa generare il livello di probabilità p* per l'azione non-a. Nel nostro esempio se q0 = 0.1 è sufficiente un solo periodo per ottenere tale risultato! (vi) Fino al periodo N il giocatore costante avrà totalizzato un payoff parziale nullo (0N), ma poiché dopo N periodi esistono ancora infinite ripetizioni da giocare, egli potrà scegliere tra ottenere in una singola occasione 3 oppure una successione infinita di 2 nei periodi successivi a N. (vii) Così ,se il giocatore costante non svaluta eccessivamente le utilità future, un payoff di continuazione dal periodo N+1 a infinito, composto di soli payoff di Stackelberg più che ricompensa il giocatore per il payoff 18 nullo degli N periodi iniziali ed eccede quello di continuazione alternativo, composto un serie infinita di (0,0) (viii) Seguire la strategia caratteristica del tipo 1 è dunque un equilibrio di Nash del gioco ripetuto che approssima la sommatoria di payoff di Stackelberg ed è anche l'equilibrio con il massimo payoff totale per il giocatore costante. (ix) Che si tratti di un'approssimazione è implicato dal fatto che il payoff totale di questo equilibrio per il giocatore costante differisce da quello di Stackelberg per 2N, cioè per il costo (investimento) dei periodi spesi per convincere i giocatori monoperiodali della bontà della sua reputazione 19 Commento 1) assunzione di simultaneità: se i giocatori non apprendessero simultaneamente il giocatore monoperiodale non avrebbe nulla da apprendere circa il tipo del giocatore costante in tutti i casi in cui egli non entra e quindi il giocatore costante non avrebbe modo di segnalare il suo tipo. 2) il risultato dipende dal fatto che ogni giocatore monoperiodale possa osservare con certezza e senza vaghezza l'esito di ciascun gioco componente e in particolare le azioni del giocatore costante che rientrano nella storia precedente al suo ingresso. - il comportamento conforme al tipo deve quindi essere definito in ogni ripetizione - Mancando le evidenze, mancherebbe la base dell'aggiornamento delle probabilità condizionate e della dinamica delle credenze 3) Se avessimo assunto come possibili tutte le strategie miste allora esisterebbero equilibri di opportunismo sofisticato (l’equilibrio di Stakelberg è proprio quello) 20 4. Problemi fondazionali aspetto apparentemente paradossale: la cooperazione diventa possibile se esiste un certo grado di incertezza sul livello di razionalità dei giocatori. - Se l'informazione sui tipi cresce, la probabilità del tipo irrazionale decresce e con questa decresce la stessa possibilità di insorgenza della cooperazione. - Così la cooperazione è in relazione inversa col grado di informazione sui tipi dei giocatori. - Se i tipi sono caratterizzati secondo la dicotomia "razionali" e "irrazionali" , allora la nozione di razionalità diventa paradossale: Più la società è popolata da individui razionali, che sanno di interagire con altri individui razionali, e peggio essi si devono aspettare di poter stare. 21 Un’interpretazione migliore del modello è data in termini di commitment su regole predeterminate di comportamento. - schemi di comportamento relativamente neutrali rispetto alla nozione di razionalità strategica. - Nel caratterizzare gli schemi comportamentali noi non facciamo ipotesi di tipo normativo: ci limitiamo a descrivere le modalità regolari di condotta. - Nessuno di tali schemi comportamentali è di per sé razionale (prima del calcolo degli equilibri del gioco ripetuto) gli schemi di comportamento sono assunti come entità esogene rispetto alla teoria del comportamento razionale - dobbiamo presupporre che esista tra gli schemi di comportamento presenti nella popolazione, quello consistente nel seguire una regola in modo indefettibile. - Perché dovrebbero esistere ed essere probabili cose come codici indefettibili in un mondo popolato da giocatori razionali? 22 La spiegazione endogena del codice ha a che fare con la razionalità limitata. - Pianificare ed istituire una regola di condotta è la modalità di condotta razionale di fronte ai limiti della capacità di previsione delle contingenze future. - E' un modo per stabilire impegni contingenti non su una completa descrizione degli stati possibili del mondo, ma solo su una descrizione incompleta e data una conoscenza vaga e non dettagliata degli stati che potranno occorrere in futuro. In conclusione, la sequenza corretta sarebbe: - il codice aiuta a risolvere un problema di razionalità limitata, - per questo ci si può attendere che un agente individualmente razionale si doti di un codice. - Perciò è ammissibile una probabilità iniziale non nulla associata al tipo dell'agente che agisce nel modo suddetto. 23 - Ma tale probabilità iniziale, crea l'incentivo affinché l'agente stesso sostenga la sua reputazione di essere proprio quel tipo che istituisce ed osserva il codice. 24