Il dilemma del prigioniero ripetuto Se il dilemma del prigioniero viene giocato una sola volta, sappiamo che la soluzione, cioè l’equilibrio di Nash, è che entrambi i giocatori scelgono di non collaborare (qui non ci interessiamo a cosa precisamente: potrebbe essere un accordo collusivo, o più in generale la cooperazione per qualche opera comune). Quando invece un gioco è ripetuto, la definizione di una strategia diviene un affare molto più complesso: occorre decidere, all’inizio del gioco, cosa si farà ad ogni data futura. Anche se le strategie a disposizione nel gioco singolo sono appena due (C, NC = cooperare, non cooperare), il numero di strategie a disposizione è enorme. Di nuovo, sarà equilibrio di Nash una coppia di strategie, una per ciascun giocatore, tale per cui quella di ciascun giocatore sia la risposta ottima a quella dell’altro giocatore. Evidentemente, però, il calcolo di quale sia (o quali siano) gli equilibri del gioco è molto difficile. La teoria matematica della programmazione dinamica (o “controllo ottimo”) ha dei risultati, che qui però non ci interessano. Più interessante è quanto riporta il vostro libro: che cioè la semplice strategia “colpo su colpo” pare, da molti esperimenti, essere vincente nella maggior parte dei casi, anche contrapposta a strategie molto più sofisticate. La strategia in questione, per il giocatore i ( i = 1, 2) e indicando con “0” la data iniziale, si può descrivere come: s0i = C i j st = st −1 , j ≠ i dove “s” indica la mossa (C oppure NC) giocata ad una singola data, il suffisso indica la data e l’apice indica il giocatore. La traduzione in parole è sul libro. È evidente che se entrambi i giocatori giocassero questa strategia, entrambi collaborerebbero per sempre. Il problema è mostrare se è conveniente per ciascuno dei due giocarla se l’altro la gioca: se riusciamo a dimostrarlo, ecco che il giocarla entrambi è, per definizione, un equilibrio di Nash del gioco ripetuto. Ora mostreremo che in certe circostanze questo è effettivamente vero. Per mostrarlo, modifichiamo un poco la strategia, ipotizzando che il tempo che trascorre prima che ciascuno dei due giocatori replichi la mossa dell’altro giocatore sia più lungo di un singolo periodo, a causa per esempio di ritardi informativi. Avremo allora la seguente strategia “colpo su colpo” modificata (con ritardo T invece di 1): s0i = C i j st = st −T , j ≠ i Concentriamoci su uno dei due giocatori, diciamo Primo, supponendo che Secondo giochi appunto questa strategia. Vogliamo studiare se per Primo giocare questa stessa strategia sia la scelta migliore (per simmetria, questo sarà vero anche per l’altro giocatore). Indichiamo con “0” il momento iniziale, quando Primo deve decidere cosa gli conviene fare se Secondo gioca “colpo su colpo con ritardo T”. Se anche Primo gioca “colpo su colpo con ritardo T”, entrambi continueranno per sempre a giocare “C” ad ogni data, ottenendo ciascuno, sempre ad ogni data, il guadagno da cooperazione. Nella Figura che segue questo guadagno è pari ad 4, e supponiamo per comodità che sia espresso in termini monetari. Ciò che conta per ciascuno, e quindi anche per Primo, non è però solo il guadagno della prima data, ma la somma dei guadagni a tutte le date. Il fatto è che i guadagni futuri, tutti uguali nominalmente ad 4, non possono essere sommati, tali e quali, a quello della prima data: prima di poter sommare somme monetarie disponibili a date diverse occorre che tutte le somme siano attualizzate alla medesima data, quella iniziale. Per attualizzare, cioè per calcolare il “valore attuale” di, una somma 4 disponibile tra k periodi, quando il tasso di interesse per ogni periodo è r, 1 si deve effettuare l’operazione 4 (1 + r )k : si vede che, man mano che ci si allontana nel futuro, il valore attuale di una cifra nominalmente costante si riduce sempre più. Solo dopo aver attualizzato tutti i guadagni futuri da cooperazione sarà possibile sommarli tra loro per ottenere il guadagno complessivo che Primo ottiene giocando “colpo su colpo con ritardo T” mentre Secondo gioca la medesima strategia. Immaginando che i periodi, sull’asse delle ascisse, siano “vicinissimi” tra loro, ecco che tale guadagno complessivo è misurato da tutta l’area sotto la linea 4-a’ della figura sottostante, linea che rappresenta tutta la sequenza di guadagni attualizzati 4 all’aumentare di k, cioè del tempo: si tratta dell’area X + Y + Z. (1 + r )k L’incentivo a cooperare Guadagno 6 4 W b’ 2 X c’ 0 Y Z T a’ c” Tempo Se, invece, Primo decide di non usare la strategia “colpo su colpo con ritardo T”, cioè defeziona già dall’inizio, mentre Secondo gioca invece “colpo su colpo con ritardo T”, sappiamo che può lucrare un guadagno maggiore di 4, indicato con 6 nella figura, ma solo fino a quando Secondo non reagisce, cosa che avviene alla data T. Sino a quella data, dunque, Primo ottiene un guadagno complessivo (sempre tenendo conto dell’attualizzazione) pari all’area sotto la curva 6-b’, cioè l’area W + X. Alla data T Secondo comincia anch’egli a non cooperare, come previsto dalla strategia “colpo su colpo con ritardo T”: allora entrambi ottengono un guadagno inferiore a quello di cooperazione, indicato con 2 in figura. Tale guadagno, però, si verificherà solo a partire dalla data futura T in poi, dunque la sequenza dei suoi valori attuali è rappresentata dalla linea c’-c”, e il corrispondente guadagno complessivo è pari all’area Z. Ne segue che il guadagno totale che Primo si aggiudica rinunciando a cooperare, mentre Secondo gioca la strategia “colpo su colpo con ritardo T”, equivale all’area W+X+Z. Conviene allora a Primo rispettare un accordo di cooperazione mentre anche Secondo lo rispetta? Evidentemente gli conviene se W + X + Z < X + Y + Z, vale a dire se W<Y Se questa disuguaglianza è soddisfatta, ecco che per Primo l’uso della strategia “colpo su colpo con ritardo T” è la risposta migliore alla medesima strategia giocata da Secondo, e lo stesso è vero per Secondo per simmetria: dunque cooperare per sempre è un equilibrio di Nash del gioco. Elenchiamo qui sotto alcuni fattori che favoriscono il verificarsi di questo equilibrio: - Un tempo rapido di reazione all’eventuale defezione dell’altro giocatore: infatti se T si riduce allora l’area W diminuisce e l’area Y aumenta. La reazione in questione può essere interpretata come una “punizione”, che ha senso ovviamente solo in un gioco ripetuto, alla defezione altrui. Più tempestiva è la punizione e più aumenta l’incentivo a cooperare. - La prospettiva per entrambi di competere per lungo tempo indisturbati nella situazione in questione: questo, prolungando verso destra le linee, fa aumentare l’area Y anche a parità di 2 - W. Affinché ciò si verifichi occorre, per esempio, che non vi sia il pericolo che nuovi competitori entrino in un mercato sottraendo quote a Primo e Secondo, o addirittura facendo una concorrenza di prezzo aggressiva; oppure occorre che il prodotto venduto dai due non rischi di diventare presto obsoleto in seguito al processo di innovazione. L’importanza che per Primo e Secondo hanno i guadagni futuri rispetto a quelli presenti. Tale importanza cresce al diminuire del tasso di interesse i. Un elevato tasso di interesse, infatti, riduce il valore attuale di una qualsiasi somma futura a, ma la formula prima a utilizzata, , implica che le distanza temporale k ha un effetto esponenziale sul (1 + r )k denominatore: dunque l’abbattimento indotto dall’attualizzazione è più pronunciato per le date più lontane nel tempo. Un innalzamento del tasso di interesse fa abbassare tutte le curve della figura, e dunque le corrispondenti aree, ma questo effetto è più forte nella parte di destra della figura (date lontane nel tempo), cosicché Y si riduce più di W. Ne segue che un tasso di interesse elevato (basso) aumenta (riduce) l’incentivo a defezionare. In altri termini, un tasso di interesse modesto indica che per ciascuno i risultati futuri sono importanti, e li induce a rinunciare all’extra-guadagno di breve periodo che potrebbero ottenere non cooperando. Morale: quando un dilemma del prigioniero è giocato ripetutamente per un tempo molto lungo (più precisamente infinito, o anche, come dice il libro, ‘indeterminato’) ecco che cooperare entrambi può diventare un equilibrio di Nash, cosa che invece non può mai accadere nel gioco giocato una sola volta. Questo, forse, può spiegare come mai molte specie animali, inclusi gli umani, abbiamo interiorizzato una certa propensione alla cooperazione, almeno nelle circostanze in cui ritengono che convivranno assieme a lungo. Per esempio, in una piccola comunità non è molto verosimile si spintoni un anziano per la strada in nome del fatto che “si deve arrivare presto”, perché la ‘punizione’ che ciascun membro può infliggere a chi si comporti così può essere attuata agevolmente. Quel comportamento diventa invece meno inverosimile in una metropoli, dove la probabilità di rincontrare le stesse persone a cui ho dato uno spintone per strada, o che mi hanno visto farlo, è piuttosto bassa. Se poi ipotizzate che il mio non dare spintoni quando sono giovane contribuisca a mantenere il rispetto sociale della norma “non spintonare gli anziani”, il piccolo sacrificio che oggi compio per non darli sarà più che ricompensato dal non riceverli domani quando sarà anziano: posto che il futuro sia sufficientemente importante per me. 3