Il dilemma del prigioniero ripetuto

Il dilemma del prigioniero ripetuto
Se il dilemma del prigioniero viene giocato una sola volta, sappiamo che la soluzione, cioè
l’equilibrio di Nash, è che entrambi i giocatori scelgono di non collaborare (qui non ci interessiamo
a cosa precisamente: potrebbe essere un accordo collusivo, o più in generale la cooperazione per
qualche opera comune).
Quando invece un gioco è ripetuto, la definizione di una strategia diviene un affare molto più
complesso: occorre decidere, all’inizio del gioco, cosa si farà ad ogni data futura. Anche se le
strategie a disposizione nel gioco singolo sono appena due (C, NC = cooperare, non cooperare), il
numero di strategie a disposizione è enorme. Di nuovo, sarà equilibrio di Nash una coppia di
strategie, una per ciascun giocatore, tale per cui quella di ciascun giocatore sia la risposta ottima a
quella dell’altro giocatore. Evidentemente, però, il calcolo di quale sia (o quali siano) gli equilibri
del gioco è molto difficile. La teoria matematica della programmazione dinamica (o “controllo
ottimo”) ha dei risultati, che qui però non ci interessano.
Più interessante è quanto riporta il vostro libro: che cioè la semplice strategia “colpo su colpo” pare,
da molti esperimenti, essere vincente nella maggior parte dei casi, anche contrapposta a strategie
molto più sofisticate. La strategia in questione, per il giocatore i ( i = 1, 2) e indicando con “0” la
data iniziale, si può descrivere come:
s0i  C
 i
j
st  st 1 , j  i
dove “s” indica la mossa (C oppure NC) giocata ad una singola data, il suffisso indica la data e
l’apice indica il giocatore. La traduzione in parole è sul libro.
È evidente che se entrambi i giocatori giocassero questa strategia, entrambi collaborerebbero per
sempre. Il problema è mostrare se è conveniente per ciascuno dei due giocarla se l’altro la gioca:
se riusciamo a dimostrarlo, ecco che il giocarla entrambi è, per definizione, un equilibrio di Nash
del gioco ripetuto.
Ora mostreremo che in certe circostanze questo è effettivamente vero. Per mostrarlo, modifichiamo
un poco la strategia, ipotizzando che il tempo che trascorre prima che ciascuno dei due giocatori
replichi la mossa dell’altro giocatore sia più lungo di un singolo periodo, a causa per esempio di
ritardi informativi. Avremo allora la seguente strategia “colpo su colpo” modificata (con ritardo T
invece di 1):
s0i  C
 i
j
st  st T , j  i
Supponiamo di partire dal seguente dilemma del prigioniero base (non ripetuto), rappresentato nel
solito modo a cui vi ho abituato a lezione:
Secondo
Primo
C
NC
C
7;7
4;9
NC
9;4
5;5
Concentriamoci su uno dei due giocatori, diciamo Primo, supponendo che Secondo giochi appunto
questa strategia. Vogliamo studiare se per Primo giocare questa stessa strategia sia la scelta migliore
(per simmetria, questo sarà vero anche per l’altro giocatore). Indichiamo con “0” il momento
1
iniziale, quando Primo deve decidere cosa gli conviene fare se Secondo gioca “colpo su colpo con
ritardo T”.
Se anche Primo gioca “colpo su colpo con ritardo T”, entrambi continueranno per sempre a giocare
“C” ad ogni data, ottenendo ciascuno, sempre ad ogni data, il guadagno da cooperazione. Nella
Figura che segue questo guadagno è pari ad 5, e supponiamo per comodità che sia espresso in
termini monetari. Ciò che conta per ciascuno, e quindi anche per Primo, non è però solo il guadagno
della prima data, ma la somma dei guadagni a tutte le date. Il fatto è che i guadagni futuri, tutti
uguali nominalmente ad 5, non possono essere sommati, tali e quali, a quello della prima data:
prima di poter sommare somme monetarie disponibili a date diverse occorre che tutte le somme
siano attualizzate alla medesima data, quella iniziale. Per attualizzare, cioè per calcolare il “valore
attuale” di, una somma 5 disponibile tra k periodi, quando il tasso di interesse per ogni periodo è r,
5
si deve effettuare l’operazione
: si vede che, man mano che ci si allontana nel futuro, il
1  r k
valore attuale di una cifra nominalmente costante si riduce sempre più.
Solo dopo aver attualizzato tutti i guadagni futuri da cooperazione sarà possibile sommarli tra loro
per ottenere il guadagno complessivo che Primo ottiene giocando “colpo su colpo con ritardo T”
mentre Secondo gioca la medesima strategia. Immaginando che i periodi, sull’asse delle ascisse,
siano “vicinissimi” tra loro, ecco che tale guadagno complessivo è misurato da tutta l’area sotto la
linea 5-a’ della figura sottostante, linea che rappresenta tutta la sequenza di guadagni attualizzati
5
all’aumentare di k, cioè del tempo: si tratta dell’area X + Y + Z.
1  r k
L’incentivo a cooperare
Guadagno
9
5
b’
W
4
X
c’
0
Y
Z
T
a’
c”
Tempo
Se, invece, Primo decide di non usare la strategia “colpo su colpo con ritardo T”, cioè defeziona già
dall’inizio, mentre Secondo gioca invece “colpo su colpo con ritardo T”, sappiamo che può lucrare
un guadagno maggiore di 5, indicato con 9 nella figura, ma solo fino a quando Secondo non
reagisce, cosa che avviene alla data T. Sino a quella data, dunque, Primo ottiene un guadagno
complessivo (sempre tenendo conto dell’attualizzazione) pari all’area sotto la curva 9-b’, cioè l’area
W + X. Alla data T Secondo comincia anch’egli a non cooperare, come previsto dalla strategia
“colpo su colpo con ritardo T”: allora entrambi ottengono un guadagno inferiore a quello di
cooperazione, indicato con 4 in figura. Tale guadagno, però, si verificherà solo a partire dalla data
futura T in poi, dunque la sequenza dei suoi valori attuali è rappresentata dalla linea c’-c”, e il
corrispondente guadagno complessivo è pari all’area Z. Ne segue che il guadagno totale che Primo
si aggiudica rinunciando a cooperare, mentre Secondo gioca la strategia “colpo su colpo con ritardo
T”, equivale all’area W+X+Z.
Conviene allora a Primo rispettare un accordo di cooperazione mentre anche Secondo lo rispetta?
Evidentemente gli conviene se W + X + Z < X + Y + Z, vale a dire se
W<Y
2
Se questa disuguaglianza è soddisfatta, ecco che per Primo l’uso della strategia “colpo su colpo con
ritardo T” è la risposta migliore alla medesima strategia giocata da Secondo, e lo stesso è vero per
Secondo per simmetria: dunque cooperare per sempre è un equilibrio di Nash del gioco.
Elenchiamo qui sotto alcuni fattori che favoriscono il verificarsi di questo equilibrio:
- Un tempo rapido di reazione all’eventuale defezione dell’altro giocatore: infatti se T si
riduce allora l’area W diminuisce e l’area Y aumenta. La reazione in questione può essere
interpretata come una “punizione”, che ha senso ovviamente solo in un gioco ripetuto, alla
defezione altrui. Più tempestiva è la punizione e più aumenta l’incentivo a cooperare.
- La prospettiva per entrambi di competere per lungo tempo indisturbati nella situazione in
questione: questo, prolungando verso destra le linee, fa aumentare l’area Y anche a parità di
W. Affinché ciò si verifichi occorre, per esempio, che non vi sia il pericolo che nuovi
competitori entrino in un mercato sottraendo quote a Primo e Secondo, o addirittura facendo
una concorrenza di prezzo aggressiva; oppure occorre che il prodotto venduto dai due non
rischi di diventare presto obsoleto in seguito al processo di innovazione.
- L’importanza che per Primo e Secondo hanno i guadagni futuri rispetto a quelli presenti.
Tale importanza cresce al diminuire del tasso di interesse i. Un elevato tasso di interesse,
infatti, riduce il valore attuale di una qualsiasi somma futura a, ma la formula prima
a
utilizzata,
, implica che le distanza temporale k ha un effetto esponenziale sul
1  r k
denominatore: dunque l’abbattimento indotto dall’attualizzazione è più pronunciato per le
date più lontane nel tempo. Un innalzamento del tasso di interesse fa abbassare tutte le curve
della figura, e dunque le corrispondenti aree, ma questo effetto è più forte nella parte di
destra della figura (date lontane nel tempo), cosicché Y si riduce più di W. Ne segue che un
tasso di interesse elevato (basso) aumenta (riduce) l’incentivo a defezionare. In altri termini,
un tasso di interesse modesto indica che per ciascuno i risultati futuri sono importanti, e li
induce a rinunciare all’extra-guadagno di breve periodo che potrebbero ottenere non
cooperando.
Morale: quando un dilemma del prigioniero è giocato ripetutamente per un tempo molto lungo (più
precisamente infinito, o anche, come dice il libro, ‘indeterminato’) ecco che cooperare entrambi può
diventare un equilibrio di Nash, cosa che invece non può mai accadere nel gioco giocato una sola
volta. Questo, forse, può spiegare come mai molte specie animali, inclusi gli umani, abbiamo
interiorizzato una certa propensione alla cooperazione, almeno nelle circostanze in cui ritengono
che convivranno assieme a lungo. Per esempio, in una piccola comunità non è molto verosimile si
spintoni un anziano per la strada in nome del fatto che “si deve arrivare presto”, perché la
‘punizione’ che ciascun membro può infliggere a chi si comporti così può essere attuata
agevolmente. Quel comportamento diventa invece meno inverosimile in una metropoli, dove la
probabilità di rincontrare le stesse persone a cui ho dato uno spintone per strada, o che mi hanno
visto farlo, è piuttosto bassa. Se poi ipotizzate che il mio non dare spintoni quando sono giovane
contribuisca a mantenere il rispetto sociale della norma “non spintonare gli anziani”, il piccolo
sacrificio che oggi compio per non darli sarà più che ricompensato dal non riceverli domani quando
sarà anziano: posto che il futuro sia sufficientemente importante per me.
3