part 3 - UnivPM

Corso di Politica Economica
Lezione 12: Introduzione alla Teoria dei Giochi (part 3)
David Bartolini
Università Politecnica delle Marche
(Sede di S.Benedetto del Tronto)
[email protected] (email)
http://utenti.dea.univpm.it/politica
1/1
Giochi Sequenziali con informazione completa
1
insieme finito di giocatori
2
insieme delle possibili “storie” del gioco (possibili sviluppi nel tempo)
3
una funzione che assegna un giocatore ad ogni storia terminale (cioè
specifica quando è il suo turno di giocare)
4
insieme delle possibili azioni
5
un insieme di preferenze sull’insieme delle storie possibili
[email protected] (email)
http://utenti.dea.univpm.it/politica
2/1
Subgame Perfect Equilibrium (SPE)
L’equilibrio perfetto nei sottogiochi, è composto dalle strategie che
formano un NE in ogni sottogioco
sottogioco: per ogni sequenza del gioco (storia) non terminale, h, il
sottogioco rappresenta la parte del gioco che rimane da giocare dopo la
storia h
Per la soluzione di questi giochi (nel caso di storia finita) utilizziamo il
metodo Backward induction
[email protected] (email)
http://utenti.dea.univpm.it/politica
3/1
Esempio
Competizione alla Stackelberg:
i = 1, 2 giocatori: leader e follower
storie possibili: tutte le combinazioni di quantità del leader e del
follower
gioco finito: il leader sceglie al tempo 1, il follower sceglie al tempo 2
preferenze: sono le funzioni di profitto
consideriamo il caso di domanda lineare e costo unitario costante
Ci (qi ) = cqi for i = 1, 2
P(Q) = α − Q if α ≥ Q, otherwise the demand is zero
consideriamo anche che c > 0 e c < α
[email protected] (email)
http://utenti.dea.univpm.it/politica
4/1
Cerchiamo il SPE di questo gioco utilizzando il metodo di Backward
induction
1
per prima cosa consideriamo la scelta ottima del giocatore che gioca
per ultimo (il follower) data qualsiasi scelta del leader
max π2 = (α − q1 − q2 )q2 − cq2
q2
dπ2
dq2
= α − q1 − 2q2 − c = 0
q2 =
α − q1 − c
2
q2 (q1 ) è la risposta ottima del follower ad ogni strategia del leader
2
il leader anticipa che il follower si comperterà in questa maniera una
volta scelta la sua strategia, per cui:
[email protected] (email)
http://utenti.dea.univpm.it/politica
5/1

max π1
q1


α − q1 − c 


= α − q1 −
 q1 − cq1
2


|
{z
}
q2 (q1 )
dπ1
dq1
= α − q1 − 2q2 − c = 0
q1∗ =
α−c
2
questa è la scelta ottima del leader
sostituendo q1∗ nella best response function del follower otteniamo q2∗ =
α−c
4
Quindi il SPE di questo gioco è (q1∗ , q2 (q1 )) (per il leader la strategia è solo
un’azione mentre per il follower la strategia di equilibrio è la funzione di
reazione)
questo produce un payoff per le due imprese pari a:
1
1
π1 = (α − c)2
π2 =
(α − c)2
8
16
[email protected] (email)
http://utenti.dea.univpm.it/politica
6/1
Giochi Ripetuti
Che succede se la stessa situazione si ripete nel tempo?
1
ripetizioni finite
2
ripetizioni infinite
stage game è la parte del gioco che si ripete sempre uguale
lo scorrere del tempo è misurato dal fattore di sconto δ ∈ [0, 1]
si tratta del valore oggi di un EURO che percepiremo domani (o nei
periodi futuri:
VA di 1Euro che percepiremo tra 3 periodi = (1)δ1 δ2 δ3 = 1δ 3
1
il fattore di sconto può essere interpretato come δ = 1+r
dove r è il
tasso di interesse che si “perde” ogni periodo
oppure δ può essere interpretato come il livello di “pazienza”
dell’agente economico
[email protected] (email)
http://utenti.dea.univpm.it/politica
7/1
Ripetizioni Finite
Se lo stage game si ripete un numero finito di volte, allora applicando il
backward induction, (in molte classi di giochi) otteniamo lo stesso
equilibrio del gioco senza ripetizione
Esempio: il dilemma del prigioniero
Ripetiamo un numero di volte T (finito) il dilemma del prigioniero
lo “stage” game è la situazione che abbiamo visto nell’analisi statica
ora cerchiamo un SPE
la strategia di ogni giocatore in ogni periodo t deve specificare le
azioni per tutti i successivi stage games e per ogni possibile “storia”
del gioco
[email protected] (email)
http://utenti.dea.univpm.it/politica
8/1
applichiamo il metodo di backward induction:
al perido T quale sarà la strategia ottimale per i due prigionieri?
procediamo a ritroso dati i NE già calcolati
Subgame Perfect Equilibrium
Esiste un unico SPE dove ogni giocatore sceglie la strategia confessare in
ogni periodo, indipendentemente dalla storia del gioco
[email protected] (email)
http://utenti.dea.univpm.it/politica
9/1
anche se il dilemma si ripete nel tempo i due prigionieri non riescono
a cooperare.
i due potrebbero accordarsi per cooperare (prima di essere catturati)
con la promessa che in caso uno “devi” (non coopera) l’altro la volta
successiva (o tutte le volte successive) lo “punisce” non cooperando
più
perchè questa strategia non è efficace nel nostro esempio?
[email protected] (email)
http://utenti.dea.univpm.it/politica
10 / 1
Giochi ripetuti all’infinto
In questi casi non è possibile applicare il metodo di backward
induction, perchè non vi è un ultimo stadio
però ora la minaccia di punizione potrebbe essere efficace
Dobbiamo considerare un serie infinita di payoffs (lo stesso payoff, π):
dato che il fattore di sconto è minore di 1 questa serie infinita converge ad
un valore finito
∞
X
δt π = π +
t=0
δ
π
π=
1−δ
1−δ
for δ ∈ [0, 1)
questo perchè
(1 + δ 1 + δ 2 + δ 3 + · · · ) =
[email protected] (email)
http://utenti.dea.univpm.it/politica
1
1−δ
11 / 1
Prisoner’s Dilemma
Ogni periodo t il seguente gioco si ripete:
Sospetto 1
non conf .
confessa
Sospetto 2
non conf . confessa
3, 3
0, 4
4, 0
1, 1
nel caso di gioco ripetuto T volte il SPE è (confessa, confessa)
riusciranno ora i due sospettati ad ottenere il payoff (3,3)?
dobbiamo considerare il payoff “atteso” in caso di cooperazione con il
payoff in caso di “deviazione”
[email protected] (email)
http://utenti.dea.univpm.it/politica
12 / 1
Strategia: consideriamo la seguente strategia per i due giocatori
a t = 0 cooperare (non confessare) e continuare a cooperare se anche
l’altro sospettato coopera (non confessa), ma non appena l’altro non
coopera, non cooperare più (cioè confessare)
In caso di cooperazione ogni agente ottiene il payoff:
V (C ) = 3 + 3δ + 3δ 2 + · · · =
3
1−δ
In caso di deviazione l’agente che devia ottiene:
V (D) = 4 + δ + δ 2 + · · · = 4 +
[email protected] (email)
http://utenti.dea.univpm.it/politica
δ
1−δ
13 / 1
Comparing the two payoffs:
V (C ) ≥ V (D)
⇒
3
1−δ
≥ 4+
δ ≥
δ
1−δ
1
3
i due sospetti cooperano (non confessando) se il fattore di sconto
δ ≥ 13
cioè cooperano se sono sufficientemente pazienti
se tengo ai miei guadagni futuri allora ho interesse a mantenere la
cooperazione e a non deviare (guadagnando di più oggi ma meno
domani)
se danno alcun valore ai payoff futuri (i.e., piccolo δ) allora
preferiscono deviare
[email protected] (email)
http://utenti.dea.univpm.it/politica
14 / 1
la strategia (trigger strategy) che abbiamo visto è un SPE del dilemma del
prigioniero ripetuto un numero infinito di volte
1
quindi la ripetizione permette di superare l’inefficienza (occorre però
pazienza)
2
però questa strategia non è l’unico SPE
(per esempio potete pensare ad una strategia in cui si punisce la
deviazione dell’altro giocatore per un numero finito di volte)
[email protected] (email)
http://utenti.dea.univpm.it/politica
15 / 1