Equilibri Correlati e Bayesian Games

Strumenti della Teoria dei Giochi per l’Informatica
A.A. 2009/10
Lecture 4: Ottobre 2010
Equilibri Correlati, Bayesian Games
Docente Prof. Vincenzo Auletta
1
Note redatte da: Michele Nasti
Equilibri Correlati
Gli equilibri correlat sono un concetto di soluzione introdotto da Robert Aumann nel 1974 come
generalizzazione del concetto di Equilibrio Nash. L’idea è che ogni giocatore sceglie la sua azione
in accordo all’osservazione di un segnale fornito da un dispositivo di correlazione (tale segnale
potrebbe anche essere differente da giocatore a giocatore). Sulla base del segnale osservato e
ragionando strategicamente sui segnali che gli altri giocatori potrebbero aver ricevuto, il giocatore
sceglie la propria azione.
Una soluzione è un equilibrio correlato se ogni giocatore ritiene conveniente non deviare dalla strategia suggerita dal dispositivo di correlazione sotto l’ipotesi che gli altri giocatori non
devieranno.
Per spiegarci, consideriamo una versione del gioco BoS che abbiamo visto nelle precedenti lezioni
in cui introduciamo un dispositivo di correlazione che è il tempo metereologico: se c’è il sole a
entrambi i giocatori verrà suggerito di andare alla partita, se piove di andare a fare shopping. In
questo caso la strategia di andare alla partita se c’è il sole e a fare shopping se piove è chiaramente
un equilibrio.
Il tempo è un dispositivo pubblico comune che invia lo stesso segnale a tutti i giocatori e per
questo è il più semplice dei dispositivi di correlazione. In generale, il dispositivo potrebbe inviare
segnali diversi ai giocatori e un giocatore potrebbe non essere in grado di risalire con certezza dal
segnale ricevuto al segnale ricevuto dagli altri giocatori ma ne avrebbe solo una conoscenza parziale (ossia una distribuzione di probabilità sui suggerimenti che potrebbero essere stati dati agli
altri giocatori) e cerca di ottimizzare la sua scelta rispetto a queste distribuzioni di probabilità.
Formalmente, un equilibrio correlato di un gioco strategico G = ([u], (Ai ), (ui )) consiste
di:
• una distribuzione di probabilità congiunta π sull’insieme di tutti i possibili stati del gioco
Ω;
• ∀ giocatore i, una partizione Pi di Ω che, dato lo stato del gioco, suggerisce un azione al
giocatore i;
• ∀ giocatore i, una funzione σi : Ω → Ai tale che ∀ω, ω 0 ∈ Ω se ω,ω 0 ∈ Pi , con Pi ∈ Pi ,
allora σi (ω) = σi (ω 0 ) e tale che per ogni altra funzione τi : Ω → A diversa da σi ma con le
stesse proprietà,
X
X
π(ω) · ui (σi (ω), σ−i (ω)) ≥
π(ω) · ui (τi (ω), σ−i (ω))
ω∈Ω
ω∈Ω
1
Lecture 4: Equilibri Correlati, Bayesian Games
2
In pratica, il dispositivo di correlazione sceglie uno stato ω rispetto a π e suggerisce ad ogni
giocatore idi giocare σi (ω). Il giocatore può, conoscendo π e σi (ω), farsi un’idea di quali suggerimenti siano stati dati agli altri giocatori e verificare se, nell’ipotesi che gli altri seguiranno il
suggerimento ricevuto, a lui conviene cambiare.
Notiamo che nella nostra definizione abbiamo assunto che il segnale ricevuto da un giocatore è
l’indicazione dell’azione da scegliere. Questa ipotesi è senza perdita di generalità perchè si può
dimostrare che, per ogni equilibrio correlato in cui i segnali ricevuti non coincidano con le azioni,
se ne può trovare uno equivalente in cui segnali e azioni coincidono.
Chiaramente i N.E. (Nash Equilibrium) sono casi particolari di C.E. (Correlated Equilibrium)
dove il segnale ricevuto dal giocatore i non fornisce nessuna informazione sui segnali ricevuti dagli
altri, e la distribuzione π è data dalla produttoria delle strategie miste scelte indipendentemente
dai giocatori.
Vediamo ora quali sono i C.E. del gioco BoS. Abbiamo già visto che questo gioco ha due N.E.
pari ad ((1, 0), (1, 0)) e ((0, 1), (0, 1)) ed uno misto (( 73 , 47 ), ( 58 , 38 )). A questi possiamo aggiungere
il C.E.
1
2 0
0 12
in cui ad ogni giocatore viene suggerito di scegliere B o S con probabilità 12 . Poichè i giocatori
sanno che ad entrambi è stato dato lo stesso suggerimento allora capiscono che è nel loro interesse
accettarlo.
Osserviamo che mentre i due equilibri puri hanno profili di payoff (2, 1) e (1, 2) e quello misto
ha profilo ( 32 , 23 ), in quello correlato il profilo è ( 23 , 32 ), quindi la somma delle utilità attese dei
giocatori è massima e questa utilità è divisa equamente tra i giocatori.
È facile osservare che:
1. Ogni gioco ha almeno un C.E.
2. Ogni combinazione lineare convessa di C.E. è un C.E.
3. Ogni C.E. che può essere ottenuto come d.d.p (distribuzione di probabilità) sull’insieme
degli outcome può essere ottenuto come d.d.p. sull’insieme delle azioni.
Esempio 1 (Traffic Lights) Due automobili si incontrano ad un incrocio non regolato da semafori. Ogni automobile deve decidere se passare o non passare. Se passano entrambe probabilmente ci sarà un incidente, e questo è indicato con un costo negativo −100. Se Una passa e
l’altra aspetta, la prima guadagna 1 mentre l’altra ottiene 0. Infine, se nessuna passa entrambe
ottengono un guadagno −1.
La matrice dei payoff è
P
N
P
(−100, −100)
(0, 1)
N
(1, 0)
(−1, −1)
Vi sono Due N.E. puri, ossia (P,N) e (N,P) con una expected utility pari a 1. Vi è un N.E. misto
1 50
1 50
(( 51
, 51 ), ( 51
, 51 )) con un’expected utility di − 10202
2001 .
Lecture 4: Equilibri Correlati, Bayesian Games
3
Esiste un C.E.
P
N
P
0
1
3
N
1
3
1
3
con un’expected utility pari a 0.
2
Bayesian Games: giochi con informazione imperfetta
Fino ad ora abbiamo sempre studiato giochi con informazione perfetta, in cui ogni giocatore
conosce le sue strategie, gli avversari, le loro strategie e i loro payoff. Molto spesso, però, ci
troviamo a dover modellare situazioni in cui alcuni giocatori non hanno una conoscenza totale
delle caratteristiche degli altri giocatori (per esempio hanno una conoscenza parziale delle funzioni
utilità dei competitori).
I Bayesian Games sono un modello introdotto da Harsanij per modellare giochi con informazione imperfetta. Il modello introdotto da Harsanij è simile ad un gioco strategico ma introduce
un nuovo giocatore, la Natura, le cui mosse rappresentano i possibili stati del gioco in modo tale
che l’incertezza dei giocatori (di qualunque tipo sia) è modellata come incertezza sulle mosse
delle Natura.
Sia Ω l’insieme degli “stati” che può assumere la natura (assumiamo Ω finito) e sia pi (ω) la stima
a priori che il giocatore i ha sullo stato di natura ω ( pi (ω) è la probabilità con cui i pensa che
la natura assumerà lo stato ω).
In ogni partita la Natura sceglie lo stato che vuole assumere ed invia ad ogni giocatore un segnale,
calcolato tramite la funzione τi (ω), che il giocatore può utilizzare per scegliere le proprie strategie.
Sia T l’insieme dei possibili segnali (tipi) che il giocatore può osservare e supponiamo che ∀t ∈ T
pi (τ −1 (t)) > 0 (la probabilità assegnata da i all’insieme degli stati di natura che generano il
segnale t è positiva).
Sulla base del segnale ti osservato, il giocatore deduce che lo stato scelto dalla natura è nell’insieme τi−1 (ti ) e, utilizzando la formula di Bayes, si costruisce una probabilità a-posteriori p0i (ω)
di ogni stato di natura
(
0 se ω 6∈ τi−1 (ti )
p0i (ω) =
pi (ω)
se ω ∈ τi−1 (ti )
p (τ −1 (t ))
i
i
i
Si noti che se il giocatore ha informazione perfetta sulla natura allora pi (τi−1 (ti )) = pi (ω) e
p0i (ω) = 1, cioè il giocatore sa con certezza lo stato scelto della Natura. Alternativamente, se
Ω = (T1 × T2 × . . . × Tn ) e τi (ω) = ωi , il giocatore non ricava nessuna informazione sullo stato
della natura dal segnale ricevuto.
Si noti che la parziale conoscenza dello stato di natura implica che, anche se un giocatore conoscesse le strategie giocate da ogni altro giocatore in ogni stato di natura, rimarrebbe comunque
l’incertezza sullo stato di natura e quindi il giocatore deve comunque avere una relazione di
preferenza sulle distribuzioni di probabilità su (A1 × A2 × . . . × An × Ω).
In definitiva un Bayesian Game è dato da:
1. un insieme finito di giocatori
2. ∀ giocatore i, un insieme finito Ti di segnali che può ricevere e una funzione τi : Ω → Ti
che determina il segnale ricevuto in base allo stato di natura
Lecture 4: Equilibri Correlati, Bayesian Games
4
3. una distribuzione di probabilità pi su Ω (valutazione a priori) per cui ∀ti ∈ Ti , pi (τi−1 (ti )) >
0
4. una relazione di preferenza su tutte le distribuzioni di probabilità su (A1 ×A2 ×. . .×An ×Ω).
Si noti che questa definizione consente ai giocatori di avere valutazioni a-priori differenti (quella
originale di Harsanij invece diceva che le valutazioni a-priori erano uguali per tutti i giocatori).
Un Bayesian Game può essere usato per modellare sia situazioni in cui un giocatore non è sicuro
dei payoff dei suoi avversari che quelle in cui non è sicuro della loro conoscenza.
Veniamo alla definizione di equilibrio in un Bayesian game. Si noti che la scelta della migliore
azione di un giocatore, dato il segnale ricevuto, può dipendere dallo stato di natura in cui ci
troviamo e dalle informazioni che gli altri giocatori hanno, ed entrambe queste informazioni sono
imperfette.
Per definire un equilibrio Nash nel Bayesian Game
G = (N , Ω, (Ai ), (Ti ), (τi ), (pi ), (i ))
definiamo un nuovo gioco strategico G∗ in cui c’è un giocatore (i, ti ) per ogni coppia giocatore i e
segnale ti ricevuto nel gioco originale. Il giocatore i∗ = (i, ti ) ha l’insieme di azioni Ai e relazioni
di preferenza a ∗i b (∀a, b ∈ A1 × . . . × An ) se e soltanto se Li (a, ti ) i Li (b, ti ) nel gioco
originario, dove Li (a, ti ) è la lotteria (distribuzione di probabilità) su (A1 × A2 × . . . × An × Ω)
(ω)
che assegna ad (aj , τj (ω)) probabilità p (τpi−1
se ω ∈ τi−1 (ti ), e 0 altrimenti.
(t ))
i
i
i
Una soluzione del Bayesian game è un equilibrio se la stessa soluzione è un N.E. nel corrispondente
gioco strategico, in altre parole nel Bayesian Game ogni giocatore sceglie la migliore azione
possibile dato il segnale che ha ricevuto e la valutazione a-priori degli stati di natura.
Esempio 2 (Asta di Secondo Prezzo) Consideriamo una variante del classico problema dell’asta in cui ogni giocatore conosce la sua valutazione ma è incerto sulle valutazioni degli altri.
In particolare, assumiamo che le valutazioni sono estratte a caso dall’insieme V .
Modelliamo questa situazione come un Bayesian game:
• N = 1, ..., n
• Ω=Vn
• Ai = [0, ∞)
• Ti = V e τi (v1 . . . vn ) = vi (l’agente conosce solo la sua valutazione)
Q
• pi (v1 . . . vn ) = nj=1 π(vj ) per una qualche distribuzione π su V , comune a tutti i giocatori.
• sia
Xi (a1 . . . an , v1 . . . vn ) =
vi − max ai se i vince
0 altrimenti
ui (a1 . . . an , v1 . . . vn ) = Epi [Xi ]
Il corrispondente gioco strategico ha
• N = (i, ti ), ∀i ∈ N e ti ∈ V
Lecture 4: Equilibri Correlati, Bayesian Games
5
• A(a, ti ) = Ai
• u(i,ti ) (a) = E[ui (a, vi , v−i )]
È possibile far vedere che il gioco ha una soluzione con strategie dominanti dove a∗ (i, vi ) = vi .
Esercizio 1 (BoS con informazione imperfetta) Com in BoS, ma ogni giocatore non sa se
l’altro preferisce B o S. Le preferenze dei giocatori sono date dai payoff attesi dove la matrice dei
payoff è
B
(2, 1)
(0, 0)
B
S
S
(0, 0)
(1, 2)
Modellare come un Bayesian Game e trovare i N.E.
N = {1, 2}
Ω = {(BB), (BS), (SB), (SS)}, dove (XY ) significa che 1 preferisce X e 2 preferisce Y.
Ai = {B, S} = Ti
τi (ω) = ωi - il giocatore i sa solo cosa preferisce lui.
pi (ω) :
se ωi = B ⇒ u1 ((B, B), ω) = 2
u1 (S, S), ω) = 1
u1 (B, S), ω) = u1 (S, B), ω) = 0
se ωi = S ⇒ u1 ((S, S), ω) = 2
u1 (B, B), ω) = 1
u1 (B, S), ω) = u1 (S, B), ω) = 0
Il ragionamento è analogo per il giocatore 2.
Nel gioco strategico corrispondente ci sono due NE in cui tutti i giocatori giocano con la stessa
strategia, qualunque sia pi (· ). In funzione di pi (· ) però ci possono essere anche degli equilibri in
cui i due giocatori non si coordinano. Per esempio sia
px =
p1 (x, x)
p1 (x, b) + p1 (x, s)
qx =
p2 (x, x)
p2 (x, b) + p2 (x, s)
(probabilità che l’altro giocatore abbia la mia stessa preferenza).
Se px ≥ 31 e qx ≥ 13 e x = B allora l’outcome in cui ognuno sceglie l’oggetto preferito è un
equilibrio.
Infatti
2px
a=B
u(i,x) (a, b) =
1 − px a = S
anche se lo stato del gioco è (BS) o (SB).