Strumenti della Teoria dei Giochi per l’Informatica A.A. 2009/10 Lecture 3: 11 Marzo, 2010 Equilibri di Nash misti Docente Prof. Vincenzo Auletta Note redatte da: Vincenzo De Maio Abstract In questa lezione viene introdotto il concetto di equilibrio di Nash misto e viene enunciato il teorema di Nash. Queste note sono basate sul paragrafo 3.1 di [?] e sui paragrafi 1.3 e 1.4 di [?]. 1 Equilibri di Nash misti Una strategia mista per un giocatore è una distribuzione di probabilità sull’insieme delle sue azioni. Possiamo vedere un gioco strategico con strategie miste come un gioco in cui ogni giocatore ha come azioni possibili ∆(Ai ) = {insieme delle distribuzioni di probabilità su Ai } (un insieme infinito, convesso e compatto) dove le possibili soluzioni sono i profili di strategie miste scelti dagli agenti e l’utilità per ogni soluzione è l’utilità attesa dal giocatore rispetto alla distribuzione di probabilità su A1 × A2 × . . . × An definita dal profilo di strategie. Sia s = (s1 . . . sn ) il profilo di strategie miste dei giocatori. L’utilità attesa dalla strategia S per il giocatore i sarà dunque X Ui (S) = ps (a) · ui (a). a∈A Le scelte casuali degli agenti sono indipendenti e quindi ps (u) = s1 (a1 ) · s2 (a2 ) · . . . · sn (an ). Quindi se il gioco é finito possiamo dire che X Y Ui (S) = ·( sj (aj )) · ui (a). a∈A j Notiamo che ogni equilibrio Nash puro é anche un equilibrio Nash misto dove ogni giocatore gioca la strategia degenere ei (ai ) che assegna probabilità pari a 1 all’azione ai e 0 a tutte le altre. Riconsideriamo ora il gioco Battle of Sexes visto nella lezione precedente e diamo un’intuizione di come fare a trovare gli equilibri di Nash misti. Esempio 1: Battle of sexes Richiamiamo per comodità la matrice dei payoff del gioco: B S B 5, 6 2, 2 S 1, 1 6, 5 Si dice supporto di una strategia si l’insieme degli ak ∈ Ai tali che si (ak ) > 0. Sia S = (s1 . . . s2 ) un equilibrio Nash. Possiamo vedere che ogni azione ak che si trova nel supporto della strategia si 1 2 Lecture 3: Equilibri di Nash misti deve essere una best-response a S−i , altrimenti il giocatore potrebbe modificare la sua strategia mista diminuendo la probabilità di giocare ak e ottenendo ottenendo in questo modo un’utilità attesa più alta. Ma, se tutte le strategie nel supporto sono best-response allora devono fornire tutte la stessa utilità attesa. Possiamo usare questa proprietà per trovare gli equilibri di Nash misti del gioco. Sia S = (p, q) un Equilibrio Nash misto e supponiamo che le azioni possibili per i due giocatori siano A1 = (a1 , a2 ) e A2 = (b1 , b2 ). Se il supporto della strategia p è (a1 , a2 ) allora u1 (e(a1 ), q) = u1 (e(a2 ), q), dove e(ai ) è la distribuzione degenere che assegna probabilità 1 all’azione ai e 0 a tutte le altre azioni, e quindi q(b1 ) · u1 (a1 , b1 ) + q(b2 )u1 (a1 , b2 ) = q(b1 )u1 (u2 , b1 ) + q(b2 ) · u1 (a2 , b2 ). Applichiamolo la precedente osservazione a Battle of Sexes utilizzando la matrice dei payoff data in precedenza. Sia S = (p, q) un equilibrio di Nash misto senza strategie degeneri. Allora la condizione sull’uguaglianza delle utilità ottenute dalle azioni nel supporto implica che q(B) · u1 (BB) + q(S) · u1 (BS) = q(B) · u1 (SB) + q(S)u1 (SS) da cui abbiamo che 5q(B) + q(S) = 2q(B) + 6q(S) . Inoltre, poiché q(·) è una distribuzione di probabilità abbiamo che q(S)+q(B) = 1. Risolvendo il sistema lineare otteniamo che q(B) = 85 e q(5) 38 . Analogamente, per il giocatore 2 abbiamo che p(B)u2 (BB) + q(S)u2 (SB) = p(B)u2 (BS) + p(S)u2 (SS) da cui otteniamo 5p(B) + 2p(S) = p(B) + 5p(S). Imponendo che p(·) sia una distribuzione di probabilità otteniamo che p(B) = Quindi (( 37 , 74 ), ( 58 , 38 )) é l’unico equilibrio di Nash misto per questo gioco. 3 7 e p(S) = 47 . Gli equilibri di Nash misti non esistono sempre, ma Nash, nel 1951, ha provato il seguente teorema: Teorema 1.1 (Teorema di Nash) Ogni gioco con un numero finito di giocatori che hanno un insieme finito di azioni possibili ha un equilibrio Nash misto. La dimostrazione originale é esistenziale e basata sul teorema del punto fisso di Kakutani. Consideriamo la funzione Bi : A 7→ 2A tale che ad ogni outcome a = (a1 . . . an ) associa l’insieme delle strategie che sono best response per i al profilo di strategie a−i . Allora un profilo di strategie (a1 . . . an ) ∈ A é un equilibrio Nash se ∀i, ai ∈ Bi (a). Se riscriviamo queste limitazioni in forma vettoriale possiamo dire che a ∈ B(a) che equivale a dire che è un punto fisso per la trasformazione B. La dimostrazione di Nash è basata sul teorema de punto fisso di Kakutani che stabilisce l’esistenza di un punto fisso per Bi se • A ⊂ <n é convesso e compatto • ∀a ∈ A, B(a) é non vuoto e convesso. Lecture 3: Equilibri di Nash misti 3 • ∀ {an } e {bn } tali che bn = B(an ) an → a e bn → b B(a) = b Nash ha provato che il dominio A dei profili di strategie é convesso e compatto e dimostrato che la best response function B soddisfa le altre proprietà. Molte altre prove del Teorema di Nash sono state fornite, alcune anche costruttive, basate su diverse versioni del teorema del punto fisso come, ad esempio, quella di Brouwer. In particolare, la prova costruttiva fornita dimostra che esistono giochi per cui é necessario tempo esponenziale per trovare il punto fisso della funzione. Entrambe le condizioni di finitezza sono essenziali per provare il teorema di Nash. Il prossimo esempio mostra un semplice gioco in cui ci sono due giocatori che però hanno insieme di azioni ammissibili infinito e mostra che non esiste nessun equilibrio Nash. Esempio 2: Pricing game Abbiamo due venditori: Ogni venditore Si può vendere i suoi prodotti solo ai clienti collegati a lui collegati. Ogni acquirente vuole acquistare solo 1 unità e può spendere al più 1. Ogni venditore i fissa il prezzo pi per tutti i suoi clienti e i clienti scelgono di rifornirsi dal venditore che fa il prezzo più basso (assumiamo che in caso di parità scelgono S1 ). Per semplicità dimostriamo solo che questo gioco non ammette equilibri Nash puri (la dimostrazione della non esistenza di equilibri Nash misti è tecnicamente molto più complessa). Sia (p1 , p2 ) una soluzione e supponiamo che 21 < p1 ≤ 1. Osserviamo che se 21 < p2 < p1 < 1 allora u1 (p1 , p2 ) = p1 < 1 mentre fissando un prezzo p01 tale che 12 < p01 < p2 il giocatore 1 otterrebbe u1 (p01 , p2 ) = 2p01 > 1. Quindi, p1 > 12 non può essere in equilibrio. Se, invece, 0 < p1 ≤ 21 e p2 = 1 abbiamo che u1 (p1 , p2 ) = 2p1 ≤ 1. Ma il giocatore 1 scegliendo 1 > p01 > 21 otterrebbe u1 (p01 , p2 ) = 2p01 > 1 e quindi anche p1 ≤ 12 non è una strategia in equilibrio. Quindi non esiste nessun equilibrio Nash puro. 2 Calcolo di equilibri Nash in giochi a somma zero Vediamo ora come sia possibile fornire un algoritmo per il calcolo di equilibri di Nash misti per giochi a somma zero. In questi giochi non esiste una soluzione che sia positiva per entrambi i giocatori, ma tipicamente la vittoria di un giocatore coincide con la sconfitta dell’altro, Più formalmente, per ogni profilo di strategie s vale che u1 (s) = −u2 (s) (esempio: Matching Pennies, lezione precedente). Indichiamo con A la matrice dei payoff del gioco. Dal teorema di Nash sappiamo che se il gioco é finito esiste un equilibrio di Nash misto. Sia (p∗ , q ∗ ) un tale equilibrio di Nash e sia v ∗ = u1 (p∗ , q ∗ ) il valore del gioco. Il giocatore riga può ragionare in questa maniera: se io gioco la strategia p, allora il mio avversario risponderà con la sua best response che minimizzerà il mio guadagno. Quindi devo giocare la strategia che massimizza questo minimo guadagno garantito, definito come max · min u1 (p, q) p∈∆(A1 ) q∈∆(A2 ) Il problema del giocatore 1 può essere formulato come un problema di programmazione lineare nel modo seguente: 4 Lecture 3: Equilibri di Nash misti vr = max v ∀j j ≥v (pA) P pi = 1 pi ≥ 0 ∀i dove (pA)j rappresenta quanto guadagnerebbe il giocatore 1 giocando la strategia p se il suo avversario giocasse la strategia j. Osserviamo che v r ≤ v r perché altrimenti il giocatore sarebbe portato a cambiare la strategia p∗ per ottenere un guadagno garantito superiore; inoltre, v r ≥ v ∗ perché se esistesse una strategia che ottiene un valore v ∗ > v r e tale che al giocatore 2 non conviene cambiare strategia allora questa sarebbe stata restituita come soluzione del problema di programmazione lineare. Quindi, possiamo concludere che v r = v ∗ e risolvendo il nostro problema PL scopriamo p∗ . Analogamente, l’avversario cercherà di minimizzare il guadagno ottenuto dal giocatore 1 in modo da minimizzare la sua perdita, quindi min · max u2 (p, q) = −u1 (p, q) q∈∆(A2 ) p∈∆(A1 ) Come prima, il problema può essere formulato come un problema di programmazione lineare vc = min v i ≤v (Aq) P qi = 1 qj ≥ 0 ∀j ∀i Come prima, possiamo provare che v c = v ∗ = v r . Questo risultato è noto come Teorema del minmax (Von Neumann - Borgenstern) e può essere usato come prova costruttiva dell’esistenza di un equilibrio Nash misto per questa classe di giochi. L’algoritmo risolve il problema del giocatore 1 per trovare la strategia in equilibrio del giocatore 2 e viceversa.