K-armed Bandit
Livio Torrero,Olivier Morandi, Pierluigi
Rolando,Riccardo Giacomelli
K-armed Bandit

K slot machines stocastiche (Gaussian)
Mean reward
 Standard deviation

2000 actions per apprendere quale sia la
slot machine migliore
 Come fare?

K-armed Bandit

Strategie

 Greedy
Scelgo strategia migliore stimata con
probabilità 1  
 Scelgo una strategia tra le altre con
probabilità uniforme con probabilità 

Test-1
Mean rewards statici (Gaussian)
 Varianza=1
 Stima del reward:

Qt
rN 1
Qt 1  Qt 

N 1 N 1
Test-1
Test-1
Test-2b (varianza=0)
Test-2a (varianza=10)
Test-3

Stima del reward
Qt 1  Qt  LR *rt 1  Qt 
Test-3a (LR=0.9,variance=0)
Test-3b (LR=0.9,variance=10)
Test-4

Stima del reward
Qt 1  Qt  LR *rt 1  Qt 

All’azione numero 300:

I valori dei rewards cambiano
Test-4a, (step=0.05)
Test-4a (LR=0.1)
Test-4a (LR=0.5)
Test-4a (LR=0.9)
Test-4b (step=0.1)
Test-4b (LR=0.1)
Test-4c (immediate)
Test-4b (LR=0.1)
Test-4b (LR=0.9)