K-armed Bandit Livio Torrero,Olivier Morandi, Pierluigi Rolando,Riccardo Giacomelli K-armed Bandit K slot machines stocastiche (Gaussian) Mean reward Standard deviation 2000 actions per apprendere quale sia la slot machine migliore Come fare? K-armed Bandit Strategie Greedy Scelgo strategia migliore stimata con probabilità 1 Scelgo una strategia tra le altre con probabilità uniforme con probabilità Test-1 Mean rewards statici (Gaussian) Varianza=1 Stima del reward: Qt rN 1 Qt 1 Qt N 1 N 1 Test-1 Test-1 Test-2b (varianza=0) Test-2a (varianza=10) Test-3 Stima del reward Qt 1 Qt LR *rt 1 Qt Test-3a (LR=0.9,variance=0) Test-3b (LR=0.9,variance=10) Test-4 Stima del reward Qt 1 Qt LR *rt 1 Qt All’azione numero 300: I valori dei rewards cambiano Test-4a, (step=0.05) Test-4a (LR=0.1) Test-4a (LR=0.5) Test-4a (LR=0.9) Test-4b (step=0.1) Test-4b (LR=0.1) Test-4c (immediate) Test-4b (LR=0.1) Test-4b (LR=0.9)