这是一组 2000 个随机生成的 k 臂老虎机k = 10 的问题。对于每个强盗问题,动作值, q*(a), a = 1,2 .... 10, 是根据均值为 0 的正态(高斯)分布选择的,并且方差 1. 然后,当应用于该问题的学习方法在时间步长 t 选择动作 At 时, 实际奖励 Rt 选自均值为 q*(At) 且方差为 1 的正态分布。 对于任何学习方法,我们都可以衡量它的性能和行为,因为它随着经验的增加而改进应用于其中一个老虎机问题时的 1000 个时间步。 这构成了一次运行。 重复这个对于 2000 次独立运行,每次运行都有不同的老虎机问题,我们获得了学习的度量算法的平均行为。 我们使用样本平均技术进行动作价值估计,并通过绘制 2000 次模拟的平均奖励来比较贪心算法的结果。 也可以针对非贪婪算法修改代码。
2023-02-27 15:37:31
2KB
matlab
1