基于间隙的强化学习无监督探索_Gap-Dependent Unsupervised Exploration for Reinforcement Learning.pdf
2022-01-30 09:03:52 821KB cs
这本书是非常新(2017年)的 Multi-Armed Bandit 的学习资料,作者是Aleksandrs Slivkins, MSR 的研究员。多臂赌博机在强化学习和在线学习中有很多的应用。
2021-05-03 18:02:31 781KB MAB Reinfo
1
sutton的强化学习第二版的答案,不确定是否为sutton亲自提供的,仅供参考,还是很有帮助的
2019-12-21 20:04:59 2.27MB Reinfo sutton 第二版 答案
1