上传者: 42200791
|
上传时间: 2021-10-27 22:50:44
|
文件大小: 1001KB
|
文件类型: -
强化学习的发展历程
1956 Bellman提出了动态规划方法
1977 Werbos提出自适应动态规划方法
1988 Sutton提出了TD算法
1992 Watkins提出了Q学习算法
1994 Rummery等提出了SARSA学习算法
1996 Bertsekas等提出了解决随机过程优化控制的神经动态规划方法
1999 Thrun提出了部分可观测马尔科夫决策过程中的蒙特卡罗方法
2006 Kocsis等提出了置信上限树算法
2009 Lewis等提出了反馈控制自适应动态规划算法
2014 Silver等提出确定性策略梯度算法