强化学习的发展历程
1956 Bellman提出了动态规划方法
1977 Werbos提出自适应动态规划方法
1988 Sutton提出了TD算法
1992 Watkins提出了Q学习算法
1994 Rummery等提出了SARSA学习算法
1996 Bertsekas等提出了解决随机过程优化控制的神经动态规划方法
1999 Thrun提出了部分可观测马尔科夫决策过程中的蒙特卡罗方法
2006 Kocsis等提出了置信上限树算法
2009 Lewis等提出了反馈控制自适应动态规划算法
2014 Silver等提出确定性策略梯度算法
1