中心差分法的MATLAB代码MATLAB中的时差学习演示
在此软件包中,您将找到MATLAB代码,这些代码演示了预测问题和强化学习中的时差学习方法的一些选定示例。
开始:
运行DemoGUI.m
从一组预定义的演示开始:选择一个演示并按Go
修改演示:选择预定义的演示之一,然后修改选项
随意分发或使用软件包,特别是出于教育目的。
我个人从徒步旅行中学到了很多东西。
软件包的存储库位于。
为什么时间差异学习很重要
RS
Sutton和AG
Barto从他们的书《强化学习入门》
()引述:
如果必须将一种思想确定为强化学习的核心和新颖性,那么毫无疑问,这将是时差(TD)学习。
本质上,许多基本的强化学习算法(例如Q层和SARSA)都是时差学习方法。
演示版
Prediciton随机游走:了解我们可以多么精确地预测访问节点的概率
RL随机游走:了解RL生成的随机游走策略如何收敛计算的概率。
简单的网格世界(有或没有国王移动)
:了解RL产生的政策如何帮助代理人随时间推移找到目标(通过国王移动,这意味着沿着四个主要方向和对角线移动,即国王在国际象棋中移动的方式)。
有风的网格世界:风将代理商从
2021-12-23 08:23:13
34KB
系统开源
1