上传者: 42109178
|
上传时间: 2021-11-17 21:26:09
|
文件大小: 4.8MB
|
文件类型: -
强化学习算法的实现
强化学习实例
在每个文件中,都有一个jupyter笔记本及其相应的python文件。 笔记本中记录了所有中间过程和绘图的位置,而在python文件中则是可以直接运行的已编译过程。
网格世界
井字游戏
Muilti-Arm强盗
二十一点
悬崖漫步
随机游走(n步TD法)
动态迷宫
DynaMaze实施
DynaMaze扩展实现
随机漫步(一般)
1000状态随机游走
平铺编码
平铺编码实现
山地车
策略功能近似
服务器访问
持续任务的概括
贝尔德计数器示例
非政策学习的普遍化
TD-Lambda
随机游走离线-Lambda
随机游走TD(\ lambda)
山车Lambda
Sarsa-Lambda
策略近似
短走廊