CS 294-112作业(2017年秋季提供)
这是我为做作业的github(于2017年秋季提供)。 我远程讲授了这门课程(使用讲义和视频),并实施了作业的编码部分。 以下是我为每个作业分配的内容简介。
免责声明:此代码仅用于教育目的。 参加本课程当前迭代的学生应避免复制此代码,因为这会破坏学术诚信并妨碍他们自己的教育。
依存关系
Gym 0.9.5用于作业3。
请注意,在本课程中,其中一些依赖项尚未发布。 此外,已修改了入门代码,以反映OpenAI Gym文档中的更改。
作业1
到目前为止,该课程涵盖了更基本的监督学习。 我实现了BC(行为克隆)和DAgger(数据集聚合),这(略有改善)了结果。 我还尝试了各种超参数。
作业2
我实现了策略梯度算法,并在各种环境下进行了一些测试。 我玩了超参数,发现我的实现使代理的奖励收敛到理论值。 我还实施了GAE(广义优势估算)并比
1