离线强化学习的乐观观点(ICML,2020年)
该项目使用框架提供开放源代码实施,以运行提到的实验。 在这项工作中,我们使用DQN代理的记录的经验在脱机设置(即 )中训练非策略代理(如下所示),而在训练过程中不与环境进行任何新的交互。 有关项目页面,请参考 。
如何在50M数据集上训练脱机代理而没有RAM错误?
请参阅 。
DQN重播数据集(记录的DQN数据)
DQN重播数据集的收集方式如下:我们首先在60款训练代理,并为2亿帧(标准协议)启用了,并保存(观察,动作,奖励,下一个)的所有体验元组。观察) (约5000万)。
可以在公共gs://atari-replay-datasets中找到此记录的DQN数据,可以使用下载。 要安装gsutil,请按照的说明进行操作。
安装gsutil之后,运行命令以复制整个数据集:
gsutil -m cp -R gs://atari-rep
2021-07-07 20:36:41
63KB
Python
1