深度Q学习
在OpenAI Gym上测试了具有基本或双重q-learning训练算法的深度q-networn,对决q-network的实现。
先决条件
该项目是使用Python 3.5和Tensorflow(通过tensorflow-gpu 1.2.1测试)实现的。 可用的环境来自OpenAi Gym。 要安装健身房,请访问 。
要工作需要来自atari_wrappers.py
训练网络
使用train.py模块执行网络培训。 它要求将要学习的体育馆环境作为参数。 可选地,可以指定要使用的网络类型和学习算法。 可以使用--checkpoint参数提供网络权重,使用--training_info参数提供培训状态(例如,当前步骤,总步骤,体验重播缓冲区数据)从检查点重新开始培训。 通过使用--checkpoint_step,可以指定保存检查点的步骤数。
python train.py --
2022-09-04 11:47:40
9KB
Python
1