Actor-Critic方法中的地址函数逼近误差
双延迟深度确定性策略梯度(TD3)的PyTorch实现。 如果您使用我们的代码或数据,请引用。
在连续控制任务上进行了测试。 使用和Python 3.7训练网络。
用法
可以通过运行以下操作来重现论文结果:
./experiments.sh
可以通过调用以下命令来运行单个环境的实验:
python main.py --env HalfCheetah-v2
可以使用main.py的不同参数修改超参数。 我们包括了DDPG(DDPG.py)的实现,本文不使用该实现,以便于将超参数与TD3轻松进行比较。 这不是本文中使用的“ Our DDPG”的实现(请参阅OurDDPG.py)。
可以在找到TD3与之比较的算法(PPO,TRPO,ACKTR,DDPG)。
结果
代码不再完全代表本文中使用的代码。 对超参数等进行细微调整,以提高性能。 学
2022-02-13 21:54:46
121KB
Python
1