pytorch-a2c-ppo-acktr请使用本自述文件中的超级参数。
使用其他超级参数,可能无法正常工作(毕竟是RL)!
这是Advantage Actor Critic(A2C)的PyTorch实现,同步pytorch-a2c-ppo-acktr请使用本自述文件中的超级参数。
使用其他超级参数,可能无法正常工作(毕竟是RL)!
这是Advantage Actor Critic(A2C)的PyTorch实现,这是A3C近端策略优化PPO的同步确定性版本,用于使用Kronecker因子近似ACKTR生成的对抗模仿学习GAIL进行深度强化学习的可扩展信任区域方法另请参阅OpenAI帖子:A2C / ACKTR和PPO获得更多信息
1