pytorch-trpo
PyTorch实施香草政策梯度,截断的自然政策梯度,信任区政策优化,近端政策优化
火车
算法:PG,NPG,TRPO,PPO
env :Ant-v2,HalfCheetah-v2,Hopper-v2,Humanoid-v2,HumanoidStandup-v2,InvertedPendulum-v2,Reacher-v2,Swimmer-v2,Walker2d-v2
python train.py --algorithm "algorithm name" --env "environment name"
参考
此代码是代码的修改版本
2022-08-10 18:13:52
10KB
Python
1