上传者: 42168341
|
上传时间: 2021-10-06 20:36:32
|
文件大小: 999KB
|
文件类型: -
深度模仿学习的语用观察
模仿学习算法(使用PPO ):
美国广播公司
AIRL
公元前
钻头
童话
盖尔
GMMIL
nn-PUGAIL
PWIL
红色
python main.py --imitation [AIRL|BC|DRIL|FAIRL|GAIL|GMMIL|PUGAIL|RED]
选项包括:
仅状态模仿学习: --state-only
吸收状态指示器 --absorbing
R1梯度正则化 :-- --r1-reg-coeff 1 (默认值)
结果
PPO
火车
测试
航空
火车
测试
公元前
火车
测试
钻头
火车
测试
公平
火车
测试
盖尔
火车
测试
吉米
火车
测试
nn-PUGAIL
火车
测试
红色的
火车
测试
致谢
@ikostrikov ( https://github.com/ikostrikov