上传者: 42168341 
                                    |
                                    上传时间: 2021-10-06 20:36:32
                                    |
                                    文件大小: 999KB
                                    |
                                    文件类型: -
                                
                            
                                
                            
                                深度模仿学习的语用观察
 模仿学习算法(使用PPO  ):
 美国广播公司
 AIRL
 公元前
 钻头
 童话
 盖尔
 GMMIL
 nn-PUGAIL
 PWIL 
 红色
 python main.py --imitation [AIRL|BC|DRIL|FAIRL|GAIL|GMMIL|PUGAIL|RED]
选项包括:
 仅状态模仿学习: --state-only
 吸收状态指示器 --absorbing
 R1梯度正则化 :-- --r1-reg-coeff 1 (默认值)
结果
PPO
 火车
测试
 航空
火车
测试
 公元前
火车
测试
 钻头
火车
测试
 公平
火车
测试
 盖尔
火车
测试
 吉米
火车
测试
 nn-PUGAIL
 火车
测试
 红色的
火车
测试
 
 致谢
@ikostrikov ( https://github.com/ikostrikov