[PYTORCH]玩超级马里奥兄弟的近战策略优化(PPO)
介绍
这是我的python源代码,用于训练特工玩超级马里奥兄弟。 通过使用纸张近端策略优化算法推出近端政策优化(PPO)算法。
说到性能,我经过PPO培训的代理可以完成29/32个级别,这比我一开始的预期要好得多。
供您参考,PPO是OpenAI提出的算法,用于训练OpenAI Five,这是第一款在电竞游戏中击败世界冠军的AI。 具体而言,OpenAI五人队在2018年8月派出了一支由MMR排名的脚轮和前职业球员组成的团队,在Dota 2玩家的99.95%中排名。
样品结果
动机
自从我发布我的A3C实现( )
1