Deep-Q-Learning-Deep-SARSA-LunarLander-v2:将深度强化学习算法Deep SARSA和Deep Q-Learning应用于OpenAI Gym的LunarLander-v2-源码

machine-learning reinforcement-learning machine-learning-algorithms deep-reinforcement-learning

深度SARSA和深度Q学习-LunarLander-v2 环境在这个项目中，我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境，其目的是教导登月舱模块安全地着陆在固定在点（0,0）的着陆垫上。该代理具有3个推进器：一个在模块的底部，另一个在模块的每一侧。因此，代理人在每个时间步长都有4种可能的动作可供选择：发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素：发射底部推进器会产生-0.3的奖励，而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上，将获得+100分的奖励，此外，与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时，已达到终端状态。为了检测终端状态，可以提取一个状态向量，该状态向量指示代理的位置，其当前速度和环境着陆标志，以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后，要解决此问题并确定

文件下载

评论信息

其他资源

免责申明

【只为小站】的资源来自网友分享，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，【只为小站】无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论【只为小站】经营者是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二条之规定，若资源存在侵权或相关问题请联系本站客服人员，zhiweidada#qq.com，请把#换成@，本站将给予最大的支持与配合，做到及时反馈和处理。关于更多版权及免责申明参见版权及免责申明

Deep-Q-Learning-Deep-SARSA-LunarLander-v2:将深度强化学习算法Deep SARSA和Deep Q-Learning应用于OpenAI Gym的LunarLander-v2-源码

文件下载

评论信息

其他资源

免责申明

个人信息

相关资源标签

热门下载

最新下载