Deep-Q-Learning-Deep-SARSA-LunarLander-v2:将深度强化学习算法Deep SARSA和Deep Q-Learning应用于OpenAI Gym的LunarLander-v2-源码

上传者: 42120275 | 上传时间: 2021-11-29 16:39:04 | 文件大小: 10.34MB | 文件类型: -
深度SARSA和深度Q学习-LunarLander-v2 环境 在这个项目中,我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境,其目的是教导登月舱模块安全地着陆在固定在点(0,0)的着陆垫上。该代理具有3个推进器:一个在模块的底部,另一个在模块的每一侧。因此,代理人在每个时间步长都有4种可能的动作可供选择:发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素:发射底部推进器会产生-0.3的奖励,而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上,将获得+100分的奖励,此外,与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时,已达到终端状态。为了检测终端状态,可以提取一个状态向量,该状态向量指示代理的位置,其当前速度和环境着陆标志,以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后,要解决此问题并确定

文件下载

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明