PyTorch-ActorCriticRL:DDPG算法的PyTorch实现用于连续动作强化学习问题-源码

上传者: 42166918 | 上传时间: 2021-09-09 16:40:34 | 文件大小: 6KB | 文件类型: ZIP
PyTorch-ActorCriticRL PyTorch实现的连续动作actor-critic算法。 该算法使用DeepMind的深度确定性策略梯度方法更新演员和评论者网络,并使用过程在使用确定性策略的同时在连续动作空间中进行探索。 DDPG 是一种策略梯度算法,它使用随机行为策略进行探索(在这种情况下为Ornstein-Uhlenbeck)并输出确定性目标策略,该策略更易于学习。 政策估算(演员) Actor网络由一个三层神经网络组成,该神经网络将状态输入,并输出应由Pi表示的动作(a ) 。 政策评估(严重) 批判网络由一个三层神经网络组成,该神经网络将状态(s)和相应的动作(a)输入,并输出由Q(s,a)表示的状态动作值函数。 演员优化 通过最小化损耗来优化策略:-和(-Q(s,a)) 。 批判性优化 通过最小化损耗来优化评论者:-L2 (r + gamma * Q(s1,

文件下载

资源详情

[{"title":"( 6 个子文件 6KB ) PyTorch-ActorCriticRL:DDPG算法的PyTorch实现用于连续动作强化学习问题-源码","children":[{"title":"PyTorch-ActorCriticRL-master","children":[{"title":"main.py <span style='color:#111;'> 1.64KB </span>","children":null,"spread":false},{"title":"utils.py <span style='color:#111;'> 1.91KB </span>","children":null,"spread":false},{"title":"train.py <span style='color:#111;'> 4.30KB </span>","children":null,"spread":false},{"title":"buffer.py <span style='color:#111;'> 1.01KB </span>","children":null,"spread":false},{"title":"model.py <span style='color:#111;'> 2.76KB </span>","children":null,"spread":false},{"title":"README.md <span style='color:#111;'> 2.49KB </span>","children":null,"spread":false}],"spread":true}],"spread":true}]

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明