PyTorch-ActorCriticRL PyTorch实现的连续动作actor-critic算法。 该算法使用DeepMind的深度确定性策略梯度方法更新演员和评论者网络,并使用过程在使用确定性策略的同时在连续动作空间中进行探索。 DDPG 是一种策略梯度算法,它使用随机行为策略进行探索(在这种情况下为Ornstein-Uhlenbeck)并输出确定性目标策略,该策略更易于学习。 政策估算(演员) Actor网络由一个三层神经网络组成,该神经网络将状态输入,并输出应由Pi表示的动作(a ) 。 政策评估(严重) 批判网络由一个三层神经网络组成,该神经网络将状态(s)和相应的动作(a)输入,并输出由Q(s,a)表示的状态动作值函数。 演员优化 通过最小化损耗来优化策略:-和(-Q(s,a)) 。 批判性优化 通过最小化损耗来优化评论者:-L2 (r + gamma * Q(s1,
2021-09-09 16:40:34 6KB Python
1
Feedback DDPG with Fuzzy Reward for Robotic Assembly.pdf
2021-09-09 09:11:30 2.74MB 机器人
1
#6.2_DDPG_(Deep_Deterministic_Policy_Gradient)_(强化学习_Reinforceme
2021-09-01 21:00:29 44.8MB 学习资源
概括: * 此代码随附于题为“阀门控制的强化学习”的论文https://doi.org/10.1016/j.mlwa.2021.100030 * 该论文探讨了 RL 对非线性系统的优化控制* 平台:MATLAB 的强化学习工具箱(R2019a 版)和 Simulink * 运行 `main.m` 以执行测试运行以确保代码正常工作。 它依次运行4个代码文件。 它将训练一个只有 100 集的代理,将其存储在 `\results` 文件夹中,根据 PID 对其进行验证,执行稳定性分析(在现有的传递函数数据文件上,存储在 `\data` 文件夹中)并生成绘图和将它们存储在\ results文件夹中。 #### 训练 RL 控制器: * `code_DDPG_Training.m`:使用DDPG以分阶段方式训练代理的训练代码。 使用 sm_DDPG_Training_Circuit.slx。 该
2021-08-30 10:55:08 5.86MB matlab
1
DDPG-PID强化学习算法, 水下机器人姿态控制, python程序, pytorch,
2021-08-29 20:03:06 10KB DDPG-PID 姿态控制 python
DDPG强化学习算法, 姿态控制, python代码
2021-08-29 20:03:04 10KB DDPG 姿态控制 python代码
深度强化学习算法 该存储库将使用PyTorch实现经典的深度强化学习算法。 该存储库的目的是为人们提供清晰的代码,以供他们学习深度强化学习算法。 将来,将添加更多算法,并且还将保留现有代码。 当前实施 深度Q学习网络(DQN) 基本DQN 双Q网络 决斗网络架构 深度确定性策略梯度(DDPG) 优势演员评判(A2C) 信任区域策略梯度(TRPO) 近端政策优化(PPO) 使用克罗内克因素信任区域(ACKTR)的演员评论家 软演员评论(SAC) 更新信息 :triangular_flag: 2018年10月17日-在此更新中,大多数算法已得到改进,并添加了更多关于图的实验(DPPG除外)。 PPO现在支持atari游戏和mujoco-env 。 TRPO非常稳定,可以得到更好的结果! :triangular_flag: 2019-07-15-在此更新中,不再需要为openai基准安装。 我在rl__utils模块中集成了有用的功能。 DDPG也重新实现,并支持更多结果。 自述文件已被修改。 代码结构也有微小的调整。 :triangular_flag: 201
2021-08-29 18:54:48 3.92MB algorithm deep-learning atari2600 flappy-bird
1
阀门控制的强化学习 版本2.1。 2021年3月10日:改进了文档,为希望将代码适应自己的工厂系统的新开发人员提供 Elsevier的MLWA(机器学习与应用程序)期刊的文档记录 该项目将DDPG用于非线性阀的“最佳”控制。 使用MATLAB R2019a和Simulink。 本文介绍了使用MATLAB的强化学习工具箱为非线性设备(例如阀门)创建“最佳”控制器的方法。 “分级学习”是一种简单的“指导”方法,它使人们可以更有效地训练代理。 该论文对研究过程中的学习进行了高度整理,并将观察结果与以前发表的文献相联系,以解决在使用DDPG和强化学习进行最佳控制时经常遇到的挑战。 虽然代码和纸张将Valve用作“工厂”,但这些方法和代码很容易适用于任何工业工厂。 请注意-分级学习是课程学习的最简单形式(以及面向应用/实践的形式)。 文档分为三个部分: 如何按原样运行MATLAB代码和Sim
2021-07-11 11:18:05 5.88MB MATLAB
1
pytorch-ddpg, 利用PyTorch实现深度确定策略梯度( DDPG )的实现 在 PyTorch 上的深度确定策略渐变概述这是使用 PyTorch 实现的深度确定策略渐变的实现。 utilities缓冲缓冲区和随机进程等实用程序的一部分来自 keras-rl 。 Contributes非常受欢迎。依赖项p
2021-07-09 15:20:48 1.84MB 开源
1