阀门控制的强化学习 版本2.1。 2021年3月10日:改进了文档,为希望将代码适应自己的工厂系统的新开发人员提供 Elsevier的MLWA(机器学习与应用程序)期刊的文档记录 该项目将DDPG用于非线性阀的“最佳”控制。 使用MATLAB R2019a和Simulink。 本文介绍了使用MATLAB的强化学习工具箱为非线性设备(例如阀门)创建“最佳”控制器的方法。 “分级学习”是一种简单的“指导”方法,它使人们可以更有效地训练代理。 该论文对研究过程中的学习进行了高度整理,并将观察结果与以前发表的文献相联系,以解决在使用DDPG和强化学习进行最佳控制时经常遇到的挑战。 虽然代码和纸张将Valve用作“工厂”,但这些方法和代码很容易适用于任何工业工厂。 请注意-分级学习是课程学习的最简单形式(以及面向应用/实践的形式)。 文档分为三个部分: 如何按原样运行MATLAB代码和Sim
2021-07-11 11:18:05 5.88MB MATLAB
1
pytorch-ddpg, 利用PyTorch实现深度确定策略梯度( DDPG )的实现 在 PyTorch 上的深度确定策略渐变概述这是使用 PyTorch 实现的深度确定策略渐变的实现。 utilities缓冲缓冲区和随机进程等实用程序的一部分来自 keras-rl 。 Contributes非常受欢迎。依赖项p
2021-07-09 15:20:48 1.84MB 开源
1
DDPG智能体强化学习倒立摆案例,Train DDPG Agent to Swing Up and Balance Cart-Pole System - MATLAB & Simulink.pdf
2021-07-02 10:43:08 545KB 强化学习 DDPG
1
自动股票交易的深度强化学习:整体策略 该存储库提供了代码 的Jupiter Notebook重新实现了这种整体策略。 抽象的 股票交易策略在投资中起着至关重要的作用。 但是,在复杂而动态的股票市场中设计一种有利可图的战略是具有挑战性的。 在本文中,我们提出了一种深度集成强化学习方案,该方案可以通过最大化投资回报来自动学习股票交易策略。 我们训练一种深度强化学习代理,并使用三种基于行为者批评的算法来获得整体交易策略:近距离策略优化(PPO),优势参与者批评者(A2C)和深度确定性策略梯度(DDPG)。 集成策略继承并集成了三种算法的最佳功能,从而可以稳健地适应不同的市场条件。 为了避免在具有连续动作空间的训练网络中消耗大量内存,我们采用按需加载方法来处理非常大的数据。 我们在30支具有足够流动性的道琼斯股票上测试了我们的算法。 评估了具有不同强化学习算法的交易代理商的表现,并与道琼斯工业平均
1
ddpg DDPG(深度确定性策略梯度)在Gym-torcs上的实现。 与张量流。 ddpg论文: ://arxiv.org/pdf/1509.02971v2.pdf 作者:肯尼斯·于 安装依赖项: 张量流r1.4 gym_torcs: : 如何运行: 训练方式: python3 gym_torcs_train_low_dim.py 评估模式: python3 gym_torcs_eval_low_dim.py
2021-06-21 11:48:03 30KB 附件源码 文章源码
1
状态:活动(在活动开发中,可能会发生重大更改) 该存储库将实现经典且最新的深度强化学习算法。 该存储库的目的是为人们提供清晰的pytorch代码,以供他们学习深度强化学习算法。 将来,将添加更多最先进的算法,并且还将保留现有代码。 要求 python <= 3.6 张量板 体育馆> = 0.10 火炬> = 0.4 请注意,tensorflow不支持python3.7 安装 pip install -r requirements.txt 如果失败: 安装健身房 pip install gym 安装pytorch please go to official webisite to install it: https://pytorch.org/ Recommend use Anaconda Virtual Environment to manage your packages 安装tensorboardX pip install tensorboardX pip install tensorflow==1.12 测试 cd Char10\ TD3/ python TD3
1
通过深度强化学习优化放射治疗的时间表 model文件夹包含模拟的Python实现的代码。 model_cpp文件夹包含模拟的C ++实现的代码。 nnets文件夹包含使用不同算法和奖励功能训练的神经网络,如手稿中所述。 training_logs文件夹包含zip归档中的手稿中描述的四个代理的培训日志文件。 eval文件夹包含不同代理的性能评估。 tmp文件夹包含在评估代理程序期间创建的映像。 misc文件夹包含无法在上述文件夹中分类的文件。 main.py用于训练代理。 use_network.py使用手稿中描述的性能指标评估神经网络。
2021-06-06 09:37:03 16.27MB C++
1
MATLAB强化学习实战(十四) 基于 DDPG 智能体的四足机器人运动控制 https://blog.csdn.net/wangyifan123456zz/article/details/109679138#comments_16710443
2021-05-30 16:06:56 2.38MB 强化学习
1
DDPGforRoboticsControl 这是名为深度确定性策略梯度(DDPG)的深度强化学习算法的实现,用于训练4自由度机械臂以达到移动目标。 动作空间是连续的,学习的代理会输出扭矩以使机器人移动到特定的目标位置。 环境 一个包含20个相同代理的,每个代理都有其自己的环境副本。 在这种环境下,双臂可以移动到目标位置。 对于代理人的手在目标位置中的每一步,将提供+0.1的奖励。 因此,座席的目标是在尽可能多的时间步中保持其在目标位置的位置。 观察空间由33个变量组成,分别对应于手臂的位置,旋转,速度和角速度。 每个动作是一个带有四个数字的向量,对应于适用于两个关节的扭矩。 动作向量中的每个条目都应为-1和1之间的数字。 解决环境 您的特工平均得分必须为+30(超过100个连续剧集,并且超过所有特工)。 具体来说,在每个情节之后,我们将每个代理商获得的奖励加起来(不打折),以获得每个
2021-04-29 11:38:55 20.38MB JupyterNotebook
1
使用Pytorch实现的深度RL算法 算法列表: 关于深入探讨 实验结果: 算法 离散环境:LunarLander-v2 连续环境:Pendulum-v0 DQN -- VPG -- DDPG -- TD3 -- SAC -- PPO -- 用法: 只需直接运行文件/算法。 在我学习算法时,它们之间没有通用的结构。 不同的算法来自不同的来源。 资源: 未来的项目: 如果有时间,我将为使用RL的电梯添加一个简单的程序。 更好的图形
2021-04-26 01:35:45 391KB algorithms ddpg sac ppo
1