搜索【ddpg】的结果

Reinforcement-Learning-for-Control-of-Valves:该项目将DDPG用于非线性阀的“最佳”控制。使用MATLAB和Simulink-源码

阀门控制的强化学习版本2.1。 2021年3月10日：改进了文档，为希望将代码适应自己的工厂系统的新开发人员提供 Elsevier的MLWA（机器学习与应用程序）期刊的文档记录该项目将DDPG用于非线性阀的“最佳”控制。使用MATLAB R2019a和Simulink。本文介绍了使用MATLAB的强化学习工具箱为非线性设备（例如阀门）创建“最佳”控制器的方法。 “分级学习”是一种简单的“指导”方法，它使人们可以更有效地训练代理。该论文对研究过程中的学习进行了高度整理，并将观察结果与以前发表的文献相联系，以解决在使用DDPG和强化学习进行最佳控制时经常遇到的挑战。虽然代码和纸张将Valve用作“工厂”，但这些方法和代码很容易适用于任何工业工厂。请注意-分级学习是课程学习的最简单形式（以及面向应用/实践的形式）。文档分为三个部分：如何按原样运行MATLAB代码和Sim

2021-07-11 11:18:05 5.88MB MATLAB

1

pytorch-ddpg, 利用PyTorch实现深度确定策略梯度( DDPG )的实现.zip

pytorch-ddpg, 利用PyTorch实现深度确定策略梯度( DDPG )的实现在 PyTorch 上的深度确定策略渐变概述这是使用 PyTorch 实现的深度确定策略渐变的实现。 utilities缓冲缓冲区和随机进程等实用程序的一部分来自 keras-rl 。 Contributes非常受欢迎。依赖项p

2021-07-09 15:20:48 1.84MB 开源

1

DDPG智能体强化学习倒立摆案例

DDPG智能体强化学习倒立摆案例，Train DDPG Agent to Swing Up and Balance Cart-Pole System - MATLAB & Simulink.pdf

2021-07-02 10:43:08 545KB 强化学习 DDPG

1

Deep-Reinforcement-Learning-for-Automated-Stock-Trading-Ensemble-Strategy-ICAIF-2020:用于自动股票交易的深度强化学习-源码

自动股票交易的深度强化学习：整体策略该存储库提供了代码的Jupiter Notebook重新实现了这种整体策略。抽象的股票交易策略在投资中起着至关重要的作用。但是，在复杂而动态的股票市场中设计一种有利可图的战略是具有挑战性的。在本文中，我们提出了一种深度集成强化学习方案，该方案可以通过最大化投资回报来自动学习股票交易策略。我们训练一种深度强化学习代理，并使用三种基于行为者批评的算法来获得整体交易策略：近距离策略优化（PPO），优势参与者批评者（A2C）和深度确定性策略梯度（DDPG）。集成策略继承并集成了三种算法的最佳功能，从而可以稳健地适应不同的市场条件。为了避免在具有连续动作空间的训练网络中消耗大量内存，我们采用按需加载方法来处理非常大的数据。我们在30支具有足够流动性的道琼斯股票上测试了我们的算法。评估了具有不同强化学习算法的交易代理商的表现，并与道琼斯工业平均

2021-06-29 11:09:24 17.62MB deep-reinforcement-learning openai-gym sharpe-ratio ddpg

1

ddpg:强化学习ddpg代码。关注思想论文

ddpg DDPG（深度确定性策略梯度）在Gym-torcs上的实现。与张量流。 ddpg论文：：//arxiv.org/pdf/1509.02971v2.pdf 作者：肯尼斯·于安装依赖项：张量流r1.4 gym_torcs：：如何运行：训练方式： python3 gym_torcs_train_low_dim.py 评估模式： python3 gym_torcs_eval_low_dim.py

2021-06-21 11:48:03 30KB 附件源码 文章源码

1

带有火炬的深度增强学习：DQN，AC，ACER，A2C，A3C，PG，DDPG，TRPO，PPO，SAC，TD3和PyTorch实施...-源码

状态：活动（在活动开发中，可能会发生重大更改）该存储库将实现经典且最新的深度强化学习算法。该存储库的目的是为人们提供清晰的pytorch代码，以供他们学习深度强化学习算法。将来，将添加更多最先进的算法，并且还将保留现有代码。要求 python <= 3.6 张量板体育馆> = 0.10 火炬> = 0.4 请注意，tensorflow不支持python3.7 安装 pip install -r requirements.txt 如果失败：安装健身房 pip install gym 安装pytorch please go to official webisite to install it: https://pytorch.org/ Recommend use Anaconda Virtual Environment to manage your packages 安装tensorboardX pip install tensorboardX pip install tensorflow==1.12 测试 cd Char10\ TD3/ python TD3

2021-06-09 21:34:59 5.82MB algorithm deep-learning deep-reinforcement-learning pytorch

1

radio_rl：在肿瘤发展模型上使用DQN和DDPG来优化放射治疗的治疗方案-源码

通过深度强化学习优化放射治疗的时间表 model文件夹包含模拟的Python实现的代码。 model_cpp文件夹包含模拟的C ++实现的代码。 nnets文件夹包含使用不同算法和奖励功能训练的神经网络，如手稿中所述。 training_logs文件夹包含zip归档中的手稿中描述的四个代理的培训日志文件。 eval文件夹包含不同代理的性能评估。 tmp文件夹包含在评估代理程序期间创建的映像。 misc文件夹包含无法在上述文件夹中分类的文件。 main.py用于训练代理。 use_network.py使用手稿中描述的性能指标评估神经网络。

2021-06-06 09:37:03 16.27MB C++

1

基于 DDPG 智能体的四足机器人运动控制

MATLAB强化学习实战(十四) 基于 DDPG 智能体的四足机器人运动控制 https://blog.csdn.net/wangyifan123456zz/article/details/109679138#comments_16710443

2021-05-30 16:06:56 2.38MB 强化学习

1

DeepReinforcementLearning-DDPG-for-RoboticsControl：这是名为深度确定性策略梯度（DDPG）的深度强化学习算法的实现，以训练4自由度机械臂达到移动目标。动作空间是连续的，学习的特工为机器人输出扭矩以移动到特定目标位置-源码

DDPGforRoboticsControl 这是名为深度确定性策略梯度（DDPG）的深度强化学习算法的实现，用于训练4自由度机械臂以达到移动目标。动作空间是连续的，学习的代理会输出扭矩以使机器人移动到特定的目标位置。环境一个包含20个相同代理的，每个代理都有其自己的环境副本。在这种环境下，双臂可以移动到目标位置。对于代理人的手在目标位置中的每一步，将提供+0.1的奖励。因此，座席的目标是在尽可能多的时间步中保持其在目标位置的位置。观察空间由33个变量组成，分别对应于手臂的位置，旋转，速度和角速度。每个动作是一个带有四个数字的向量，对应于适用于两个关节的扭矩。动作向量中的每个条目都应为-1和1之间的数字。解决环境您的特工平均得分必须为+30（超过100个连续剧集，并且超过所有特工）。具体来说，在每个情节之后，我们将每个代理商获得的奖励加起来（不打折），以获得每个

2021-04-29 11:38:55 20.38MB JupyterNotebook

1

DeepReinforcementLearning：深度RL实施。在pytorch中实现的DQN，SAC，DDPG，TD3，PPO和VPG。经过测试的环境：LunarLander-v2和Pendulum-v0-源码

使用Pytorch实现的深度RL算法算法列表：关于深入探讨实验结果：算法离散环境：LunarLander-v2 连续环境：Pendulum-v0 DQN -- VPG -- DDPG -- TD3 -- SAC -- PPO -- 用法：只需直接运行文件/算法。在我学习算法时，它们之间没有通用的结构。不同的算法来自不同的来源。资源：未来的项目：如果有时间，我将为使用RL的电梯添加一个简单的程序。更好的图形

2021-04-26 01:35:45 391KB algorithms ddpg sac ppo

1

个人信息

热门下载

最新下载

其他资源