在被动式Biped机器人的研究中,避免跌倒一直是研究的重要方向。 在本文中,我们提出了深度确定性策略梯度(DDPG)来控制Biped机器人在斜坡上的稳定行走。 为了提高DDPG的训练速度,本文中使用的DDPG通过并行参与者和优先体验重放(PER)进行了改进。 在模拟中,我们控制导致Biped机器人跌倒的不同初始状态。 控制后,两足动物机器人可以稳定行走,这表明DDPG可以有效地控制两足动物机器人的跌倒。
2022-05-24 10:29:06 907KB 研究论文
1
深度强化学习对比,对比了DDPG,PG以及TD3三种方法+含代码操作演示视频 运行注意事项:使用matlab2021a或者更高版本测试,运行里面的Runme.m文件,不要直接运行子函数文件。运行时注意matlab左侧的当前文件夹窗口必须是当前工程所在路径。具体可观看提供的操作录像视频跟着操作。
2022-05-18 12:06:12 822KB 源码软件 深度强化学习 DDPG PG
PyTorch实现软演员- 评论家(SAC),双胞胎延迟DDPG(TD3),演员评论家(AC / A2C),近端策略优化(PPO),QT-Opt,PointNet 流行的无模型强化学习算法 PyTorch 和 Tensorflow 2.0 在 Openai 健身房环境和自我实现的 Reacher 环境中实现了最先进的无模型强化学习算法。 算法包括: 演员兼评论家 (AC/A2C); 软演员-评论家 (SAC); 深度确定性策略梯度 (DDPG); 双延迟 DDPG (TD3); 近端策略优化; QT-Opt(包括交叉熵(CE)方法); 点网; 运输机; 经常性政策梯度; 软决策树; 概率专家混合; QMIX Actor-Critic (AC/A2C); Soft Actor-Critic (SAC); Deep Deterministic Policy Gradient (DDPG); Twin Delayed DDPG (TD3); Proximal Policy Optimization (PPO); QT-Opt (including Cross-entropy (CE)
2022-05-11 09:04:15 2.46MB pytorch 文档资料 人工智能 python
基于深度强化学习的小球弹射控制系统仿真对比DDPG和TD3,matlab2021a仿真测试。
2022-05-02 14:10:22 2.03MB 源码软件 深度强化学习DDPG和TD3
DDPG+HER+Expert Data + action clip的注释版本,有自己的注视,是一个机械臂抓取的项目,能够成功运行。
2022-04-15 10:06:50 200.72MB RL
1
代码中包含13种强化学习算法,所调用的环境不仅包含gym下面的一些简单环境,还可以自己设计环境(简单的迷宫游戏),简洁明了,适合算法学习的同学使用,其中A3C与PPO还涉及了并行运算的算法。
2022-03-30 18:59:56 3.23MB DQN PPO DDPG TRPO
1
股票买卖最佳时机leetcode DDPG-股市-测试 建立DDPG模型并在股票市场上进行测试 参考 原始论文中的代码 环境的灵感来自 DDPG 实施的灵感来自 数据集 15份2018年1月1日至2018年10月29日的股价数据,以分钟为单位记录,具有开盘、收盘、高、低、成交量特征,下载自,BATS全球市场。 基本设置 该操作包含现金头寸、15 只股票的多头头寸和 15 只股票的空头头寸。 每分钟观察一次股价数据,但每 7 分钟才行动一次。 在每个步骤中,除了原始的 (s, a, r, s') 之外,还收集了“推断步骤”的其他状态-动作对并存储在重放内存缓冲区中。 结果 这些模型采用时间序列滚动方案构建,使用上个月的数据构建 rl 模型并在下个月进行测试。 该模型在2018/02/01至2018/10/29期间达到14%的收益率,相比之下,采用统一买入15只股票并持有策略的收益率为5.6%,而采用业绩最佳买入策略的收益率为-16.8%上个月的库存。 ipython 笔记本中的更多详细信息。 股票市场中的 rl 模型可能非常不稳定,并且容易过度拟合。 该模型只在投资组合的很小部分进行买卖
2022-03-21 22:29:59 11.79MB 系统开源
1
PyRL-Pytorch中的强化学习框架 PyRL是深度强化学习研究的框架。 在PyTorch中实现了以下算法: (在制品) (WIP) (在制品) 该项目仍在积极开发中。 特征 模块化架构 在PyTorch中实现 可读代码 安装 git clone https://github.com/chaovven/pyrl.git pip3 install -r requirements.txt 我强烈建议使用conda环境进行实验。 其中一些示例使用MuJoCo物理模拟器。 有关设置MuJoCo的说明,请参见。 进行实验 示例1: TD3 python3 main.py --alg=td3 with env=InvertedPendulum-v2 默认参数存储在config/default.yaml ,其中所有实验都共享这些参数。 TD3的参数存储在文件config/algs
1
改进DDPG算法在自动驾驶中的应用-张斌
2022-02-11 14:22:20 1.58MB
1
实验室 RL算法的某些实现主要使用pytorch。 目前已实施: DQN DDPG 资产净值 优势演员克里蒂 安装: git clone 跑步: 安装后,只需运行main.py
2022-01-14 17:07:45 435KB Python
1