深度强化学习对比,对比了DDPG,PG以及TD3三种方法+含代码操作演示视频 运行注意事项:使用matlab2021a或者更高版本测试,运行里面的Runme.m文件,不要直接运行子函数文件。运行时注意matlab左侧的当前文件夹窗口必须是当前工程所在路径。具体可观看提供的操作录像视频跟着操作。
2022-05-18 12:06:12 822KB 源码软件 深度强化学习 DDPG PG
PyTorch实现软演员- 评论家(SAC),双胞胎延迟DDPG(TD3),演员评论家(AC / A2C),近端策略优化(PPO),QT-Opt,PointNet 流行的无模型强化学习算法 PyTorch 和 Tensorflow 2.0 在 Openai 健身房环境和自我实现的 Reacher 环境中实现了最先进的无模型强化学习算法。 算法包括: 演员兼评论家 (AC/A2C); 软演员-评论家 (SAC); 深度确定性策略梯度 (DDPG); 双延迟 DDPG (TD3); 近端策略优化; QT-Opt(包括交叉熵(CE)方法); 点网; 运输机; 经常性政策梯度; 软决策树; 概率专家混合; QMIX Actor-Critic (AC/A2C); Soft Actor-Critic (SAC); Deep Deterministic Policy Gradient (DDPG); Twin Delayed DDPG (TD3); Proximal Policy Optimization (PPO); QT-Opt (including Cross-entropy (CE)
2022-05-11 09:04:15 2.46MB pytorch 文档资料 人工智能 python
基于深度强化学习的小球弹射控制系统仿真对比DDPG和TD3,matlab2021a仿真测试。
2022-05-02 14:10:22 2.03MB 源码软件 深度强化学习DDPG和TD3
DDPG+HER+Expert Data + action clip的注释版本,有自己的注视,是一个机械臂抓取的项目,能够成功运行。
2022-04-15 10:06:50 200.72MB RL
1
代码中包含13种强化学习算法,所调用的环境不仅包含gym下面的一些简单环境,还可以自己设计环境(简单的迷宫游戏),简洁明了,适合算法学习的同学使用,其中A3C与PPO还涉及了并行运算的算法。
2022-03-30 18:59:56 3.23MB DQN PPO DDPG TRPO
1
股票买卖最佳时机leetcode DDPG-股市-测试 建立DDPG模型并在股票市场上进行测试 参考 原始论文中的代码 环境的灵感来自 DDPG 实施的灵感来自 数据集 15份2018年1月1日至2018年10月29日的股价数据,以分钟为单位记录,具有开盘、收盘、高、低、成交量特征,下载自,BATS全球市场。 基本设置 该操作包含现金头寸、15 只股票的多头头寸和 15 只股票的空头头寸。 每分钟观察一次股价数据,但每 7 分钟才行动一次。 在每个步骤中,除了原始的 (s, a, r, s') 之外,还收集了“推断步骤”的其他状态-动作对并存储在重放内存缓冲区中。 结果 这些模型采用时间序列滚动方案构建,使用上个月的数据构建 rl 模型并在下个月进行测试。 该模型在2018/02/01至2018/10/29期间达到14%的收益率,相比之下,采用统一买入15只股票并持有策略的收益率为5.6%,而采用业绩最佳买入策略的收益率为-16.8%上个月的库存。 ipython 笔记本中的更多详细信息。 股票市场中的 rl 模型可能非常不稳定,并且容易过度拟合。 该模型只在投资组合的很小部分进行买卖
2022-03-21 22:29:59 11.79MB 系统开源
1
PyRL-Pytorch中的强化学习框架 PyRL是深度强化学习研究的框架。 在PyTorch中实现了以下算法: (在制品) (WIP) (在制品) 该项目仍在积极开发中。 特征 模块化架构 在PyTorch中实现 可读代码 安装 git clone https://github.com/chaovven/pyrl.git pip3 install -r requirements.txt 我强烈建议使用conda环境进行实验。 其中一些示例使用MuJoCo物理模拟器。 有关设置MuJoCo的说明,请参见。 进行实验 示例1: TD3 python3 main.py --alg=td3 with env=InvertedPendulum-v2 默认参数存储在config/default.yaml ,其中所有实验都共享这些参数。 TD3的参数存储在文件config/algs
1
改进DDPG算法在自动驾驶中的应用-张斌
2022-02-11 14:22:20 1.58MB
1
实验室 RL算法的某些实现主要使用pytorch。 目前已实施: DQN DDPG 资产净值 优势演员克里蒂 安装: git clone 跑步: 安装后,只需运行main.py
2022-01-14 17:07:45 435KB Python
1
本文利用 Gym 对仿真环境进行注册,对 OpenScope 进行功能性改造,引入 成都双流机场最新进近区域内的固定点数据,包括各个扇区参数、进离场航线数据、进 近区管辖范围数据等,设计了简单的进近区 ATC 管制环境。该环境包括独立的进场、离 场情景,充分考虑了各种复杂情况下的冲突。其次,针对不同空域的复杂程度设计了相 应的冲突场景,如航路上的交叉冲突以及对头冲突,进、离场时的对头冲突、超越冲突 等,构建完备的冲突集。为了降低模型的复杂度,假设航空器在转弯过程中不考虑最小 转弯半径的限制。最后,考虑到解脱动作的连续性以及智能体状态的复杂性,本文以保 障飞行安全为前提,对航空器解脱策略进行研究。通过构建的空中交通管制仿真环境实 现智能体之间的交互训练任务,设计了冲突解脱模型的奖励函数,采用深度强化学习中 经典算法 DDPG 进行解脱策略的学习。仿真实验结果表明该算法对于多种冲突环境均 能够搜索到较优的解脱策略,冲突解脱成功率达到 89% 以上,可以作为管制员进行冲 突解脱的参考方案之一。