只为小站
首页
域名查询
文件下载
登录
RLlab:DQN,NAF,
DDPG
的pytorch实现-源码
实验室 RL算法的某些实现主要使用pytorch。 目前已实施: DQN
DDPG
资产净值 优势演员克里蒂 安装: git clone 跑步: 安装后,只需运行main.py
2022-01-14 17:07:45
435KB
Python
1
基于多维状态动作的
DDPG
冲突解脱算法研究
本文利用 Gym 对仿真环境进行注册,对 OpenScope 进行功能性改造,引入 成都双流机场最新进近区域内的固定点数据,包括各个扇区参数、进离场航线数据、进 近区管辖范围数据等,设计了简单的进近区 ATC 管制环境。该环境包括独立的进场、离 场情景,充分考虑了各种复杂情况下的冲突。其次,针对不同空域的复杂程度设计了相 应的冲突场景,如航路上的交叉冲突以及对头冲突,进、离场时的对头冲突、超越冲突 等,构建完备的冲突集。为了降低模型的复杂度,假设航空器在转弯过程中不考虑最小 转弯半径的限制。最后,考虑到解脱动作的连续性以及智能体状态的复杂性,本文以保 障飞行安全为前提,对航空器解脱策略进行研究。通过构建的空中交通管制仿真环境实 现智能体之间的交互训练任务,设计了冲突解脱模型的奖励函数,采用深度强化学习中 经典算法
DDPG
进行解脱策略的学习。仿真实验结果表明该算法对于多种冲突环境均 能够搜索到较优的解脱策略,冲突解脱成功率达到 89% 以上,可以作为管制员进行冲 突解脱的参考方案之一。
2022-01-04 13:01:40
11.77MB
空中交通管制
冲突探测与解脱
深度强化学习
DDPG
ddpg
_algorithm:
ddpg
算法的实现-源码
ddpg
_algorithm:
ddpg
算法的实现
2021-12-30 12:43:43
1.23MB
Python
1
ddpg
源码
ddpg
源码
2021-12-24 11:01:46
2KB
ddpg源码
torchrl:强化学习算法的Pytorch实现(软演员评论员(SAC)
DDPG
TD3 DQN A2C PPO TRPO)-源码
火炬RL RL方法的Pytorch实现 支持具有连续和离散动作空间的环境。 支持具有1d和3d观察空间的环境。 支持多进程环境 要求 一般要求 火炬1.7 健身房(0.10.9) Mujoco(1.50.1) 列表(用于日志) tensorboardX(日志文件输出) 张量板要求 Tensorflow:启动tensorboard或读取tf记录中的日志 安装 使用use environment.yml创建虚拟环境 conda create -f environment.yml source activate py_off 手动安装所有要求 用法 在配置文件中指定算法的参数,并在参数中指定日志目录/种子/设备 python examples/ppo_continuous_vec.py --config config/ppo_halfcheetah.json --seed 0 --device 0 --id ppo_halfcheetah 结帐示例文件夹以获取详细信息 目前包含: 政策上的方法: 加强 A2C(演员评论家) PPO(近端政策优化)
2021-11-23 11:43:20
170KB
algorithm
reinforcement-learning
pytorch
dqn
1
Deep-learning-for-a-robot-arm:BSc毕业项目-
DDPG
算法,用于解决到达和跟踪线问题-源码
机器人手臂的深度学习 实现强化学习算法之一(
DDPG
深度确定性Ploicy梯度),以控制机械臂。 该项目的目标是从安装在机器人上,以电机命令在一个端对端方式的照相机来映射特征。 推介会: 有关该项目的演示文稿,可以在这里找到: 二手工具和技术: Python 2.7 TensorFlow 1.5.1 OpenCV Vrep RemoteAPI 皮塞里亚尔 任务: 在工作空间中到达对象: 环境文件: 算法实现: 遵循黑线: 环境文件: 算法实现:
2021-11-22 22:14:39
3.9MB
Python
1
RLContinuousActionSpace:在连续状态和动作空间中进行强化学习。
DDPG
-源码
RLContinuousActionSpace 在连续状态和动作空间中进行强化学习。
DDPG
:深度确定性策略梯度和A3C:异步Actor-Critic代理 注意:环境是随机填充的查找表和模拟物理模型的常量的任意组合。 1°
DDPG
: 基于带有深度强化学习的持续控制: : 和来自精彩博客。 这种方法结合了DDQN算法(体验重播和目标网络)的优势以及可输出连续动作的行为者批评结构。 该算法首先在健身房开放式平台的pendulum-v0游戏中进行了验证,然后应用于定制的Envonement EnvPlant.py,模拟了温度模型: OU.py:探索是通过Ornstein-Uhlenbeck过程完成的,它具有便利的均值回复特性。 Models.py:演员,评论家和目标网络的神经网络 演员模型 批评模型 main.py:配置,训练,测试,显示,存储,加载 ReplayBuffer.py
2021-11-19 17:06:34
1.9MB
Python
1
强化学习源码(DP, MC, TD, DQN, PG, AC, A3C,
DDPG
).zip
包括DP, MC, TD, TD-lambda, DQN, PG, AC, A3C,
DDPG
, Dyna_Q, Bandit, AlphaGoBangZero以及部分仿真游戏源码
2021-10-14 16:17:05
32.58MB
强化学习
1
DeepRLPID-main.zip
DDPG
调节PID参数
2021-10-13 18:04:30
75KB
DDPG
1
5.
ddpg
.ipynb
关于
ddpg
的例子,适合初学者对深度强化学习
ddpg
的认识和了解
2021-09-19 20:51:55
43KB
ddpg
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
simulink仿真实现光伏发电MPPT+能量管理
拾荒者.exe同时ID扫描器IP扫描器
2020年数学建模国赛C题论文
上帝之眼和拾荒者.rar
毕业设计:基于Python的网络爬虫及数据处理(智联招聘)
ChinaMeteorologicalDataHandler.R
故障诊断数据集及实现代码
麻雀搜索算法(SSA)优化bp网络
夏天IC助手1.8你们懂的
(推荐)小爱触屏音箱LX04_2.34.5-官改-(开发版)SP5
2019和2021年华为单板通用硬件笔试题及答案
CPLEX12.8学术版安装包:cplex_studio128.win-x86-64.exe
avantage 软件 xps 处理软件30天后不能使用问题
EasyMedia-ui.zip
IBM.ILOG.CPLEX.Enterprise.Server.v12.10.0.Win64.rar CPLEX下载
最新下载
Fritzing最新版
盛大网络05年8月泄露版绝对原版
Delphi调用TSC条码打印机范例
e-studio pro v4.42
轩禹CTF_RSA工具3.6.1.zip
webrtc回音消除模块
中国地图,中国南海九段线shp文件
UDS诊断 ISO 14229 1~8整套协议-中英文最新版
东北大学 计算机科学与工程 软件工程实验
st710e电信云平台控件 v1.0 最新安装版
其他资源
北京331个街乡镇shp数据
基于verilog的数字钟
CKF算法源码
天猫精灵OAUTH2 认证例程
stk弹道导弹防御例子
徐士良常用算法程序集(C语言描述)第三版(带书签)及程序源码
Java卸载工具
STM32 标准库下载.docx
Qt实现的连连看游戏(含源码)
用DS1302与数码管设计的可调式电子钟
Arduino设计实践-3 RGB三基色LED
SSH+Mysql点餐系统毕设
uniapp房贷计算器,适用pc移动端
扬州大学历年《评议教育学866》研究生入学考试试题.pdf
基于惯量辨识的测试转台自适应内模控制
rocketmq-console-ng-2.0.0.jar
AT89S52单片机主控RS232 485接口16路输入工控板设计原理图+PCB文件.zip
granfana_zabbix5.0.rar
算法设计题_图.pdf
订票系统.zip
PB纯源码生成二维码秒识别
文字识别OCR Eclipse版本
简化进销存系统
operating systems internals and design principles 8th
小型聊天系统 (qqSocket 通信)