只为小站
首页
域名查询
文件下载
登录
torchrl:强化学习算法的Pytorch实现(软演员评论员(SAC)
DDPG
TD3 DQN A2C PPO TRPO)-源码
火炬RL RL方法的Pytorch实现 支持具有连续和离散动作空间的环境。 支持具有1d和3d观察空间的环境。 支持多进程环境 要求 一般要求 火炬1.7 健身房(0.10.9) Mujoco(1.50.1) 列表(用于日志) tensorboardX(日志文件输出) 张量板要求 Tensorflow:启动tensorboard或读取tf记录中的日志 安装 使用use environment.yml创建虚拟环境 conda create -f environment.yml source activate py_off 手动安装所有要求 用法 在配置文件中指定算法的参数,并在参数中指定日志目录/种子/设备 python examples/ppo_continuous_vec.py --config config/ppo_halfcheetah.json --seed 0 --device 0 --id ppo_halfcheetah 结帐示例文件夹以获取详细信息 目前包含: 政策上的方法: 加强 A2C(演员评论家) PPO(近端政策优化)
2021-11-23 11:43:20
170KB
algorithm
reinforcement-learning
pytorch
dqn
1
Deep-learning-for-a-robot-arm:BSc毕业项目-
DDPG
算法,用于解决到达和跟踪线问题-源码
机器人手臂的深度学习 实现强化学习算法之一(
DDPG
深度确定性Ploicy梯度),以控制机械臂。 该项目的目标是从安装在机器人上,以电机命令在一个端对端方式的照相机来映射特征。 推介会: 有关该项目的演示文稿,可以在这里找到: 二手工具和技术: Python 2.7 TensorFlow 1.5.1 OpenCV Vrep RemoteAPI 皮塞里亚尔 任务: 在工作空间中到达对象: 环境文件: 算法实现: 遵循黑线: 环境文件: 算法实现:
2021-11-22 22:14:39
3.9MB
Python
1
RLContinuousActionSpace:在连续状态和动作空间中进行强化学习。
DDPG
-源码
RLContinuousActionSpace 在连续状态和动作空间中进行强化学习。
DDPG
:深度确定性策略梯度和A3C:异步Actor-Critic代理 注意:环境是随机填充的查找表和模拟物理模型的常量的任意组合。 1°
DDPG
: 基于带有深度强化学习的持续控制: : 和来自精彩博客。 这种方法结合了DDQN算法(体验重播和目标网络)的优势以及可输出连续动作的行为者批评结构。 该算法首先在健身房开放式平台的pendulum-v0游戏中进行了验证,然后应用于定制的Envonement EnvPlant.py,模拟了温度模型: OU.py:探索是通过Ornstein-Uhlenbeck过程完成的,它具有便利的均值回复特性。 Models.py:演员,评论家和目标网络的神经网络 演员模型 批评模型 main.py:配置,训练,测试,显示,存储,加载 ReplayBuffer.py
2021-11-19 17:06:34
1.9MB
Python
1
强化学习源码(DP, MC, TD, DQN, PG, AC, A3C,
DDPG
).zip
包括DP, MC, TD, TD-lambda, DQN, PG, AC, A3C,
DDPG
, Dyna_Q, Bandit, AlphaGoBangZero以及部分仿真游戏源码
2021-10-14 16:17:05
32.58MB
强化学习
1
DeepRLPID-main.zip
DDPG
调节PID参数
2021-10-13 18:04:30
75KB
DDPG
1
5.
ddpg
.ipynb
关于
ddpg
的例子,适合初学者对深度强化学习
ddpg
的认识和了解
2021-09-19 20:51:55
43KB
ddpg
1
machin:专为PyTorch设计的强化学习库(框架),实现了DQN,
DDPG
,A2C,PPO,SAC,MA
DDPG
,A3C,APEX,IMPALA ..-源码
可读,可重用,可扩展 Machin是为pytorch设计的增强库。 支持的型号 任何事物,包括循环网络。 支持的算法 当前,Machin已实现以下算法,该列表仍在增长: 单代理算法: 多主体算法: 大规模并行算法: 增强功能: 支持的算法: 进化策略 基于模型的方法 特征 1.可读 与其他强化学习库(例如著名的 , 和。 Machin尝试仅提供RL算法的简单明了的实现。 Machin中的所有算法均以最小的抽象设计,并具有非常详细的文档以及各种有用的教程。 2.可重复使用 Machin采用与pytorch类似的方法,将算法和数据结构封装在自己的类中。 用户无需设置一系列data collectors , trainers , runners , samplers ...即可使用它们,只需导入即可。 模型上的唯一限制是它们的输入/输出格式,但是,这些限制很小,可以轻松地使算法适
2021-09-17 19:09:16
1.54MB
python
reinforcement-learning
deep-learning
gae
1
a2c-ppo-
ddpg
:强化学习算法a2c,ppo和
ddpg
的实现-源码
a2c-ppo-
ddpg
2021-09-10 13:33:08
80KB
Python
1
PyTorch-ActorCriticRL:
DDPG
算法的PyTorch实现用于连续动作强化学习问题-源码
PyTorch-ActorCriticRL PyTorch实现的连续动作actor-critic算法。 该算法使用DeepMind的深度确定性策略梯度方法更新演员和评论者网络,并使用过程在使用确定性策略的同时在连续动作空间中进行探索。
DDPG
是一种策略梯度算法,它使用随机行为策略进行探索(在这种情况下为Ornstein-Uhlenbeck)并输出确定性目标策略,该策略更易于学习。 政策估算(演员) Actor网络由一个三层神经网络组成,该神经网络将状态输入,并输出应由Pi表示的动作(a ) 。 政策评估(严重) 批判网络由一个三层神经网络组成,该神经网络将状态(s)和相应的动作(a)输入,并输出由Q(s,a)表示的状态动作值函数。 演员优化 通过最小化损耗来优化策略:-和(-Q(s,a)) 。 批判性优化 通过最小化损耗来优化评论者:-L2 (r + gamma * Q(s1,
2021-09-09 16:40:34
6KB
Python
1
Feedback
DDPG
with Fuzzy Reward for Robotic Assembly.pdf
Feedback
DDPG
with Fuzzy Reward for Robotic Assembly.pdf
2021-09-09 09:11:30
2.74MB
机器人
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
Matpower中文使用手册(原名《MATPOWER手册(中文版)》).rar
OLED显示温度和时间-STM32F103C8T6(完整程序工程+原理图+相关资料).zip
ChinaMeteorologicalDataHandler.R
简易示波器-精英板.zip
Microsoft Visual C++ 2015-2019 运行库合集,包含32位64位
Python+OpenCV实现行人检测(含配置说明)
PSO-LSSVM的MATLAB代码.rar
毕业设计:基于Python的网络爬虫及数据处理(智联招聘)
基于FPGA的DDS信号发生器设计(频率、幅度、波形可调)
锁相环simulink建模仿真.rar
拾荒者扫描器.zip
韦来生《数理统计》课后习题与答案
stm32f103+OLED12864+FFT音乐频谱(多种显示效果 提供原理图)
大唐杯资料+题库(移动通信)
机械臂避障路径规划仿真 蚁群算法 三维路径规划
最新下载
按键控制8×8LED点阵屏显示图形
epass2001 开发包
microsoft jsharp runtime 2.0
ESC\POS打印图片.docx
Rainmeter 中文文档 第四版
通信算法及其实现.zip
Linux下使用的串口调试工具
AMEsim中文教程
ROBOPro 4.2.3汉化包
android模拟照相机
其他资源
vue高仿知乎日报单页面应用技术栈vuevuexvuerouteraxiosmintuisass
Ansys 理论手册
北航数值分析上机作业第三题
opencv分类器训练
LANDMARC定位算法
Asp.Net新闻管理系统源码
Volterra_均衡器
C# 控制台贪吃蛇开发源码
米雅支付开发接口文档
64位操作系统的设计与实现
qtOpenGLDemo2.rar
Ireason mib Browser破解版
北京理工大学《大学物理下》08-13级期末考试试卷(含答案).pdf
otp_src_23.0.tar.gz
一种基于绝对K、S值的涂料建库配色方法.pdf
typora 64位 Windows
P-3-Study on Influence of Optical Fiber Preform Making and Drawing.pdf
windows xp media edition
Java爬虫汽车之家图片
从客户端调用capicom控件签名实例
基于24位bmp位图的信息隐藏编程实例
AIR-WLC2100-K9-7-0-252-0-ER.aes
简单工资查询系统
新闻管理系统新闻管理系统