只为小站
首页
域名查询
文件下载
登录
torchrl:强化学习算法的Pytorch实现(软演员评论员(SAC)
DDPG
TD3 DQN A2C PPO TRPO)-源码
火炬RL RL方法的Pytorch实现 支持具有连续和离散动作空间的环境。 支持具有1d和3d观察空间的环境。 支持多进程环境 要求 一般要求 火炬1.7 健身房(0.10.9) Mujoco(1.50.1) 列表(用于日志) tensorboardX(日志文件输出) 张量板要求 Tensorflow:启动tensorboard或读取tf记录中的日志 安装 使用use environment.yml创建虚拟环境 conda create -f environment.yml source activate py_off 手动安装所有要求 用法 在配置文件中指定算法的参数,并在参数中指定日志目录/种子/设备 python examples/ppo_continuous_vec.py --config config/ppo_halfcheetah.json --seed 0 --device 0 --id ppo_halfcheetah 结帐示例文件夹以获取详细信息 目前包含: 政策上的方法: 加强 A2C(演员评论家) PPO(近端政策优化)
2021-11-23 11:43:20
170KB
algorithm
reinforcement-learning
pytorch
dqn
1
Deep-learning-for-a-robot-arm:BSc毕业项目-
DDPG
算法,用于解决到达和跟踪线问题-源码
机器人手臂的深度学习 实现强化学习算法之一(
DDPG
深度确定性Ploicy梯度),以控制机械臂。 该项目的目标是从安装在机器人上,以电机命令在一个端对端方式的照相机来映射特征。 推介会: 有关该项目的演示文稿,可以在这里找到: 二手工具和技术: Python 2.7 TensorFlow 1.5.1 OpenCV Vrep RemoteAPI 皮塞里亚尔 任务: 在工作空间中到达对象: 环境文件: 算法实现: 遵循黑线: 环境文件: 算法实现:
2021-11-22 22:14:39
3.9MB
Python
1
RLContinuousActionSpace:在连续状态和动作空间中进行强化学习。
DDPG
-源码
RLContinuousActionSpace 在连续状态和动作空间中进行强化学习。
DDPG
:深度确定性策略梯度和A3C:异步Actor-Critic代理 注意:环境是随机填充的查找表和模拟物理模型的常量的任意组合。 1°
DDPG
: 基于带有深度强化学习的持续控制: : 和来自精彩博客。 这种方法结合了DDQN算法(体验重播和目标网络)的优势以及可输出连续动作的行为者批评结构。 该算法首先在健身房开放式平台的pendulum-v0游戏中进行了验证,然后应用于定制的Envonement EnvPlant.py,模拟了温度模型: OU.py:探索是通过Ornstein-Uhlenbeck过程完成的,它具有便利的均值回复特性。 Models.py:演员,评论家和目标网络的神经网络 演员模型 批评模型 main.py:配置,训练,测试,显示,存储,加载 ReplayBuffer.py
2021-11-19 17:06:34
1.9MB
Python
1
强化学习源码(DP, MC, TD, DQN, PG, AC, A3C,
DDPG
).zip
包括DP, MC, TD, TD-lambda, DQN, PG, AC, A3C,
DDPG
, Dyna_Q, Bandit, AlphaGoBangZero以及部分仿真游戏源码
2021-10-14 16:17:05
32.58MB
强化学习
1
DeepRLPID-main.zip
DDPG
调节PID参数
2021-10-13 18:04:30
75KB
DDPG
1
5.
ddpg
.ipynb
关于
ddpg
的例子,适合初学者对深度强化学习
ddpg
的认识和了解
2021-09-19 20:51:55
43KB
ddpg
1
machin:专为PyTorch设计的强化学习库(框架),实现了DQN,
DDPG
,A2C,PPO,SAC,MA
DDPG
,A3C,APEX,IMPALA ..-源码
可读,可重用,可扩展 Machin是为pytorch设计的增强库。 支持的型号 任何事物,包括循环网络。 支持的算法 当前,Machin已实现以下算法,该列表仍在增长: 单代理算法: 多主体算法: 大规模并行算法: 增强功能: 支持的算法: 进化策略 基于模型的方法 特征 1.可读 与其他强化学习库(例如著名的 , 和。 Machin尝试仅提供RL算法的简单明了的实现。 Machin中的所有算法均以最小的抽象设计,并具有非常详细的文档以及各种有用的教程。 2.可重复使用 Machin采用与pytorch类似的方法,将算法和数据结构封装在自己的类中。 用户无需设置一系列data collectors , trainers , runners , samplers ...即可使用它们,只需导入即可。 模型上的唯一限制是它们的输入/输出格式,但是,这些限制很小,可以轻松地使算法适
2021-09-17 19:09:16
1.54MB
python
reinforcement-learning
deep-learning
gae
1
a2c-ppo-
ddpg
:强化学习算法a2c,ppo和
ddpg
的实现-源码
a2c-ppo-
ddpg
2021-09-10 13:33:08
80KB
Python
1
PyTorch-ActorCriticRL:
DDPG
算法的PyTorch实现用于连续动作强化学习问题-源码
PyTorch-ActorCriticRL PyTorch实现的连续动作actor-critic算法。 该算法使用DeepMind的深度确定性策略梯度方法更新演员和评论者网络,并使用过程在使用确定性策略的同时在连续动作空间中进行探索。
DDPG
是一种策略梯度算法,它使用随机行为策略进行探索(在这种情况下为Ornstein-Uhlenbeck)并输出确定性目标策略,该策略更易于学习。 政策估算(演员) Actor网络由一个三层神经网络组成,该神经网络将状态输入,并输出应由Pi表示的动作(a ) 。 政策评估(严重) 批判网络由一个三层神经网络组成,该神经网络将状态(s)和相应的动作(a)输入,并输出由Q(s,a)表示的状态动作值函数。 演员优化 通过最小化损耗来优化策略:-和(-Q(s,a)) 。 批判性优化 通过最小化损耗来优化评论者:-L2 (r + gamma * Q(s1,
2021-09-09 16:40:34
6KB
Python
1
Feedback
DDPG
with Fuzzy Reward for Robotic Assembly.pdf
Feedback
DDPG
with Fuzzy Reward for Robotic Assembly.pdf
2021-09-09 09:11:30
2.74MB
机器人
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
opcua服务器模拟器+opcua客户端工具.rar
Steam离线安装版
麻雀搜索算法(SSA)优化bp网络
基于Matlab的IEEE14节点潮流计算.zip
神经·模糊·预测控制及其MATLAB实现PDF + MATLAB程序
随机森林用于分类matlab代码
云视通端口扫描器.rar
BP_PID控制仿真.rar
基于Matlab的PI/4 DQPSK的调制解调源代吗
拾荒者.exe同时ID扫描器IP扫描器
JPEG的Matlab实现
科研伦理与学术规范 期末考试2 (40题).pdf
stm32f103+OLED12864+FFT音乐频谱(多种显示效果 提供原理图)
多智能体的编队控制程序的补充(之前上传少了一个文件)
知网情感词典(HOWNET)
最新下载
C#winfrom打开三维图DWG、DXF、EASM等图片文件
支持H265封装的flv播放ffplay.exe
VMware vCenter Server 6.7 for windows 2008 R2 SP1 操作系统补丁
WPF 4.5 unleashed 最新版
RK3588硬件设计资料-密码123456
军缘江湖最新版,功能完整放心使用。
聚宽API文档
gl studio 绘制图形软件安装包
BGP设计与实现(文字版,高清)
从零开始学习音视频编程技术(41) H.264播放器.zip
其他资源
基于Android的二手市场交易软件(APP+java Web+mysql)
matlab加速度积分为速度、位移
(halcon+mfc)模板匹配demo
ROST CM中文版.
Analytical Mechanics 分析力学
labview 自适应屏幕分辨率程序
软件测试计划范例
CS231N课程中文讲义
基于FPGA的逻辑分析仪设计(vga显示)
全国1比25万数据
ssh实现学生管理系统
几个典型混沌系统的Matlab仿真实现
unix高级环境编程第3版英文版高清PDF(含源码)
Aspose.Slides 14.9
big_total_video_converter_gr.zip
排序-按键精灵-插入排序.png
米家智能摄像机云台版(720P)固件
Java核心技术英文10版
利用vc2010编写操作word
ZEBASE镜头库加中英文目录
wap商城html源码
数电课程设计_高楼电梯自动控制系统
入门级C#酒店管理系统源代码
网络渗透测试平台DVWA-1.9