搜索【ddpg】的结果

5.ddpg.ipynb

关于ddpg的例子，适合初学者对深度强化学习ddpg的认识和了解

2021-09-19 20:51:55 43KB ddpg

1

machin:专为PyTorch设计的强化学习库（框架），实现了DQN，DDPG，A2C，PPO，SAC，MADDPG，A3C，APEX，IMPALA ..-源码

可读，可重用，可扩展 Machin是为pytorch设计的增强库。支持的型号任何事物，包括循环网络。支持的算法当前，Machin已实现以下算法，该列表仍在增长：单代理算法：多主体算法：大规模并行算法：增强功能：支持的算法：进化策略基于模型的方法特征 1.可读与其他强化学习库（例如著名的，和。 Machin尝试仅提供RL算法的简单明了的实现。 Machin中的所有算法均以最小的抽象设计，并具有非常详细的文档以及各种有用的教程。 2.可重复使用 Machin采用与pytorch类似的方法，将算法和数据结构封装在自己的类中。用户无需设置一系列data collectors ， trainers ， runners ， samplers ...即可使用它们，只需导入即可。模型上的唯一限制是它们的输入/输出格式，但是，这些限制很小，可以轻松地使算法适

2021-09-17 19:09:16 1.54MB python reinforcement-learning deep-learning gae

1

a2c-ppo-ddpg:强化学习算法a2c，ppo和ddpg的实现-源码

a2c-ppo-ddpg

2021-09-10 13:33:08 80KB Python

1

PyTorch-ActorCriticRL:DDPG算法的PyTorch实现用于连续动作强化学习问题-源码

PyTorch-ActorCriticRL PyTorch实现的连续动作actor-critic算法。该算法使用DeepMind的深度确定性策略梯度方法更新演员和评论者网络，并使用过程在使用确定性策略的同时在连续动作空间中进行探索。 DDPG 是一种策略梯度算法，它使用随机行为策略进行探索（在这种情况下为Ornstein-Uhlenbeck）并输出确定性目标策略，该策略更易于学习。政策估算（演员） Actor网络由一个三层神经网络组成，该神经网络将状态输入，并输出应由Pi表示的动作（a ）。政策评估（严重）批判网络由一个三层神经网络组成，该神经网络将状态（s）和相应的动作（a）输入，并输出由Q（s，a）表示的状态动作值函数。演员优化通过最小化损耗来优化策略：-和（-Q（s，a））。批判性优化通过最小化损耗来优化评论者：-L2 （r + gamma * Q（s1，

2021-09-09 16:40:34 6KB Python

1

Feedback DDPG with Fuzzy Reward for Robotic Assembly.pdf

2021-09-09 09:11:30 2.74MB 机器人

1

6.2 DDPG (Deep Deterministic Policy Gradient) (强化学习 Reinforcement Learning 教学)

#6.2_DDPG_(Deep_Deterministic_Policy_Gradient)_(强化学习_Reinforceme

2021-09-01 21:00:29 44.8MB 学习资源

非线性阀门控制的强化学习：将 DDPG 应用于非线性阀门的“最佳”控制。可适用于其他模拟植物。-matlab开发

概括： * 此代码随附于题为“阀门控制的强化学习”的论文https://doi.org/10.1016/j.mlwa.2021.100030 * 该论文探讨了 RL 对非线性系统的优化控制* 平台：MATLAB 的强化学习工具箱（R2019a 版）和 Simulink * 运行 `main.m` 以执行测试运行以确保代码正常工作。它依次运行4个代码文件。它将训练一个只有 100 集的代理，将其存储在 `\results` 文件夹中，根据 PID 对其进行验证，执行稳定性分析（在现有的传递函数数据文件上，存储在 `\data` 文件夹中）并生成绘图和将它们存储在\ results文件夹中。 #### 训练 RL 控制器： * `code_DDPG_Training.m`：使用DDPG以分阶段方式训练代理的训练代码。使用 sm_DDPG_Training_Circuit.slx。该

2021-08-30 10:55:08 5.86MB matlab

1

基于DDPG-PID方法的水下机器人姿态控制python程序.rar

DDPG-PID强化学习算法, 水下机器人姿态控制, python程序, pytorch,

2021-08-29 20:03:06 10KB DDPG-PID 姿态控制 python

基于DDPG强化学习算法的水下机器人姿态控制python代码.rar

DDPG强化学习算法, 姿态控制, python代码

2021-08-29 20:03:04 10KB DDPG 姿态控制 python代码

强化学习算法：此存储库包含大多数基于pytorch实现的经典深度强化学习算法，包括-DQN，DDQN，Dualling Network，DDPG，SAC，A2C，PPO，TRPO。（更多算法仍在进行中）-源码

深度强化学习算法该存储库将使用PyTorch实现经典的深度强化学习算法。该存储库的目的是为人们提供清晰的代码，以供他们学习深度强化学习算法。将来，将添加更多算法，并且还将保留现有代码。当前实施深度Q学习网络（DQN）基本DQN 双Q网络决斗网络架构深度确定性策略梯度（DDPG）优势演员评判（A2C）信任区域策略梯度（TRPO）近端政策优化（PPO）使用克罗内克因素信任区域（ACKTR）的演员评论家软演员评论（SAC）更新信息 :triangular_flag: 2018年10月17日-在此更新中，大多数算法已得到改进，并添加了更多关于图的实验（DPPG除外）。 PPO现在支持atari游戏和mujoco-env 。 TRPO非常稳定，可以得到更好的结果！ :triangular_flag: 2019-07-15-在此更新中，不再需要为openai基准安装。我在rl__utils模块中集成了有用的功能。 DDPG也重新实现，并支持更多结果。自述文件已被修改。代码结构也有微小的调整。 :triangular_flag: 201

2021-08-29 18:54:48 3.92MB algorithm deep-learning atari2600 flappy-bird

1

个人信息

热门下载

最新下载

其他资源