搜索【TD3】的结果

Actor-Critic方法中的地址函数逼近误差双延迟深度确定性策略梯度（TD3）的PyTorch实现。如果您使用我们的代码或数据，请引用。在连续控制任务上进行了测试。使用和Python 3.7训练网络。用法可以通过运行以下操作来重现论文结果： ./experiments.sh 可以通过调用以下命令来运行单个环境的实验： python main.py --env HalfCheetah-v2 可以使用main.py的不同参数修改超参数。我们包括了DDPG（DDPG.py）的实现，本文不使用该实现，以便于将超参数与TD3轻松进行比较。这不是本文中使用的“ Our DDPG”的实现（请参阅OurDDPG.py）。可以在找到TD3与之比较的算法（PPO，TRPO，ACKTR，DDPG）。结果代码不再完全代表本文中使用的代码。对超参数等进行细微调整，以提高性能。学

2022-02-13 21:54:46 121KB Python

1

torchrl：强化学习算法的Pytorch实现（软演员评论员（SAC）DDPG TD3 DQN A2C PPO TRPO）-源码

火炬RL RL方法的Pytorch实现支持具有连续和离散动作空间的环境。支持具有1d和3d观察空间的环境。支持多进程环境要求一般要求火炬1.7 健身房（0.10.9） Mujoco（1.50.1）列表（用于日志） tensorboardX（日志文件输出）张量板要求 Tensorflow：启动tensorboard或读取tf记录中的日志安装使用use environment.yml创建虚拟环境 conda create -f environment.yml source activate py_off 手动安装所有要求用法在配置文件中指定算法的参数，并在参数中指定日志目录/种子/设备 python examples/ppo_continuous_vec.py --config config/ppo_halfcheetah.json --seed 0 --device 0 --id ppo_halfcheetah 结帐示例文件夹以获取详细信息目前包含：政策上的方法：加强 A2C（演员评论家） PPO（近端政策优化）

2021-11-23 11:43:20 170KB algorithm reinforcement-learning pytorch dqn

1

MATLA实现TD3算法-自己动手写底层

自己写的TD3网络，matlab实现，欢迎提供宝贵意见

2021-10-23 09:09:58 10KB TD3 matlab batchnormalizat 目标网络

1

带有火炬的深度增强学习：DQN，AC，ACER，A2C，A3C，PG，DDPG，TRPO，PPO，SAC，TD3和PyTorch实施...-源码

状态：活动（在活动开发中，可能会发生重大更改）该存储库将实现经典且最新的深度强化学习算法。该存储库的目的是为人们提供清晰的pytorch代码，以供他们学习深度强化学习算法。将来，将添加更多最先进的算法，并且还将保留现有代码。要求 python <= 3.6 张量板体育馆> = 0.10 火炬> = 0.4 请注意，tensorflow不支持python3.7 安装 pip install -r requirements.txt 如果失败：安装健身房 pip install gym 安装pytorch please go to official webisite to install it: https://pytorch.org/ Recommend use Anaconda Virtual Environment to manage your packages 安装tensorboardX pip install tensorboardX pip install tensorflow==1.12 测试 cd Char10\ TD3/ python TD3

2021-06-09 21:34:59 5.82MB algorithm deep-learning deep-reinforcement-learning pytorch

1

DeepReinforcementLearning：深度RL实施。在pytorch中实现的DQN，SAC，DDPG，TD3，PPO和VPG。经过测试的环境：LunarLander-v2和Pendulum-v0-源码

使用Pytorch实现的深度RL算法算法列表：关于深入探讨实验结果：算法离散环境：LunarLander-v2 连续环境：Pendulum-v0 DQN -- VPG -- DDPG -- TD3 -- SAC -- PPO -- 用法：只需直接运行文件/算法。在我学习算法时，它们之间没有通用的结构。不同的算法来自不同的来源。资源：未来的项目：如果有时间，我将为使用RL的电梯添加一个简单的程序。更好的图形

2021-04-26 01:35:45 391KB algorithms ddpg sac ppo

1

个人信息

热门下载

最新下载

其他资源