搜索【A2C】的结果

带有火炬的深度增强学习：DQN，AC，ACER，A2C，A3C，PG，DDPG，TRPO，PPO，SAC，TD3和PyTorch实施...-源码

状态：活动（在活动开发中，可能会发生重大更改）该存储库将实现经典且最新的深度强化学习算法。该存储库的目的是为人们提供清晰的pytorch代码，以供他们学习深度强化学习算法。将来，将添加更多最先进的算法，并且还将保留现有代码。要求 python <= 3.6 张量板体育馆> = 0.10 火炬> = 0.4 请注意，tensorflow不支持python3.7 安装 pip install -r requirements.txt 如果失败：安装健身房 pip install gym 安装pytorch please go to official webisite to install it: https://pytorch.org/ Recommend use Anaconda Virtual Environment to manage your packages 安装tensorboardX pip install tensorboardX pip install tensorflow==1.12 测试 cd Char10\ TD3/ python TD3

2021-06-09 21:34:59 5.82MB algorithm deep-learning deep-reinforcement-learning pytorch

1

深度强化学习A2C算法实现

完整实现A2C算法，包括实现要点、模型构建、虚拟环境交互、模型训练、信息监控等，并亲测在google colab中运行

2021-04-21 20:58:57 5.39MB PyTorch 深度强化学习 A2C 深度学习

1

imitation_learning：PyTorch实现的一些强化学习算法：优势演员评论（A2C），近距离策略优化（PPO），V-MPO，行为克隆（BC）。将添加更多算法-源码

模仿学习此仓库包含一些强化学习算法的简单PyTorch实现：优势演员评论家（A2C）的同步变体近端策略优化（PPO）-最受欢迎的RL算法，，，策略上最大后验策略优化（V-MPO）-DeepMind在其上次工作中使用的算法（尚不起作用...）行为克隆（BC）-一种将某些专家行为克隆到新策略中的简单技术每种算法都支持向量/图像/字典观察空间和离散/连续动作空间。为什么回购被称为“模仿学习”？当我开始这个项目并进行回购时，我认为模仿学习将是我的主要重点，并且无模型方法仅在开始时用于培训“专家”。但是，PPO实施（及其技巧）似乎比我预期的花费了更多时间。结果，现在大多数代码与PPO有关，但是我仍然对模仿学习感兴趣，并打算添加一些相关算法。当前功能目前，此仓库包含一些无模型的基于策略的算法实现：A2C，PPO，V-MPO和BC。每种算法都支持离散（分类，伯努利，GumbelSoftmax）和连续（贝塔，正态，tanh（正态））策略分布以及矢量或图像观察环境。 Beta和tanh（Normal）在我的实验中效果最好（在BipedalWalker和Huma

2021-02-02 16:36:47 11.42MB algorithm reinforcement-learning deep-learning deep-reinforcement-learning

1

个人信息

热门下载

最新下载

其他资源