搜索【ppo】的结果

带有火炬的深度增强学习：DQN，AC，ACER，A2C，A3C，PG，DDPG，TRPO，PPO，SAC，TD3和PyTorch实施...-源码

状态：活动（在活动开发中，可能会发生重大更改）该存储库将实现经典且最新的深度强化学习算法。该存储库的目的是为人们提供清晰的pytorch代码，以供他们学习深度强化学习算法。将来，将添加更多最先进的算法，并且还将保留现有代码。要求 python <= 3.6 张量板体育馆> = 0.10 火炬> = 0.4 请注意，tensorflow不支持python3.7 安装 pip install -r requirements.txt 如果失败：安装健身房 pip install gym 安装pytorch please go to official webisite to install it: https://pytorch.org/ Recommend use Anaconda Virtual Environment to manage your packages 安装tensorboardX pip install tensorboardX pip install tensorflow==1.12 测试 cd Char10\ TD3/ python TD3

2021-06-09 21:34:59 5.82MB algorithm deep-learning deep-reinforcement-learning pytorch

1

超级马里奥兄弟PPO-pytorch：超级马里奥兄弟的近距离策略优化（PPO）算法-源码

[PYTORCH]玩超级马里奥兄弟的近战策略优化（PPO）介绍这是我的python源代码，用于训练特工玩超级马里奥兄弟。通过使用纸张近端策略优化算法推出近端政策优化（PPO）算法。说到性能，我经过PPO培训的代理可以完成29/32个级别，这比我一开始的预期要好得多。供您参考，PPO是OpenAI提出的算法，用于训练OpenAI Five，这是第一款在电竞游戏中击败世界冠军的AI。具体而言，OpenAI五人队在2018年8月派出了一支由MMR排名的脚轮和前职业球员组成的团队，在Dota 2玩家的99.95％中排名。样品结果动机自从我发布我的A3C实现（）

2021-04-28 15:38:52 172.1MB python mario reinforcement-learning ai

1

DeepReinforcementLearning：深度RL实施。在pytorch中实现的DQN，SAC，DDPG，TD3，PPO和VPG。经过测试的环境：LunarLander-v2和Pendulum-v0-源码

使用Pytorch实现的深度RL算法算法列表：关于深入探讨实验结果：算法离散环境：LunarLander-v2 连续环境：Pendulum-v0 DQN -- VPG -- DDPG -- TD3 -- SAC -- PPO -- 用法：只需直接运行文件/算法。在我学习算法时，它们之间没有通用的结构。不同的算法来自不同的来源。资源：未来的项目：如果有时间，我将为使用RL的电梯添加一个简单的程序。更好的图形

2021-04-26 01:35:45 391KB algorithms ddpg sac ppo

1

基于Pytorch+强化学习(PPO)+ROS的多机器人避障，可用自己的环境替代ROS

论文“Towards Optimally Decentralized Multi-Robot Collision Avoidance via Deep Reinforcement Learning”原文 + 译文（全文），并且包含论文自身实现的代码，以及训练好的模型，安装好ROS环境即可运行；若是自己有环境，可以改造代码将自己的环境接入（本人亲测有效）；最后附上控制50个Robot避障的视频，有问题接受咨询^_^

2021-02-23 14:15:55 46.58MB 避障 Pytorch ROS 多智能体

1

imitation_learning：PyTorch实现的一些强化学习算法：优势演员评论（A2C），近距离策略优化（PPO），V-MPO，行为克隆（BC）。将添加更多算法-源码

模仿学习此仓库包含一些强化学习算法的简单PyTorch实现：优势演员评论家（A2C）的同步变体近端策略优化（PPO）-最受欢迎的RL算法，，，策略上最大后验策略优化（V-MPO）-DeepMind在其上次工作中使用的算法（尚不起作用...）行为克隆（BC）-一种将某些专家行为克隆到新策略中的简单技术每种算法都支持向量/图像/字典观察空间和离散/连续动作空间。为什么回购被称为“模仿学习”？当我开始这个项目并进行回购时，我认为模仿学习将是我的主要重点，并且无模型方法仅在开始时用于培训“专家”。但是，PPO实施（及其技巧）似乎比我预期的花费了更多时间。结果，现在大多数代码与PPO有关，但是我仍然对模仿学习感兴趣，并打算添加一些相关算法。当前功能目前，此仓库包含一些无模型的基于策略的算法实现：A2C，PPO，V-MPO和BC。每种算法都支持离散（分类，伯努利，GumbelSoftmax）和连续（贝塔，正态，tanh（正态））策略分布以及矢量或图像观察环境。 Beta和tanh（Normal）在我的实验中效果最好（在BipedalWalker和Huma

2021-02-02 16:36:47 11.42MB algorithm reinforcement-learning deep-learning deep-reinforcement-learning

1

深度强化学习PPO算法(python)

基于Tensorflow实现的PPO算法，依赖库：tensorflow-1.4及以上，gym

2020-01-03 11:16:56 6KB 深度强化学习

1

个人信息

热门下载

最新下载

其他资源