MuJoCo的RL 该软件包包含用于用模拟的连续控制任务的各种RL算法的实现 安装 主要的软件包依赖项是MuJoCo , python=3.7 , gym>=0.13 , mujoco-py>=2.0和pytorch>=1.0 。 有关详细的安装说明,请参阅setup/README.md ()。 参考书目 如果您觉得该包装有用,请引用以下文件。 @INPROCEEDINGS{Rajeswaran-NIPS-17, AUTHOR = {Aravind Rajeswaran and Kendall Lowrey and Emanuel Todorov and Sham Kakade}, TITLE = "{Towards Generalization and Simplicity in Continuous Control}", BOOKTITLE =
1
代码中包含13种强化学习算法,所调用的环境不仅包含gym下面的一些简单环境,还可以自己设计环境(简单的迷宫游戏),简洁明了,适合算法学习的同学使用,其中A3C与PPO还涉及了并行运算的算法。
2022-03-30 18:59:56 3.23MB DQN PPO DDPG TRPO
1
EasyRL强化学习算法入门与实践.pdf
2022-03-27 21:13:59 1.57MB 解决方案
多主体强化学习(MARL) 使用rllab通过量化在不同环境中执行的多个代理的随机梯度来开发强化学习。 实验室 rllab是用于开发和评估强化学习算法的框架。 它包括各种各样的连续控制任务以及以下算法的实现: rllab与完全兼容。 有关说明和示例,请参见。 rllab仅正式支持Python 3.5+。 对于坐在Python 2上的rllab的旧快照,请使用。 rllab支持在EC2集群上运行强化学习实验以及用于可视化结果的工具。 有关详细信息,请参见。 主要模块使用作为基础框架,并且我们在下支持TensorFlow。 文献资料 在线提供了文档: https : //rllab.readthedocs.org/en/latest/ 。 引用rllab 如果您使用rllab进行学术研究,强烈建议您引用以下文章: 严端,陈曦,赖因·豪特霍夫特,约翰·舒尔曼,彼得·阿比尔。 “对
2022-03-18 18:31:48 10.24MB Python
1
强化学习的算法主要分为两大类: 基于值的算法(Value-Based) 和 基于策略的算法(Policy-Based)。我首先分别介绍一下基于值和基于策略的经典算法,然后介绍一个将基于值和基于策略的算法的优点结合起来的框架——Actor-Critic(AC)框架。在AC框架下进一步介绍目前学术界用得最多的几种强化学习算法,也包括《RND》这篇论文中使用的PPO算法。
2022-01-19 11:02:59 8.81MB 强化学习 ppo 强化学习算法 ActorCritic
1
该存储库结合了来自三个来源qv的代码,以获取详细信息: Pack Publishing的第19章 斯科特·藤本的 马克斯·拉潘(Max Lapan)的 我使用此存储库的目标是将所有这些算法集中在一个地方,并具有简单,统一的命令行界面和最小的外部依存关系( , )。 快速开始 python3 td3-learn.py --target -500 这将在默认环境( )上运行算法,直到达到-500的平均奖励(在我的Asus Predator Helios笔记本电脑上大约需要23秒)。 程序完成后,您可以通过运行以下命令显示结果 python3 ac-test.py models/td3-Pendulum-v0-.dat 其中是奖励值。 如果您已安装 ,则可以通过运行以下命令可视化情节奖励 python3 ac-plot.py models/td3
2022-01-15 16:02:13 41KB Python
1
BioMARL:基于生物启发式算法的多智能体强化学习算法 项目介绍: 多智能体系统(MAS)通过解决复杂任务的规模,可靠性和智能性,已被广泛的地面不同的应用领域,如计算机网络,机器人和智能电网等。和生产的重要因素。然而,以往的多代理通信研究主要是预先定义的通信协议或采用额外的决策模块进行通信调度,这将造成巨大的通信开销,并且不能直接推广到一个大型代理集合。了一个轻量级的通信框架:基于信息素协同机制的分布式深度Q网络算法(Pheromone协作深度Q网络,PCDQN) ,它结合了深度Q网络和stigmergy机制。我们证明了PCDQN框架的优越性,同时也将我们的模型转移到解决多代理路径搜索问题上。利用PCDQN框架,多代理编队能够学习适当的策略,成功地在雷区导航环境中获得最优路径。 实验环境 Windows10操作系统,8GB内存,2核Intel Core i7-6500U pytorch-
2021-12-30 23:40:46 7.65MB Python
1
使用Python的强化学习算法 这是Packt发行的《 的代码库。 学习,理解和开发用于应对AI挑战的智能算法 这本书是关于什么的? 强化学习(RL)是AI的流行和有前途的分支,涉及制作更智能的模型和代理,这些模型和代理可以根据不断变化的需求自动确定理想的行为。 本书将帮助您掌握RL算法并在构建自学习代理时了解其实现。 本书首先介绍了在RL环境中工作所需的工具,库和设置,然后介绍了RL的组成部分,并深入研究了基于价值的方法,例如Q学习和SARSA算法的应用。 您将学习如何结合使用Q学习和神经网络来解决复杂的问题。 此外,在继续使用DDPG和TD3确定性算法之前,您将研究策略梯度方法TRPO和PPO,以提高性能和稳定性。 本书还介绍了模仿学习技术的工作原理以及Dagger如何教代理人驾驶。 您将发现进化策略和黑盒优化技术,并了解它们如何改善RL算法。 最后,您将掌握诸如UCB和UCB1
2021-12-17 10:05:28 89KB Python
1
强化学习在二十一点 用于玩二十一点变体的几种强化学习算法的实现 为了运行所有算法,只需运行 main.py。 这将执行 test_all_algorithms() 函数,该函数运行 MC、SARSA 和线性函数近似与 SARSA,并带有显示结果的图。 其他模块的详细信息: environment.py - 包含 step() 函数和环境的实现 rl_algorithms - 包含 MC、SARSA 和线性函数逼近 plotting.py - 包含绘制值函数、SARSA 和 LFA 结果的函数 policy.py - 放置策略的地方,目前只包含 epsilon 贪婪策略 Utility.py - 计算均方误差并将状态转换为 LFA 的特征向量
2021-12-05 10:16:46 14KB Python
1
深度SARSA和深度Q学习-LunarLander-v2 环境 在这个项目中,我试图从OpenAI体育馆解决Lunar Lander环境。这是一个二维环境,其目的是教导登月舱模块安全地着陆在固定在点(0,0)的着陆垫上。该代理具有3个推进器:一个在模块的底部,另一个在模块的每一侧。因此,代理人在每个时间步长都有4种可能的动作可供选择:发射每个推进器或什么也不做。给予坐席的奖励取决于许多因素:发射底部推进器会产生-0.3的奖励,而发射侧面推进器会产生-0.03的奖励。如果探员安全地降落在着陆垫上,将获得+100分的奖励,此外,与地面接触的模块的每条腿都将获得+10分的奖励。当代理程序着陆或崩溃时,已达到终端状态。为了检测终端状态,可以提取一个状态向量,该状态向量指示代理的位置,其当前速度和环境着陆标志,以指示腿是否与地面接触。还可以提取代表环境中代理图片的RGB阵列。最后,要解决此问题并确定
1