pytorch-a2c-ppo-acktr请使用本自述文件中的超级参数。 使用其他超级参数,可能无法正常工作(毕竟是RL)! 这是Advantage Actor Critic(A2C)的PyTorch实现,同步pytorch-a2c-ppo-acktr请使用本自述文件中的超级参数。 使用其他超级参数,可能无法正常工作(毕竟是RL)! 这是Advantage Actor Critic(A2C)的PyTorch实现,这是A3C近端策略优化PPO的同步确定性版本,用于使用Kronecker因子近似ACKTR生成的对抗模仿学习GAIL进行深度强化学习的可扩展信任区域方法另请参阅OpenAI帖子:A2C / ACKTR和PPO获得更多信息
2022-05-26 11:38:01 8.53MB Python Deep Learning
1
人工智能-项目实践-自适应学习-使用强化学习来实现旋转门算法参数的自适应 使用强化学习来实现旋转门算法参数的自适应
在被动式Biped机器人的研究中,避免跌倒一直是研究的重要方向。 在本文中,我们提出了深度确定性策略梯度(DDPG)来控制Biped机器人在斜坡上的稳定行走。 为了提高DDPG的训练速度,本文中使用的DDPG通过并行参与者和优先体验重放(PER)进行了改进。 在模拟中,我们控制导致Biped机器人跌倒的不同初始状态。 控制后,两足动物机器人可以稳定行走,这表明DDPG可以有效地控制两足动物机器人的跌倒。
2022-05-24 10:29:06 907KB 研究论文
1
DRL从游戏到自动驾驶 驾驶策略智能化建模 面向无人车运营的持续改进 系统框架 模型和预监督 主算法效果优化 探索策略演进 探索策略优化 案例演示 大集合效果
2022-05-23 11:20:53 7.08MB 自动驾驶 游戏 人工智能 机器学习
1
:提出一种基于深度强化学习的电网切机控制策略,所 提控制策略依据电网运行环境信息,通过数据分析得到切机 控制策略。首先介绍强化学习框架,阐述学习算法原理,并 详细介绍Q-Learning 方法。然后介绍深度学习基本概念和 深度卷积网络原理,提出利用深度卷积网络提取电网运行特 征,构建切机策略的思路。再结合深度学习和强化学习,构 建深度强化学习框架,其中深度学习采用深度卷积神经网络 模型用于提取特征,强化学习采用双重Q-Learning 和竞争 Q-Learning 模型计算Q 值,通过比较Q 值大小得到切机控 制策略。最后,利用IEEE 39 节点系统验证了方法的正确性。
1
零阶学习分类元系统ZCS(Zeroth-level Classifier System)作为一种基于遗传的机器学习技术(Genetics-Based Machine Learning),在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的应用领域。基于ZCS的现有框架,提出了一种采用平均奖赏强化学习技术(R-学习算法)的分类元系统,将ZCS中的折扣奖赏强化学习方法替换为R-学习算法,从而使ZCS一方面可应用于需要优化平均奖赏的问题领域,另一方面则可求解规模较大、需要动作长链支持的多步学习问题。实验显示,在多步学习问题中,该系统可给出满意解,且在维持动作长链,以及克服过泛化问题方面,具有更优的特性。
2022-05-22 10:50:16 644KB 论文研究
1
矩阵指针Matlab代码L2RPN-使用-A3C 使用 Actor-Critic 框架进行 L2RPN 挑战 ( & ) 的强化学习。 使用此代码训练的代理是挑战的获胜者之一。 代码使用pypownet环境()。 该代码是在 LGPLv3 许可下发布的。 要求 Python >= 3.6 凯拉斯 pypownet 虚拟环境 (conda/venv) 推荐 Pypownet 安装和文档: 文件说明 PDF文件 Amar_L2RPN_IJCNN_git.pdf - 在 IJCNN-2019 的 L2RPN 研讨会上介绍该方法。 总结方法和培训方法中的想法。 Numpy 文件 valid_actions_array_uniq.npz - 有效唯一动作矩阵 valid_actions_masking_subid_perm.npz - 将变电站 Id 映射到用于屏蔽参与者输出的唯一有效动作的矩阵 Python文件 valid_switching_controls.py - 创建上述 numpy 文件的 python 文件 pypow_14_a3c_final.py - 用于使用 A3C 训练演员
2022-05-21 12:56:16 44.1MB 系统开源
1
强化学习(RL)通过与复杂环境的交互,推动机器学习从基础数据拟合到学习和规划的新时代。RL具有深度学习功能,在自动驾驶、推荐系统、无线通信、机器人、游戏等领域取得了巨大的成功。RL的成功很大程度上是基于RL算法的基础发展,直到最近才被彻底理解,特别是它们的有限时间收敛速度和样本复杂性。本教程将全面概述基础RL算法的理论理解的最新进展,利用随机近似/优化理论和利用RL问题的马尔可夫结构。本教程还将介绍一些高级的RL算法及其最近的发展。
2022-05-20 22:05:09 5.94MB 强化学习
安装 首先在requirements.txt安装需求,然后运行pip install -e .
2022-05-20 11:20:21 932KB JupyterNotebook
1
给初学者学习用
2022-05-20 09:05:28 24.32MB 强化学习
1