具有深度强化学习的粗到精细无人机目标跟踪
2022-03-04 21:03:39 2.24MB 研究论文
1
麻将4RL :mahjong_red_dragon: Mahjong4RL是一个重新创建日本麻将游戏并使用深度强化学习方法进行游戏的项目。 (Riichi Mahjong)是麻将的一种变体。 在保留游戏的基本规则的同时,该变体强调了玩家的Menzenchin,并具有一组独特的规则,例如riichi和doras。 我们的目标是从头开始创建日本麻将游戏系统。 我们将在以后实施。 :rocket: 用法 from mahjong . game import Game names = [ 'Kelly' , 'Leo' , 'Ball' , 'Hao' ] game = Game ( names ) game . start_game () :eyes: 运行测试 python - m unittest :memo: 文档和待办事项 :bust_in_silhouette: 作者 :page_facing_up: 执照
2022-03-03 13:42:13 48KB Python
1
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。 在强化学习的世界里, 算法称之为Agent, 它与环境发生交互,Agent从环境中获取状态(state),并决定自己要做出的动作(action).环境会根据自身的逻辑给Agent予以奖励(reward)。奖励有正向和反向之分。比如在游戏中,每击中一个敌人就是正向的奖励,掉血或者游戏结束就是反向的奖励。 课程内容】 强化学习简介 强化学习基本概念 马尔科夫决策过程 Bellman方程 值迭代求解 代码实战求解过程 QLearning基本原理 QLearning迭代计算实例 QLearning迭代效果 求解流程详解 DeepQnetwork原理 DQN网络细节 DQN网络参数配置 搭建DQN网络模型 DQN卷积操作定义 数据预处理 实验阶段数据存储 实现训练模块 Debug解读训练代码 完整代码流程分析 DQN效果演示
1
深度强化学习课程 探索神经网络和强化学习的结合。 Python和PyTorch中的算法和示例 您是否听说过和的取得了惊人的结果? 这都是关于深度神经网络和强化学习的。 您是否想了解更多? 这是您最终学习Deep RL并将其用于新的令人兴奋的项目和应用程序的正确机会。 在这里,您将找到这些算法的深入介绍。 您将学习q学习,q学习,PPO,演员评论家,并使用Python和PyTorch实施它们。 最终目的是使用这些通用技术并将其应用于各种重要的现实世界问题。 德米斯·哈萨比斯(Demis Hassabis) 该存储库包含: 主要来自DeepMind和Berkley Youtube的频道的讲
1
为了帮助读者更加深入地理解深度强化学习细节,仔细地讲述了大量应用的实现细节,例如机器人学习跑步、机械臂控制、下围棋、多智能体平台
2022-02-21 09:28:29 175.22MB 深度学习 机器人
1
本文来自于csdn,本文章主要介绍了深度学习与强化学习结合起来从而实现从感知(Perception)到动作(Action)的端对端(End-to-end)学习的一种全新的算法。原因:在普通的Q-learning中,当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值,而当状态和动作空间是高维连续时,使用Q-Table不现实。通常做法是把Q-Table的更新问题变成一个函数拟合问题,相近的状态得到相近的输出动作。如下式,通过更新参数θθ使Q函数逼近最优Q值而深度神经网络可以自动提取复杂特征,因此,面对高维且连续的状态使用深度神经网络最合适不过了。DRL是将深度学习(DL
2022-02-14 00:41:48 395KB 深度强化学习——DQN
1
-深度强化学习已成功应用于各种电脑游戏[8]。然而,它在实际应用中仍然很少使用,尤其是在实际移动机器人的导航和连续控制中[13]。以前的方法缺乏安全性和鲁棒性,并且/或者需要一个结构化的环境。在本文中,我们提出了一种在未知环境下,无地图或规划器的真实机器人自主自学习导航的概念证明。机器人的输入仅仅是来自2D激光扫描仪和RGB-D相机的融合数据,以及目标的方向。环境地图是未知的。异步网络(GA3C)的输出动作是机器人的线性速度和角速度。 导航/控制器网络在一个高速、并行、自实现的仿真环境中进行预训练,以加快学习过程,然后部署到实际机器人上。为了避免过度拟合,我们训练相对较小的网络,并向输入激光数据中添加随机高斯噪声。传感器数据与RGB-D摄像头的融合使机器人能够在真实环境中进行导航,实现真正的3D避障,而无需使环境适应机器人的感官能力。 为了进一步提高鲁棒性,我们在各种困难的环境中进行训练,并同时运行32个训练实例
2022-01-30 09:05:32 107.93MB 自主机器人
ARL 框架的名字来源于 PAddlepaddle Reinfocement Learning,是一款基于百度 PaddlePaddle 打造的深度强化学习框架。PARL 与现有强化学习工具和平台相比,具有更高的可扩展性、可复现性和可复用性,支持大规模并行和稀疏特征,能够快速 对工业级应用案例的验证。 这个在 github 上是开源的,但是鉴于有些朋友工具受限下载很慢,所以特地搬运过来!
1
基于深度强化学习的编队控制使用MADDPG算法
2022-01-18 14:59:03 11KB 编队控制学习 MADDPG 编队控制 编队
1
SimpleDS 一个简单的深度强化学习对话系统 描述 SimpleDS是用于通过深度强化学习来训练面向任务的对话系统的计算框架。 与其他对话系统相比,此系统直接从上一个系统的原始(嘈杂的)文本或单词嵌入以及用户响应中直接选择对话动作-正在进行的原始音频的支持。 这样做的动机是在尽可能少的人工干预下训练对话代理。 该系统在客户端-服务器架构下运行,其中学习代理(在JavaScript中)充当“客户端”,而环境(在Java中)充当“服务器”。 它们通过交换消息进行通信,客户端告诉客户端要执行的操作,服务器告诉客户端可用的操作,环境状态和观察到的奖励。 SimpleDS是顶部的(口语)对话系统通过约束搜索空间的多线程和客户端-服务器处理的支持,以及快速学习。 该系统已经通过使用Google语音识别器的模拟对话和真实对话进行了测试。 它也已经用三种不同的语言进行了测试:英语,德语和西班牙语
2022-01-15 17:55:21 11.44MB 系统开源
1