TensorFlow中的深度强化学习 TensorFlow实施深度强化学习论文。 该实现包含: [1] [2][3][4][5](进行中) [6](正在进行中) [7](进行中) [8](正在进行中) 要求 Python 2.7 或 用法 首先,使用以下命令安装必备组件: $ pip install -U 'gym[all]' tqdm scipy 不要忘了还要安装最新的 。 还请注意,您需要安装所需的依赖项gym[all] 在没有gpu的情况下使用所述的DQN模型进行训练: $ python main.py --network_header_type=nips --env_na
1
使用中央模式生成器和神经网络的双足运动的分层控制 (汉堡大学智能自适应系统科学论文硕士) 受生物学启发的,分层的两足机器人运动控制器。 在较低级别,具有反馈路径的CPG网络(基于)控制着各个关节。 CPG网络的参数通过遗传算法进行了优化。 在更高的层次上,神经网络对CPG网络的输出进行调制,以优化机器人相对于整体目标的运动。 在这种情况下,目的是使步行时由于滑移或不完善的机器人模型而产生的横向偏差最小。 使用(深度强化学习算法)训练神经网络。 这项工作是使用。 即使在存在系统性和非系统性错误的情况下,分级控制器也可以使横向偏差最小化。 路径为红色的机器人仅使用CPG网络。 对于蓝色路径,使用了分层控制器。 高亮显示的情况(从左起第4个)显示了性能最佳的超参数设置。 纸 在ICDL-Epirob 2019上展示的论文可以在或进行查看。 论文 我的硕士学位论文可以在查看或下载。 视频 在可
2022-03-17 23:04:56 1.46MB Python
1
DeepRL 深度强化学习的框架。 特征: 算法分为模块 易于异步运行的算法 易于添加新算法 依存关系 python3.6 麻木 火炬 健身房 安装 git clone https://github.com/ppaanngggg/DeepRL pip install -e . 模块: 1.代理 DoubleDQNAgent:具有双Q学习功能的基础深度Q学习 通过深度强化学习进行人为控制 双重Q学习的深度强化学习 DDPGAgent:通过深度确定性策略梯度继续控制 具有深度强化学习的连续控制 PPOAgent:通过近端策略优化继续控制 近端策略优化算法 2.重播 重播:基本重播,从池中随机选择并删除最旧的一个 通过深度强化学习进行人为控制 ReservoirReplay:从池中随机选择一个,然后随机删除一个,用于NFSPAgent的策略网络 在不完全信息游戏中通过自我玩法进行深度强化
2022-03-11 11:06:16 38KB Python
1
turtlebot3强化学习避障,包括DQN, DDPG,PPO,SAC。 转载地址 https://github.com/Crawford-fang/ROS_pytorch_RL/tree/main/DQN 我就用过DQN,里面有很多需要修改的地方。主要是包括路径的代码,改成自己的路径。还有神经网络输入数量有错,需要和雷达接收到的数据维度一致。还有存储空间有错,大小应该为两倍输入数据的大小加上奖励数据和动作数据的大小。代码可用于其他环境和雷达小车
2022-03-10 20:34:34 358KB ROS DQN 深度强化学习 避障
1
通过深度强化学习的交通信号时间,IEEE最新文章 .打造交通信号控制的强化学习系统 如果把由信号机、检测器等组成的交通信号控制系统当成一个“智能体”,将我们目睹的人车路当成“环境”,通过如下方式就可以构造强化学习系统:传感器从环境里获取观测状态(例如:流量、速度、排队长度等),传递给信号机,信号控制系统根据这些状态来选择一个得分最高状态的动作来执行(例如:当前相位保持绿灯或者切换成红灯),并对执行效果进行回馈(例如:采用排队长度作为回报函数),系统根据回报结果,调整打分系统的参数。这样就形成一个循环的过程,就能达到不断学习改进。
2022-03-06 11:18:21 909KB 深度学习IEEE
1
具有深度强化学习的粗到精细无人机目标跟踪
2022-03-04 21:03:39 2.24MB 研究论文
1
麻将4RL :mahjong_red_dragon: Mahjong4RL是一个重新创建日本麻将游戏并使用深度强化学习方法进行游戏的项目。 (Riichi Mahjong)是麻将的一种变体。 在保留游戏的基本规则的同时,该变体强调了玩家的Menzenchin,并具有一组独特的规则,例如riichi和doras。 我们的目标是从头开始创建日本麻将游戏系统。 我们将在以后实施。 :rocket: 用法 from mahjong . game import Game names = [ 'Kelly' , 'Leo' , 'Ball' , 'Hao' ] game = Game ( names ) game . start_game () :eyes: 运行测试 python - m unittest :memo: 文档和待办事项 :bust_in_silhouette: 作者 :page_facing_up: 执照
2022-03-03 13:42:13 48KB Python
1
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。 在强化学习的世界里, 算法称之为Agent, 它与环境发生交互,Agent从环境中获取状态(state),并决定自己要做出的动作(action).环境会根据自身的逻辑给Agent予以奖励(reward)。奖励有正向和反向之分。比如在游戏中,每击中一个敌人就是正向的奖励,掉血或者游戏结束就是反向的奖励。 课程内容】 强化学习简介 强化学习基本概念 马尔科夫决策过程 Bellman方程 值迭代求解 代码实战求解过程 QLearning基本原理 QLearning迭代计算实例 QLearning迭代效果 求解流程详解 DeepQnetwork原理 DQN网络细节 DQN网络参数配置 搭建DQN网络模型 DQN卷积操作定义 数据预处理 实验阶段数据存储 实现训练模块 Debug解读训练代码 完整代码流程分析 DQN效果演示
1
深度强化学习课程 探索神经网络和强化学习的结合。 Python和PyTorch中的算法和示例 您是否听说过和的取得了惊人的结果? 这都是关于深度神经网络和强化学习的。 您是否想了解更多? 这是您最终学习Deep RL并将其用于新的令人兴奋的项目和应用程序的正确机会。 在这里,您将找到这些算法的深入介绍。 您将学习q学习,q学习,PPO,演员评论家,并使用Python和PyTorch实施它们。 最终目的是使用这些通用技术并将其应用于各种重要的现实世界问题。 德米斯·哈萨比斯(Demis Hassabis) 该存储库包含: 主要来自DeepMind和Berkley Youtube的频道的讲
1
为了帮助读者更加深入地理解深度强化学习细节,仔细地讲述了大量应用的实现细节,例如机器人学习跑步、机械臂控制、下围棋、多智能体平台
2022-02-21 09:28:29 175.22MB 深度学习 机器人
1