俄罗斯方块 使用深度强化学习的机器人。 演示版 经过一些训练后,首先获得10000分。 它是如何工作的 强化学习 首先,代理将进行随机移动,将状态和给定的奖励保存在有限的队列(重播内存)中。 在每个情节(游戏)结束时,代理将使用重播内存的随机样本来训练自己(使用神经网络)。 随着玩越来越多的游戏,代理变得越来越聪明,得分越来越高。 由于在强化学习中,一旦特工发现了良好的“路径”,它就会坚持下去,因此它也被视为探索变量(随时间而减小),因此特工有时会选择一种随机动作,而不是它认为最佳的动作。 。 这样,它可以发现新的“路径”以获得更高的分数。 训练 培训基于。 相反,只使用所获得的当前状态,并奖励对网络进行训练的,它是用来Q学习(即认为从当前状态到未来的一个过渡),以找出什么是考虑到所有给定状态的最佳成绩未来的回报,即算法不是贪婪的。 这使代理可以采取一些可能无法立即获得回报的举动,因此以
1
导弹模型matlab代码学习指南:基于深度元学习和模型预测路径积分控制的制导律 关于 这项工作的目的是利用本文所述的导弹制导问题,利用模型预测路径积分控制器实施基于模型的深度强化学习,该IEEE Access论文位于arXiv上,并且在arXiv上也可用。 依存关系 此代码已经在python上进行了测试,并且需要安装tensorflow-gpu和numpy。 该演示运行建立在预先训练的指导神经网络模型的基础上,如果有人提出要求,其代码,系统模型和训练数据集将在之后发布。 怎么跑 请使用mppi_run.py运行。 也可以使用monte_carlo_simu.sh进行迭代运行以获取蒙特卡洛采样结果。 在本文中,使用MATLAB的get_Monte.m文件收集了蒙特卡洛模拟的结果。 引用 如果您发现我们的作品对您的研究有用,请考虑引用: @article{liang2019learning, title={Learning to Guide: Guidance Law Based on Deep Meta-Learning and Model Predictive Path Integra
2021-06-12 22:18:44 13.91MB 系统开源
1
基于深度强化学习的无人驾驶车道保持决策的研究_方川.caj
2021-06-10 09:03:10 6.95MB LKA
1
状态:活动(在活动开发中,可能会发生重大更改) 该存储库将实现经典且最新的深度强化学习算法。 该存储库的目的是为人们提供清晰的pytorch代码,以供他们学习深度强化学习算法。 将来,将添加更多最先进的算法,并且还将保留现有代码。 要求 python <= 3.6 张量板 体育馆> = 0.10 火炬> = 0.4 请注意,tensorflow不支持python3.7 安装 pip install -r requirements.txt 如果失败: 安装健身房 pip install gym 安装pytorch please go to official webisite to install it: https://pytorch.org/ Recommend use Anaconda Virtual Environment to manage your packages 安装tensorboardX pip install tensorboardX pip install tensorflow==1.12 测试 cd Char10\ TD3/ python TD3
1
针对传统Q-learning算法在复杂环境下移动机器人路径规划问题中容易产生维数灾难的问题,提出一种改进方法。该方法将深度学习融于Q-learning框架中,以网络输出代替Q值表,解决维数灾难问题。通过构建记忆回放矩阵和双层网络结构打断数据相关性,提高算法收敛性。最后,通过栅格法建立仿真环境建模,在不同复杂程度上的地图上进行仿真实验,对比实验验证了传统Q-learning难以在大状态空间下进行路径规划,深度强化学习能够在复杂状态环境下进行良好的路径规划。
1
内容包含Easy-RL的200页PDF,入门深度强化学习170页PPT,lecture-alphastar76页PDF.
2021-05-28 21:05:37 107.87MB RL DRL 强化学习 深度强化学习
1
深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的研究分支。概述了基于值函数和策略梯度的两类深度强化学习算法,详细阐述了深度Q网络、深度策略梯度及相关改进算法的原理,并综述了深度强化学习在视频游戏、导航、多智能体协作以及推荐系统等领域的应用研究进展。最后,对深度强化学习的算法和应用进行展望,针对一些未来的研究方向和研究热点给出了建议。
2021-05-21 15:18:32 2.92MB 深度强化学习 研究综述
1
基于深度强化学习控制的节能热模拟加热系统设计
2021-05-13 20:02:48 6.42MB 强化学习
1
基于深度迁移学习的小样本图像分类matlab程序,网络模型基于AlexNet,文件包含了图像数据集,输出结果可靠。
2021-05-13 09:07:22 370KB matlab AlexNet 图像数据集
扑克RL 扑克游戏中的多智能体深度强化学习框架。 背景 解决不完善的信息游戏的研究主要围绕直到最近才遍历整个游戏树的方法(例如,请参见 , , )。 神经虚拟自我播放(NFSP) ,后悔策略梯度(RPG) ,深反事实后悔最小化(Deep CFR) 和单深CFR 等新算法最近将深(强化)使用常规方法(例如CFR和虚拟游戏)进行学习,以仅在访问游戏状态的一小部分时即可了解近似的纳什均衡。 PokerRL框架 PokerRL算法的组成部分 您的算法由相互交互的工作人员(绿色)组成。 训练运行的参数通过TrainingProfile的实例( .../rl/base_cls/Training
2021-05-12 11:04:25 325KB framework research reinforcement-learning poker
1