用matlab2016a版本写了一个DQN算法实现了走迷宫的功能。资源里面附有说明文档,matlab程序基本上都有注释,可以直接运行。
2021-08-03 09:49:09 371KB DQN Matlab
1
DQN-Pytorch 在Pytorch中实现DQN
2021-07-27 16:52:47 6KB Python
1
随着轨道交通网络规模的扩大和列车运营间隔的缩短,列车牵引能耗在快速增加。因此,通过优化列车的驾驶策略降低牵引能耗,对于轨道交通系统的节能减排具有重大意义。针对列车的驾驶策略优化问题,提出一种基于深度 Q 网络(DQN)的列车节能驾驶控制方法。首先介绍了传统的列车节能驾驶问题并构造其反问题,即通过分配最少的能耗达到规定运行时分。进一步将该问题转化为有限马尔可夫决策过程(MDP),通过设计状态动作值函数、定义动作策略选取方法等,构建基于 DQN 方法的列车节能驾驶控制方法。通过实际驾驶数据对DQN 进行训练,得到最优的状态动作值函数,并通过该值函数确定最优的能耗分配方案,从而得到最优驾驶策略。最后,以北京地铁亦庄线的实际运营数据设计了仿真算例,对方法的有效性进行验证,并对方法参数进行了敏感度分析。提出的方法可充分利用列车的驾驶数据提升驾驶策略,降低列车牵引能耗,对未来我国智慧城轨的发展具有一定的借鉴意义。
2021-07-18 22:42:35 2.06MB 列车节能驾驶 驾驶策略 深度Q网络
1
Q学习+Pytorch版本 实现奋斗的小鸟(FlappyBird),解压直接运行,可以跑几十分钟不是问题
2021-07-17 20:02:38 9.02MB FlappyBird Pytorch
1
和声2 俄罗斯方块 带有深 Q 网络的俄罗斯方块。 在下面的 GIF 中,计算机设法清除了 1000 多行。 这个怎么运作 强化学习 用于确定在给定状态时应该采取什么行动来最大化奖励。 状态 我尝试了两种不同的状态类型以找到最合适的一种。 起初使用的是板的二维阵列,但结果证明这是不可行的,因为神经网络必须更加复杂才能开始检测任何模式。 最终,决定在潜在行动后使用基于董事会统计数据的状态。 将比较所有预测,但将使用具有最佳状态的动作。 之所以选择下面的一些统计数据是由于 Dellacherie 的算法。 名称 描述 Kong 一个完整单元格覆盖的空单元格数 着陆高度 添加最后一块的高度 侵蚀片细胞 (行已清除)×(从最后一块中删除的单元格) 行转换 水平单元格过渡次数 列转换 垂直单元格过渡的数量 累积井数 所有井的总和 颠簸 每列的高度差一共 总高度 每列的高度总和 行已清除 清除的行数 报酬 奖励基于原始的俄罗斯方块游戏,但也会在演员活着时给予奖励并在失败时获得奖励。 名称 报酬 活 +1 清除 1 行 +40 清除 2 行 +100 清除 3 行 +300 清除 4 行 +1200
2021-07-01 17:04:07 1.94MB 系统开源
1
基于平均神经网络参数的 DQN.pdf
2021-06-16 13:20:42 2.65MB 神经网络 毕业论文
基于Matter.js TensorFlow.js用DQN玩落球躲避游戏Demo
2021-06-13 19:02:17 3MB Python开发-游戏开发
1
文献翻译,格式做的比较认真,公式图片都做了翻译,格式符合规范。适用于作业,课设,毕设文献翻译
2021-06-11 13:10:43 696KB 翻译 DQN 深度学习 强化学习
1
状态:活动(在活动开发中,可能会发生重大更改) 该存储库将实现经典且最新的深度强化学习算法。 该存储库的目的是为人们提供清晰的pytorch代码,以供他们学习深度强化学习算法。 将来,将添加更多最先进的算法,并且还将保留现有代码。 要求 python <= 3.6 张量板 体育馆> = 0.10 火炬> = 0.4 请注意,tensorflow不支持python3.7 安装 pip install -r requirements.txt 如果失败: 安装健身房 pip install gym 安装pytorch please go to official webisite to install it: https://pytorch.org/ Recommend use Anaconda Virtual Environment to manage your packages 安装tensorboardX pip install tensorboardX pip install tensorflow==1.12 测试 cd Char10\ TD3/ python TD3
1
用keras来拟合二次函数,理论上可以拟合任意的函数
2021-06-09 16:06:17 1KB python