matlab五子棋代码 awesome-reinforcement-learning 强化学习的相关学习资源、链接 网址教程资源 教程网址 Book Video Course ; ; ; ; ; 博客网址 领域专家 Awesome Algorithm Repos 强化学习实战资源 Implementation of Algorithms Project []; 论文 (Deep Q-Networks ): Mnih et al, 2013 (Deep Q-Network ); Mnih et al, 2015 (Double Q Network) : Hasselt et al, 2015 (Duling Q Network) : Ziyu Wang et al, 2015 (Quantile Regression DQN): Dabney et al, 2017 (Mastering the game of Go with deep neural networks and tree search) (Mastering Chess and Shogi by Self-Play) :S
2021-11-05 23:55:17 275.71MB 系统开源
1
Snopt项目 在 MatLab 中的 Snopt 中实现的最优控制问题 该目录中包含使用非线性求解器 SNOPT 的 MatLab 接口数值求解的各种优化控制问题。 这些项目将在 SNOPT 的学生/试用版上运行,可从获得 此目录中包含的项目: 快时线:这里 Snopt 用于在与粒子速度成正比的阻力影响下以数值方式求解快时线问题。 给出了各种实现,即展示了 Jacobian 的显式计算(关于约束的决策变量)以增加对最优解的收敛,以及 Jacobian 的稀疏模式的计算。 类似地,给出了 Snopt 计算雅可比矩阵的版本; 比较两者显示了运行时的数量级。 每个都包括对 Snopt 返回的解决方案的可行性分析。 可行性分析是验证和验证数值求解器(在本例中为 SNOPT)是否确实找到了最佳解决方案的关键组件。
2021-11-05 10:41:43 30KB MATLAB
1
通俗易懂,讲解很好,易理解,案例明确,过程清晰,很实用。
2021-11-04 19:07:21 1.85MB 变分法 最优控制 应用
1
迷宫 当我回顾我在上所做的一些工作时,我开始了这个小。 该项目将相同的强化学习 (RL) 概念应用于迷宫学习,因为求解器试图找到从迷宫左上角到右下角的最短路径。 虽然其他算法在解决静态迷宫时会快得多(例如,蛮力方法会更快),但这种解决算法以其如何存储其状态和适应不断变化的环境的能力而著称。 求解器的“知识”由与位置决策对相关联的值表示。 对于迷宫中的每个位置,求解器可以进行一次或多次移动以在迷宫中前进。 每次移动后,求解器都会获得奖励(或在这种情况下为惩罚-稍后会更多)。 然后,考虑到奖励以及从新位置开始的最佳移动,求解器通过更新其位置决策值来评估其最后一个决策。 例如,假设我们有一个位于位置1的求解器,并且有两个可能的移动距离:移动a和b 。 假设经过一些学习,求解器更新了这些移动的相对值,使得a的值为 -1, b的值为 2。(注意:这些值仅意味着b是比a更好的选择。一个可能还会考
2021-11-04 16:12:04 27KB JavaScript
1
强化学习,旅行商问题
2021-11-04 13:09:55 740KB 强化学习 旅行商问题
深入浅出强化学习鸳鸯系统代码+resourse(图片)+load.py
2021-11-03 22:07:49 80KB 强化学习
1
内容包含注意力机制和强化学习两部分,组会汇报所用,便于理解
2021-11-03 20:08:29 1.18MB Attention RL
1
连接-N 强化学习玩 Connect N. CS282r 最终项目。
2021-11-03 15:42:02 1.31MB JavaScript
1
自己用matlab编写的3次样条插值函数,绝对原创.
2021-11-03 15:38:42 560B 3次样条插值
1
强化学习,路径规划,Q-learning算法
2021-11-02 17:08:05 631KB Q-learning 机器学习 路径规划 强化学习
1