搜索【非线性动态系统|强化学习|最优控制|值函数|策略函数】的结果

该软件是一个游乐场，专门针对具有多种设置的详细学习强化学习（RL）。游乐场的核心基于一个移动机器人模型，称为所谓的“扩展非完整双积分器”（ENDI）。有关说明，请参见这些注释。整个代码的流程图可以在这里找到。基本上，代理（也称为“控制器”）附加到环境（系统）并生成动作，以便在未来无限的范围内最小化运行成本（也称为奖励或阶段成本）。这个软件包中的具体目标是让机器人停放。控制器是多模态的，允许与各种基线进行比较（标称停车控制器、带有和不带有动态模型估计的模型预测控制器）。

2022-03-09 18:11:42 406KB matlab

1

最优控制理论PPT（研究生课程）

资源包括变分法，极小值，动态规划，线性二次型等

2022-03-07 09:23:58 1000KB 最优控制理论

1

最优控制ppt

系统讲解泛函，极小值原理，线性二次型原理，变分法，等，与胡寿松的最优控制理论与系统相结合看。

2022-03-07 09:20:25 2.68MB ppt

1

FlappyBirdQLearner:使用pygame和强化学习AI机器人玩Flappy Bird来玩游戏-源码

FlappyBirdQLearner 通过和强化学习AI机器人实施Flappy Bird游戏：贪婪的学习者和Q学习者，他们学会了玩游戏的技能。这项工作是为大学分配的，它是基于和。依存关系要运行代码，您需要以下软件包： pygame 麻木斯克莱恩 matplotlib 泡菜馆藏随机的通常，您唯一需要额外安装的软件包是pygame，您可以通过以下方式进行安装： pip install pygame 跑步 flappy.py主文件，以可视显示方式运行游戏，您或AI代理都可以玩游戏 greedy_agent.py贪婪的代理类。 q_learning_agent.py -Q学习者代理类。 utils.py -Utility脚本为1）根据训练迭代函数绘制所得分数； 2）使用python模块运行多个并发子进程（非并行），以加快强化学习代理的训练速度。 conc_run.s

2022-03-06 11:58:24 924KB Python

1

通过深度强化学习的交通信号时间

通过深度强化学习的交通信号时间，IEEE最新文章 .打造交通信号控制的强化学习系统如果把由信号机、检测器等组成的交通信号控制系统当成一个“智能体”，将我们目睹的人车路当成“环境”，通过如下方式就可以构造强化学习系统：传感器从环境里获取观测状态（例如：流量、速度、排队长度等），传递给信号机，信号控制系统根据这些状态来选择一个得分最高状态的动作来执行（例如：当前相位保持绿灯或者切换成红灯），并对执行效果进行回馈（例如：采用排队长度作为回报函数），系统根据回报结果，调整打分系统的参数。这样就形成一个循环的过程，就能达到不断学习改进。

2022-03-06 11:18:21 909KB 深度学习IEEE

1

Curriculum-Reinforcement-Learning:解决障碍目标导向机器人任务的新型强化学习方法-源码

CuRL-针对目标机器人控制的课程强化学习我的MEng在计算（人工智能）最终项目中的代码档案，报告- 。该项目的主要成果是CuRL-一种用于培训政策以完成面向目标的机器人任务的方法，而最新的深度强化学习则很难解决这些问题。通过使用简单任务的课程表，我们逐步指导一项政策，使其能够完成所需的完整任务。上图有助于说明该方法。我们的目标是训练机器人在避开墙壁的情况下到达目标球体。从头开始使用强化学习的最新方法将很难学会克服困难。在项目报告中对此进行了更详细的说明。通过课程强化学习，我们最初会移除墙壁，并且机器人可以学习沿红色轨迹移动。通过顺序添加墙的“部分”（用彩色同心圆表示），我们可以指导策略，以便机器人学习遵循所需的绿色轨迹。本文介绍的最终方法及其早期版本需要对RL算法的基线实现进行重大更改，尤其是为了支持残余策略培训。我希望这里提供的代码可以帮助其他从事类似项目

2022-03-05 19:24:53 342.92MB machine-learning reinforcement-learning domain-randomization curriculum-reinforcement-learning

1

matlab三次样条插值函数代码-LocalLinear-PiecewisePolynomial-Interpolation:使用局部线性和分

matlab三次样条插值函数代码局部线性和分段多项式插值应用：天气逼近客观的使用局部线性和分段多项式插值来构造和近似天气曲线。算法使用简单的线性函数逼近和多项式（逐渐增加的阶数）来注意到并突出显示逼近中的差异结果与观察在运行MATLAB代码之后，似乎分段多项式插值（三次样条）具有第二个最低的MSE，整体局部线性插值的最低MSE，因此在这种特定情况下是更好的近似值。但是，使用分段多项式插值法（三次样条），曲线看起来更加准确。

2022-03-05 18:03:36 3KB 系统开源

1

具有深度强化学习的粗到精细无人机目标跟踪

2022-03-04 21:03:39 2.24MB 研究论文

1

强化学习实战系列(2020最新)

强化学习系列课程主要包括经典算法原理讲解与案例实战两大部分。通俗讲解当下主流强化学习算法思想，结合实例解读算法整理应用流程并结合案例展开代码实战。整体风格通俗易懂，适合准备入门强化学习并进阶提升的同学们。

2022-03-04 15:54:53 349B python AI pytorch 人工智能 强化学习

1

Mahjong4RL：Mahjong4RL是一个重新创建日本麻将游戏并使用深度强化学习方法进行游戏的项目-源码

麻将4RL :mahjong_red_dragon: Mahjong4RL是一个重新创建日本麻将游戏并使用深度强化学习方法进行游戏的项目。（Riichi Mahjong）是麻将的一种变体。在保留游戏的基本规则的同时，该变体强调了玩家的Menzenchin，并具有一组独特的规则，例如riichi和doras。我们的目标是从头开始创建日本麻将游戏系统。我们将在以后实施。 :rocket: 用法 from mahjong . game import Game names = [ 'Kelly' , 'Leo' , 'Ball' , 'Hao' ] game = Game ( names ) game . start_game () :eyes: 运行测试 python - m unittest :memo: 文档和待办事项 :bust_in_silhouette: 作者 :page_facing_up: 执照

2022-03-03 13:42:13 48KB Python

1

个人信息

热门下载

最新下载

其他资源