搜索【非线性动态系统|强化学习|最优控制|值函数|策略函数】的结果

吃豆子RL 应用于 Pacman 游戏的强化学习算法。 Pacman 游戏是为 Udacity 类 ud820的结果。可以在qlearningAgents.py文件中找到学习器。跑步 python pacman.py -p PacmanQAgent -x 800 -n 810 -l smallGrid -l参数可以更改为使用其他地图（在布局文件夹中可用）。 -p参数可以更改为使用其他类型的 q-learner。 -x设置训练示例的数量。 -n设置示例总数（训练 + 测试）学习者 PacmanQAgent：基本的 Q 学习代理。它使用完整状态（整个地图），因此在使用大地图时不会缩放。运行： python pacman.py -g DirectionalGhost -p PacmanQAgent -x 800 -n 810 -l smallGrid Approxi

2022-04-11 10:00:26 83KB Python

1

Reinforcement Learning - An Introduction 2nd 2017 6月版

Reinforcement Learning: An Introduction Richard S. Sutton and Andrew G. Barto Second Edition, in progress MIT Press, Cambridge, MA, 2017

2022-04-07 21:00:55 10.67MB 强化学习

1

基于倒立摆系统的最优控制理论研究

通过状态空间表达式的推导,从数学模型中倒立摆系统的建立,来研究探讨其系统的能观性、稳定性和能控性,并利用线性二次型最优调节器(LQR)对倒立摆系统进行控制。MATLAB仿真结构表明,使用LQR控制方法对系统进行控制,能满足系统稳定性、鲁棒性要求。

2022-04-07 02:00:54 273KB 线性二次型最优调节器 倒立摆 最优控制理论

1

rlgraph：RLgraph：用于深度强化学习的模块化计算图

RL图用于深度强化学习的模块化计算图。 RLgraph是一个在研究和实践中快速原型化，定义和执行强化学习算法的框架。 RLgraph与大多数其他库不同，因为它可以支持TensorFlow（或通常的静态图），也可以通过单个组件接口支持急切/按运行定义执行（PyTorch）。您还可以在此处找到介绍性博文：。 RLgraph公开了使用代理的良好定义的API，并提供了用于测试和组装机器学习模型的新颖组件概念。通过分离图定义，编译和执行，无需修改代理定义即可访问多个分布式后端和设备执行策略。这意味着它特别适合从应用用例原型到大规模分布式培训的平稳过渡。版本0.4.0中RLgraph的

2022-04-06 21:52:00 1.88MB machine-learning reinforcement-learning deep-learning tensorflow

1

强化学习算法笔记整理和总结

里面是我自己的强化学习笔记。参考自刘建平老师的强化学习博客，再加上自己的理解，通俗易懂。里面包含了强化学习model-free的经典论文（Q-learning、SARSA、TD(lambda)、DQN、DDQN、prioritized replay DQN、Dueling DQN、policy gradient、AC、A2C、A3C、DDPG、TD3、TRPO、PPO），能帮助你快速入门强化学习。除了有算法的公式，还有我自己的理解，以及要理解算法所需要的一些基础知识，算法的流程图，都写在了里面，绝对生动形象，通俗易懂。

2022-04-06 14:08:57 102.54MB 算法 强化学习 机器学习 最优控制

1

人工智能_项目实践_强化学习_基于强化学习的五子棋

2022-04-06 03:11:07 85.06MB 人工智能 强化学习 五子棋

深度学习之强化学习.pdf

2022-04-06 03:11:03 2.2MB 深度学习 人工智能

用matlab自主搭建DQN算法解决CartPole问题

本项目采用MATLAB语言搭建cartPole问题环境以及手动实现DQN算法能够很好的解决控制小车的平衡一类问题，其目的是帮助初学者很好地理解DQN算法。

2022-04-06 03:10:36 4KB matlab 算法 开发语言 强化学习

HUAWEI（华为） atlas 200 DK环境配置方法、网络配置、例程速跑及强化学习示例昇腾代码仓使用 MobaXterm

HUAWEI（华为） atlas 200 DK环境配置方法、网络配置、例程速跑及强化学习示例内容涵盖华为Atals基本配置、昇腾华为Atals代码仓使用示例、MobaXterm使用示例等说明。前言： ① 本文主要部分参考Atlas 200 DK开发者套件官方文档等资料。 ② 本文在官方环境部署的基础上简化了有读卡器情形下的制卡过程，更方便部署。 ③ 本文通过学习者的视角，对每一步操作进行了细致的解读并着重介绍了终端工具MobaXterm软件的相关使用方法，适用于方便地管理文件和传输文件，对初学者更为友好。 ④ 本文为学习笔记及说明书类学习资料。

2022-04-06 00:38:35 2.95MB 华为 Atlas200DK MobaXterm

1

多值函数插值：对多值函数进行有意义的插值-matlab开发

对多值函数进行插值时（每个 x 超过一个 y）， interp1 最多会产生错误（如果 x 数据相同），最坏会产生垃圾（见附图）。当逆 (x = g(y)) 是一个明确定义的函数时，此函数执行多值函数的有意义的插值。对于每个插值点， interp1Multivalued 返回存在于输入 x 和 y 向量中定义的每个分支上的插值 y。

2022-04-05 16:10:18 672B matlab

1

个人信息

热门下载

最新下载

其他资源