搜索【非线性动态系统|强化学习|最优控制|值函数|策略函数】的结果

GridWorld:使用强化学习技术、值迭代和 Q 学习解决 5x4 网格世界问题-源码

网格世界使用强化学习技术、值迭代和 Q 学习解决 5x4 网格世界问题

2021-12-22 11:49:30 4KB Java

1

鲁棒与最优控制

经典基础性教材，鲁棒与H无穷，的控制教材，属于控制领域

2021-12-21 20:23:58 8.1MB 控制系统

1

随机最优控制部分.docx

传输文件

2021-12-21 18:00:38 18KB 4444444

1

Reinforcement-Learning-for-Real-time-Pricing-and-Scheduling-Control-in-EV-Charging-Stations:电动汽车充电站实时定价和调度控制的强化学习-源码

2020年11月22日更新各位， 2020-11-17：我注意到人们正在等待代码。正如我在某些电子邮件中所说的那样，论文终于在我还是腾讯的时候完成了。 2020年5月，我从腾讯离开，加入了深圳大学。如您所知，对于一家商业公司，我将所有材料留在腾讯内部。非常抱歉，无法再提供原始的MATLAB代码。我将尝试最近在Pytorch中重新实现它。谢谢。 2020-11-22：上传了pytorch实施。再次抱歉，我无法提供带有SARSA的原始MATLAB实现。当我们小组致力于A3C框架的研究工作时，我使用A3C框架实施EV充电环境和功能状态，以提高实施效率。结果，尽管结果与原始结果略有不同，但快速收敛仍然很重要。就个人而言，我们的主要贡献是问题的提出和解决，可以在env（）函数中找到。因此，让我在这里停止，再次感谢您的关注。引用这项工作 S. Wang，S。Bi和YJ Zh

2021-12-21 13:13:43 3.3MB Python

1

最优控制PPT 共12个章节

一、最优控制简介二、最优控制发展过程三、最优控制应用举例四、小结五、本科程主要内容

2021-12-21 09:50:27 5.32MB 最优控制课件

1

基于混合策略自适应学习的并行粒子群优化算法

<html dir="ltr"><head><title></title></head><body>针对当前各种粒子群优化算法解决问题时存在的局限性, 提出一种基于混合策略自适应学习的粒子群优化算法(HLPSO). 该算法从收敛速度、跳出局部极值、探索、开发几个不同角度融合了4 种具有不同优势的变异策略,当面对不同形态的复杂问题时通过自适应学习机制选择出合适的策略来完成全局寻优. 通过对7 个标准测试函数的仿真实验并与其他算法相比较, 所得结果表明了所提出的算法具有较快的收敛速度、较高的精度以及很强的跳出局部极值的能力.</body></html>

2021-12-20 10:26:54 302KB 粒子群优化|自适应学习|变异策略|函数优化

1

DQLearning-Toolbox:深度强化学习工具箱（QLearning）-源码

强化学习工具箱(DRLToolbox) 概述该项目建立了一个集成深度强化学习训练、训练结果可视化、调参、模型版本管理等功能于一体的工具箱，提供小游戏对算法进行测试学习。该工具箱可以帮助大家了解深度强化学习的乐趣以及协助开发者的研究。配置情况 Python 3 TensorFlow-gpu pygame OpenCV-Python PyQt5 sys threading multiprocessing shelve os sqlite3 socket pyperclip flask glob shutil numpy pandas time importlib 如何运行？运行run_window.py可启动窗口启动界面主界面设置界面其他功能详见项目大报告什么是强化学习？详见报告最终表现以贪吃蛇为例，经过超过500万次训练（超过48小时），一共完成36171局，每局分数如

2021-12-19 18:55:16 50.25MB deep-reinforcement-learning Python

1

最优控制的数学理论.pdf（经典）

自控专业必备，介绍了关于现代控制理论中的一些数学问题的详细解说，一本非常棒的指导书

2021-12-17 17:02:19 4.76MB 最优控制的数学理论（自控专业必备）

1

Reinforcement-Learning-Algorithms-with-Python:Packt发布的Python强化学习算法-源码

使用Python的强化学习算法这是Packt发行的《的代码库。学习，理解和开发用于应对AI挑战的智能算法这本书是关于什么的？强化学习（RL）是AI的流行和有前途的分支，涉及制作更智能的模型和代理，这些模型和代理可以根据不断变化的需求自动确定理想的行为。本书将帮助您掌握RL算法并在构建自学习代理时了解其实现。本书首先介绍了在RL环境中工作所需的工具，库和设置，然后介绍了RL的组成部分，并深入研究了基于价值的方法，例如Q学习和SARSA算法的应用。您将学习如何结合使用Q学习和神经网络来解决复杂的问题。此外，在继续使用DDPG和TD3确定性算法之前，您将研究策略梯度方法TRPO和PPO，以提高性能和稳定性。本书还介绍了模仿学习技术的工作原理以及Dagger如何教代理人驾驶。您将发现进化策略和黑盒优化技术，并了解它们如何改善RL算法。最后，您将掌握诸如UCB和UCB1

2021-12-17 10:05:28 89KB Python

1

基于Bang-Bang原理的时间最优控制问题求解

2021-12-16 11:50:39 184KB 砰砰控制

1

个人信息

热门下载

最新下载

其他资源