搜索【非线性动态系统|强化学习|最优控制|值函数|策略函数】的结果

对标准的强化学习进行改进，通过引入动机层，来引入先验知识，加快学习速度。策略迭代选择上，通过采用“同策略”迭代的Sarsa学习算法，代替传统的“异策略”Q学习算法。提出了基于多动机引导的Sarsa学习（MMSarsa）算法，分别和Q学习算法、Sarsa学习算法在坦克对战仿真问题上进行了三种算法的对比实验。实验结果表明，基于多动机引导的Sarsa学习算法收敛速度快且学习效率高。

2022-06-18 12:05:21 738KB 论文研究

1

二级倒立摆，matlab仿真，simulink建模仿真，lqr最优控制

绝对可以用的二级倒立摆模型。simulink建模，matlab编写s函数，使用lqr最优控制

2022-06-15 15:15:11 580KB 二级倒立摆

1

国开形考一实验小程序课时作业答案仅供参考

2022-06-12 12:04:14 4KB 参考资源 强化学习

1

ddpg-aigym：具有深度强化学习的连续控制-在OpenAI Gym环境中实现的深度确定性策略梯度（DDPG）算法

ddpg-aigym 深度确定性策略梯度 Tensorflow中深度确定性策略梯度算法的实现（Lillicrap等人。）如何使用 git clone https://github.com/stevenpjg/ddpg-aigym.git cd ddpg-aigym python main.py 培训期间一旦训练学习曲线 InvertedPendulum-v1环境的学习曲线。依存关系 Tensorflow（在tensorflow版本0.11.0rc0 ） OpenAi体育馆 Mujoco 产品特点批量归一化（提高学习速度）梯度转换器（在arXiv中提供：）注意使用不同

2022-06-10 08:26:41 322KB reinforcement-learning deep-learning tensorflow TensorflowPython

1

强化学习笔记和学习材料

2022-06-07 15:35:05 67.45MB 强化学习 笔记

1

Pyhton 强化学习实战书籍代码

Python 强化学习实战应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习书籍代码

2022-06-07 15:34:07 42.84MB 强化学习 深度强化学习 TensorFlow

1

国科大强化学习18-19春季

2016年AlphaGo战胜人类顶级围棋选手，标志人工智能的一个重要里程碑事件，其中强化学习方法做出了重要的贡献。麻省理工、斯坦福、卡内基梅隆等著名学府纷纷开设或着重强化学习的课程。强化学习是人工智能中最活跃的研究领域之一。强化学习不同于监督学习，强化学习根据系统的状态做出动作，由环境给出奖惩信号，通过学习获得使累计奖惩最高的动作策略。也就是一种基于数据通过自学习方式获得最优决策和控制的方法。在棋类博弈、智能驾驶、机器人控制等领域都有广泛成功的应用。

2022-06-07 15:30:47 28.06MB 强化学习

神经网络：强化学习高频面试题整理

本篇整理强化学习中的常见面试题，在面试前对强化学习的基础理论有深入的理解和认识，需要掌握常见算法的基本思想、推导过程。公式很多，如贝尔曼方程和贝尔曼最优方程这里估计已经被绕晕了，所以会觉得很难，更不要说把目前主流算法都掌握好了，像DDPG、TRPO、PPO等算法的推导过程基本都有一定的难度。学习资料： 1、英文书：Sutton的Reinforcement Learning: An Introduction，比较经典，总体讲的比较通俗易懂，可能就是英文不太好懂 2、视频教程：David Silver的视频教程，然后参考叶强的中文笔记来看，如果不喜欢英文，可以找李宏毅的视频来听 3、中文书籍：郭宪的《深入浅出强化学习原理入门》 4、英文文档：https://spinningup.openai.com/en/latest/index.html 5、论文：DDPG、TRPO、SAC等都可以找原论文读一下 6、源码：学一个算法要把它的框架搞懂，输入和输出是啥、网络的目标函数、参数怎么更新的都要知道，所以建议也把源码看看

2022-06-06 13:05:18 1.72MB 神经网络 人工智能 深度学习 机器学习

基于eNSP加防火墙的千人中型校园/企业网络规划与设计(附所有配置命令)

文件中包含了基于eNSP加防火墙的千人中型校园/企业网络规划与设计的topo图及其完整的配置（2份区别就是第二个加了无线网络规划设计(WIFI)）（三层架构，核心层、汇聚层、计入层），并加所有的配置命令(以txt形式在文件中)，文件在加入了相应的配套文章连接。文章中的综合运用设计技术的单个技术如vlan划分、静态路由、OSPF、单臂路由(trunk/access)、DHCP、无线WLAN、Snooping、MSTP、VRRP、防火墙、DNS server、ACL等。该topo适合了解并熟知单个组网技术的小伙伴，并想学习将单个技术组合应用的小伙伴，使用场景适用于毕业设计、校园网络规划、企业网络规划等场合

2022-06-04 18:05:06 327KB 强化学习 网络协议 网络规划设计 网络通信

Python源代码，基于深度强化学习最短路径

Python源代码，基于深度学习最短路径，DeepQlearning

2022-06-03 22:05:10 7KB python 开发语言

个人信息

热门下载

最新下载

其他资源