对标准的强化学习进行改进,通过引入动机层,来引入先验知识,加快学习速度。策略迭代选择上,通过采用“同策略”迭代的Sarsa学习算法,代替传统的“异策略”Q学习算法。提出了基于多动机引导的Sarsa学习(MMSarsa)算法,分别和Q学习算法、Sarsa学习算法在坦克对战仿真问题上进行了三种算法的对比实验。实验结果表明,基于多动机引导的Sarsa学习算法收敛速度快且学习效率高。
2022-06-18 12:05:21 738KB 论文研究
1
绝对可以用的二级倒立摆模型。simulink建模,matlab编写s函数,使用lqr最优控制
2022-06-15 15:15:11 580KB 二级倒立摆
1
国开形考一 实验小程序 课时作业答案仅供参考
2022-06-12 12:04:14 4KB 参考 资源 强化学习
1
ddpg-aigym 深度确定性策略梯度 Tensorflow中深度确定性策略梯度算法的实现(Lillicrap等人 。) 如何使用 git clone https://github.com/stevenpjg/ddpg-aigym.git cd ddpg-aigym python main.py 培训期间 一旦训练 学习曲线 InvertedPendulum-v1环境的学习曲线。 依存关系 Tensorflow(在tensorflow版本0.11.0rc0 ) OpenAi体育馆 Mujoco 产品特点 批量归一化(提高学习速度) 梯度转换器(在arXiv中提供: ) 注意 使用不同
1
强化学习笔记和学习材料
2022-06-07 15:35:05 67.45MB 强化学习 笔记
1
Python 强化学习实战 应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习书籍代码
2022-06-07 15:34:07 42.84MB 强化学习 深度强化学习 TensorFlow
1
2016年AlphaGo战胜人类顶级围棋选手,标志人工智能的一个重要里程碑事件,其中强化学习方法做出了重要的贡献。麻省理工、斯坦福、卡内基梅隆等著名学府纷纷开设或着重强化学习的课程。 强化学习是人工智能中最活跃的研究领域之一。强化学习不同于监督学习,强化学习根据系统的状态做出动作,由环境给出奖惩信号,通过学习获得使累计奖惩最高的动作策略。也就是一种基于数据通过自学习方式获得最优决策和控制的方法。在棋类博弈、智能驾驶、机器人控制等领域都有广泛成功的应用。
2022-06-07 15:30:47 28.06MB 强化学习
本篇整理强化学习中的常见面试题,在面试前对强化学习的基础理论有深入的理解和认识,需要掌握常见算法的基本思想、推导过程。 公式很多,如贝尔曼方程和贝尔曼最优方程这里估计已经被绕晕了,所以会觉得很难,更不要说把目前主流算法都掌握好了,像DDPG、TRPO、PPO等算法的推导过程基本都有一定的难度。 学习资料: 1、英文书:Sutton的Reinforcement Learning: An Introduction,比较经典,总体讲的比较通俗易懂,可能就是英文不太好懂 2、视频教程:David Silver的视频教程,然后参考叶强的中文笔记来看,如果不喜欢英文,可以找李宏毅的视频来听 3、中文书籍:郭宪的《深入浅出强化学习原理入门》 4、英文文档:https://spinningup.openai.com/en/latest/index.html 5、论文:DDPG、TRPO、SAC等都可以找原论文读一下 6、源码:学一个算法要把它的框架搞懂,输入和输出是啥、网络的目标函数、参数怎么更新的都要知道,所以建议也把源码看看
2022-06-06 13:05:18 1.72MB 神经网络 人工智能 深度学习 机器学习
文件中包含了基于eNSP加防火墙的千人中型校园/企业网络规划与设计的topo图及其完整的配置(2份 区别就是第二个加了无线网络规划设计(WIFI))(三层架构,核心层、汇聚层、计入层),并加所有的配置命令(以txt形式在文件中),文件在加入了相应的配套文章连接。文章中的综合运用设计技术的单个技术如vlan划分、静态路由、OSPF、单臂路由(trunk/access)、DHCP、无线WLAN、Snooping、MSTP、VRRP、防火墙、DNS server、ACL等。该topo适合了解并熟知单个组网技术的小伙伴,并想学习将单个技术组合应用的小伙伴,使用场景适用于毕业设计、校园网络规划、企业网络规划等场合
Python源代码,基于深度学习最短路径,DeepQlearning
2022-06-03 22:05:10 7KB python 开发语言