惯性权重是微粒群算法(PSO) 的重要参数, 它可以平衡算法的全局和局部搜索能力的关系, 改善算法的性
能. 对此, 提出一种基于强化学习的适应性微粒群算法(RPSO). 首先将不同惯性权重调整策略视为粒子的行动集合;
然后通过计算??函数值, 考察粒子多步进化的效果; 进而选择粒子最优进化策略, 动态调整惯性权重, 以增强算法寻
找全局最优的能力. 对几种经典函数的测试结果表明, RPSO 能够获得良好的性能, 特别是对多峰函数效果更加明显.

1
各种强化学习算法
2022-06-19 21:55:35 109KB 各种强化学习算法
1
对标准的强化学习进行改进,通过引入动机层,来引入先验知识,加快学习速度。策略迭代选择上,通过采用“同策略”迭代的Sarsa学习算法,代替传统的“异策略”Q学习算法。提出了基于多动机引导的Sarsa学习(MMSarsa)算法,分别和Q学习算法、Sarsa学习算法在坦克对战仿真问题上进行了三种算法的对比实验。实验结果表明,基于多动机引导的Sarsa学习算法收敛速度快且学习效率高。
2022-06-18 12:05:21 738KB 论文研究
1
国开形考一 实验小程序 课时作业答案仅供参考
2022-06-12 12:04:14 4KB 参考 资源 强化学习
1
ddpg-aigym 深度确定性策略梯度 Tensorflow中深度确定性策略梯度算法的实现(Lillicrap等人 。) 如何使用 git clone https://github.com/stevenpjg/ddpg-aigym.git cd ddpg-aigym python main.py 培训期间 一旦训练 学习曲线 InvertedPendulum-v1环境的学习曲线。 依存关系 Tensorflow(在tensorflow版本0.11.0rc0 ) OpenAi体育馆 Mujoco 产品特点 批量归一化(提高学习速度) 梯度转换器(在arXiv中提供: ) 注意 使用不同
1
强化学习笔记和学习材料
2022-06-07 15:35:05 67.45MB 强化学习 笔记
1
Python 强化学习实战 应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习书籍代码
2022-06-07 15:34:07 42.84MB 强化学习 深度强化学习 TensorFlow
1
2016年AlphaGo战胜人类顶级围棋选手,标志人工智能的一个重要里程碑事件,其中强化学习方法做出了重要的贡献。麻省理工、斯坦福、卡内基梅隆等著名学府纷纷开设或着重强化学习的课程。 强化学习是人工智能中最活跃的研究领域之一。强化学习不同于监督学习,强化学习根据系统的状态做出动作,由环境给出奖惩信号,通过学习获得使累计奖惩最高的动作策略。也就是一种基于数据通过自学习方式获得最优决策和控制的方法。在棋类博弈、智能驾驶、机器人控制等领域都有广泛成功的应用。
2022-06-07 15:30:47 28.06MB 强化学习
本篇整理强化学习中的常见面试题,在面试前对强化学习的基础理论有深入的理解和认识,需要掌握常见算法的基本思想、推导过程。 公式很多,如贝尔曼方程和贝尔曼最优方程这里估计已经被绕晕了,所以会觉得很难,更不要说把目前主流算法都掌握好了,像DDPG、TRPO、PPO等算法的推导过程基本都有一定的难度。 学习资料: 1、英文书:Sutton的Reinforcement Learning: An Introduction,比较经典,总体讲的比较通俗易懂,可能就是英文不太好懂 2、视频教程:David Silver的视频教程,然后参考叶强的中文笔记来看,如果不喜欢英文,可以找李宏毅的视频来听 3、中文书籍:郭宪的《深入浅出强化学习原理入门》 4、英文文档:https://spinningup.openai.com/en/latest/index.html 5、论文:DDPG、TRPO、SAC等都可以找原论文读一下 6、源码:学一个算法要把它的框架搞懂,输入和输出是啥、网络的目标函数、参数怎么更新的都要知道,所以建议也把源码看看
2022-06-06 13:05:18 1.72MB 神经网络 人工智能 深度学习 机器学习
文件中包含了基于eNSP加防火墙的千人中型校园/企业网络规划与设计的topo图及其完整的配置(2份 区别就是第二个加了无线网络规划设计(WIFI))(三层架构,核心层、汇聚层、计入层),并加所有的配置命令(以txt形式在文件中),文件在加入了相应的配套文章连接。文章中的综合运用设计技术的单个技术如vlan划分、静态路由、OSPF、单臂路由(trunk/access)、DHCP、无线WLAN、Snooping、MSTP、VRRP、防火墙、DNS server、ACL等。该topo适合了解并熟知单个组网技术的小伙伴,并想学习将单个技术组合应用的小伙伴,使用场景适用于毕业设计、校园网络规划、企业网络规划等场合