强化学习算法,实现强化学习对网络资源的分配,目的是频谱利用最大化 强化学习算法,实现强化学习对网络资源的分配,目的是频谱利用最大化
2021-05-22 16:44:45 2KB 强化学习算法
1
强化学习 作为我的论文的最后部分,“协作多智能体学习的方法和实现”,涉及从单一智能体到多智能体的RL研究,以及协作和协作多智能体学习的最新技术。的算法和实现,在MATLAB中完成了某些RL方法的实现。 论文论文也被上传,其中包含参考文献。 单人强化学习 动态编程 蒙特卡洛方法 时差学习 线性函数逼近 深度Q网络 具有线性函数逼近的策略梯度 多智能体强化学习 集中式Q学习 滞后Q学习 多代理演员批评
2021-05-22 13:16:32 4.39MB MATLAB
1
深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的研究分支。概述了基于值函数和策略梯度的两类深度强化学习算法,详细阐述了深度Q网络、深度策略梯度及相关改进算法的原理,并综述了深度强化学习在视频游戏、导航、多智能体协作以及推荐系统等领域的应用研究进展。最后,对深度强化学习的算法和应用进行展望,针对一些未来的研究方向和研究热点给出了建议。
2021-05-21 15:18:32 2.92MB 深度强化学习 研究综述
1
硬阈值函数
2021-05-21 12:02:20 61B 硬阈值函数
1
就是尝试下第一次可以成功吗?
2021-05-20 09:04:33 166KB 强化学习 车辆
1
基于Matlab的最优控制程序代码,有利于学习着的进一步的学习利用。
2021-05-19 16:55:59 954B 最优控制 Matlab
1
Java入门思维导图
2021-05-17 18:05:00 20KB 强化学习
1
东北大学--最优控制理论与方法--教材,很好的书
2021-05-17 15:04:18 3.53MB 最优控制 理论与方法
1
被控系统的状态方程和初始条件给定,同时给定目标函数。然后寻找一个可行的控制方法使系统从输出状态过渡到目标状态,并达到最优的性能指标。系统最优性能指标和品质在特定条件下的最优值是以泛函极值的形式来表示。因此求解最优控制问题归结为求具有约束条件的泛函极值问题,属于变分学范畴。变分法、最大值原理(最小值原理)和动态规划是最优控制理论的基本内容和常用方法。庞特里亚金极大值原理、贝尔曼动态规划以及卡尔曼线性二次型最优控制是在约束条件下获得最优解的三个强有力的工具,应用于大部分最优控制问题。尤其是线性二次型最优控制,因为其在数学上和工程上实现简单,故其有很大的工程实用价值。
2021-05-16 19:42:36 2.28MB 最优控制
1
很好的一本教材,控制专业研究生入门级教材,强烈推荐。
2021-05-16 10:06:55 10.61MB 最优控制
1