只为小站
首页
域名查询
文件下载
登录
论文研究 -
连续时间马尔可夫决策过程
的方差优化
本文考虑了
连续时间马尔可夫决策过程
中平均报酬的方差优化问题。 假设状态空间是可计数的,而动作空间是Borel可测量的空间。 本文的主要目的是在确定性平稳策略空间中找到方差最小的策略。 与传统的马尔可夫决策过程不同,方差准则中的成本函数将受到未来行动的影响。 为此,我们通过引入称为伪方差的概念将方差最小化问题转换为标准(MDP)。 通过给出伪方差优化问题的策略迭代算法,推导了原始方差优化问题的最优策略,并给出了方差最优策略的充分条件。 最后,我们用一个例子来说明本文的结论。
2024-01-10 23:19:32
398KB
连续时间马尔可夫决策过程
策略迭代
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
基于S函数的BP神经网络PID控制器及Simulink仿真和对应代码模型.zip
MTALAB NSGA2算法
copula程序及算法.zip
鲸鱼优化算法 WOA matlab源代码(详细注释)
2019综合测评仿真.zip
东南大学英语技术写作慕课所有答案
麻雀搜索算法(SSA)优化bp网络
工程伦理_李正风,丛杭青,王前_北京:清华大学出版社 , 2016.08_P329.pdf
模型预测控制MPC(模型预测电流控制,MPCC)的simulink仿真,2016b版本
拾荒者扫描器.zip
基于matlab扩频通信系统仿真(整套代码)
得到品控手册7.0.pdf
多目标微粒子群算法MOPSO MATLAB代码
python爬虫数据可视化分析大作业.zip
matlab机器人工具箱实现机械臂直线轨迹&圆弧轨迹规划
最新下载
银豹收银系统单机绿色破解版
极路由几款路由器的原厂固件
中国电信大数据专业认证应知应会手册.pdf
极域课堂管理系统软件v6.0-2.7.17466 2023专业版
Python项目 基于Scapy实现SYN泛洪攻击的方法
mtk解包封包工具.zip
python实现一个点绕另一个点旋转后的坐标
IMG_20240523_164715.jpg
一些高质量的学习Visual Basic(VB)的资源清单.zip
协议动态库测试工具V3.20.exe
其他资源
RK3228A RK3228B RK3229 BOX开发板用户使用指南V10
超级硬盘数据恢复软件 v4.9.5.0 专业正式版用户(破解)
C++ 表达式计算器
自然辩证法
添加运动(motion blur)与去运动模糊( demotion blur)
基于matlab的gui信号发生器
C#窗体图书管理系统
Officescan
计算机组成原理课程设计(简单模型机设计)
GY-25串口陀螺仪上位机
Apereo CAS5.2.3 自定义登录页,验证码,扩展开发,注册功能
Java核心技术 ( 卷I 基础知识 + 卷II 高级特性 ) 原书第9版 中文版扫描
AD可用QFN全系列封装lib
MFC 哈希表 小电话簿 线性探测法 除留取余法
cube explorer魔方还原
客房管理系统的C++课程设计