只为小站
首页
域名查询
文件下载
登录
论文研究 -
连续时间马尔可夫决策过程
的方差优化
本文考虑了
连续时间马尔可夫决策过程
中平均报酬的方差优化问题。 假设状态空间是可计数的,而动作空间是Borel可测量的空间。 本文的主要目的是在确定性平稳策略空间中找到方差最小的策略。 与传统的马尔可夫决策过程不同,方差准则中的成本函数将受到未来行动的影响。 为此,我们通过引入称为伪方差的概念将方差最小化问题转换为标准(MDP)。 通过给出伪方差优化问题的策略迭代算法,推导了原始方差优化问题的最优策略,并给出了方差最优策略的充分条件。 最后,我们用一个例子来说明本文的结论。
2024-01-10 23:19:32
398KB
连续时间马尔可夫决策过程
策略迭代
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
2019西门子杯六部十层电梯群控参考程序.zip
基于LSTM模型的股票预测模型_python
基于MATLAB的Filter使用,低通、带通和高通滤波器的仿真
基于傅里叶算子的手势识别的完整源代码(Python实现,包含样本库)
校园网规划与设计和pkt文件
BP神经网络+PID控制simulink仿真
Steam离线安装版
张正友相机标定Opencv实现(完整程序+棋盘图)实例源码
拾荒者扫描器.rar
王万良-人工智能导论(第五版)课件
Vivado license 永久
随机森林用于分类matlab代码
stm32f103+OLED12864+FFT音乐频谱(多种显示效果 提供原理图)
智能微电网中利用粒子群算法实现多目标优化(有完整数据可运行).zip
基于yolov4-keras的抽烟检测(源码+数据集)
最新下载
奇妙三数字3代破解版
eclipse JDT的使用
2022年电赛A题:单相交流电子负载 单相pwm整流 基于stm32f407vet6的单相DQ锁相环
MPU-6050C datasheet
Matlab英文词汇大全
高通9008模式刷机救砖/固件提取备份所需的Firehose文件合集,已经包括华为,小米,vivo等大厂
DES加密解密VB6.0源代码
numpy-1.18.1-cp38-cp38-win_amd64.zip
维宏激光切割仿真软件,用于学习激光切割机操作
ARX实现屏幕菜单(DockControlBar)
其他资源
万年历+stm32+触摸按键
RGB转 YUV代码 C语言
matlab背景差分法实例
rxtxSerial.dll 32位
kmod-oracleasm-2.0.8-13.el6_8.x86_64.rpm 合集
15电子设计大赛风力摆源码(平衡小车出版).zip
超级-网上图书借还管理系统
第十二届智能车节能组国赛前五技术报告
双馈感应式风力发电系统
JUNIPER-MX多业务路由器配置与维护手册.rar
花样滑冰发展模式创新.pptx
亚历克斯-源码
rename.zip
2020年第4季度娱乐直播行业用户洞察.pdf
Redis从入门到精通(深入剖析)【55集完整资料】47-redis-redis的主从复制-启动三台redis服务.avi
遗传规划VC++程序 GP_VC
改进Potter算法在冗余捷联惯组故障检测中的应用研究
根据直方图调整图像对比度.delphi.rar
很好的LMI 预测控制程序
学习之道(第二版)
c++ 图像处理
Texas Instruments公司Altium Desiger的库文件