只为小站
首页
域名查询
文件下载
登录
求解部分可观测马氏决策过程的强化学习算法
针对部分可观测马氏决策过程(POMDP) 中, 由于感知混淆现象的存在, 利用Sarsa 等算法得到的无记忆策 略可能发生振荡的现象, 研究了一种基于记忆的强化学习算法——CPnSarsa (K) 学习算法来解决该问题. 它通过重新 定义状态,A gent 结合观测历史来识别混淆状态. 将CPnSarsa (K) 算法应用到一些典型的POMDP, 最后得到的是最 优或近似最优策略. 与以往算法相比, 该算法的收敛速度有了很大提高.
2021-06-25 14:28:18
339KB
强化学习 部分可观测M
arkov
决策过程 Sarsa
学习 无记忆策略
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
RentingSystem.rar
简易示波器-精英板.zip
基于Servlet+jsp+mysql开发javaWeb学生成绩管理系统
航迹融合算法MATLAB仿真程序
EasyMedia-ui.zip
基于STM32的电子时钟设计
matpower5.0b1.zip
python实现的学生信息管理系统—GUI界面版
离散时间信号处理第三版课后习题答案
非线性本构关系在ABAQUS中的实现.pdf
opcua服务器模拟器+opcua客户端工具.rar
cublas64_11.dll cublasLt64_11.dll cusolver64_11.dll
长江流域shp.zip
IEEE33节点配电网Simulink模型.rar
适用于eNSP 1.3.00 可加载的USG6000V防火墙设备包
最新下载
具有递归神经网络的文本生成:使用基于特征的RNN进行文本生成。 我们使用安德烈·卡帕蒂(Andrej Karpathy)的莎士比亚著作数据集。从该数据中获得一个字符序列(“莎士比亚”),训练模型以预测序列中的下一个字符。 通过重复调用模型可以生成更长的文本序列
Low Poly FPS Pack_3.2.rar
TI运放稳定性分析连载(11-19)
履带车辆非线性悬挂系统的ADAMS仿真.pdf
老外最新版的avilib的h文件和cpp文件
WMS用户操作手册
CUID-IC卡专用v2.3.5.rar
人员名单按姓氏笔画为序-汉字字典表
6RD_035_187B_TR7247_SW0317_20190625.zip
易拉罐形状和尺寸的最优设计模型
其他资源
cadence十分好用的脚本文件
java电子商务系统(毕业论文+项目).zip
御剑目录扫描专业版v1.1.exe
个人博客网站源码(python3.6+django2.0+mysql)
基于区块链的茶叶溯源平台源代码.zip
洛达1562M虎头版11月最新固件+软件(检测升级)+说明
opengl+vc写的太阳系演示源代码,包含三维场景建模,复合空间变换,太阳光源设置,纹理贴图等方法
进程监控守护工具-当监控列表中的进程挂掉后会自动重新启动
蓝牙开发demo
fmath-jar包-实例
通过DS18B20检测环境温度,并在LCD12864上实时显示温度。
JAVA+sqlserver数据库酒店管理系统
stm32智能小车/数组控制小车路径/避障
Photoshop Lab 修色盛典 【美】Dan Margulis 著 袁鹏飞 译
5V2W自激电源.zip
蓝色清新简约多用途PPT模板.pptx
亚马逊浏览器,亚马逊测评浏览器大比较.rar
exwise05.zip exwise05.zip
LEInstaller.exe
opencv2410forMinGw
jquery.wordexport.js
铣床夹具 装配图
算术编码算法的分析与实现(论文)
STM32 之间实现串口通信
腾讯热力图数据(腾讯全球移动定位数据)的定期抓取工具
C#开发网络爬虫