随机清洁机器人的基于模型的值迭代算法。 这段代码是值迭代算法的一个非常简单的实现,对于强化学习和动态规划领域的初学者来说,它是一个有用的起点。 随机清洁机器人 MDP:清洁机器人必须收集用过的罐子,还必须为电池充电。 状态描述了机器人的位置,动作描述了运动的方向。 机器人可以向左或向右移动。 第一个 (0) 和最后 (5) 个状态是终止状态。 目标是找到一个最优策略,使任何初始状态的回报最大化。 这里是 Q-iteration(基于模型的值迭代 DP)。 参考:算法 2-2,来自: @book{busoniu2010reinforcement, title={使用函数逼近器的强化学习和动态规划}, 作者={Busoniu,Lucian 和 Babuska,Robert 和 De Schutter,Bart 和 Ernst,Damien}, 年={2010}, 出版商={CRC Press}
2021-09-17 17:03:41 3KB matlab
1
南京理工大学数字图像处理实验报告 ,自动阈值迭代法及Otsu法
2021-06-21 20:30:01 126KB 阈值 Otsu 实验报告
1
确定性清洁机器人的基于模型的值迭代算法。 这段代码是值迭代算法的一个非常简单的实现,对于强化学习和动态规划领域的初学者来说,它是一个有用的起点。 确定性清洁机器人 MDP:清洁机器人必须收集用过的罐子,还必须为电池充电。 状态描述了机器人的位置,动作描述了运动的方向。 机器人可以向左或向右移动。 第一个 (1) 和最后 (6) 个状态是终止状态。 目标是找到一种最佳策略,以使任何初始状态的收益最大化。 这里是 Q-iteration(基于模型的值迭代 DP)。 参考:算法 2-1,来自: @book{busoniu2010reinforcement, title={使用函数逼近器的强化学习和动态规划}, 作者={Busoniu,Lucian 和 Babuska,Robert 和 De Schutter,Bart 和 Ernst,Damien}, 年={2010}, 出版商={CRC Pre
2021-06-18 10:14:57 5KB matlab
1
平行平面腔自再现膜的Fox-Li数值迭代解法的matlab代码,没有额外调用函数,全部在一个m文件运算,迭代次数可调,最后输出最后一次迭代的波模图形和所有迭代的叠加图形,也可以微调代码改变输出
2021-06-17 19:52:01 1KB Matlab 光学
1
一篇很不错的文档资料,比较分析了几种分割算法的效果
2021-04-30 16:55:10 418KB 信息熵 OTSU 最大熵
1
利用自适应动态规划(ADP)的值迭代算法,求解非线性离散时间系统,能够实现稳定控制。代码基于Python实现,构建Actor 和Critic Network两个网络。需要安装Pytorch和Tensorflow;由于保存结果,因此需要在根目录先创建ADPresultfig文件夹;python文件只需要放在根目录下即可。
2021-04-30 11:29:54 77KB ADP 自适应动态规划 值迭代 Python
1
马尔可夫决策过程 概述 该存储库运行3种强化算法:策略迭代,值迭代和Q学习,以解决2个MDP问题:悬崖行走和20X20冻湖网格,并比较它们的性能。 运行步骤 需要Python 3.6 使用pip从Requirements.txt安装需求 使用python 3运行以下命令以创建数据和图形文件: python run_experiment.py-全部 python run_experiment.py --plot 获得的结果 有关获得的结果的更多信息,请参考Analysis.pdf。 悬崖行走问题 问题 结果 冻湖网格问题 问题 结果
2021-03-03 17:16:25 3.63MB Python
1
里面包括插值、迭代、积分、Adams、Runger-Kutta、级数计算、列主消元法求根等的数值计算源程序
2021-03-01 15:35:06 7KB 插值 迭代 积分 Adams
1
使用寻求最优阈值的方法,找到最佳的图像二值化分割的临界点灰度值
2020-01-03 11:24:47 533B 最优阈值 图像分割
1