随机清洁机器人的基于模型的值迭代算法。 这段代码是值迭代算法的一个非常简单的实现,对于强化学习和动态规划领域的初学者来说,它是一个有用的起点。 随机清洁机器人 MDP:清洁机器人必须收集用过的罐子,还必须为电池充电。 状态描述了机器人的位置,动作描述了运动的方向。 机器人可以向左或向右移动。 第一个 (0) 和最后 (5) 个状态是终止状态。 目标是找到一个最优策略,使任何初始状态的回报最大化。 这里是 Q-iteration(基于模型的值迭代 DP)。 参考:算法 2-2,来自: @book{busoniu2010reinforcement, title={使用函数逼近器的强化学习和动态规划}, 作者={Busoniu,Lucian 和 Babuska,Robert 和 De Schutter,Bart 和 Ernst,Damien}, 年={2010}, 出版商={CRC Press}
2021-09-17 17:03:41 3KB matlab
1
这个机器人是针对旅游区山坡、悬崖边上的垃圾清理工作而设计的,利用氢气球飞行作为其活动方式是这个机器人最大的特点。
2021-09-17 16:28:45 138KB LabVIEW
1
行业制造-电动装置-一种光伏电站干式除尘清洁设备.zip
2021-09-14 16:02:02 366KB
行业制造-电动装置-一种光伏电站清洁超长轻体电动辊刷.zip
2021-09-14 16:01:21 384KB
行业资料-交通装置-一种全时城市道路清洁车及制造方法.zip
行业分类-设备装置-自动清洁、消尘、粉笔末再利用黑板
2021-09-13 13:02:04 663KB
1
行业分类-网络游戏-基于无线网络协同工作的清洁机器人系统.zip
行业分类-外包设计-包装的织物清洁组合物.zip
行业资料-电子功用-一种剃须刀充电清洁
2021-09-10 13:01:39 554KB
1
瑞安市清洁小流域治理智能决策系统设计.pdf