提出了一种基于RBF网络和启发式Q学习的改进,更强大的RNH-QL方法,用于在较大状态空间中进行路径搜索。 首先,如果增加了给定问题的状态空间并且缺少关于环境的先验信息,则解决了强化学习效率低下的问题。 其次,作为权重更新规则的RBF网络,奖励整形可以在某些中间状态下向代理提供额外的反馈,这将有助于以更可控的方式将代理引导至目标状态。 同时,通过Q学习的过程,底层动态知识可以访问它,而不需要上层RBF网络的背景知识。 第三,结合贪婪开发策略训练神经网络,提高了学习效率,实验结果证明了这一点。
1
本文介绍了分支定界法搜索差分分析和线性分析的最优路线。
2021-10-28 14:38:48 417KB 差分分析
1
利用高德地图api实现高德地图地点的搜索,同时可以设置规划路线,并保存规划路线的信息,路线规划支持按不同的策略生成规划路线。
以数据结构为图的邻接表,输入公交车站点与线路,查找最少站点线路和最少换乘线路,一个数据结构中关于图的课程设计
2020-01-30 03:02:36 1.91MB 数据结构 课程设计
1