提出了一种基于RBF网络和启发式Q学习的改进,更强大的RNH-QL方法,用于在较大状态空间中进行路径搜索。 首先,如果增加了给定问题的状态空间并且缺少关于环境的先验信息,则解决了强化学习效率低下的问题。 其次,作为权重更新规则的RBF网络,奖励整形可以在某些中间状态下向代理提供额外的反馈,这将有助于以更可控的方式将代理引导至目标状态。 同时,通过Q学习的过程,底层动态知识可以访问它,而不需要上层RBF网络的背景知识。 第三,结合贪婪开发策略训练神经网络,提高了学习效率,实验结果证明了这一点。
1