与抽象状态相关联.这种关联性信息可以产生对应
问题的学习 技 巧(也 称 为 Option).例 如,在 著 名 的
出租车问题中[87],其中的一组抽象状态是出租车起
始和乘客所处的位置,那么此时Option就是从出租
车起始位置到乘客所处位置的一系列动作组合.很
明显,生成的Option相当于h-DQN模型中设定的
中间目标,省去了复杂的人工设定中间目标的过程,
并使得学习到的Option与具体的学习任务无关.因
此在相同的状态空间下,该模型具有很强的泛化性.
6.3 深度后续强化学习
一般地,在 只 给 定 原 始 输 入 观 察 和 奖 赏 值 的
情况下,通 过 基 于 模 型(model-based)或 者 模 型 无
关(model-free)的DRL算 法 可 以 学 习 到 鲁 棒 的 值
函数.后 续 状 态 表 示 法(Successor Representation,
SR)为学习值函数提供了第3种选择.SR将值函数
分解为两个部分:后续状态映射图(successor map)
和立即奖赏指示器(reward predictor).后续状态映
射图表示在给定当前状态下到达未来某一状态占有
率的期望.立即奖赏指示器表示从状态到奖赏值的
映射.在SR中,这两个部分以内积的形式构成值函
数.基于上述理论知识,Kulkarni等人[88]将SR的应
用范围扩展到大规模状态空间的DRL问题中,提出
了深度后续强化学习(Deep Successor Reinforcement
Learning,DSRL).
21 计 算 机 学 报 2018年
1