仿制学习用纸清单
RL中的模仿学习论文集,并有简要介绍。 该馆藏涉及“ ,还包含自我收集的论文。
确切地说,“模仿学习”是向专家演示(LfD)学习的普遍问题。 从这种描述中可以得出两个名称,由于历史原因,它们分别是“模仿学习”和“学徒学习”。 通常,学徒制学习是在“通过逆向强化学习(IRL)进行学徒制学习”的上下文中提及的,它可以恢复奖励功能并从中学习策略,而模仿学习始于直接克隆行为的行为,即直接学习该策略( 和Morgan- Kaufmann,NIPS 1989)。 然而,随着相关研究的发展,“模仿学习”一直被用来代表一般的LfD问题设置,这也是我们的观点。
通常,模仿学习的不同设置会衍生到不同的特定领域。 一种普遍的设置是,一个人只能从不互动的专家处获得(1)对预收集的轨迹((s,a)对)(2)他可以与环境进行交互(使用模拟器)(3)而没有奖励信号。 在这里,我们列出了一些其他设置
1