自我监督预测的好奇心驱动探索
在ICML 2017中
, , ,加州大学伯克利分校
这是我们基于ICLS 基于张量流的实现,该。 当来自环境的外部奖励稀疏时,想法是用内在的基于好奇心的动机(ICM)来培训代理商。 令人惊讶的是,即使环境中没有可用的奖励,您也可以使用ICM,在这种情况下,代理仅出于好奇而学会探索:“没有奖励的RL”。 如果您发现这项工作对您的研究有用,请引用:
@inproceedings{pathakICMl17curiosity,
Author = {Pathak, Deepak and Agrawal, Pulkit and
Ef
1