在很少或没有监督的情况下学习有用的表示是人工智能的一个关键挑战。我们深入回顾了表示学习的最新进展,重点关注基于自编码器的模型。为了组织这些结果,我们使用了被认为对下游任务有用的元先验,比如特征的解缠和分层组织。特别地,我们揭示了三种主要机制来执行这些特性,即(i)正则化(近似或聚集)后验分布,(ii)分解编码和解码分布,或(iii)引入结构化的先验分布。虽然有一些有希望的结果,隐性或显性监督仍然是一个关键的促成因素,所有当前的方法使用强烈的归纳偏差和建模假设。最后,我们通过率失真理论分析了基于自编码器的表示学习,并明确了关于下游任务的现有知识量和表示对该任务的有用程度之间的权衡。
1