语言模型预训练已经显示出可以捕获数量惊人的世界知识,这对于NLP任务(例如问题
解答)至关重要。但是,此知识隐式存储在神经网络的参数中,需要更大的网络才能
覆盖更多的事实。
为了以更模块化和可解释的方式捕获知识,我们使用潜在的知识检索器增强了语言模
型的预训练,检索器使模型可以从预训练、微调和推理期间使用的大型语料库(如
Wikipedia)中检索并使用文档。首次,我们展示了如何使用蒙版语言建模作为学习信
号并通过考虑数百万个文档的检索步骤进行反向传播,从而以无监督的方式对这种知
识检索器进行预训练。
我们通过微调开放域问答(Open-QA)的挑战性任务,证明了检索增强语言模型预训练
(REALM)的有效性。我们在三个流行的Open-QA基准测试中与最先进(SOTA)的显式和隐
式知识存储模型进行了比较,发现我们在性能上优于所有以前的方法(绝对精度为
4-16%),同时还提供了定性优势,例如可解释性和模块化。
1