介绍
这是共识感知视觉语义嵌入(CVSE) ,这是论文《的官方源代码。 它基于PyTorch中的构建。
抽象的:
图像文本匹配在桥接视觉和语言方面起着核心作用。 大多数现有方法仅依靠图像-文本实例对来学习它们的表示,从而利用它们的匹配关系并进行相应的对齐。 这样的方法只是利用实例成对数据中包含的表面关联,而没有考虑任何外部常识知识,这可能会阻碍它们推理图像和文本之间更高层次关系的能力。 在本文中,我们提出了一种共识感知视觉语义嵌入(CVSE)模型,以将共识信息(即两种模式之间共享的常识知识)整合到图像文本匹配中。 具体而言,通过计算来自图像字幕语料库的语义概念之间的统计共现相关性,并部署构造的概念相关图以产生共识感知概念(CAC)表示,来利用共识信息。 之后,CVSE基于所利用的共识以及两种模式的实例级表示形式,学习图像与文本之间的关联和对齐方式。 在两个公共数据集上进行的大量实验证明
2021-07-14 15:46:05
214.1MB
Python
1