奥斯卡:针对视觉和语言任务的对象语义对齐预训练 VinVL:重新研究视觉语言模型中的视觉表示 更新 月28日:已发布有关下游任务的模型,请检查 。 2020年5月15日:发布了用于下游任务微调的预训练模型,数据集和代码。 01/13/2021:我们的新工作提出了OSCAR +,这是OSCAR的改进版本,并提供了更好的对象属性检测模型来提取V + L任务的特征。 VinVL的工作在这里的所有七个V + L任务中都达到了SOTA性能。请继续关注模型和代码发布。 20年3月8日:发布了Oscar +预培训代码,请检查的最后一部分。 VinVL中的所有图像功能和模型检查点也已发布。请检查以获取详细信息。 介绍 该存储库包含重现《提出的结果所必需的源代码。我们提出了一种新的交叉模式预训练方法Oscar (对象语义对齐的预训练)。它利用在图像中检测到的对象标签作为锚点,从而大大简化了图像-文本对齐方
2021-10-30 15:27:20 724KB vqa image-captioning oscar vision-and-language
1