概念字幕数据集
概念字幕是一个包含(图像URL,字幕)对的数据集,旨在训练和评估机器学习的图像字幕系统。
资料下载
有关详细信息,请参见 。
动机
自动图像字幕的任务是产生能正确反映图像视觉内容的自然语言(通常是句子)。 到目前为止,最常用于此任务的资源是,其中包含约120,000张图像和5路图像标题注释(由付费注释者生成)。
Google的“概念字幕”数据集包含超过300万张图像,以及自然语言字幕。 与MS-COCO图像的精选样式相比,Conceptual Captions图像及其原始描述是从Web上收集的,因此代表了更多的样式。 原始描述是从与Web图像关联的Alt-text HTML属性中获取的。 我们开发了一种自动流水线,用于提取,过滤和转换候选图像/字幕对,目的是在最终字幕的清洁度,信息量,流畅性和可学习性之间取得平衡。
本文提供了更多详细信息(如果您在工作中使用或讨论此数据
2021-11-10 16:15:21
1.27MB
Shell
1