多语言CLIP
适用于任何语言的OpenAI CLIP文本编码器
··
概述
最近发布了一篇论文,《中 ,其中介绍了CLIP(对比语言-图像预训练)模型。 使用对比学习目标,通过匹配文本和图像的相应矢量表示,训练该模型以使其连接文本和图像。 CLIP由两个单独的模型组成,一个视觉编码器和一个文本编码器。 这些内容接受了高达4亿张的图像和相应的字幕的培训。 此后,OpenAI发布了一组较小的CLIP模型,可以在上找到它们。
我们建议进行微调,以使用任何语言的预训练文本模型替换原始英语文本编码器。 这种方法可以使强大的CLIP模型在大约24个GPU小时内适应任何语言。
该存储库包含
pytorch推断代码
Tensorflow培训代码
预训练的CLIP-Text编码器可支持多种语言
训练数据和预先计算的CLIP文本编码,用于 + MSCOCO + VizWiz图像标题的很大一部分
要求
2021-07-21 22:52:46
81.95MB
Python
1