上传者: cpongm
|
上传时间: 2025-07-15 16:37:07
|
文件大小: 801KB
|
文件类型: PDF
跨模态投影匹配和分类损失应用于图像-文本匹配中的深度学习方法
本文提出了跨模态投影匹配(CMPM)损失和跨模态投影分类(CMPC)损失,用于学习判别图像-文本嵌入。CMPM损失试图最小化投影相容性分布和归一化匹配分布之间的KL散度,以便增加不匹配样本之间的方差和匹配样本之间的关联。CMPC损失尝试将来自一个模态的特征的向量投影分类到来自另一模态的匹配特征上,以增强每个类别的特征紧凑性。
深度学习在图像-文本匹配中的应用非常重要,因为它在各种应用中非常重要,例如双向图像和文本检索、自然语言对象检索、图像字幕和视觉问题回答。现有的深度学习方法要么尝试在共享潜在空间中学习图像和文本的联合嵌入,要么构建相似性学习网络来计算图像-文本对的匹配分数。
联合嵌入学习框架通常采用两分支架构,其中一个分支提取图像特征,另一个分支对文本表示进行编码,然后根据设计的目标函数学习判别式交叉模态嵌入。最常用的函数包括典型相关分析(CCA)和双向排名损失。
双向排名损失产生更好的稳定性和性能,并且越来越广泛地用于交叉模态匹配。然而,它遭受采样有用的三胞胎和选择适当的利润率在实际应用中。最近的一些工作探索了具有身份级别标记的更有效的跨模态匹配算法。
CMPM损失和CMPC损失引入了跨模态特征投影操作,用于学习区分性的图像-文本嵌入。CMPM损失函数不需要选择特定的三元组或调整裕度参数,并且在各种批量大小下具有很大的稳定性。
大量的实验和分析表明,该方法的优越性,有效地学习判别图像-文本嵌入。相关工作包括联合嵌入学习和成对相似性学习,联合嵌入学习的目的是找到一个联合的潜在空间,在这个潜在空间下,图像和文本的嵌入可以直接进行比较。
深度典型相关分析(DCCA)旨在学习使用深度网络的两个数据视图的非线性变换,使得所得表示高度线性相关,而DCCA的主要警告是每个小批量中不稳定的协方差估计带来的特征值问题。双向排名损失扩展了三重损失,这需要匹配样本之间的距离比不匹配样本之间的距离小一个余量,以用于图像到文本和文本到图像排名。