跨模态投影匹配和分类损失应用于图像-文本匹配中的深度学习方法

深度学习关键词匹配

跨模态投影匹配和分类损失应用于图像-文本匹配中的深度学习方法本文提出了跨模态投影匹配（CMPM）损失和跨模态投影分类（CMPC）损失，用于学习判别图像-文本嵌入。CMPM损失试图最小化投影相容性分布和归一化匹配分布之间的KL散度，以便增加不匹配样本之间的方差和匹配样本之间的关联。CMPC损失尝试将来自一个模态的特征的向量投影分类到来自另一模态的匹配特征上，以增强每个类别的特征紧凑性。深度学习在图像-文本匹配中的应用非常重要，因为它在各种应用中非常重要，例如双向图像和文本检索、自然语言对象检索、图像字幕和视觉问题回答。现有的深度学习方法要么尝试在共享潜在空间中学习图像和文本的联合嵌入，要么构建相似性学习网络来计算图像-文本对的匹配分数。联合嵌入学习框架通常采用两分支架构，其中一个分支提取图像特征，另一个分支对文本表示进行编码，然后根据设计的目标函数学习判别式交叉模态嵌入。最常用的函数包括典型相关分析（CCA）和双向排名损失。双向排名损失产生更好的稳定性和性能，并且越来越广泛地用于交叉模态匹配。然而，它遭受采样有用的三胞胎和选择适当的利润率在实际应用中。最近的一些工作探索了具有身份级别标记的更有效的跨模态匹配算法。 CMPM损失和CMPC损失引入了跨模态特征投影操作，用于学习区分性的图像-文本嵌入。CMPM损失函数不需要选择特定的三元组或调整裕度参数，并且在各种批量大小下具有很大的稳定性。大量的实验和分析表明，该方法的优越性，有效地学习判别图像-文本嵌入。相关工作包括联合嵌入学习和成对相似性学习，联合嵌入学习的目的是找到一个联合的潜在空间，在这个潜在空间下，图像和文本的嵌入可以直接进行比较。深度典型相关分析（DCCA）旨在学习使用深度网络的两个数据视图的非线性变换，使得所得表示高度线性相关，而DCCA的主要警告是每个小批量中不稳定的协方差估计带来的特征值问题。双向排名损失扩展了三重损失，这需要匹配样本之间的距离比不匹配样本之间的距离小一个余量，以用于图像到文本和文本到图像排名。

文件下载

评论信息

其他资源

免责申明

【只为小站】的资源来自网友分享，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，【只为小站】无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论【只为小站】经营者是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二条之规定，若资源存在侵权或相关问题请联系本站客服人员，zhiweidada#qq.com，请把#换成@，本站将给予最大的支持与配合，做到及时反馈和处理。关于更多版权及免责申明参见版权及免责申明

跨模态投影匹配和分类损失应用于图像-文本匹配中的深度学习方法

文件下载

评论信息

其他资源

免责申明

个人信息

相关资源标签

热门下载

最新下载