针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究。在分析现有注意力网络的基础上,提出使用自注意力模块(self-attention,SA)和空间推理注意力模块(spatial reasoning attention,SRA)对文本信息和图像目标进行映射,最终得到融合特征输出。相较于其他注意力机制,SA和SRA可以更好地将文本信息匹配图像目标区域。模型在VQAv2数据集上进行训练和验证,并在VQAv2数据集上达到了64.01%的准确率。
2025-05-23 16:00:37 1018KB 视觉问答 注意力机制
1
煤岩显微图像预处理主要包括煤岩划痕检测与去除。针对基于霍夫变换算法的煤岩划痕检测难以准确提取空间形状特征和有效细化边缘信息,容易出现漏检和误检的问题,提出了基于语义分割的煤岩划痕检测方法。该方法引入残差结构改进空间注意力模型,将该模型嵌入以VGG卷积层作为图像特征编码器的U-Net中,实现对煤岩划痕的语义分割。针对基于快速行进的图像修复算法使得煤岩划痕去除区域和周围区域存在纹理差异和视觉伪影的问题,提出了采用基于改进区域匹配的图像修复算法去除煤岩划痕。通过采用k个最近邻图像块查找、跨尺度及旋转角度搜索策略和基于欧氏距离的图像块偏移距离度量,实现煤岩划痕的有效去除。实验结果表明,基于语义分割的煤岩划痕检测方法能准确反映煤岩划痕的边缘细节,具有较好的空间特征解析性能,提高了煤岩划痕检测准确性;采用基于改进区域匹配的图像修复算法去除煤岩划痕能使煤岩划痕去除区域与周围区域的纹理特征更具有一致性,提升图像整体视觉效果。
1
图像处理源码-多尺度空间注意力的语义分割
2021-07-07 19:02:42 1.22MB 图像处理 人工智能 CV