HiFormer:基于CNN和Transformer的医学图像分割方法

上传者: cpongm | 上传时间: 2025-10-27 18:23:00 | 文件大小: 1.29MB | 文件类型: PDF
HiFormer:基于CNN和Transformer的医学图像分割方法 HiFormer是一种新颖的医学图像分割方法,它将卷积神经网络(CNN)和Transformer结合,以解决医学图像分割任务中存在的挑战性问题。该方法通过设计了两个多尺度特征表示使用的开创性Swin Transformer模块和基于CNN的编码器,来确保从上述两种表示中获得的全局和局部特征的精细融合。实验结果表明,HiFormer在计算复杂度、定量和定性结果方面优于其他基于CNN、基于变换器和混合方法的有效性。 医学图像分割是计算机视觉中的主要挑战之一,它提供了有关详细解剖所需区域的有价值的信息。这些信息可以极大地帮助医生描述损伤、监测疾病进展和评估适当治疗的需求。随着医学图像分析的日益使用,高精度和鲁棒性的分割变得越来越重要。 卷积神经网络(CNN)具有提取图像特征的能力,已被广泛用于不同的图像分割任务。然而,CNN模型在医学图像分割任务中的性能受到限制,因为它们只能在局部范围内捕获特征,而忽视了长距离依赖关系和全局上下文。 Transformer最初是为了解决这个问题而开发的,但它们无法捕获低级功能。与此相反,它表明,局部和全局功能是至关重要的密集预测,如分割在具有挑战性的上下文中。在本文中,我们提出了HiFormer,这是一种有效地桥接CNN和Transformer用于医学图像分割的新方法。 具体来说,我们设计了两个多尺度特征表示使用的开创性Swin Transformer模块和基于CNN的编码器。为了确保从上述两种表示中获得的全局和局部特征的精细融合。实验结果表明,HiFormer在计算复杂度、定量和定性结果方面优于其他基于CNN、基于变换器和混合方法的有效性。 在近期的研究中,已经开发了一些基于Transformer的方法来解决CNN在医学图像分割任务中的限制。例如,DeiT提出了一种有效的知识蒸馏训练方案,以克服视觉变换器需要大量数据来学习的困难。Swin Transformer和pyramid visionTransformer试图分别通过利用基于窗口的注意力和空间减少注意力来降低视觉变换器的计算复杂度。CrossViT提出了一种新颖的双分支Transformer架构,可提取多尺度上下文信息,并为图像分类提供更细粒度的特征表述。DS-TransUNet提出了一种双分支Swin Transformer,用于在编码器中捕获不同的语义尺度信息,以执行医学图像分割任务。HRViT将多分支高分辨率架构与视觉变换器连接起来,用于语义分割。 然而,这些方法有一些障碍,阻止他们获得更高的性能:1)它们不能在保持特征一致性的同时,捕获全局和局部特征;2)它们需要大量的数据来学习和训练。因此,我们提出了HiFormer,以解决这些问题,并提供了一种更好的医学图像分割方法。 在实验部分,我们在多个医学图像分割数据集上进行了实验,结果表明,HiFormer在计算复杂度、定量和定性结果方面优于其他基于CNN、基于变换器和混合方法的有效性。我们的代码在GitHub上公开,供其他研究者使用和改进。

文件下载

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明