基于多尺度混合注意力机制的SAR图像房屋分割方法
作者: 周一鸣 滕旭阳
摘要:图像分割的核心任务是提取更强大的特征表示,而对于合成孔径雷达( synthetic aperture radar,SAR)图像的房屋分割任务,受特征形变和斑点噪声点的影响,难以提取充足的特征。本文提出一种基于多尺度混合注意力机制的SAR 图像房屋分割方法。在编码端引入CBAM 注意力机制和DANet 双通道自注意力机制用于增强图像的特征表现能力,捕获特征间的长距离依赖关系。在解码端使用多尺度融合的方法,有效利用浅层特征和上下文信息。实验结果证明,本文算法在SAR 图像房屋分割任务上,PA 值达到96.54%,MIoU 值达到87.22%。与CBAM 和DANet 相比,本文算法在MIoU 上分别提高了5.1%,0.99%。
关键词:SAR 图像;注意力机制;房屋检测;特征融合;DANet
中图分类号:TP18 文献标识码:A文章编号:1009-3044(2023)17-0023-04
0 引言
目前,在中国城镇化改造的背景下,对于一个地区城市变迁的分析需求日益强烈。SAR图像相较于传统的光学图像,具有成像幅宽大、抗干扰能力强等优点,对于房屋建筑面积的变化情况、人口密度的分析、人口迁徙情况的观察和违章建筑的监督等研究具有重要意义[1]。然而,随着近年SAR图像数据的急速增加,对于SAR图像的识别和分割工作相对落后,因此,对于SAR图像的语义分割、目标识别和对检测结果的分析等方面的研究具有重要意义。
在计算机视觉领域,关于SAR图像的解译一直是研究的热点,但受斑点噪声的影响,使得SAR图像的分割工作变得十分困难[2]。在传统的检测分割方法中,郭拯危等人[3]提出了基于模糊聚类与最大类间方差法的混合模糊分割算法,该算法优化了聚类中心,在噪声较大、背景环境复杂的SAR图像中有较大优势。齐千慧等人[4]提出了基于马尔科夫随机场的改变势函数的遥感图像分割方法,该方法将图像邻域像素点的相关性引入势函数,提高了检测系统的泛化能力。武尧等人[5]提出了基于机器视觉的多目标图像分割方法,对检测图像通过搜索范围来绘制灰度直方图,并以自适应算法确定最佳阈值,完成阈值分割。
邢涛等人[6]提出了基于动态K均值的毫米波SAR图像分割方法,用图像数目的正比函数对适应度函数进行加以平均,提高了分割效率。上述传统分割方法提高了SAR图像的分割效率,缓解了人工压力,但依然存在图像预处理复杂,使用场景受限,鲁棒性较差等问题。
现阶段,随着深度学习的研究不断深入,卷积神经网络(Convolutional Neural Network,CNN)的提出为SAR图像的分割带来了新的研究方向,CNN[7]可以通过浅层学习的纹理特征和深层学习的语义特征,对SAR图像的特征进行识别和分割。目前广泛使用的语义分割网络包括U-Net[8]、DeepLab 系列[9-12]网络、CBAM[13]、DANet[14]等。乌兰等人[15]提出了基于改进DeepLabv3+的马铃薯根系图像分割方法,DeepLabv3+ 可获得不同尺度的特征信息,但解码器部分易损失较多的细节信息。范艺华等人[16]提出了结合上下文编码和特征融合的SAR图像分割方法,降低了模型的复杂度和对计算资源的需求,但在物体的边缘分割上存在缺陷。
受成像机制的影响,SAR图像在成像的过程中,房屋建筑由于平台的不稳定导致几何形变,也会由于斜距成像产生透视收缩,此外,房屋还会和有一定高度的地物产生叠掩现象,这些都大大增加了图像信息的提取难度。所以,基于传统的深度学习方法对SAR 图像中的建筑进行分割,效果往往不尽如人意。本文提出了一种基于多尺度混合注意力机制融合的SAR 图像房屋分割网络。首先在特征提取部分引入CBAM注意力模块对重要通道和关键位置进行特征增强,并对主干网络引入不同膨胀率的空洞卷积扩大感受野。然后将提取到的特征图输入至DANet双通道自注意力网络,提取上下文信息,避免相同特征受透视收缩和几何形变而变化。在解码部分,采用多尺度特征融合处理,增强各局部特征的依赖性。