基于场景上下文感知的光学遥感图像分类方法

作者: 郭欣怡 张科 郭正玉 苏雨

基于场景上下文感知的光学遥感图像分类方法0

摘  要:      光学遥感图像分类是对地观测领域的关键技术之一。 近年来, 研究人员提出利用深度神经网络对光学遥感图像进行分类, 针对部分网络模型存在特征提取不充分的问题, 本文提出了一种基于场景上下文感知和注意力增强的ScEfficientNet遥感图像分类方法。 该方法设计了场景上下文信息感知模块(SCDM)建模目标及其周围邻域的空间关系, 利用场景上下文特征增强原始特征表示, 引入卷积块注意力模块(CBAM), 根据通道和空间的重要性对特征图进行加权, 并结合深度可分离卷积结构提取目标判别性信息, 提出了ScMBConv卷积结构。 在上述工作的基础上, 利用基于场景上下文感知与注意力增强的ScEfficientNet网络模型进行遥感图像分类识别。 实验结果表明, ScEfficientNet在AID数据集上实现了96.8%的分类准确率, 较EfficientNet提升了3.3%, 参数量为5.55 M, 整体性能优于VGGNet19、 GoogLeNet和ViT-B等图像分类算法, 验证了ScEfficientNet网络模型的有效性。

关键词:     图像分类; 光学遥感图像; 卷积神经网络; EfficientNet

中图分类号:       TJ760; V243.5

文献标识码:    A

文章编号:     1673-5048(2024)03-0094-07

DOI: 10.12132/ISSN.1673-5048.2023.0221

引用格式: 郭欣怡, 张科, 郭正玉, 等 .  基于场景上下文感知的光学遥感图像分类方法[ J]. 航空兵器, 2024, 31( 3): 94-100.

Guo Xinyi, Zhang Ke, Guo Zhengyu, et al. Optical Remote Sensing Image Classification Method Based on Scene Context Perception[ J]. Aero Weaponry, 2024, 31( 3): 94-100.( in Chinese)

0  引  言

随着航空遥感技术的不断发展和进步, 获取的图像数据具有较高的分辨率和丰富的信息内容, 如何对庞大而复杂的遥感图像进行准确解析成为该领域的研究热点。 作为遥感数据有效解译的关键技术, 遥感图像分类对给定的遥感图像进行正确的语义分类标识[1], 已广泛应用于自然灾害探测[2]、 土地资源管理[3]等众多领域。 由于光学遥感图像数据具有多尺度、 高分辨率以及复杂的空间和背景分布[4]等特点, 实现遥感图像的精确分类难度较高。 为此, 研究人员提出了各种理论框架和方法。

近年来, 由于深度学习理论的进步以及并行计算资源的增加, 基于深度学习的图像分类算法不断推陈出新, 取得了众多突破[5], 因此, 研究人员也将深度学习模型引入遥感图像分类领域。 其中, 具有代表性的算法是卷积神经网络(Convolutional Neural Network, CNN)及其改进网络, 例如VGGNet[6]、 GoogLeNet[7]、 ResNet[8]等网络模型。 从近年来的研究成果可以看出, 神经网络架构演变的趋势是向更深的方向发展: AlexNet[9]网络有8层, VGGNet网络有16层, ResNet101超过了100层。 这些研究工作表明, 增加网络深度可有效提高网络性能。 与此同时, 早期基于深度学习的图像分类网络(如VGGNet)尽管深度只有几层, 却包含大量参数, 其中大部分参数来自全连接层。 而近年来提出的网络结构虽然层数更多, 但此类模型因为避免使用全连接层而减少了参数量。 例如, GoogLeNet使用Inception模块代替全连接层, 相比使用全连接层的VGGNet来说, 极大地降低了参数量。

随着网络模型层数逐渐加深, 网络计算量急剧增加, 训练时对计算资源的要求越来越高。 为了降低计算开销, 研究人员开始对网络结构进行轻量化设计, 如Mobile-Net[10]、 ShuffleNet[11]。 随后, 通过借鉴MobileNet中深度可分离卷积结构, 研究人员结合模型复合缩放方法提出了EfficientNet[12]网络模型。 该网络模型的性能在图像分类领域远超其他大部分网络模型, 并在遥感图像分类任务中实现了较高的分类准确率。  文献[13]在EfficientNet高效网络中引入带动量的梯度下降算法, 充分考虑历史

梯度的影响, 改善了神经网络对滑坡遥感图像的识别效果; 文献[14]提出将微调后的EfficientNet-B0和Effi-

收稿日期: 2023-11-16

基金项目: 国家自然科学基金项目(62106200); 航空科学基金项目(20220001053002)

作者简介: 郭欣怡(1999-), 女, 陕西西安人, 硕士研究生。

*通信作者:  苏雨(1990-), 男, 陕西西安人, 博士, 助理研究员。

cientNet-B7模型作为特征提取器并进行特征融合, 取得了较好的分类效果; 文献[15]基于预先训练好的带有注意力机制的EfficientNet-B3网络模型, 提出了Efficient-Net-B3-Attn分类方法, 将专用分支添加到网络的第262层以计算所需的权重。 对于光学遥感图像数据, 文献[16]提出迁移学习与微调策略, 利用预训练的EfficientNet网络来提高遥感图像处理的性能。

航空兵器  2024年第31卷第3期

郭欣怡, 等: 基于场景上下文感知的光学遥感图像分类方法

然而, CNN通常受限于只能获取局部感受野, Transformer则可以捕捉全局特征, 因此, Transformer模型在视觉领域逐渐流行起来。 Transformer使用多头注意力和位置嵌入建模不同单词之间的关系信息, 显著提高了模型性能。 Dosovitskiy等[17]提出了Vision Transformer (ViT), 将图像分割为不同的图块(patch), 然后使用Transformer架构处理图块, 将传统的卷积结构替换为自注意力机制。 文献[18]在ViT的基础上加入滑窗的思想, 提出了Swin-Transformer, 在不重叠的局部窗口上计算自注意力, 有效地建模局部信息和全局信息。 文献[19]通过在MobileNet中嵌入Transformer构建轻量化网络MobileViT, 融合了CNN的高效性能和Transformer的全局感知力。 ParC-Net[20]设计了一种轻量化的循环卷积, 能够提取全局特征, 还能产生与局部卷积一样的位置敏感特征。 然而, 针对图像类别多样、 背景复杂的光学遥感数据集, 上述方法在进行分类识别时网络模型对特征的提取不够充分, 泛化能力不强, 因此识别精度有待进一步提高。

针对上述问题, 本文基于EfficientNet-B0网络提出了场景上下文信息感知模块, 增强目标感受野, 加强网络对场景信息的感知能力, 并与局部特征融合以提取更有效的特征; 引入CBAM卷积注意力模块对MBConv模块进行改进, 该模块在考虑通道之间信息编码的同时加强对遥感图像空间信息的学习, 有效提高网络对判别性信息的提取能力。 此外, 使用小尺寸深度可分离卷积以减少模型参数量, 降低计算开销。

1  EfficientNet概述

经典的神经网络一般通过分别改变网络深度、 特征通道宽度、 输入图像分辨率的方式提升网络性能。 与专注于单一维度优化的网络不同, EfficientNet网络基于模型复合缩放思想, 寻找合适的缩放系数统一对网络深度、 宽度和分辨率进行调整。 相比于其他模型, EfficientNet在有限的计算资源下, 可以获得更好的性能提高。

1.1  模型复合缩放方法

EfficientNet网络是一种基于模型复合缩放方法的新型神经网络架构, 整体结构通常被划分为多个阶段, 每个阶段中的卷积层具有相似的架构。 若用函数fi定义卷积操作, 卷积层可表示为

y=fk⊙…⊙f2⊙f1(X1)(1)

整体网络框架可表示为

Y=⊙i = 1, …, n  fiLi(X(Hi, Wi, Ci))(2)

式中: ⊙代表连乘运算, 表示在第i个阶段中fi卷积操作被重复执行Li次; X表示输入特征矩阵; Hi, Wi, Ci分别代表X的高度、 宽度、 特征通道数。 在网络参数和计算量满足要求的情况下, 对网络深度、 特征通道宽度和图像输入分辨率三个影响因素进行优化, 得到优化问题:

maxd, w, β Accuracy(Y(d, w, β))

s.t.  Y(d, w, β) = ⊙i = 1, …, nfid·Li(X(β·Hi, β·Wi, w·Ci))(3)

式中: d表示网络深度; w表示特征通道宽度; β表示输入分辨率; fi, Li, Hi, Wi, Ci是网络中预定义的参数。

经过验证, 研究人员发现神经网络获得更高精度和效率的关键是平衡网络深度、 特征通道宽度和图像输入分辨率三个维度, 因此提出了一种规范化的复合缩放方法, 按照式(4)使用复合缩放系数φ来调整三个参数的缩放倍率, 即

D=dφ, W=wφ, R=βφ

s.t. d·w2·β2≈2

d≥1, w≥1, β≥1(4)

式中: d,  w,  β都是常数。

1.2  EfficientNet网络模型

EfficientNet网络模型的主要组成部分是倒置瓶颈卷积模块(Mobile Inverted Bottleneck Convolution, MBConv)。 该模块的核心是深度可分离卷积, 它由多个深度卷积层(Depthwise Convolution)和逐点卷积层(Pointwise Convolution)顺序连接组成。 此外, 该模块还从MobileNetV2[21]中借鉴了反向残差连接和线性瓶颈的方法。

EfficientNet网络模型使用Swish激活函数代替ReLU激活函数。 Swish函数无上界, 有下界, 是一个更流畅、 更平滑的激活函数, 在形状上类似于ReLU和LeakyReLU函数, 但是在深层模型上表现更好。 Swish激活函数的公式如下:

f(x)=xsigmoid(μx)(5)

式中: μ为常数或可训练的参数。

对于EfficientNet网络结构的确定, 首先基于神经架构搜索(Neural Architecture Search,  NAS)[22]技术, 搜索分辨率、 网络深度和网络宽度三个参数的最优配置, 提出一个高效的EfficientNet-B0基线网络。 之后结合复合缩放方法对该基线网络进行扩展, 通过调整缩放系数φ按比例扩大分辨率、 宽度和深度三个维度, 得到Efficient-Net-B0到EfficientNet-B7系列网络。 由于EfficientNet-B0计算量更小、 推理速度更快, 本文以EfficientNet-B0为基本网络进行改进, 提出了ScEfficientNet。

上一篇 点击页面呼出菜单 下一篇