融合注意力机制的LandSat8遥感影像云检测算法
作者: 黄学飞 梁昌远 郭杰
摘要:针对传统的云检测算法云检测效果差的问题,本文提出了一种融合注意力机制的密集连接网络遥感影像云检测方法。首先,将38cloud公开数据集中的影像使用随机裁剪、色彩抖动、旋转等预处理进行数据增强,以增广样本量;然后,将预处理过后的遥感影像及其标签一并输入到以DenseNet作为编码器与解码器,编码器与解码器之间加入级联的空洞卷积模块以增大感受野,双注意力机制与全局上下文建模模块以抑制一些无关细节信息的神经网络进行训练;最后,经过实验验证发现其可以很好地提取LandSat8遥感影像云的范围。
关键词:云检测;DenseNet;双注意力机制;全局上下文建模模块;空洞卷积
中图分类号:TP751 文献标识码:A
文章编号:1009-3044(2022)23-0063-03
遥感影像的获取过程中云的存在是常见的现象,由于云的遮挡,使得地面信息无法被卫星获取到,给后续的影像分析解译带来了困难[1 - 2]。所以,遥感影像云检测是首要而且必要的一环,云检测的精度与速度对分析解译有直接影响。
云检测的方法大致可以分为三种:手工勾绘方法、基于波段阈值及纹理信息的检测方法与基于深度学习的检测方法[3]。基于深度学习的云检测过程中不需要人工干预,实现了端到端的检测。基于波段阈值的云检测方法最早是Zhu[4]等提出FMask算法,通过设定波段阈值来实现Landsat卫星影像的云检测。在基于纹理的云检测方法中,Otsu算法[5]、K-means聚类法[6]等都是基于邻域的相似性进行检测,对噪声比较敏感,鲁棒性较差。Kang[7]利用高斯混合模型自适应获取影像的灰度阈值,从而分离ZY-3影像的前景与背景,实现云的检测,但对地表上较亮的地物误判比较严重。Qiu等[8]使用CFMask算法检测Landsat8影像的云及云阴影,然后用其结果代替人工勾绘的云标签参与深度学习训练,再用训练的模型检测新图像的云及云阴影,结果发现,其检测结果比原始标签精度更高。Li等[9]利用灰度共生矩阵提取图像的纹理特征,使用纹理特征与光谱特征结合,再使用支持向量机的方法对高分一号卫星影像进行云检测。Xu等[10]使用超像素分割方法与卷积神经网络相结合,采用半监督的方式与传统的Otsu算法相比,云检测精度有较大的提高。
随着深度学习算法的不断进步,越来越多的遥感问题都可以通过深度学习的方法得到有效解决。基于上述研究,本文提出一种融入注意力机制的密集连接网络,以解决深度学习算法检测小块云朵效果差的问题。
1 融入注意力机制的密集连接网络
1.1 DenseNet结构
DenseNet[11]网络是2018年由Gao H等提出,DenseNet借鉴了He K M提出的ResNet跳跃连接以减轻梯度消散现象,从而训练到更深层的网络思想,直接将任意两层进行跳跃连接,以求最大化减轻梯度消散问题,从而训练到更深的网络。
DenseNet不同的是其互相连接所有的层,具体来说,就是每个层都会接受其前面所有层作为其额外的输入,密集连接模块(Densely Connected Block)结构如图1所示,其公式如下:
xl = H([x0,x1,...,xl-1]) (1)
其中xl表示第l层的输出的特征图,[x0,x1…,xl-1]表示前l-1层的输出的特征图的拼接,H表示对特征图进行卷积层、批归一化、激励层等操作。
DenseNet还包含了一个重要的转换模块(Transition Block),如图2所示,用在密集连接模块之后,将得到的特征图的通道数减小为原来的一半。每次拼接之前都加入一个瓶颈(bottleneck)结构,将其特征图的通道数减小为增长率,这样就可以大幅度减小通道数。则经过一个密集连接模块之后的特征数就可以表示为:
C= C+g×n (2)
式中,Cˊ表示经过密集连接模块之后的通道数,C为经过密集连接模块之前的通道数,g表示通道数的增长率,n表示层数量。
通过密集连接模块后,经过转换模块(Transition Block)可将其通道数降为原始的一半,从而更加简化了计算量,提升计算效率。
1.2 注意力机制
1.2.1 双注意力机制
通道注意力模块。双注意力机制[12]中的通道注意力模块(Channel Attention Model)通过矩阵变换的方式对通道的信息加权,双注意力机制的通道注意力模块如图4所示。
位置注意力模块。双注意力机制中的位置注意力模块(Position Attention Model)是使用通过自相关矩阵的变换得到位置权重,可以更注意全局特征,其模型结构如图4所示:
1.2.2 全局上下文建模模块
双注意力机制可以融合位置注意力机制与通道注意力机制, 最早提出的是NLNet,它利用自我注意机制建立远程依赖,使网络能够更全面地理解图像,从而不会使计算机局部感知图像。
GCNet[13]提出了简化NLNet版本,并结合了SENet计算量少的优点,不仅有效地建立远程依赖,而且节省了网络结构的计算量。GCNet的GC-Block模块如图5所示。
1.3 空洞卷积模块
扩大感受野最简单的方法就是增大卷积核的大小,但是卷积核大小的增大一定会使计算量增加,随着Deeplab V1提出的空洞卷积,即扩大卷积核并在卷积核中使用部分用0来填充,可以简单方便地解决计算量增加的问题。如图6所示,空洞卷积模块通过不同空洞率的级联,实现了在不改变图像分辨率的前提下获得更大的感受野。
1.4 融合注意力机制的密集连接网络
在上述研究的基础上,本文提出融合注意力机制的密集连接网络,具体模型结构如图7所示:
编码器阶段:将裁切好的3通道的影像经过一个初始模块,然后分别经过四个密集连接模块与转换模块提取特征,密集连接模块有效地减弱了梯度消散问题。
中间层:首先,通过GC-Block提取特征图的上下文信息,双注意力机制融合了位置注意力与通道注意力信息,使计算机更好地注意需要的特征,再将结果送入空洞卷积模块中,使其在不改变特征图分辨率的前提下,增大感受野,进一步提取特征图的全局特征。
解码器阶段:解码器部分首先上采样使特征图的通道数减小为刚通过编码器阶段DenseBlock3特征图的通道数,然后与其进行跳跃拼接,从而使特征图通道数变为原来的两倍。经过DenseBlock之后,通道数增加,再通过上采样降低通道数,直到最后将特征图变为通道数为1的二值图。
2 实验与分析
2.1 实验数据准备与参数设置
本文的实验均在Ubantu16.04,CUDA 10.1,NVIDIA UNIX 64核的PyTorch 1.2.0深度学习框架下进行。
本次实验的数据为来自于38cloud公开数据集影像。
参数设置。batchsize为4,步长为20,使用的优化器为Adam,初始学习率为0.001,自动调整学习率,每次调整变为原来的1/2,直到损失值7次不再下降为止。
2.2 损失函数
由于这是针对二分类问题,所以使用BCELoss作为损失函数。BCELoss是二分类问题中优秀的损失函数,其公式为:
公式(3)(4)中 GT表示标签影像(Ground True),P表示预测影像(Predicet Mask),N为批大小,W表示影像的宽度,H为高度,gtij为在[i,j]位置的像素值,pij为在[i,j]位置的像素值。
2.3 评价指标
这里选取的指标为平均交并比(mIou)、召回率(recall)以及准确率(precision)。其计算方式如下:
在公式(5)(6)(7)中TP(True Positive)为真阳性表示原本为云预测为云的数量,TN(True Negative)真阴性表示原本为非云预测为非云的数量,FP(False Positive)假阳性表示原本为非云错预测为云的数量,FN(False Negative)假阴性表示原本为云错误预测为非云的数量,其中三个指标越高表示精度越高。
2.4 云检测结果分析
首先,进行定量分析,其中在训练集上的不同算法模型评价指标表现如表1所示,从表1可以看出,传统算法的精度较深度学习算法的精度低,加上注意力机制后精度更高。
从图12中可以看到,原始影像在红色框中有片云,其中SegNet预测结果将部分非云像素都预测为云像素,UNet红色虚线框右方原来的标签无云,但其预测的结果为有云,即出现了错检现象,DlinkNet50算法预测出来的结果,正确预测了云的范围,DDenseNet算法进行的云预测结果可以明显地看到拼接缝,红色框中有大量非云像素被错检为云像素,最后为本文算法AD-DenseNet,可以看到,本文算法精确地预测出来云的位置及形状。另外结合黄色框及蓝色框都可以看到本文算法最优。
3 结论
本文针对传统的深度学习算法不能很好地检测出云的范围的问题,提出了一种融合注意力机制的密集连接网络,即AD-DenseNet。
(1)首先从编码器与解码器结构出发,不再使用通常使用的ResNet-Block结构作为骨干网络,使用DenseNet-Block作为编码器与解码器,从而可以训练到更深层的网络,提取到更多的影像特征。
(2)中间层使用GC-Block提取全局特征,防止网络陷入局部,引入双注意力机制,使网络更加注意有用信息,抑制无关信息。
(3)中间层加入DBlock结构,使网络在不改变分辨的情况下增大感受野,以提取全局特征。
参考文献:
[1] Zhang Y C,Rossow W,Lacis A,et al.Calculation of radiative fluxes from the surface to top of atmosphere based on ISCCP and other global data sets:Refinements of the radiative transfer model and the input data [J]. Journal of Geophysical Research: Atmospheres,2004,109(19) : 105-115.
[2] Ju J C,Roy D P.The availability of cloud-free Landsat ETM+ data over the conterminous United States and globally[J].Remote Sensing of Environment,2008,112(3):1196-1211.
[3] Xie F Y,Shi M Y,Shi Z W,et al.Multilevel cloud detection in remote sensing images based on deep learning[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2017,10(8):3631-3640.