基于深度学习的无人机自主降落标识检测方法
作者: 李丹 邓飞 赵良玉 刘福祥
摘 要:为提高无人机自主降落的实时性和准确性,提出了一种基于深度学习的降落标识检测方法。首先,采用轻量级网络MobileNetv2作为主干网络,完成特征提取任务。其次,借鉴YOLOv4的网络结构,引入深度可分离卷积代替部分标准卷积,在基本不影响模型性能的情况下降低计算量。然后,提出了一种基于跳跃连接结构的特征金字塔模块,将主干输出的特征图进行拼接,融合目标细节信息和语义信息,得到表征能力更强的特征。最后,基于深度可分离卷积对YOLOv4的检测头进行优化,完成目标检测任务。在Pascal VOC数据集和降落标识数据集上分别进行实验,结果表明,改进的检测算法有效降低了模型的计算量和参数量,提高了检测速度,且能够满足无人机自主降落的精度需求。
关键词:无人机; 视觉引导; 自主降落; 标识检测; 深度学习
中图分类号:TJ760; V279
文献标识码: A
文章编号:1673-5048(2023)05-0115-06
DOI: 10.12132/ISSN.1673-5048.2023.0063
0 引 言
人工智能技术的井喷式发展正在加速推动新一轮军事变革,未来战争正由信息化向智能化、体系化转变,异构装备一体化协同作战将是新常态。无人机成本低、体积小、灵活性高,在与无人车/无人舰艇等协同完成突击上陆、集结装载、反潜、航渡等任务时,能够前出岸滩/登陆场上空隐蔽火力点或浅近纵深隐蔽火力点实施广域侦察和精准探测,引导后方火力支援实施火力压制、精确破障或打击[1]。无人机的有限重复利用被认为是提高效费比的最佳手段,尤其是对于需要重复飞行作业而无法进行人工干预的任务,自主降落是无人机必不可少的关键能力。
视觉导航能够提供丰富的环境信息,善于捕捉运动信息,且具有设备体积小、成本低、能耗低、精度高、自主性强等优点。此外,视觉信号由于其无源特性具有较强的抗干扰能力,这在军事隐蔽侦察中尤为重要。视觉引导无人机自主降落一般分为两种,一种是基于人工设计的降落标识实现自主降落,另一种是基于场景信息实现自主降落。当下,前者是最主要的研究方向,这使得对降落标识的准确识别成为无人机在动、静平台自主降落的决定性因素。
围绕无人机自主降落问题,国内外大量专家学者开展了广泛研究,取得丰硕的研究成果[2-4]。文献[5-7]对该方面的研究做了系统性梳理和总结; 文献[8-13]针对这一课题开展研究,并取得了一系列成果。但这些研究大多针对特定标识,采用传统目标检测方法或根据传统检测方法进行优化完成标识检测。
自Hinton等[14]掀起人工神经网络的研究热潮后,深度学习蓬勃发展,应用领域迅速扩张。近年来,有研究人员将深度学习思想用于标识检测任务,利用其优秀的特征提取能力提高环境适应性。如Nguyen等[15]于2017年提出的LightDenseYOLO算法,能够实现50 m高空下的标识检测。文献[16]将去模糊算法 SlimDeblurGAN与YOLOv2结合,用于完成快速运动过程中的标识检测任务。文献[17]将SSD[18](Single Shot MultiBox Detector)检
测算法与核相关滤波(Kernel Correlation Filter,KCF)跟踪算法进行融合,检测成功率达到91.1%。此外,文献[19-21]均采用基于深度学习的检测算法完成了标识检测任务。
在无人机自主降落过程中,不可避免地遭遇高度变化、位置变化、角度变化、姿态变化、抖动等情况,导致传感器采集的图像中标识尺寸不同、位置不同、模糊、变形等。传统的检测算法基于图像分割或人工提取的浅层特征,鲁棒性缺乏、可移植性较差、环境适应性不足。基于深度学习的检测算法通过不同工况下采集的大量数据学习得到图像特征,鲁棒性好、精度高、环境适应性强,具有一定的优势。然而,基于深度学习的检测算法存在模型复杂度高、检测精度与检测速度不平衡等问题,适用于无人机平台的兼顾检测精度与检测速度的轻量化检测算法仍有很大研究空间。
针对上述问题,本文借鉴YOLOv4[22]目标检测算法的原理及结构,以无人机自主降落标识检测的实际需求为牵引,提出一种基于深度可分离卷积和跳跃连接结构的轻量化标识检测算法,在满足检测精度要求的情况下,有效提高了检测速度。通过课题组自制的降落标识数据集验证了检测算法基本能够满足无人机自主降落的实时性和精度要求。
1 YOLOv4目标检测算法
YOLOv4算法的核心思想是将目标检测问题统一为回归问题,采用卷积神经网络直接从输入图像预测目标的类别概率和位置信息,从而实现端到端的目标检测。具体来说,首先将输入图像隐式地划分为S×S个网格单元,每个网格负责检测中心点落在该网格内的物体,然后预测边界框的位置坐标和置信度,采用非极大值抑制算法选出最优边界框。
YOLOv4的整体网络结构如图1所示,由主干网络CSPDarknet53、空间金字塔池化模块SPP(Spatial Pyramid Pooling)、路径聚合网络PANet(Path Aggregation Network)和检测头四部分组成。CSPDarknet53由YOLOv3[23]的主干网络Darknet53和CSP(Cross Stage Partial)结构组成,Darknet53由5个大残差块构成,每个大残差块分别包含1,2,8,8,4个小残差块。CSP结构将卷积层输出的特征分为两部分,分别执行不同运算后进行融合,能够将特征图快速降维,在提高检测速度的同时保证优秀的特征提取效果。
2 轻量化标识检测算法
为适应无人机平台标识检测的高精度和实时性要求,提出一种基于深度可分离卷积和跳跃连接结构的检测算法,其整体网络结构如图2所示。所提算法主要借鉴YOLOv4的结构,采用轻量级网络MobileNetv2[24]作为主干网络,完成图像特征提取任务。该网络采用深度可分离卷积进行特征提取,使得模型的参数量和计算量大幅减少。保留了YOLOv4的SPP模块完成不同尺寸的池化操作,获取不同的语义信息,然后将池化层的输出与输入特征进行拼接融合。将SPP模块前后的部分卷积替换为深度可分离卷积,在基本不影响特征质量的前提下,降低模型的参数量。此外,提出一种基于跳跃连接结构的特征金字塔模块。该模块由卷积层、上采样层、下采样层和特征融合层组成,将主干网络输出的三种尺寸的特征图拼接,完成多尺度特征融合。最后在融合输出的两幅特征图上进行目标检测,采用深度可分离卷积对检测头进行优化,完成目标类别和位置信息的预测任务。
2.1 深度可分离卷积
文献[25]指出,增加卷积神经网络的层数能够提高模型分类的准确性。标准卷积的计算过程如图3所示,采用与输入数据通道数相同的卷积核在整个特征图通道上进行乘法累加运算,得到单通道输出特征图。若采用N个卷积核参与运算,则得到N通道的输出特征图。然而,标准卷积的计算量和参数量随着网络深度的增加而成倍增长[26],这使得深层网络在嵌入式平台的应用面临很大挑战。
深度可分离卷积通过因式分解的方式, 将标准卷积拆分为深度卷积(Depthwise Convolution)和点卷积(Pointwise Convolution),极大地降低了模型的计算量和参数量,其运算过程如图4所示。深度卷积采用深度为1的卷积核与输入图像的每个通道进行独立卷积运算,卷积核的数量与输入特征图的通道数相同。为充分利用空间特征信息,采用数量与深度卷积的输入特征图通道数相同、尺寸为1×1的卷积核进行点卷积,从而得到与标准卷积输出特征维度相同的特征图。
2.3 基于跳跃连接结构的特征金字塔
YOLOv4的特征融合网络PANet由上采样、下采样、多维卷积和Concat特征融合操作组成,多维卷积和Concat操作导致网络前向传播过程中产生较大的计算量和参数量。为实现模型轻量化,提高模型检测速度,提出一种基于跳跃连接的特征金字塔,网络结构如图5所示。该模块采用标准卷积和上采样完成特征图的尺度变换,为减少运算过程中的计算量,采用Add拼接操作完成特征融合,使用深度可分离卷积完成下采样。同时,为尽可能保留图像的细节信息,将经过卷积、上采样、Add拼接、下采样得到的特征图与原特征图进行跳跃连接,减少信息丢失。
主干网络输出13×13,26×26和52×52三种尺寸的特征图,经过该特征金字塔结构,得到两种尺寸的输出特征图,传递给轻量化的检测头,完成目标信息的预测。主要过程为: 首先在三种尺寸的特征图中进行卷积和上采样运算,并进行逐像素相加,实现三种尺度的特征图融合。为充分保留特征图的细节信息,将特征融合的结果与主干输出的原特征图进行跳跃连接,作为该特征金字塔模块的一个输出Out1。然后,将Out1进行下采样,并与主干输出的26×26的原特征图进行跳跃连接,得到特征金字塔的另一个输出Out2。Out1和Out2均为上一级特征融合结果与原特征图跳跃连接得到的结果,能够充分保留图像的细节信息。最后,将Out1和Out2传递给检测头,用于完成目标类别和位置信息的预测。
3 实验验证与分析
3.1 数 据 集
分别在公开数据集Pascal VOC和实验室自制的降落标识数据集上进行了验证实验。采用VOC2007和VOC2012的训练集和验证集共同作为模型的数据集,按比例划分为训练集和验证集,使用VOC2007的测试集进行模型性能测试。此外,选择由六边形和同心圆环组成的合作目标作为降落标识,考虑无人机降落过程中存在抖动、姿态、角度、位置、高度、亮度等因素影响,采用实际拍摄加数据增强的方式构建了包含2 400张图像的标识数据集。
3.2 算法模块可行性分析
为了验证算法模块的有效性,在相同的实验条件下,采用Pascal VOC07+12数据集进行消融实验,用于评估不同改进方法对模型性能的影响。其中模型Ⅰ采用YOLOv4网络; 模型Ⅱ将YOLOv4的主干网络改为MobileNetv2,特征融合模块和检测头仍采用YOLOv4的结构; 模型Ⅲ将模型Ⅱ的Neck部分的部分标准卷积替换为深度可分离卷积; 模型Ⅳ为本文所提算法,由主干网络MobileNetv2、SPP模块、基于跳跃连接结构的特征金字塔模块和轻量化的检测头构成,即在模型Ⅲ的基础上将特征增强模块改进为本文提出的基于跳跃连接结构的特征金字塔模块,同时,将检测头的个数减少为2个,每个检测头的1个标准卷积替换为深度可分离卷积。实验结果如表2所示。
由表2可以看出,采用轻量级主干网络后,模型Ⅱ的检测速度相比于YOLOv4得到有效提高,模型复杂度显著降低; 采用深度可分离卷积代替部分标准卷积后,对于Pascal VOC数据集,模型Ⅲ基本能保持与模型Ⅱ同等的检测精度和速度,且计算量和参数量大幅下降; 模型Ⅳ相比于模型Ⅲ,在Pascal VOC数据集上的检测精度略微下降,但检测速度得到明显提升,说明本文提出的特征金字塔模块能够在基本保证模型性能的前提下,有效提高推理速度。相比于YOLOv4,模型Ⅳ在牺牲了少许检测精度的同时,检测速度提高了87.5%,模型复杂度降低了约90%,显存占用量降低为原来的50%。
模型的轻量化和检测速度的大幅提高,使得该模型能够较好地应用于计算能力和存储能力有限的嵌入式平台。由于本文所提模型使用了轻量化的主干网络和检测头,且采用了大量的深度可分离卷积操作,因此不可避免地造成精度略微降低。另外,该实验结果针对Pascal VOC数据集中的20类目标,目标之间差异较大,单幅图像内容多变,目标数量和种类丰富,因此目标检测难度较大,对于算法模型提出更高的要求。对于实际应用中特定的目标检测任务,目标种类和数量有限的场景下,本文所提算法基本能够满足需求。
3.3 不同算法对比实验
为了验证所提算法的综合性能,将本文算法与当前主流目标检测算法进行对比实验。在同一平台下,采用Pascal VOC07+12数据集进行模型训练与评估。进行对比的主流目标检测算法包括Faster R-CNN[27],SSD,YOLOv3,YOLOv4。实验中,采用平均检测精度、检测速度、计算量、参数量等指标评估算法性能。
不同算法的性能指标如表3所示。针对无人机平台的实际需求,从模型复杂度和检测实时性的角度综合来看,本文所提检测算法性能优秀。在Pascal VOC数据集上的平均检测精度略低于YOLOv4,接近于YOLOv3,检测速度远高于Faster R-CNN,实时性达到最优。在所有的对比实验中,本文算法的参数量和计算量均为最少,且相比于其他算法,实现了大幅降低。本文所提的检测算法主要完成降落标识检测任务,旨在辅助无人机完成自主降落,因此,在保证检测精度的前提下,复杂度低、检测速度快的算法更具优势。