基于无人机视角下的PPYOLOE-IBN 目标检测算法

作者: 吴杰杰 林宇舜 李佳儒 吴瑞钦 廖飞宇

基于无人机视角下的PPYOLOE-IBN 目标检测算法0

摘要:为提升无人机视角下车辆检测的性能,该实验利用无人机设备,采集地面和高空视角下的车辆视频数据。提出了PPYOLOE-IBN的检测算法,将主干网络浅层结构中BN层(Batch Normalization Layer) 的一半通道结构替换为IN层(In⁃stance Normalization Layer) ,降低了光照、视角等客观因素的影响。在自建的车辆数据集上,算法的平均精度(Mean Aver⁃age Precision,mAP) 达到了81.8%,相比改进前的PPYOLOE算法提升了2.6%;与以Transformer为架构的RT-DETR算法相比,高出3.3%。最后在公开数据集UA-DETRAC上作进一步对比,验证算法的有效性。

关键词:无人机;小目标检测;PPYOLOE

中图分类号:TP399 文献标识码:A

文章编号:1009-3044(2024)31-0005-03

开放科学(资源服务)标识码(OSID) :

0 PPYOLOE-IBN 目标检测算法

无人机视角下,远距离处的目标往往非常小,这对算法在小目标检测方面提出了更高的要求。为更好地提取车辆的外观信息,对现有的PPYOLOE方法进行改进,提出PPYOLOE-IBN目标检测算法。PPYOLOE是一种高效的目标检测模型,结合了YOLO(You Only Look Once) 的快速检测能力和PaddlePaddle 优化技术,用于实现实时且准确的目标识别。PPYOLOE 的主干网络如图1 所示,主要由多个CS⁃PResStage(CSPRes) 结构组成。

CSPRes的具体结构如图2,主要是结合了CSP3[1](Cross Stage Partial Network) 的模型思想,利用RepVGG模块[2]对传统残差网络ResNet[3]进行改进的一种网络结构。其中具体的ResBlock 模块和RepVGG模块如图3所示。

由图3倒推可知,BN层是CSPRes网络结构的重要组成部分。其在网络中对整个批次的数据进行归一化,如图4(a) 所示。然而BN易受光照等因素[4]的干扰,若大量采用会影响网络的特征提取及泛化能力。

而如图4(b) 所示的IN[5](Instance Normalization) 层则通过对单个样本的同一通道特征进行归一化[6],可以降低图像中颜色、光照、视角等因素的干扰。因此,将部分BN替换为IN,不仅可以弥补BN不足,减少外部因素干扰,还能够保持网络的泛化能力。在维持网络性能的同时,增强网络对环境变化的适应性。

与此同时,在浅层神经网络中,由于卷积运算较少,网络学到的是低层次的图像特征,这些特征更接近原始图像信息,有助于保留更多的原始信息,但也使得模型对光照、噪声等外部因素更为敏感[7]。具体如图5所示,浅层网络的感受野较小,Layer2每个神经元只能覆盖Layer1上3×3区域,当面临光照变化或噪声影响时,这些局部特征容易受到干扰,导致模型的稳定性下降。同时学习能力也相对较弱,难以对复杂的图像变化进行鲁棒性处理。相反,深层神经网络通过多次卷积和池化操作逐渐提取高层次的抽象特征,具有更大的感受野,如图Layer3的每个神经元不仅能够覆盖Layer2中相同的3×3区域,还能够间接通过Layer2感知到Layer1上更大的5×5区域。从而能够捕捉到图像的全局结构和抽象模式,可以学习到更复杂、抽象的特征表示,从而对光照、噪声等外部因素具有一定的鲁棒性。

综上,为避免大量使用BN层和在网络浅层带来的干扰和影响。本文提出了一种融合了批归一化(BN) 和实例归一化(IN) 的方法,改进了CSPRepResNet 中的CSPRes结构,如图6所示。在主干网络的浅层结构块中,将原先CSPRes结构中卷积操作后的通道数一半替换为IN,其余部分保持不变(改动部分用红色框标注)。改进后多个叠加而成的整体称为CSPRepResNet-ibn,作为Backbone与Neck、Head等部分构成的整体结构称为PPYOLOE-IBN,如图7所示。

1 评价指标与实验环境

目标检测模型的性能评估主要依靠多个评价指标,其中,类别平均精度mAP是核心评估指标之一。mAP通过整合不同类别上的精确度与召回率曲线,进而计算得到的曲线下面积(AUC) ,以此作为衡量模型在广泛类别上综合性能的标准。mAP值越接近于1,表明模型的性能越佳。其计算公式如式(1) 所示,式中:k 为类别数,APi 代表第i 个类别的平均精度。speed为检测速度,即每帧检测耗时。

PPYOLOE-IBN 实验采用paddle深度学习框架,以ubantu22.04.3 作为操作系统,采用4 张型号为NVIDIA GeForce RTX 2080Ti 的显卡并行训练,以CSPResNetb_s_pretrained.pdparams模型作为网络的初始化权重,实验的初始学习率为0.01,动量为0.9,每迭代10epoch保存一次训练模型,共计20次。

2 数据集构建

运用DarkLabel软件对无人机采集得到的数据进行标注。在此过程中,通过调整前后帧的图片间隔增加图片之间的差异性,有助于防止训练过程中出现训练速度缓慢和泛化能力变差的情况。最后将标注得到的17 931张xml文件按8∶1∶1 比例进行分配,其中训练集14 345 张,验证集1 794 张,测试集1 794 张,数据集类别为car、van、truck。

3 实验结果

为了验证本文提出车辆检测方法的有效性,在自建数据集上对比其他常见主流算法的性能。(其余算法以上述同样的实验设置,在Pytorch框架下进行训练和验证),为防止偶然因素造成的实验误差,各进行3次实验取平均值进行对比,最终的结果如表1所示。

由表1可知,本文提出的检测算法Map达81.8%,均高于其他目标检测算法。其中,与PPYOLOE检测速度相近,Map则高出2.6%;与以Transformer为架构的RT-DETR检测算法相比,Map高出3.3%,但由于参数量变大的原因,检测时间也相应变大;与CSPDark⁃net-53为主干网络的YOLOv5算法相比提高5.9%,而Fater-RCNN和SSD的检测性能较差,mAP仅为66.4% 和70.2%,精度无法满足要求。图8从左到右各列分别为RT-DETR、PPYOLOE以及本文算法在同一帧下的测试效果对比图。实验结果表明,RT-DETR对小目标的检测效果不佳,无法进行准确的识别,效果不及PPYOLOE以及本文算法。本文算法与PPYOLOE 相比,对目标的检测更加稳定,不仅在置信度方面也有所提升,同时对于远处小目标,也能够检测出来,更有助于无人机视角下车辆的检测。

为作进一步验证,在公开数据集UA-DETRAC上进一步对比了性能较好的RT-DETR、PPYOLOE以及本文算法,实验结果如表2所示。

4 结束语

本文提出检测算法PPYOLOE-IBN。将主干网络浅层结构中BN层的一半通道结构替换为IN层,降低了模型因视角差异大、光照等因素的干扰。在自建的数据集下进行对比试验,mAP达到了81.8%,为作进一步验证,在公开数据集UA-DETRAC上进一步对比了性能较好的RT-DETR、PPYOLOE 以及本文算法。以上实验结果表明,本文算法提升了对远距离小目标车辆的检测能力,更适用于无人机视角下的车辆检测。

参考文献

[1] WANG C Y,MARK LIAO H Y,WU Y H,et al.CSPNet:a new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Seattle, WA, USA. IEEE,2020:14-19.

[2] DING X H,ZHANG X Y,MA N N,et al.RepVGG:making VGGstyle ConvNets great again[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville,TN,USA.IEEE,2021:20-25.

[3] HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vi⁃sion and Pattern Recognition (CVPR). Las Vegas, NV, USA.IEEE,2016:27-30.

[4] 苏育挺,陆荣烜,张为.基于注意力和自适应权重的车辆重识别算法[J].浙江大学学报(工学版),2023,57(4):712-718.

[5] PAN X G,LUO P,SHI J P,et al.Two at once:enhancing learning and generalization capacities via IBN-net[M]//Lecture Notes in Computer Science. Cham: Springer International Publishing,2018:484-500.

[6] WU Y X,HE K M.Group normalization[M]//Lecture Notes in Computer Science. Cham: Springer International Publishing,2018:3-19.

[7] 周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251.

【通联编辑:朱宝贵】

基金项目:中央引导地方科技发展专项(2022L3007) ;福建省自然科学基金(2020J05029) ; 福建省社会科学规划项目(FJ2021C069)

上一篇 点击页面呼出菜单 下一篇