基于深度学习的无人机可见光目标检测研究综述
作者: 刘克顺 左晓桐 张玉华 王长龙 杨森
摘 要: 随着人工智能的飞速发展, 可见光目标检测作为计算机视觉技术的重要组成部分, 已经被广泛应用于无人机侦察领域。 利用深度学习技术深入挖掘复杂战场环境和低质量图像中的目标特征, 可以有效解决无人机侦察场景中可见光目标检测遇到的困难挑战, 进一步提高可见光目标检测的准确性。 因此, 对基于深度学习的无人机可见光目标检测方法进行了全面综述。 首先, 介绍了无人机可见光目标检测面临的目标小尺度、 任意方向、 高度伪装以及运动模糊等诸多挑战。 其次, 描述了用于可见光目标检测和图像恢复的主要公开数据集。 然后, 结合无人机可见光目标检测面临的诸多挑战总结了深度学习方法在无人机可见光目标检测中的应用以及优缺点。 最后, 展望了无人机可见光目标检测未来可能的研究方向。
关键词: 无人机; 复杂战场环境; 低质量图像; 深度学习; 可见光目标检测
中图分类号: TJ760; V279
文献标识码: A
文章编号: 1673-5048(2024)06-0023-13
DOI: 10.12132/ISSN.1673-5048.2024.0148
0 引 言
现代战场局势复杂, 战争模式越来越向无人化与智能化转变, “发现即摧毁”已成为很多军事强国的作战理念[1-4]。 传统的方法主要依靠卫星和有人驾驶的飞机挂载探测设备来发现目标, 近年来, 由于无人机具有体积小、 灵活、 易于控制等优点, 在军事侦察领域中越来越受欢迎。 无人机作为现代航空侦察的核心力量之一, 可以通过对地面目标的高效检测来帮助推断对手军事意图, 制定作战决策, 实现先发制人的打击效果[5-7]。
无人机挂载探测设备对地侦察时, 主要获得三种图像: 可见光图像、 红外图像和SAR(合成孔径雷达)图像。 现有公开的红外和SAR数据集相对较少, 基本上都是基于特定场景来收集图像数据, 数据集的制作难度相对可见光大得多。 红外图像缺少色彩信息, 当目标由于天气温度或躲避侦察打击而不产生热源时, 红外探测设备的成像效果很差, 另外红外探测设备的成本相对较高。 SAR图像同样缺少色彩信息, 当无人机飞行高度较高时, 目标在图像中所占据的像素特别少, 很难将目标像素与噪声点区别开来, 导致目标检测的漏检率与虚警率较高。 因此, 可见光目标检测是无人机对地侦察的核心任务和研究热点。
传统的可见光目标检测大多采用基于统计的方法[8], 难以解决目标检测过程中出现的计算复杂度高、 特征表示能力弱、 优化困难等问题。 随着深度学习技术的发展, 深度卷积神经网络通过多个卷积层提取图像的高级特征, 逐渐成为可见光目标检测的主体框架[9-11]。 基于深度卷积神经网络的可见光目标检测方法分为两类: 两阶段方法和单阶段方法。 两阶段方法, 例如Faster RCNN[12], Cascade RCNN[13], Mask RCNN[14]等, 首先生成区域建议, 然后对区域建议中的目标进行分类和定位, 适用于具有较高检测精度要求的应用。 单阶段方法, 例如SSD[15], RetinaNet[16], YOLO[17]系列等, 直接生成目标的类别概率和检测框位置, 在具有较高检测速度要求的应用中有很大优势。 另外, 伴随着深度学习技术的发展进步, Transformer架构由于其良好的并行化和全局注意机制, 被越来越多地应用于可见光目标检测, 例如Deformable DETR[18], TransMIN[19], QETR[20]等, 作为一种编码器来提取目标的全局上下文特征。
除此之外, 可见光图像由于模糊、 噪声、 雨雾等因素的影响经常遭受不同程度的退化[21-22]。 将退化的图像恢复为高质量的图像是非常重要的, 特别是对于后续的目标检测任务, 退化的图像严重降低了目标检测的精度。
在模糊图像恢复方面, 模糊图像恢复的方法逐渐从基于图像先验的方法发展到基于深度学习的方法。 基于图像先验的方法[23-27]使用自然图像先验来估计模糊核, 对模糊图像进行反卷积操作, 将其恢复为清晰图像。 基于深度学习的方法[28-32]使用模糊和清晰图像对来训练模糊恢复模型, 隐式学习模糊和清晰图像之间的关系, 不需要估计模糊核, 实现了良好的模糊图像恢复性能。
然而, 与通用可见光目标检测相比, 无人机可见光目标检测还存在着许多挑战, 如复杂的战场环境和低质量的侦察图像等问题。 因此, 对基于深度学习的无人机可见光目标检测方法进行了全面综述。 首先, 分析了无人机可见光目标检测与通用可见光目标检测的主要区别, 以及当前无人机可见光目标检测面临的主要挑战。 其次, 描述了用于可见光目标检测和图像恢复的主要公开数据集。 然后, 结合当前无人机可见光目标检测面临的主要挑战介绍了深度学习方法在无人机可见光目标检测中的应用以及优缺点。 最后, 展望了无人机可见光目标检测未来可能的研究方向。
1 无人机可见光目标检测分析
1.1 无人机可见光目标检测与通用可见光目标检测的区别
在普通视图中, 通用可见光目标检测的数据集大多是由手持摄像机或固定位置拍摄的, 所以大多数图像都是侧视图。 然而, 无人机航空图像不同于普通视图图像, 它们是通过自上而下的视角拍摄的, 这意味着普通视图中的目标检测方法不能直接应用于无人机鸟瞰视图。
首先, 无人机鸟瞰视图中的目标尺寸很小且形状多变[33-41]。 例如, 行人和汽车在普通视图中可能占据多个像素, 而在无人机鸟瞰视图中可能只占据几个像素, 并且它们形状不规则, 导致呈现任意的方向, 这增加了无人机可见光目标检测的难度。 其次, 无人机鸟瞰视图中的伪装不同于普通视图[42-44]。 在普通视图中, 目标由于伪装可能会被其他背景遮挡, 比如躲藏在丛林里的坦克。 然而, 在无人机鸟瞰视图中, 目标借助伪装可能与地面环境高度相似, 比如穿纯白衣服趴在雪地里的士兵。 最后, 无人机航空图像的质量受到多种因素的影响, 如设备的不稳定性导致的模糊、 低分辨率、 图像失真等[45-48]。 这些问题需要对图像或视频进行预处理, 以提高无人机可见光目标检测方法的检测效果。
因此, 不可能将在普通视图数据集上训练的目标检测方法直接应用于无人机航空图像, 需要根据无人机航空图像的特有特征, 设计能够满足不同任务的无人机可见光目标检测方法。
1.2 无人机可见光目标检测的挑战
无人机可见光目标检测通常面临着目标小尺度、 任意方向、 高度伪装以及运动模糊等诸多挑战。 对不同挑战的详细解释如下:
目标小尺度问题。 无人机对目标进行侦察时, 为躲避对手防空火力的袭扰, 通常需要高空飞行, 由于无人机的飞行高度较高, 侦察收容面积较大, 使得图像中的目标呈现小尺度的特点。
目标任意方向问题。 无人机对目标进行侦察时, 为深入了解对手防御纵深、 要点, 通常需要俯视或斜视拍摄图像, 由于无人机的飞行航迹与目标的运动方向不一致, 使得图像中的目标呈现任意方向的特点。
目标高度伪装问题。 无人机对目标进行侦察时, 为躲避侦察打击, 目标通常会借助各种复杂背景伪装自己, 目标与复杂背景之间具有高度的纹理相似性, 使得图像中的目标呈现高度伪装的特点。
目标运动模糊问题。 无人机对目标进行侦察时, 为缩减在任务区内的滞留时间、 降低对手防空系统的反应几率, 通常需要高速飞行。 由于无人机相机的高速运动, 获得的航空图像往往是缺乏高频信息的模糊图像, 使得图像中的目标呈现运动模糊的特点。
2 相关公开数据集
2.1 可见光目标检测的公开数据集
近年来, 基于数据驱动的深度学习方法迅速发展, 为可见光目标检测提供了强大的支持。 为了促进可见光目标检测的研究, 研究人员提出了许多经典的可见光目标检测数据集, 这些数据集具有较大的数据规模和良好的泛化能力。
(1) 针对无人机图像的可见光目标检测数据集
UAV123数据集[49]包含从低空无人机捕获的123个视频序列, 总计超过11万帧图像。 这些视频序列涵盖了不同的场景, 如城市、 公园、 海滩、 学校等, 以及不同类型的目标, 如行人、 自行车、 汽车、 船只等。 每个视频序列都有一个相应的注释文件, 记录目标在每帧中的位置和大小。 此外, 每个视频序列都有一个属性文件来描述该序列的特征。
UAVDT数据集[50]由50个视频组成, 总共有40 376张图像, 其中24 778张图像用于训练, 15 598张图像用于测试。 这些图像涵盖了各种常见场景, 如道路收费站、 高速公路交叉口和T形路口等。 该数据集主要关注车辆目标(汽车、 卡车、 公共汽车), 图像的分辨率为1 024×540像素。
Visdrone数据集[51]包含无人机在不同角度和不同高度获取的图像, 其中6 471张图像用于训练, 3 190张图像用于测试。 该数据集有卡车、 巴士等10个目标类别, 图像的分辨率在960×540到1 920×1 080像素范围内。
DroneVehicle数据集[52]主要针对无人机航空图像中的车辆目标检测和计数, 包含31 064张图像和441 642个实例, 其中一半是RGB图像。 这些图像涵盖了从白天到晚上的各种场景, 具有真实的环境遮挡和不同的尺度变化。 该数据集有货车、 汽车等5个目标类别。
(2) 针对无人机图像的伪装目标检测数据集
MHCD数据集[53]是一个军事高级伪装目标检测数据集, 包含3 000张图像, 其中2 400张图像用于训练, 600张图像用于测试。 每张图像的每个目标都被仔细地标注了类别和位置, 5个目标类别为人、 飞机、 军用车辆、 军舰和坦克, 其中的伪装涉及各种现实场景, 如丛林、 沙漠、 雪地、 城镇和海洋等。
2.2 可见光图像恢复的公开数据集
为了克服可见光图像由于模糊、 噪声、 雨雾等因素造成的不同程度的退化, 研究人员提出了许多经典的图像恢复数据集。
GoPro数据集[29]使用GoPro Hero 4相机捕捉240帧/秒的视频序列, 通过平均连续的短曝光生成模糊图像。 该数据集是图像运动模糊的一个常见基准数据集, 包含3 214个模糊和清晰图像对, 其中2 103对用于训练, 1 111对用于评估。