基于改进YOLOv8的夜间视频目标检测技术研究
作者: 陈晓明 张雅丽
摘要:夜间视频目标检测一直是一项具有挑战性的课题。由于低能见度和光线不足等问题,夜间视频目标检测面临诸多挑战。该文提出了一种改进的YOLOv8算法,在YOLOv8n模型的基础上,引入了SOTA(State-of-the-Art) 轻量化下采样ADown模块和CBAM注意力机制,以降低参数量、提高检测精度并增强模型的感知能力。实验结果表明,相较YO⁃LOv8n,改进算法的计算量和参数量分别下降了8.5%和10.5%,[email protected]~0.95值提高了3.7个百分点,有效提升了夜间目标检测的精度。
关键词:夜间视频;目标检测;YOLOv8;Adown;CBAM
中图分类号:TP3 文献标识码:A
文章编号:1009-3044(2025)04-0127-03 开放科学(资源服务) 标识码(OSID) :
0 引言
随着“雪亮工程”和“智慧社区”的推进,视频监控在自动驾驶、无人机等领域得到了广泛应用[1]。然而,夜间场景下图像亮度低、对比度弱、噪声干扰严重,导致通用目标检测模型性能下降[2-3]。对于低照度目标检测任务,现有研究主要通过图像增强算法(如Ret⁃inexNet和EnlightenGAN) 或多区域背景分类方法[4-5]来解决夜间目标检测的难题。然而,前者会增加计算成本,后者存在模型复杂、泛化能力不足等问题。
针对上述问题,本文提出了一种基于YOLOv8的改进算法,通过引入ADown 模块和CBAM 注意力机制,以提升夜间视频目标检测的精度和效率。实验结果表明,改进算法在夜间场景下取得了显著效果。
1 网络模型及改进
1.1 YOLOv8网络模型
YOLOv8采用先进的检测网络结构,提供不同规模的模型以适应不同场景,使用无锚点Head提升特征表达能力,并采用CIOU损失函数提高检测精度。总之,YOLOv8融合了众多当前SOTA技术,表现出了强大的功能和良好的实用性。但YOLOv8网络模型在夜间目标的检测与识别方面表现欠佳,实时性差,精度低,且计算成本过高。因此,本文将对初始YOLOv8 模型进行优化改进,以实现提高检测精度的同时使模型更轻量化。
1.2 YOLOv8n 算法改进
考虑到夜间目标检测任务对实时性的高要求,本算法选用参数量低且轻量化的YOLOv8n为基础模型,分别引入ADown模块与CBAM注意力机制,实现对夜间视频目标的高效检测。改进的网络结构图如图1 所示。
1.2.1 ADown 模块
ADown模块是一种轻量化的创新下采样操作,包括辅助可逆分支和多级辅助信息,主要用于特征提取和下采样操作。它能够在后续的检测任务中更好地捕捉目标特征,同时减少计算量。具体来说,ADown 模块是一种用于降采样操作的卷积块,由一系列卷积层和池化层组成,模块结构如图2所示。
它通过多次卷积和池化操作,逐渐减小特征图的尺寸,并增加通道数,以便更好地提取目标的特征。此外,ADown模块被设计为具有一定的可学习能力,可以根据不同的数据场景进行调整,以优化目标检测的精度和效率。
本算法在backbone和Neck处添加ADown模块,通过替换传统的卷积下采样模块,解决了信息瓶颈问题并优化了轻量级模型。在backbone中,ADown模块用于在特征图的不同层之间进行下采样,使用深度可分离卷积层来提取特征图中的有用信息。在Neck部分,通过调整卷积层的步幅(stride) 来减少特征图的空间维度,从而帮助进一步细化特征图的分辨率,保留尽可能多的图像信息,便于模型更准确地进行目标检测。
1.2.2 CBMA 注意力机制
卷积块注意力模块CBAM(Convolutional Block At⁃tention Module) ,是一种用于前馈卷积神经网络的简单而有效的注意力模块。CBAM从CAM(Channel At⁃tention Module,通道注意力模块) 和SAM(Spatial Atten⁃tion Module,空间注意力模块) 两个作用域出发,实现从通道到空间的顺序注意力结构。CBAM 注意力框架如图 3所示。SAM可使神经网络更加关注在图像分类中决定性作用的像素区域,CAM则用于处理特征图通道的分配关系,两种机制相结合,增强了模型在任务中的性能和泛化能力。
首先,在通道注意力阶段(图4) ,输入一个H×W×C的特征F,其中C、H、W分别表示通道数、高度和宽度。对特征F进行全局最大池化(Max Pooling) 和全局平均池化(Average Pooling) 操作,得到两个一维特征向量。这两个向量通过一个权值共享的多层感知机(Multi-Layer Perceptron, MLP) 后,再经过Sigmoid激活函数,最终得到权重系数Mc。最后,将Mc与原特征F 相乘,得到缩放后的新特征。详细计算公式如式(1) :
Mc (F ) = σ(MLP (AvgPool(F )) + MLP (MaxPool(F )))= σ(W1 (W0 (F cavg )) + W1 (W0 (Fc max ))) (1)
其次,在空间注意力阶段(图5) ,将通道加权后的特征图F1在通道维度上再次进行全局最大池化和全局平均池化操作,得到两个与F1大小相同但通道数为1的特征图。然后,将这两个特征图拼接成一个具有不同尺度上下文信息的新特征图,再利用一个7×7 的卷积核进行卷积操作,最后经过Sigmoid激活函数得到空间注意力向量Ms。详细计算公式如式(2) :
MS (F ) = σ( f 7 × 7 ([ AvgPool(F ) ; MaxPool(F ) ]))= σ( f 7 × 7 ([Fs avg ; Fs max ])) (2)
最后,将 F1与注意力向量Ms相乘得到最后的特征图。
本算法通过在主干网络中添加CBAM注意力机制,自适应地学习通道和空间注意力权重,实现了在不同维度上捕获特征之间的相关性,从而提升了模型的综合性能。
2 实验与分析
2.1 实验数据集
本研究使用的是夜间行人跌倒数据集,该数据集从真实视频监控中收集,以契合实际应用。对整个数据集的1 000个样本按7∶3的比例进行实验分组,其中训练集包含785个样本,验证集包含215个样本。数据集示例如图6所示。
2.2 实验环境及参数设置
本文所有实验均在Windows 10、Python 3.10、Py⁃Torch 2.0搭建的深度学习框架下进行,CUDA版本为11.7。实验所用电脑运行内存为16G,GPU为NVIDIAGeForce MX350,显存共8 G。网络训练参数使用SGD 优化器,初始学习率和循环学习率都为0.01,batchsize设置为4,epoch设置为100轮。
2.3 评价指标
本研究对模型检测效果的评价主要采用以下指标:1) [email protected]:0.95,即IoU阈值在0.5~0.95范围内时的所有mAP的均值;2) 参数量(Params) ;3) 模型大小(Model size) ;4) 模型计算量GFLOPs(每秒十亿次浮点运算) 。其中,平均精度均值mAP是对多个类别检测效果的综合衡量,mAP越大,表示模型的整体精度越高,这一指标可以更全面地评价一个模型的综合性能。
2.4 对比实验
为验证本文改进的YOLOv8n模型在夜间目标检测方面的优越性,采用相同的数据集和实验配置,以[email protected]:0.95、Parameters、Model size和GFLOPs作为评价标准,与当前的主流检测模型YOLOv8n、YO⁃LOv9、YOLOv10s和YOLOv11n进行实验性能对比。
根据表1数据,改进后的YOLOv8n算法在显著提高检测精度的同时,保持了高速率,在各项指标上都展现了其优越性,相较原YOLOv8n模型实现了精度与性能方面的全面超越,综合性能甚至优于YOLOv9、YOLOv10s和最新模型YOLOv11n。
2.5 可视化分析
最后,通过可视化图片来验证YOLOv8n原始网络模型与改进网络模型在夜间不同场景下对行人跌倒目标检测的具体表现。实验发现,改进模型相较YOLOv8n原始网络模型,在相似动作识别上更精准,在检测目标被遮挡的情况下对目标的识别度更高,对异常复杂光线也具有较强的抗干扰能力。同时,在夜间弱光或暗光场景下,改进模型可有效应对因“鬼影”和“暗影”等现象所致的高误检率。综上,实验结果充分证明了改进网络模型的优越性。
3 结束语
为了解决视频监控在夜间目标检测中普遍存在的实时性差、检测准确率低及模型过大不易部署等问题,本文提出了一种高效、轻量级的改进YOLOv8网络模型。通过在改进网络模型中引入ADown模块并添加CBAM注意力机制,使改进模型的[email protected]~0.95 值相较于原模型增长了3.7个百分点,网络的参数量、模型大小及模型复杂度较初始模型分别降低了0.3 M、1.2 MB和0.7 GFLOPs,实现了模型轻量化与精度的双重突破,增强了模型的实用性及泛化能力。
参考文献:
[1] IFTIKHAR S,ASIM M,ZHANG Z P,et al.Target detection andrecognition for traffic congestion in smart cities using deeplearning-enabled UAVs:a review and analysis[J].Applied Sci⁃ences,2023,13(6):3995.
[2] 江泽涛,肖芸,张少钦,等.基于Dark-YOLO的低照度目标检测方法[J].计算机辅助设计与图形学学报,2023,35(3):441-451.
[3] WEI H T,YU B,WANG W,et al.Adaptive enhanced detectionnetwork for low illumination object detection[J]. Mathematics,2023,11(10):2404.
[4] 封子军,张晓玲,张慧杰.运动目标检测的红外与可见光图像融合方法[J].计算机工程与应用,2012,48(7):9-11.
[5] TSAI T H, HUANG C C, FAN C S. A high performance fore⁃ground detection algorithm for night scenes[C]//2013 IEEE In⁃ternational Symposium on Signal Processing and InformationTechnology (SiPS 2013). IEEE, 2013: 284-288.
【通联编辑:代影】
基金项目: 中国人民公安大学安全防范工程双一流创新研究专项