基于改进YOLOv5的电梯内电动车入户检测

基于改进YOLOv5的电梯内电动车入户检测0

摘要：随着城市化的发展，电动车的使用日益普及，但其在高层住宅电梯内的违规使用带来了严重的安全隐患。针对电梯内电动车入户检测中存在的遮挡问题，文章提出了一种基于改进YOLOv5（You Only Look Once version 5）算法的检测系统。该系统引入Coordinate Attention（CA）机制优化YOLOv5网络结构，增强对遮挡目标的特征提取能力。同时，构建了包含遮挡情况的电梯场景数据集，并采用数据增强技术提升模型的泛化能力。实验结果表明，与原始YOLOv5算法相比，改进后的算法在保证实时性的前提下，有效提高了电梯内电动车检测的准确率，为电梯安全管理提供了有力的技术支持。

关键词：YOLOv5算法；电动车入户检测；注意力机制；遮挡识别；实时监控

中图分类号：TP183 文献标识码：A

文章编号：1009-3044（2024）35-0021-05 开放科学（资源服务）标识码（OSID）：

0 引言

随着社会的发展和人们生活水平的提高，电动车因其便捷性和经济性成为城市居民日常出行的重要工具之一。我国电动自行车保有量已达3.5亿辆，是居民日常代步的重要工具。随着电动车的普及，其在电梯内的使用问题也日益受到关注。然而，电动车在高层建筑电梯内的不当使用问题随之而来[1-4]。电动车在电梯内的不规范行为不仅影响电梯的正常运行，还可能造成严重的安全隐患[5]。2023年，北京市丰台区某小区发生的一起火灾便是一个典型案例，造成两死一伤的悲剧。据国家消防救援局统计，自2021年以来，全国共接报电动自行车及蓄电池故障引发的火灾6.97万起，造成884人死伤，直接财产损失超过7亿元[7]。有关研究表明，电动车在电梯内的不当使用不仅影响电梯正常运行，还可能引发火灾、爆炸、触电等安全事故[1，3-7]。

电动车的安全隐患主要表现在违规停放和充电行为上，例如进楼入户、人车同屋、飞线充电等。这些行为如同“不定时炸弹”，一旦发生火灾，燃烧迅速且难以扑救[1]。此外，电动车的重量和尺寸往往超出电梯设计的承载范围，增加了电梯负荷，从而缩短电梯使用寿命。而电动车在电梯内的误操作也可能导致电梯故障甚至电梯事故。传统检测模式多为人工阻拦，不仅检测效率低，还容易引发住户与管理人员之间的冲突，自动检测方法亟须得到应用与推广。许多住宅小区和公共场所安装了监控系统，为视频检测提供了便利，但由于电梯轿厢空间狭小、人员流动性大，传统监控手段难以有效识别电动车入户行为。近年来，随着人工智能技术的发展，特别是目标检测技术的进步，为解决这一问题提供了新思路[6-7]。

本研究采用YOLOv5（You Only Look Once version5）作为主要目标检测算法，旨在提高电梯内电动车行为的检测效率和准确性[8-11]。通过对YOLOv5算法的优化和调整，本文期望实现对电梯内电动车行为的实时监控和自动报警，从而提高居民的安全感。

电梯内场景下电动车目标检测面临诸多挑战：1）遮挡问题：乘客和行李物品容易遮挡电动车，导致漏检。2）小目标问题：监控画面中电动车尺寸相对较小，特征不明显，识别难度较大。3）实时性要求：电梯场景需要实时检测预警，对算法速度要求较高。

目标检测技术是计算机视觉领域的重要研究方向之一，其目的是从图像中识别出感兴趣的目标，并确定其位置和大小[12]。随着深度学习领域的快速发展，目标检测技术取得了飞跃式进步。这一技术主要分为两大类别：双阶段检测器与单阶段检测器，各自以独特方式实现目标的精准识别。以Faster R-CNN 为代表的双阶段检测器首先生成候选区域，然后对候选区域进行分类和边界框回归。有研究者通过语言嵌入动态调整不同数据集的分类问题，从而提高多数据集训练的协同性[9]。YOLO和SSD等单阶段检测器则直接在特征图上预测目标的类别和位置，具有更快的检测速度。

其中，YOLO算法作为一种实时目标检测算法，因其快速高效的特点而受到广泛关注。例如，YOLOv5 作为YOLO 系列的高级版本，进一步优化了算法性能，在保持高精度的同时提升了检测速度，成为实时目标检测领域的热门选择[11]。

尽管YOLOv5算法在目标检测领域的应用已经非常广泛，但其在电梯内电动车检测中的应用仍处于探索阶段[8，9，12]。本文探讨了YOLOv5算法在电梯内电动车检测中的应用，并分析了其在实际应用中的优势和挑战。通过对YOLOv5算法的优化和调整，提出了一种基于改进YOLOv5算法的电梯内电动车入户检测系统。该系统引入Coordinate Attention（CA）机制优化YOLOv5网络结构，增强对遮挡目标的特征提取能力，并构建包含遮挡情况的电梯场景数据集，利用数据增强技术提升模型的泛化能力，最终实现对电梯内电动车的精准、实时检测。

本研究的创新点在于将YOLOv5算法应用于电梯内电动车检测，并针对电梯内环境的特殊性探讨了遮挡识别在电动车检测中的应用。通过引入CA机制对YOLOv5算法进行改进，提高了电梯内电动车检测的准确性，为解决遮挡问题提供了新思路，为电动车入户检测提供了更有效的技术支持。本研究的意义在于提高电梯内电动车检测的准确性和便捷性，为电动车入户检测提出了新的解决方案，为居民人身安全提供了保障。

1 相关工作

1.1 目标检测算法

目标检测是计算机视觉领域的基础性任务之一，其目的是从图像或视频中识别出特定目标并确定其位置。近年来，深度学习技术的快速发展推动了目标检测领域的巨大进步。其中，YOLO系列算法以其速度快、精度高、易部署等优点，在目标检测领域得到了广泛应用。YOLOv5在网络结构、损失函数、数据增强等方面进行了一系列改进，进一步提升了目标检测的性能。凭借其易用性、稳健的性能和灵活性，YOLOv5 被广大业内人员广泛使用。

1.2 注意力机制

注意力机制模仿人类视觉系统的工作方式，其核心思想是从众多信息中选择性地关注对当前任务更为重要的信息。在目标检测领域，注意力机制能够帮助模型更加关注目标区域的特征信息，从而提升目标检测的精度。CoordinateAttention（CA）是一种轻量级的注意力机制，它通过将通道注意力分解为两个一维特征编码过程，分别沿水平和垂直方向聚合特征，从而捕捉目标的长距离依赖关系，增强模型对目标空间信息的感知能力。尤其是在处理遮挡目标时，CA 机制表现出了较好的性能。

1.3 遮挡目标检测

遮挡目标检测是目标检测领域的一个难点问题，其挑战在于如何从被遮挡的目标中提取有效的特征信息。针对这一问题，研究者提出了一些方法：1）基于上下文信息的检测方法：利用目标周围的场景信息来推断被遮挡的目标。2）基于部件模型的检测方法：将目标分解为多个部件分别检测，然后组合成完整的目标。3）基于多视角融合的检测方法：利用多个视角的观测信息来弥补单一视角信息的不足。

2 算法设计

2.1 YOLOv5算法原理

YOLOv5算法是一种单阶段目标检测算法，其核心思想是在图像的多个尺度上进行特征提取，并在每个尺度上预测目标的类别和位置（如图1）。网络结构主要分为3个部分：Backbone、Neck和Head。

Backbone的主要作用是提取图像中的特征，并逐步缩小特征图尺寸，同时增加通道数。YOLOv5通常采用CSPDarknet53 作为Backbone，这是Darknet53 的一种改进版本，通过引入跨阶段连接（Cross Stage Par⁃tial）来提高信息流动效率和网络性能。在Backbone 中，主要组件包括Conv模块、C3模块和SPPF模块：

Conv 模块：由Conv2d（卷积层）、BatchNorm2d（批归一化层）和激活函数（如SiLU）组成。Conv2d用于提取特征并整理特征图，BatchNorm2d对每批数据进行归一化，激活函数增加数据的非线性表达能力。

C3模块：由三个Conv模块和一个BottleNeck模块组成。C3模块通过分路处理和Concat操作，实现特征图的降维和升维，并通过BottleNeck模块中的残差连接，避免梯度消失问题。

SPPF模块（Spatial Pyramid Pooling-Fast）：基于空间金字塔池化（SPP）的改进版本，通过多个并行或串行的MaxPool操作，实现多尺度特征融合。

Neck结构位于Backbone和Head之间，主要作用是对Backbone提取的特征进行进一步融合和上采样操作，以提供更高级的语义信息，并适应不同尺度图片的检测需求。YOLOv5的Neck通常采用特征金字塔网络（FPN）或PANet等结构，将浅层图形特征与深层语义特征结合在一起。在Neck中，特征图通过上采样（Upsample）和Concat操作，实现不同层级特征的融合。这样既能保留浅层图形特征，又能结合深层语义特征，从而提高目标检测精度。

Head是YOLOv5的检测头，负责生成预测框和预测类别。YOLOv5的Head结构相对简单，主要由三个1×1卷积层组成，对应三个不同尺度的检测特征层。1×1卷积层的主要作用是升维或降维，以调整特征图的通道数，使其符合检测头的需求。每个检测特征层都会生成一系列预测框，包括位置坐标（x， y， w， h）、置信度和类别信息。YOLOv5使用CIOU_Loss作为损失函数，并结合NMS（非极大值抑制）算法对预测框进行后处理，以去除冗余预测框。

2.2 CA 机制工作原理

CA模块首先将输入特征图分别进行水平和垂直方向的全局平均池化，得到两个一维特征向量。然后，这两个特征向量分别经过两个不同的卷积层和Sigmoid激活函数，生成两个注意力权重图。最后，将这两个注意力权重图分别与原始特征图相乘，得到最终的输出特征图（如图2）。

2.3 YOLOv5算法优化

电梯内空间相对狭小，人物、电动车等检测目标遮挡重叠现象较多，干扰了对目标的正常识别，影响了检测精度。针对电梯内环境的特殊性，本文从网络结构和数据集处理两个方面解决上述关键性问题。

在网络结构方面，本文对YOLOv5算法进行了优化，主要改进内容为增加注意力机制。将原有YO⁃LOv5的C3结构替换为增加了CA机制的C3CA结构（如图3）。对输入特征进行三次不同的卷积操作，这些卷积操作具有不同的卷积核大小、步长或填充方式，以提取不同尺度的特征表示。对每次卷积操作得到的特征表示分别应用CA注意力机制。CA注意力机制首先通过全局平均池化对每个通道的特征进行降维，得到一个全局特征向量；然后使用全连接层对全局特征向量进行映射，得到权重向量；最后，将权重向量与原始特征逐元素相乘，得到加权后的特征表示。将三组加权后的特征表示进行融合，得到最终的特征表示。

当发生遮挡等情况时，电梯内目标的一部分会转化为小目标问题。通过优化，本文期望增加检测目标的权重，提高算法在有遮挡情况下目标检测的准确性。

在Backbone 中出现的Conv均采用3×3卷积核，步长为2，通道数根据网络深度和宽度的不同而改变（如图3）。3×3卷积核是常用的尺寸，因为它能够捕获图像中的局部特征。步长为2用于减少特征图的尺寸，同时增加感受野。SPPF是一种多尺度池化方式，用于融合不同尺度的特征信息，分别选取5×5、9×9、13×13三种尺寸的池化核。这些池化核的大小选择是为了捕获不同尺度的上下文信息，提高模型对目标的检测能力。

Neck模块连接Backbone和Head，负责进一步融合和提取特征。在Neck部分中，各模块的相关参数与Backbone中的相同。Head模块负责生成最终检测结果，包括目标类别、位置和置信度等。其中，Conv采用1×1卷积核，用以调整特征图的通道数，避免全连接层的冗余参数和高计算量。

基于改进YOLOv5的电梯内电动车入户检测

经典小说推荐

杂志订阅