基于高清摄像头拍摄和改进YOLOX 的茶萎芽病识别
作者: 杨小英 黄荣彬 黄浩宜 李银 谭嘉升
摘要:为解决当前人工拍摄茶叶病害图像耗时且效率低下的问题,该研究开发了一个高清摄像头图像采集系统,用于茶园中图像数据的实时自动采集。同时,为提高英红九号茶萎芽病的识别率,在YOLOX模型的基础上,采用CBAM注意力模块和DIOU损失函数对其网络结构进行了改进。实验结果显示,改进后的YOLOX+模型在测试集上的[email protected]达到了91.9%,较YOLOX模型提升了2.2%。这表明YOLOX+在英红九号茶萎芽病识别中取得了较高的识别精度。
关键词:茶叶病害;高清摄像头;YOLOX;CBAM;DIOU损失函数
中图分类号:TP18 文献标识码:A
文章编号:1009-3044(2024)31-0027-04
开放科学(资源服务)标识码(OSID) :
0 引言
茶叶产业是中国的传统特色产业,茶树病害可直接且严重地影响茶叶的品质和产量。目前,茶叶病害检测主要依赖茶叶研究专家通过野外考察进行,这种方法时间和劳动力成本过高,且检测结果容易受到主观因素的干扰[1-7]。尽管国内外在茶叶病害识别方法上取得了不错的研究成果,但仍存在一些问题:1) 图像采集:目前大多数茶叶病害数据的采集是通过人工方式进行,拍摄者需要亲临实地使用手机或相机进行拍摄,这需要消耗大量的时间和人力,效率较低。2) 模型算法:在自然环境中,茶叶病害通常分布在多个叶片上,并且病害类型多样。目前的研究中,YOLOv3 算法性能较低,Faster R-CNN计算量大、预测时间长且算法识别率不高。因此,对于茶叶病害识别问题,目标检测模型优于分类模型。
针对上述问题,本文以英红九号茶萎芽病为研究对象,开发了一个高清摄像头图像采集系统,用于茶园中图像数据的实时和自动采集;提出了一种YOLOX+模型,用于识别茶萎芽病。实验结果表明,本文提出的方法在英红九号茶萎芽病识别任务中取得了较高的识别精度。
1 高清摄像头图像采集系统
目前,茶叶病害数据采集大多通过人工使用手机或相机进行,效率低下,花费大量时间和人力,并且容易受到天气等环境因素的影响。虽然也有采用无人机拍摄的方式,但无人机拍摄的患病芽叶较小,特征信息有限。本文设计的高清摄像头采集系统能够实时、自动地采集图像,大幅提高采集效率,节省时间和人力成本。图1展示了在茶园中架设的高清摄像头,摄像头型号为海康威视iDS-2DC7533IW-A(S5),以满足图像质量的要求。
整个系统的功能实现如图2所示,分为4个模块:实时预览、云台控制、实时采集和自动采集。
2 基于YOLOX+ 模型的英红九号茶萎芽病识别
YOLOX模型由旷视科技的张戈等人[8]在2021年提出,主要在两个方面对YOLO 系列算法进行了改进:Anchor Free 无锚框机制和Decoupled head 解耦头。与原YOLO系列相比,YOLOX模型的网络头部参数量减少了2/3,大大降低了网络的计算量,并提高了网络模型的收敛速度[9]。本文通过改进YOLOX 的特征金字塔结构和目标检测头网络结构,提升了识别精度。
2.1 特征金字塔结构改进
在YOLOX模型中,骨干网络结构用于实现初步的特征提取,而特征金字塔结构用于实现特征融合,即在深层网络和浅层网络之间传递特征。ConvolutionalBlock Attention Module(CBAM) 注意力模块是一种轻量化的卷积注意力模块,由通道注意力模块和空间注意力模块组成[10]。CBAM通过全局平均池化(GAP) 和全局最大池化(GMP) 捕获通道间的统计信息,然后使用可学习的卷积核生成通道权重,实现对不同通道特征的自适应加权。同时,对空间维度进行全局平均池化获取空间信息,并使用可学习的卷积核生成空间权重,从而实现对不同位置特征的自适应加权。这样提高了神经网络模型的特征表达能力,增强了对目标物体的分类能力和坐标定位能力,提高了模型的准确性。由于CBAM注意力模块计算成本较低,可以在对检测速度影响较小的情况下提升模型性能。因此,本文将CBAM注意力模块引入特征金字塔结构,以加强对浅层网络小尺度特征信息的关注,同时也加强对深层网络大尺度特征信息的注意。引入CBAM模块后的特征金字塔结构前后对比如图3所示,其中CBAM被引入特征金字塔结构的每个瓶颈层模块中,记为注意力机制- 瓶颈层2_1,其具体结构如图4所示。
2.2 目标检测头网络结构改进
在原YOLOX 模型中,使用IOU(Intersection overUnion) [11]损失函数来衡量预测框和真实框的误差,其计算公式如式(1) 所示。IOU损失函数仅考虑了预测框与真实框之间的重叠部分,无法在两个框没有相交时提供任何信息,从而导致神经网络模型无法学习预测框参数的优化方向。
式中:LossIOU表示IOU损失函数,A为模型输出的预测框,B为真实框,| A ⋂ B |表示预测框和真实框的重叠面积,| A ⋃ B |表示预测框和真实框的合并面积,IoU 表示预测框和真实框的交并比。
为了减少预测框和真实框之间的误差,实现对预测框坐标信息的更准确拟合,本文引入DIOU损失函数对其进行改进。DIOU损失函数[12]不仅考虑了边界框的重叠面积,还包含了边界框中心点距离、宽高比和对角线距离等信息。通过最小化预测框和真实框中心点之间的距离,DIOU损失函数能够引导模型更准确地定位目标;通过考虑预测框与真实框之间的宽高比,有助于模型学习合理的目标尺寸;通过考虑边界框的对角线距离,使得模型能更好地处理复杂环境中的目标尺度变化。DIOU损失函数将真实框和预测框的中心点欧式距离与这两个框最小外接矩形的对角线距离的比值作为惩罚项,其计算公式如式(2) 所示。
式中:b 和bgt 分别表示预测框和真实框的中心点,ρ (b,bgt )表示二者的欧式距离,c表示这两个框的最小外接矩形对角线距离(如图5所示)。
从式(2) 可以看出,DIOU损失函数不仅考虑了真实框和预测框的重叠面积,还结合了真实框和预测框的位置信息。因此,它可以提高模型在预测框边界回归上的准确性。
2.3 改进的YOLOX+模型
为了更加有效地提取和利用目标特征,减少无关信息的干扰,并提高检测精度,本文在YOLOX模型的基础上进行了改进。在特征金字塔结构中引入了CBAM 注意力机制模块,以增强模型的特征提取能力;同时,在YOLOX的目标检测头网络模块中引入了DIOU损失函数,以提升模型的检测精度。通过结合CBAM和DIOU损失函数,模型在复杂背景和不同尺度的目标检测中表现出更好的鲁棒性,同时仍保持快速实时检测的特点。改进后的模型称为YOLOX+,其具体结构如图6所示,图中黑色粗框标注了改进的部分。
3 实验结果与分析
3.1 构建数据集
通过高清摄像头系统对自然环境下英红九号茶萎芽病图像进行采集,采集地点为广东省农业科学院茶叶研究所(英德实验基地),其地理位置为东经113°39'、北纬24°30'。茶园的平均海拔高度为39米,常年种植英红九号品种茶树。
在晴天和雨天等多种天气条件下共采集了1 500 张图像。图像分辨率为2 560×1 920。使用开源标注工具LabelImg对这些图像进行标注,其中,英红九号茶萎芽病分为早期和晚期两个类别,如图7所示。随后,将1 500张图像按7∶1∶2的比例划分为训练集、验证集和测试集,分别得到训练集960张、验证集240 张、测试集300张。
3.2 评价指标
本文采用COCO 数据集的评价指标来评估YOLOX+算法在识别英红九号茶萎芽病方面的性能。该评价体系包括以下指标:
1) 交并比(IOU,Intersection over Union) :用于衡量预测框与真实框之间的重叠度。
2) 精确率(P,Precision) :表示预测框中的正样本数量占所有预测框总数的比例。
3) 平均精确率(AP, Average Precision) :表示对某一类别预测的准确率的均值。
4) 平均精确率均值(mAP, mean Average Preci⁃sion) :所有类别的平均精确率,一般在IOU = 0.5时计算,记为[email protected]。
各个指标对应的公式如公式(3) ~(5) 所示。
式中:TP(True Positive)表示预测结果为茶萎芽病且实际也为茶萎芽病的数量;FP(False Positive)表示预测结果为茶萎芽病但实际不是茶萎芽病的数量;FN(False Negative)表示预测结果不是茶萎芽病但实际为茶萎芽病的数量;Pi 是召回率区间为[0,0.1,0.2,..,1]下的取值;N 为数据集的类别数,这里N 为2。
3.3 实验参数细节
在实验过程中,各模型统一训练300 个epoch,输入图像大小调整为1 280×1 280,batch size设置为2。使用SGD优化器,初始学习率为0.000 312 5,且采用warmup 和指数退火(exp) 的学习率调整策略,warmup 阶段为5 个epoch。动量(momentum) 设置为0.9,权重衰减(weight decay) 设置为0.000 5。
此外,在训练过程中,使用Mosica和Mixup进行数据增强,并在训练的最后15个epoch中关闭这两个数据增强方法。
3.4 消融实验结果与分析
通过消融实验可以有效地反映模型的改进效果。本文在原YOLOX模型中进行了两项改进,分别记为YOLOX+CBAM 和YOLOX+DIOU。表3 展示了原YOLOX、YOLOX+CBAM、YOLOX+DIOU以及YOLOX+ 这4个模型在英红九号茶萎芽病识别中的实验结果和对比。
如表3所示,YOLOX模型在引入CBAM模块后,在IOU阈值为0.5的条件下,晚期茶萎芽病的AP值达到了95.9%,早期茶萎芽病的AP值达到了85.8%,从而使mAP提高到90.9%,比原始YOLOX提升了1.2%。这表明,CBAM注意力机制有效增强了网络的特征提取能力。
在引入DIOU损失函数以改进边界回归功能后,YOLOX模型在IOU阈值为0.5时,晚期和早期茶萎芽病的AP值分别达到95.9%和86.6%。因此,mAP提高到91.3%,相较于YOLOX 提高了1.6%,这说明DIOU 损失函数更好地描述了目标物体的位置信息和尺寸信息,从而显著提升了模型对边界框的定位能力。
当同时引入CBAM模块和DIOU损失函数后,在IOU阈值为0.5时,晚期茶萎芽病的AP值达到96.1%。尽管在检测精度上仅有小幅提升,但这是因为晚期茶萎芽病的特征信息较为明显,其他模型已经相对容易识别。而早期茶萎芽病由于特征信息较少,其识别率比晚期低。尽管如此,YOLOX+识别早期茶萎芽病的AP值达到了87.6%,相较于YOLOX、YOLOX+CBAM、YOLOX+DIOU 分别提高了3.7%、1.8% 和1.0%,均有显著提升。最终,YOLOX+模型的[email protected] 达到了91.9%,这表明所提出的方法在英红九号茶萎芽病识别任务中实现了较高的识别精度。
4 结论
本文以英红九号茶萎芽病为研究对象,首先开发了一个高清摄像头图像采集系统,以解决当前人工收集茶叶病害图像效率低下的问题。随后提出了一种改进的英红九号茶萎芽病识别模型YOLOX+,通过将CBAM注意力模块整合到Neck结构中来增强模型的特征提取能力,同时引入DIOU边界回归损失函数以替代原有的IOU损失函数,从而提升模型的检测精度。实验结果显示,YOLOX+模型在测试集上的[email protected]比YOLOX提高了2.2%,达到91.9%。YOLOX+能够准确识别英红九号茶萎芽病,从而增强了对该病的及时检测和预警,为防止进一步危害及采取有效防治措施奠定了基础,也为我国茶叶产业的发展做出了贡献。
参考文献:
[1] 魏康.自然场景图像中茶炭疽菌病害严重度估计[D].合肥:安徽大学,2021.
[2] 李子茂,徐杰,郑禄,等.基于改进DenseNet的茶叶病害小样本识别方法[J].农业工程学报,2022,38(10):182-190.
[3] 李博,江朝晖,洪石兰,等.基于边缘智能的茶叶病害识别[J].中国农机化学报,2022,43(6):175-180.
[4] HU G S,FANG M.Using a multi-convolutional neural network to automatically identify small-sample tea leaf diseases[J].Sus⁃tainable Computing:Informatics and Systems,2022(35):100696.
[5] REDMON J,FARHADI A.YOLOv3:an incremental improve⁃ment[EB/OL].[2024-03-20].https://arxiv.org/abs/1804.02767v1.
[6] GE Z,LIU S T,WANG F,et al.YOLOX:exceeding YOLO series in 2021[EB/OL].[2024-03-20].https://arxiv.org/abs/2107. 08430v2 .
[7] 刘志佳.基于YOLOX改进的人脸口罩检测算法[D].南京:南京邮电大学,2022.
【通联编辑:唐一东】
基金项目:广东省科技创新战略专项资金立项项目(项目编号:pdjh2022b0885、pdjh2023a0887);校级科研项目:基于深度学习的茶园草害智能预警系统研究(项目编号:XK202207)