复杂环境下视觉目标跟踪研究现状及发展

作者: 于明鑫 王长龙 张玉华 邢娜 李爱华 马晓琳

复杂环境下视觉目标跟踪研究现状及发展0

摘  要:      视觉目标跟踪是计算机视觉领域的重要研究方向之一, 在战场侦察、  视频监控、  自动驾驶和视频分析等军事和民用领域得到广泛应用。 近年来目标跟踪算法已经取得一系列进展, 但由于在实际跟踪过程中存在着复杂的目标和背景变化, 稳定的目标跟踪仍面临很多挑战。 本文首先介绍了实际跟踪场景中出现的困难挑战; 其次, 主要针对背景相似干扰、  旋转变化、  遮挡、  尺度变化等难点问题分别就特征提取、  观测模型和模型更新三个方面对具有代表性的判别式目标跟踪方法进行深入阐述和分析; 随后, 在OTB2015数据集上对25种典型跟踪算法进行了实验对比与分析; 最后, 对视觉目标跟踪技术的发展方向进行展望。

关键词:     视觉目标跟踪; 判别式目标跟踪模型; 相关滤波; 深度学习

中图分类号:      TJ760

文献标识码:    A

文章编号:     1673-5048(2024)03-0040-11

DOI: 10.12132/ISSN.1673-5048.2023.0112

引用格式: 于明鑫, 王长龙, 张玉华, 等. 复杂环境下视觉目标跟踪研究现状及发展[ J]. 航空兵器, 2024, 31( 3): 40-50.

Yu Mingxin, Wang Changlong, Zhang Yuhua, et al. Survey of Visual Tracking Algorithms in the Complex Scenarios[ J]. Aero Weaponry, 2024, 31( 3): 40-50.( in Chinese)

0  引  言

视觉目标跟踪是在初始视频帧中框定感兴趣目标, 在后续视频帧中对该目标进行持续定位, 是计算机视觉领域的一个研究热点。 目标跟踪被应用在包含视频监控、  无人驾驶、  军事领域等众多军事和民用场景中。

在武器制导、  战场侦察和武器打击效果评估领域中, 目标的运动状态是系统必需的重要信息。 比如在战场侦察中, 通过对既定目标进行长时间的持续跟踪, 实时传回目标位置信息和状态信息, 为指挥员的决策以及后续的精确打击提供基础。

近年来, 目标跟踪技术的框架和精度获得了很大提升和改进, 但跟踪过程中目标自身的变化和跟踪环境的复杂性导致目标外观特征不断变化, 对跟踪提出了巨大的挑战, 存在如目标遮挡、  旋转变化、  尺度变化、  背景杂波等情况, 在复杂场景下目标跟踪容易出现目标失跟、  漂移到相似干扰物等情况, 如何实现复杂场景下稳定且鲁棒的目标跟踪, 对实际应用具有重大意义。 现有的大多数算法主要致力于提高在数据集上的综合性能, 缺乏对具体跟踪挑战的解决。 针对不同的特定环境条件, 需要有针对性地解决相应的困难挑战。 本文针对复杂环境下的判别式目标跟踪算法进行综述, 针对目标跟踪过程中出现的困难挑战对跟踪算法进行分类分析, 能够应对复杂多变的环境带来的跟踪挑战, 实现在复杂场景中稳定的目标跟踪。

1  视觉跟踪中的难点

视觉目标跟踪技术在跟踪精度和准确率上不断提升, 但由于跟踪环境的复杂性和多变性, 设计一个鲁棒、  稳定的跟踪算法实现复杂环境下的稳定跟踪仍然面临很多挑战。 这些挑战主要来自外在挑战和内在挑战, 如图1所示。

外在挑战是指跟踪场景中环境的变化, 如背景相似干扰、  遮挡。

背景相似干扰: 目标在运动过程中背景经常发生变化, 背景可能会对目标的判别产生干扰, 尤其当目标周围出现相似干扰物时, 比如相似的外观、  相似的颜色分布或者相似的轮廓形状等情况, 由于相似干扰物的特征和目标具有相似性, 无法将目标与相似干扰物区分开, 导致跟踪器容易将干扰物误认为是目标, 模型在训练时将干扰物误认为是正样本, 误差通过正反馈不断积累, 模型逐渐对干扰物过拟合, 无法重新识别目标, 造成模

收稿日期: 2023-06-06

基金项目: 基础前沿科技创新项目(KYSZJXXXXX006)

作者简介:  于明鑫(1996-), 女, 山东威海人, 博士研究生。

*通信作者: 马晓琳(1979-), 女, 河北石家庄人, 教授。

型漂移。

遮挡: 当目标发生局部遮挡时, 仅保留一部分有效的目标的外观特征, 导致跟踪器无法识别出目标; 当目标发生全局遮挡时, 遮挡物覆盖了目标的外观特征, 导致将遮挡物误认为目标, 将错误的信息引入滤波器训练阶段, 导致模型漂移、  判别能力下降, 即使目标再次出现在视野中, 由于模型漂移也会导致跟踪失败。

内在挑战是指目标自身变化带来的跟踪困难。 当目标发生变化时, 目标的外观特征也发生改变, 对目标外观的建模不够及时准确, 造成跟踪困难。 如图1(c)中, 玩具在运动过程中发生了角度的旋转, 第一帧训练的目标模板不足以反映当前帧的目标特征, 滤波器训练过程中会将竖直目标框内的背景误认为是目标, 造成模型漂移跟踪失败。 航空兵器  2024年第31卷第3期

于明鑫, 等: 复杂环境下视觉目标跟踪研究现状及发展

尺度变化: 在实际的跟踪过程中, 目标的尺度可能由于距离摄像头的远近发生变化。 当目标尺度由大变小时, 原本的跟踪框内存在着大量背景负样本, 而背景信息也被认为是目标的一部分用来训练; 当目标尺度由小变大时, 滤波器只能学习到目标的局部信息, 损失一部分目标特征。 两种情况都会导致不正确的样本参与滤波器训练, 长时间会导致滤波器漂移造成跟踪困难。

2  跟踪难点的解决办法

2.1  背景相似干扰

背景相似干扰指在跟踪过程中视频帧中目标周围出现相似干扰物, 相似干扰物在特征表达上和感兴趣目标相似, 为了更准确地判别目标和相似干扰物, 需要针对相似干扰物特性对于相似的颜色、  外观设计一个判别能力强的跟踪框架。 判别式目标跟踪框架核心主要包括特征提取、  观测模型和模型更新三部分。

2.1.1  特征提取

(1) 单特征

MOSSE(Minimum Output Sum Square Error)[1]采用灰度特征作为目标特征进行目标跟踪, 计算量小, 跟踪速度快, 但跟踪精度低。 Danelljan等[2]利用CN特征作为目标特征进行目标跟踪, 把RGB颜色分为11类, 利用主成分分析法(PCA)将11维的特征降到2维, 自适应的选择显著性颜色。 文献[3]利用HOG特征, 将图像划分为局部方格单元, 并提取像素的梯度方向和梯度强度, 对几何和光照都能保持很好的不变性。 单特征在某些特殊环境下具有局限性, 制约着跟踪准确度的提高。

(2) 多特征

不同的特征能够表征目标的不同属性, 其在不同情形能发挥不同的效果, 多特征融合可以融合不同特征的特性实现优势特点的互补。 HOG特征在目标发生形变时跟踪效果差, 但目标的颜色分布不会发生改变, 因此颜色直方图特征对目标形变具有良好的不变性。 文献[4]融合了HOG特征与颜色直方图特征作为目标特征, 将两种特征的优势特点进行互补, 弥补了各自的局限性, 在不同场景下发挥两种特征的跟踪优势。 但未考虑特征之间的内在联系, 仅以固定的权重将其级联成高维向量, 在有些场景下会退化跟踪器的表现甚至比单一特征的表现更差。 文献[5]提出一种自适应特征融合的目标跟踪算法, 利用峰值旁瓣比作为权重自适应地对HOG特征和颜色特征加权融合。

(3) 深度特征

目标分类、  目标检测等领域利用深度学习强大的特征表达能力实现了跨越式发展, 利用深度特征作为目标跟踪中的特征表示成为了新的研究方向。 文献[6]首先在ImageNet上预训练VGG-19网络, 提取conv3_4, conv4_4, conv5_4三层特征作为目标特征, 将不同层的深度特征进行由粗到精的融合, 同时兼顾底层特征的细节信息和高层特征的语义信息, 三个响应图加权融合得到最终目标响应, 利用最终响应图判断目标位置。

特征按空间维度和通道维度直接级联, 采样区域内的背景会对目标产生干扰作用, 因此, 研究者们提出利用特征选择的方式增强目标特征[7-8]。 文献[7]提出基于实例的特征金字塔, 设计基于实例的上采样模块融合浅层和深层特征, 同时利用压缩空间通道选择模块对特征通道进行自适应加权组合, 充分挖掘浅层和深层特征的优势。 考虑到浅层特征鲁棒性较差, DA-GNT(Domain Activation Mapping-Guided Network)[8]将VGG-M和VGG-16网络进行集成, 尤其将域空间注意力图作为VGG-16网络的输入可以对背景特征实现一定的抑制, 利用VGG-M网络的空间细节信息对VGG-16进行了补充。 HiFT(Hierarchical Feature Transformer)[9]将多层卷积特征传入Transformer, 实现底层特征和深层特征的自适应交互性融合, 不仅能够获得全局上下文信息, 而且端到端的网络结构可以学习到多个卷积层特征之间的依赖关系。 特征之间在语义上可能是有重复性的, 很可能存在特征冗余。 RPformer(Robust Parallel Transformer)[10]利用双路Transformer结构提取目标感知特征。 双路Transformer是平行结构形成信息互补, 既可以利用特征的依赖性, 同时捕获视频序列中模板和搜索区域中丰富的全局上下文信息, 又利用多头交叉注意力特征融合模块对两个分支特征自适应融合, 提高目标和背景特征的判别力。 相关操作会丢失语义信息, TransT(Transformer Tracking)[11]设计了基于自注意力的自我上下文增强模块和一个基于交叉注意力的交叉特征增强模块, 只使用Transformer来替代基于相关操作的网络用于特征融合。

如何在不同的跟踪任务选择合适的特征以及更有效的特征融合方式仍然有进一步研究的空间。

2.1.2  观测模型

观测模型主要是判别当前关注的候选区域是否为目标, 是目标跟踪算法中的核心部分之一。 跟踪任务首先提取候选区域的特征, 再利用观测模型判别是目标还是背景区域, 最终预测目标位置。 SCAFNet(Scene Context Attention-Based Fusion Network)[12]构建目标位置模块和场景上下文模块, 增加注意力层增强上下文信息, 在特征层和决策层自适应融合目标特征和上下文知识, 利用上下文信息作为先验知识辅助目标完成跟踪。 CACF(Context-Aware Correlation Filter)[13]在相关滤波器的训练中引入了邻域上下文信息, 显式地利用上下文信息, 并证明新的优化函数可以有闭式解, 目标和上下文信息同时参与滤波器的训练。 上述目标跟踪方法主要是利用目标附近上下文背景辅助目标进行定位, 增强背景感知能力, 但是当目标周围有相似干扰物时, 上下文信息可能就存在对感兴趣目标的相似干扰, 造成跟踪器的漂移。 为了更有效地抑制无关背景信息, 主要有两类方法:

上一篇 点击页面呼出菜单 下一篇