改进全卷积孪生网络红外空中小目标跟踪算法
作者: 张文波 刘刚 张良 王明昌 刘森
摘 要:针对红外成像制导导弹对空中小目标跟踪过程中面临的背景杂波干扰、遮挡等实际问题,提出了一种改进全卷积孪生网络(SiamFC)红外空中小目标跟踪算法。该算法在全卷积孪生网络的基础上,通过深度特征响应图的平均峰值相关能量和最大峰值判断目标跟踪状态。当发生背景杂波干扰时,使用深度特征响应值联合局部对比度的判别方法来选取目标。当发生遮挡时,通过卡尔曼滤波预测目标位置。相较于基准算法SiamFC,改进算法在红外空中弱小目标数据集上测试,跟踪成功率和精确度分别提高33.4%与21.9%。实验结果表明,所提算法能够适应复杂多样的红外空中场景,实现对红外空中小目标有效且稳定的实时跟踪。
关键词:导弹; 红外空中小目标;目标跟踪;孪生网络;平均峰值相关能量; 卡尔曼滤波
0引 言
空中目标跟踪是红外成像制导导弹完成精确打击的关键技术之一,跟踪性能的优劣直接影响打击效果。红外成像制导系统对空中目标跟踪性能的要求,主要体现在弹目距离远、目标所在自然环境复杂多变条件下,视场中的目标多为有限像素、特征信息微弱、背景杂波干扰多及存在遮挡等问题,对目标稳定跟踪带来了较大的困难。红外目标跟踪的传统算法中,根据不同的场景人工设计有针对性的特征提取方法,难以适应复杂的红外空中场景情况[1]。
近年来,国内外学者已经将深度学习算法应用到目标跟踪中,使用卷积神经网络(Convolutional Neural Networks, CNN)来提取深度特征,取得了超过传统相关滤波跟踪算法的跟踪性能。比如:ECO[2]算法将深度特征引入相关滤波跟踪模型中,通过卷积因式分解、更新策略和样本分组来改进,提升跟踪性能。MDNet[3]算法在网络中对每个视频序列设计各自的全连接层,在跟踪过程中在线更新分类器,微调检测分支,大幅提高跟踪效果。TCNN[4]为了避免在线更新模型被污染,使用多个CNN加权得出候选框得分选取目标。这些算法将跟踪目标视为分类问题,但分类与跟踪两个任务是有本质区别的,并且在线微调的跟踪算法虽然精度较高但跟踪速度较低,不能满足实时跟踪需求。
为改善上述算法存在的缺陷,基于孪生网络的跟踪算法[5]在首帧标注目标的基础之上,利用相似性度量方法寻找后续帧目标。该算法可以更好地避免分类网络难以识别未训练过的物体类别问题,与跟踪任务更加契合。此外,孪生网络跟踪算法在初始离线阶段采用端到端训练网络方法,获得较强的跟踪实时性。SINT[6]算法使用孪生网络学习目标模板和候选目标之间的匹配函数,跟踪过程中选取候选目标中与目标模板距离最小的为目标,但每次处理大量候选框较耗时。SiamFC[7]算法将待搜索区域与目标模板的深度特征进行互相关运算,响应值最大位置为目标中心点。SiamRPN[8]算法在SiamFC基础上引入区域建议网络模块估计目标位置和尺寸,以适应目标多尺度变化。在红外空中目标跟踪中,Kim等[9]改进孪生网络结构进行特征提取,利用多层特征RPN的加权求和来提升红外目标特征表达能力,并采用交叉熵和平滑L1的组合损失函数, 解决损失函数难以收敛问
题, 获得很好的跟踪效果。Hu等[10]将孪生网络卷积层提取的深度特征与传统的红外空中目标特征相结合来提高跟踪精度。以上算法对背景简单、具有明显形状的目标跟踪效果较好。目标在复杂背景下被杂波干扰、遮挡时,算法无法利用已有的特征信息稳定地跟踪目标,甚至跟踪失败。
针对上述问题,本文提出一种改进全卷积孪生网络红外空中小目标跟踪算法。该算法利用响应图的变化信息获知目标跟踪状态,提升算法的状态判别能力;通过传统特征与深度特征相结合的方法,避免了单一使用深度特征难以判别红外空中小目标和背景杂波;使用目标帧间运动信息来预测遮挡目标位置,解决了目标被遮挡后由于特征信息减少而无法准确跟踪的问题。
1全卷积孪生网络基本原理
孪生网络把目标跟踪问题视为相似性学习问题,将待跟踪图像序列的初始帧目标信息与后续帧候选目标进行比较,选取相似性最高的为目标。基于全卷积孪生网络(Fully -Convolutional Siamese Networks,SiamFC)目标跟踪算法是在目标跟踪方面的经典算法,该算法实时性较高,采用离线训练跟踪模型网络参数,在线跟踪不调整参数,直接执行前向传播操作,跟踪速度快;鲁棒性强,跟踪过程网络模型和目标模板不更新,目标模板不会被污染,即使目标被遮挡也不会影响后续捕获。这些优点对于对跟踪实时性和稳定性要求高的红外成像制导导弹来说是十分符合的。因此,选择SiamFC为目标跟踪的基本框架。
全卷积孪生网络目标跟踪算法结构如图1所示,由模板分支和检测分支组成的。模板分支主要以图像z作为模板输入,目标模板z是跟踪图像序列第一帧已给定的目标框裁剪出的图像。检测分支主要负责接收当前帧的待搜索区域x,是以上一帧目标位置为中心裁剪出的图像。目标模板z和待搜索区域x分别经过共享参数的卷积神经网络φ后得到各自特征图φ(z)和φ(x)。
孪生网络作为深度特征提取器,提取目标模板z和待搜索区域x的特征之后,送到相似度函数里计算相似度,相似度函数为卷积操作,即
f(z,x)=φ(z)φ(x)+b(1)
式中:φ为特征提取网络;为卷积运算;b为偏置向量。根据式(1),卷积操作实际上是将目标模板特征图φ(z)作为卷积核,在待搜索区域特征图φ(x)上执行滑窗算法,得到相似特征的响应图f(z, x)。响应图的每个点代表着目标模板与待搜索区域对应位置的相似度大小,值越大代表相似度越大。经双三次插值后,可根据响应图中最大值所处位置来确定当前帧目标的真实位置。
将SiamFC应用在红外空中小目标跟踪中,实验结果表明其能保持较好的跟踪速度和准确性,但随着背景复杂度的提升,目标跟踪精度严重下降,背景杂波干扰、遮挡等情况会导致跟踪失败。为此,本文在SiamFC的基础上,增加目标跟踪状态判断准则,并在相应状态下提出改进策略。
2改进全卷积孪生网络红外空中小目标跟踪算法
2.1深度特征提取网络结构
在AlexNet基础上设计目标的深度特征提取网络。其前两个卷积层后使用最大池化层,除了最后一层卷积层之外的每一个卷积层都使用ReLU,最后三层卷积层使用分组卷积。在每个线性层之后都有批规范化层(Batch Normalization),卷积层没有填充操作,网络总步长为8。
在实际跟踪过程中,如图1所示,目标模板和待搜索区域分别裁剪变换为127×127×3的z和255×255×3的x,两者经过特征提取网络φ后,得到6×6×128 φ(z)和22×22×128 φ(x)的特征图。以6×6×128特征图为卷积核与22×22×128特征图进行卷积运算得到17×17的特征响应图,再经双三次插值获得272×272最终的特征响应图。
本文通过离线训练特征提取网络,损失函数L判别离线网络训练中的正负样本,表示为
L(y, z)=1M∑u∈Mlg(1+exp(-y(u)·v(u))) (2)
式中:M为网络输出响应图;u为响应图中某一位置的索引,u∈M;v(u)为响应图中位置u对应的响应值;y(u)为响应图中位置u对应真实空间的正负样本标签,其中正样本标签为1,负样本标签为-1,即
y(u)=+1ku-c≤R
-1其他(3)
式中:k为网络总步长;c为响应图中心位置;R为搜索区域半径。整个网络训练使用随机梯度下降算法SGD(Stochastic Gradient Descent)来优化:
argminθ=E(z, x, y)L(y, f(z, x; θ))(4)
式中:y为样本标签; θ为网络参数。迭代训练的最终目标是求一组使损失函数L取得最小值的参数θ。离线训练好的特征提取网络在线跟踪时,不需要更新网络的参数。
2.2跟踪状态判断
全卷积孪生网络跟踪算法采用深度特征响应图最大峰值点坐标作为当前帧的跟踪结果,响应图的波动情况及主峰状态可反映出当前跟踪结果的置信度。图2~3分别为SiamFC跟踪算法在地空背景下红外图像弱小飞机目标检测跟踪数据集[11]data17序列和data11序列的跟踪结果及其对应的响应图对比,图中红色实线框为SiamFC跟踪结果,黄色虚线框为目标真实位置。
图2~3分别表现出目标在受到背景杂波干扰和遮挡时的跟踪情况。当目标正常跟踪、没有受到干扰时,对应的响应图中只有目标中心位置处有一个明显主峰,并且主峰周围区域分布平缓,跟踪效果良好。
在data17序列中目标发生背景杂波干扰跟踪到背景中相似干扰物时,对应的响应图中主峰附近出现高度相近的次峰,周围分布波动较大,甚至背景相似干扰物的峰值大于目标峰值,从而导致跟踪到错误目标。在data11序列中目标被遮挡时,由于待搜索区域内丢失目标,只能选择最相似目标,等待脱离遮挡后,目标已经远离待搜索区域,依旧无法正常跟踪目标。观察发现目标被遮挡时,对应的响应图出现剧烈波动,主峰不够明显,周围多个峰高度上升,视觉呈现“多峰”状态。根据上述情况分析,可以通过响应图的波动状态来判断出目标跟踪状态是否发生变化。本文采用平均峰值相关能量(Average Peak to Correlation Energy,APCE)[12]来评估目标跟踪状态以及受到背景杂波干扰、遮挡等情况的严重程度。
APCE定义为
APCE=Fmax-Fmin2mean∑i, j(Fi, j-Fmin)2(5)
式中:Fmax和Fmin分别表示响应图中最大值和最小值;Fi, j为响应图中(i, j)处的响应值。APCE指标主要用于度
量响应图的波动情况,图2(b)中APCE=17.1,图2(d)中APCE=4.4,图3(b)中APCE=16.2,图3(d)中APCE=3.6,图3(f)中APCE=6.3。如图2(b)和图3(b)所示,
在正常跟踪情况下,响应图波动较小,视觉呈现“单峰”状态,APCE值较大。在目标发生背景杂波干扰、被遮挡时,如图2(d)和图3(d)所示,响应图波动剧烈,视觉呈现“多峰”状态,相比正常跟踪的APCE值大幅减小。所以,通过分析响应图的波动情况并计算响应图的APCE值, 能够有效反映出当前的跟踪状态。当APCE值大幅降低时,可以判断出目标跟踪进入不稳定状态,但是无法准确判断出具体原因。
图4为SiamFC跟踪算法在data17序列和data11序列跟踪过程中的响应图最大峰值统计图。其中,图4(a)的A点对应图2(c),图4(b)的B点对应图3(c)。从图2(d)和图3(d)可知,A点和B点对应的响应图APCE值都比较低,但是从图4可以看出这两个点与相邻历史帧的最大峰值变化状态不同。
图4(a)中,A点处目标受到背景杂波干扰,第21帧的最大峰值相较第20帧突然发生下降,这是由于跟踪到相似干扰物上,但21帧之前的峰值变化不大。图4(b)中,目标经历从轻微遮挡到完全遮挡过程,从第180帧最大峰值开始逐渐变小,到第189帧时目标被完全遮挡,此刻最大峰值为最小值B点。综上分析,当APCE值较小时,结合响应图最大峰值的变化状态可以分类出可能导致跟踪失败的因素。所以,选择响应图的最大峰值Fmax和APCE值对当前帧的目标跟踪状态进行评估判断。考虑到不同序列的目标背景以及目标的变化会对响应图产生影响,为使目标跟踪判断更加可靠,将当前帧的APCE值和最大峰值与历史帧进行对比,即