基于深度霍夫优化投票的三维时敏单目标跟踪

基于深度霍夫优化投票的三维时敏单目标跟踪0

摘要：针对三维点云时敏单目标跟踪问题，提出了一种基于深度霍夫优化投票的深度学习算法。首先，采用PointNet++网络分别从模板点云和搜索点云中计算种子点、提取几何特征，并通过面向目标的特征提取方法将目标模板信息编码到搜索区域中。其次，通过种子点投票计算并筛选出具有高置信度的潜在目标中心。最后，通过目标中心点的采样、聚集产生多个提议，选取具有最高得分的提议生成三维目标框。该算法能够有效避免耗时的三维全局搜索，且对点云的无序性、不规则性和稀疏性保持鲁棒。为了验证该网络的有效性，在公共数据集KITTI上进行测试。实验结果表明，该网络相较于当前最好的基于三维点云的方法，准确度提高了约10%，并可以在单个NVIDIA2080S图形处理器上以43.5 FPS运行。

关键词：时敏目标; 单目标; 目标跟踪; 点云数据; 霍夫投票; 深度学习; 人工智能

中图分类号： TJ760; TN911.73

文献标识码： A

文章编号： 1673-5048（2022）02-0045-07

DOI： 10.12132/ISSN.1673-5048.2020.0238

0 引言

基于点云数据的三维时敏单目标跟踪是自动驾驶和机器人视觉等相关领域应用的基础[1-3]。现有的三维目标跟踪算法[4-8]大都继承二维目标跟踪的经验，对于RGB信息有很强的依赖性。但当环境因素变化导致RGB信息退化时，这些算法的性能会变得很差甚至失效。三维点云数据描述场景的几何信息，其采集过程不受光照变化的影响，相较于RGB信息更适用于目标跟踪任务。然而，三维点云数据的不规则性、无序性和稀疏性，导致传统二维目标跟踪算法（如基于孪生神经网络的算法[9]）无法直接应用，给三维时敏单目标跟踪带来巨大的挑战。

为了解决上述问题，本文提出了一种基于深度霍夫优化投票[10]的端到端时敏单目标跟踪算法。首先，从模板点云和搜索点云中提取种子点，采用面向目标的特征提取方法编码目标信息; 然后，通过投票和筛选生成高置信度的潜在目标中心; 最后，执行联合提议和验证生成预测结果。通过在KITTI跟踪数据集[11]上进行实验验证，本文提出的算法在成功率和精准度上都显著优于当前最先进的算法[12]，且可在单个NVIDIA2080S图形处理器上以43.5 FPS运行。

1 基础理论

1.1 三维目标跟踪

目前常用的目标跟踪算法[4-8，13]有RGB或RGB-D信息，对基于点云的三维目标跟踪算法的研究相对较少[10]。主要存在以下问题：（1）过于依赖RGB信息，在光照变化剧烈或极端天气情况下，RGB视觉信息的质量变差甚至无法获取，会极大地限制算法的性能。（2）除此之外，一些算法[6-8]专注于生成二维目标框，相较于三维目标框，由于缺少一个维度的信息无法精确地表示目标在空间中的位置信息。基于形状补全的三维孪生跟踪[12]是目前唯一仅使用点云数据的三维目标跟踪算法，该算法通过在点云和三维目标提议上进行深度学习，取得了三维目标跟踪的最好结果，但因为其在三维全局进行搜索，存在计算复杂度过高的问题。

1.2 二维目标跟踪

许多先进的二维目标跟踪算法[14-25]大都基于孪生神经网络。如图1所示，孪生神经网络通常包含两个分支，分别用于处理模板区域和搜索区域。其通过结构相同且权重共享的两个子网络，输出映射到高维度空间的

特征表示，用于比较两个区域的相似程度。在此基础上，

结合区域候选网络可以实现高性能的二维目标跟踪[23]。后续许多研究[17，19-22]都建立在这套框架之上并取得了不错的性能。但是，上述算法均以二维卷积神经网络为基础，而点云的不规则性导致传统二维的卷积操作无法直接应用到点云数据。所以，本文的工作是以二维孪生跟踪框架为基础，将其扩展用于解决三维目标跟踪。

1.3 点云深度学习

目前，点云深度学习越来越受到大家的关注[26-27]。但由于点云的无序性、稀疏性和不规则性，许多在二维视觉中成熟的算法无法应用到点云上。为此，许多学者在三维目标识别[28-29]、三维目标检测[10，30-32]、三维目标姿态估计[33-35]和三维目标跟踪[12]方向都进行了相关研究，以解决在三维点云场景下的各类问题。

基于形状补全的三维孪生跟踪算法[12]虽然取得了不错的结果，但该算法不能执行端到端的训练，且在三维全局空间进行搜索计算，复杂度较高。为解决这一问题，本文提出了一种端到端的三维目标跟踪算法。

1.4 霍夫投票

霍夫投票[36]是基于广义的霍夫变换[37]，提出的一种学习物体形状表示的方法，可以有效地将不同训练样本上观察到的信息结合在一起。基于这一思想，霍夫投票与深度学习相结合，提出了一个可训练的端到端深度网络[10]，用于解决点云中的三维目标检测问题。该网络通过聚合目标的局部上下文信息进行联合提议和验证，取得了很好的结果。如何有效地结合霍夫投票和深度学习网络来实现三维目标跟踪，同时进一步优化投票的选择，是本文专注解决的问题。

2 时敏单目标跟踪算法

给定目标模板点云Ptemp={pi=（xi， yi， zi）}N1i=1和搜索空间点云Psea={si=（xi， yi， zi）}N2i=1，目标跟踪算法预测目标在搜索空间中的位置信息Φ。其中： N1为模板点云中点的数量; N2为搜索点云中点的数量; Φ由目标中心的坐标以及X-Y平面的旋转角度构成。

本文提出的基于深度霍夫优化投票[10]的时敏单目标跟踪算法以模板点云和搜索点云作为输入，由面向目标的特征提取、潜在目标中心的生成、联合提议和验证以及模板点云的更新四部分组成，如图2所示。

面向目标的特征提取（图2（a））使用PointNet++网络[27]提取模板点云Ptemp和搜索点云Psea的几何特征并生成模板种子点集Q和搜索种子点集R，通过计算Q和R的相似度矩阵T将目标信息编码到搜索空间中，生成编码了目标信息的搜索种子点集D; 潜在目标中心的生成阶段（图2（b）），每个编码后的搜索种子点dj通过投票产生对应的潜在目标中心点cj，并基于置信度得分B从潜在目标中心C中筛选出具有高置信度的潜在目标中心E; 联合的提议和验证阶段（图2（c）），采样和聚集高可信度的潜在目标中心E，产生K个提议，具有最高得分的提议作为最终的预测结果Φ; 模板点云的更新阶段（图2（d））采用模板点云更新策略γ，基于前一帧目标的预测结果更新模板点云Ptemp。该算法充分挖掘模板和搜索空间中目标的相似性，有效应对点云的无序性和不规则性以及目标外观变化，能够高效稳定地对场景中的时敏单目标进行持续跟踪。

单个目标表面的点可以直接生成目标提议，但是由于单个目标表面的点只捕获了目标的局部信息，无法有效地描述目标的全局信息，所以无法得到目标在三维空间中的精确位置。而本文提出的基于优化的深度霍夫投票算法，先把目标表面的每一个点回归到物体中心，再聚集目标的候选中心点生成提议，可以获取目标更多的全局信息，从而得到更加准确的检测结果。

3 实验

为了验证本文提出的基于深度霍夫优化投票的三维时敏单目标跟踪算法，在KITTI跟踪数据集[11]（使用激光雷达扫描空间获取点云）上进行了一系列的实验。采用一次通过评估（OPE）[39]来评估不同方法的成功率和精准率。成功率是目标预测框和目标真实框之间的IOU。精准率是在0～2 m（目标预测框中心和目标真实框中心的距离）内误差的AUC。

3.1 实验配置

3.1.1 数据集

因为KITTI测试集[11]的真实值无法获得，本文仅使用训练集来训练和测试本文提出的算法。该数据集包含21个室外场景和8种类型的目标。由于KITTI数据集中汽车数据具有最高的质量和多样性，本文主要考虑汽车为目标的跟踪，并进行了消融实验、定量实验以及定性实验。除此之外，为了进一步验证算法的性能，还对其他3种目标（如行人、货车和自行车）进行了实验。

本文为所有视频中的目标实例逐帧生成了轨迹，并将数据集分割如下：场景0～16用于训练，场景17～18用于验证，场景19～20用于测试。

3.1.2 实施细节

对于模板点云和搜索点云，本文通过随机放弃或复制的方式，把模板点云中的点的数量归一化到N1=512，搜索点云中的点的数量归一化到N2=512。本文采用PointNet++网络[27]提取点云的几何特征，网络由3个下采样层组成，每层的感知球半径依次为0.3， 0.5， 0.7，即每层都从当前点集中采样一半的点，产生了M1=64个模板种子点和M2=128个搜索种子点，输出特征的维度为d1=256。本文的多层感知机包含3层，每层的大小均为256，即d2=256。对于采样和聚集生成提议，采样K=32个潜在目标中心点并聚集在其R=0.3 m内领域的点生成提议。

使用Adam优化器[40]优化模型参数，batch大小为12，学习率最初为0.001，在训练集迭代10次后变为之前的0.2。

在测试阶段，使用训练后的网络逐帧预测目标位置信息生成三维目标框，前一帧的预测结果放大2 m，作为后续搜索区域点云。

3.2 消融实验

3.2.1 特征提取方式

为了验证本文提出的面向目标特征提取方式的有效性，将提出的算法和其他4种算法进行对比，包括：在合并相似度矩阵和模板种子点时，分别移除模板种子点和搜索种子点的相似度特征、移除模板种子点的特征、移除模板种子的坐标以及添加搜索种子点的特征。实验结果如表1所示。

从表1可看出，在移除相似度特征后，模型的成功率下降了4.6%，精准率下降了3.7%; 在移除模板特征后，成功率下降了1.0%，精准率下降了1.9%。这验证了这些部分在默认设置中的作用。而在添加了搜索种子点的特征后并没有对性能有太大的提升，甚至降低了精准率。这表明，搜索种子点的特征只是捕获了场景中的上下文信息而非目标的信息，对于目标跟踪任务没有帮助。而本文采用的方法编码了模板中丰富的目标信息，能够产生更加可靠的提议，用于后续目标的精准定位。

3.2.2 对潜在目标进行筛选的有效性

根据潜在目标中心的置信度得分，进一步筛选出具有高置信度的潜在目标中心，能够产生更好的提议。本文通过删除对潜在目标进行筛选，以验证该算法的有效性。实验结果如表2所示。

从表2中可以看出，对潜在目标的筛选将模型的准确率提升了2.2%，成功率增加了3.0%。这表明，对潜在目标进行筛选以提高提议的质量，能够显著地提高时敏单目标跟踪的精确度

3.2.3 对不同提议数量的鲁棒性

本文测试提出的算法和基于形状补全的三维孪生跟踪算法（SC3D）[12]在不同数量的提议下的成功率和精准率如图3所示。可以看出，即使在只生成10个提议的情况下，本文提出的算法也获得了令人满意的表现，但是SC3D[12]的性能随着提议数量的减少急剧下降。这说明本文提出的算法可以高效地生成高质量的提议，使得在提议数量减少时仍然可以保持稳定。

3.3 定量分析

SC3D[12]是当前唯一一个基于点云的三维目标跟踪算法，将本文提出的算法与SC3D[12]在跟踪汽车、行人、货车和自行车上的表现进行对比，实验结果如表3所示。

基于深度霍夫优化投票的三维时敏单目标跟踪

经典小说推荐

杂志订阅