基于时空相关性的交通物联网缺失数据填补算法
作者: 梁庆 付青坤 田海安 彭志浩
摘要:针对交通物联网中传感数据存在缺失问题,根据交通领域传感器空间布局具有线性分布的特征,以及感知数据在时间上的广义随机平稳特性,提出基于时空相关性的LIN_BP数据填补算法。当缺失数据个数为1时,利用空间相关性创建BP神经网络模型进行数据估计。当缺失数据为多个时,首先,基于时域平稳性建立线性插值 (Linear Interpolation,LIN) 模型;随后将LIN模型的估计值与已知数据输入到BP神经网络模型,得到基于时空相关性的LIN_BP模型的估计数据。为了验证模型的有效性,对高速公路多个检测点的交通流量真实数据进行实验分析。实验结果表明,相比只使用单一属性的模型本算法的估计误差小、准确度更高、填补效果更好。
关键词:交通物联网;缺失数据填补;时空相关性;线性插值;BP神经网络
中图分类号:TP274 文献标识码:A文章编号:1009-3044(2023)18-0004-06
0 引言
随着以交通物联网为基础的智慧高速的发展,通过全面感知道路基础设施、行驶车辆等交通参与方的数据,可有效开展面向安全和效率的主动智慧管控,为基于车路协同的无人驾驶提供技术支撑,提升交通运输的安全性、高效性和舒适性。
然而在智能感知的过程中,一方面,由于智能网联汽车的数量快速增长,带来的海量数据传输和计算问题更加突出;另一方面,移动边缘计算的介入,车载移动端和路侧设备之间数据的无线传输占比增加,而由于车辆的移动性和传输环境的时变性,导致多径传输和多普勒效应也愈加突出。上述问题会使数据采集时存在缺失和误码的概率提高,然而由于部分业务具有严苛的实时性要求,不能采用出错重传机制,因此,在接收端对关键数据进行自主的前向纠错,重建缺失数据将是必然选择。
数据缺失主要来自两方面:一方面,传感器的故障会导致不定期的数据空白,这种缺失往往持续时间较长,很难用算法进行填补重建,不属于本文研究的范畴。另一方面,由于数据传输过程中的信道噪声,而导致的零星误码或缺失,可通过本文的方法进行数据填补重建,这是本文的研究内容。
当前,数据重建技术分为时域、频域和空域三大类。对于时域重建技术,主要依据同一传感数据在时间序列上的相关性进行数据填补,文献[1]从已有数据中提取不同类型的数据基信号,并利用基于时间序列的线性关联映射重建缺失数据。文献[2]基于传感数据在一个嵌套滑动窗口内的相关性,提出一种数据流缺失恢复方法。文献[3]提出一种针对缺失数据的谱分析方法,通过更新估算因子来修正时域重建算法,提高数据重建精度。
文献[1-3]均利用了时域数据的随机平稳特性,适合数据变化不大的静态物联网领域。例如河道水位检测、交通基础设施的状态检测等。但对于车速、断面流量等和交通流密切相关的实时交通元素,数据虽然具有广义随机平稳特性,但时域变化剧烈,时域相干窗口较小,在此窗口内采集到的原始有效数据较少,提取的特征值往往离散度大,若加大插值窗口又会导致缓存数据过多,处理时延长,且数据的时域关联性呈时间选择性衰落,适用性难以保障。
关于数据重建在空域中的研究,主要通过分析多个传感器在空间部署位置的相关性来提取传感数据的属性特征,进而估计缺失数据。文献[4]提出一种KNN算法,通过在特征空间中寻找与缺失数据属于同一类的相邻K 个样本,对其加权平均后估计并重建缺失数据。文献[5]将逻辑回归模型与多重插补算法相结合,但该方法仅适用于缺失率较低的情况。文献[6]则提出一种基于压缩感知的低秩数据重建算法,利用传感设备存在的空间相关性和数据的低秩特征,重建缺失数据,然而其低秩特征并不适合多类型混合接入的交通物联网采集系统。
随着以机器学习为代表的人工智能算法的兴起,通过强大的计算机算力,在交通大数据中提取非线性的时空属性特征,搭建多粒度的数据格式以及数学描述方法,重建缺失数据,已成为研究热点。文献[7]利用相邻传感节点的小波系数相关性,通过逆小波变换和时频回归模型来重建缺失数据,该方法精度高,但实现复杂度偏高。文献[8]利用逆向传播(Back Propa⁃gation,BP) 神经网络对单一的交通流量进行预测,但并不适用于具有非结构化特征的交通物联网数据。
在公路交通领域,机电设备的类型适中,空间部署呈线性分布,具有明显的空间相关特性,且感知对象聚焦于交通流、交通事件、气象等固定类型,但数据具有一定“定时漂移”特征,即“此时此处”的数据和“彼时彼处”的数据更具相关性。因此,本文通过分析高速公路交通感知数据的特性,提出一种基于时空相关性的线性插值神经网络(LIN_BP) 数据恢复算法,将时域和空域特征相结合来恢复缺失数据。
1 基于时域平稳性的线性插值预处理
目前,在公路交通领域中,在靠近传感器的感知接入层,仍然有较多非智能感知设备,例如输出电流信号的液位计,电压信号的压力传感器,这些设备有些部署无法进行有线传输的移动终端,有些是后装的感知设备,不具备有线传输条件,无奈采用无线传输方式。一旦数据接入路侧设备后,就会采用更加可靠的光纤有线传输。因此,本文重点针对因无线传输导致的数据缺失。
由于无线传输环境的开放性和时变性,数据传输过程中经常会受到各种干扰和噪声的影响,例如车辆马达产生的宽频干扰脉冲和毛刺噪声,这些干扰会导致信号传输出现连续的误码,而常用的卷积码加交织的信道编码技术,仅对零星的非连续误码有效,因此,有必要对数据进行预处理,将连续的缺失数据或异常数据位变为零星的单个孤立缺失数据位。
对于多数输出模拟信号的传感器,在连续时间内采集到的非电量数值非常相近甚至相同。因此,可利用感知数据的时间相关性,构建线性函数来粗略估算缺失数据。该方法优势在于复杂度低,适合对时延敏感的实时性业务。
线性插值的基本原理是:假设ti 时刻的数据xi 缺失,在其附近的tp 和tq 时刻的传感器数值为xp 和xq,经过线性插值后的估计值为
插值窗口尺寸M 的选择至关重要,若取值太小,缺失数据点占比过高,容易受到周围噪声和毛刺的影响,影响插值的精度。若取值太大,计算复杂度升高,导致产生较大的处理时延。一般的经验原则是,在插值窗口内,缺失数据点占比不超10%,且与待重建信号的中心频率成反比,频率越高,说明数据变化越快,时域相干窗口应越小。通过选择合适的窗口大小,对多个缺失数据进行预处理后,得到初步数据重建结果。
在上述方法中,只是针对一个传感器在时域的时间相关性,同时由于选择窗口尺寸K 时的两难顾虑,实际效果并不理想。因此,还应兼顾传感器在空间位置的相关性,进行时空二维联合处理。
2 基于时空相关性的交通感知数据分析
在交通物联网中,对同一物理量的检测通常采用多点布设传感器的方式,例如在一段公路上多个门架设备对车速,车流量的连续检测。这些传感器在同一时刻对各自负责的区域进行信号采集,由于部署在公路沿线的传感器位置存在空间相关性,数据也会呈现一定的相关性。若某个传感器出现故障或受到强干扰,导致采集数据缺失,可通过相同时间不同点位的其他传感数据来估计缺失值。
但这种相关性由于受到路面质量、交通流、交通信号控制等多方面的影响,交通流特征和环境参数并不是线性变化,很难用简单的线性解析数学模型来刻画,因此,需引入非线性的预测和分析手段。BP神经网络是一种智能算法,通过相当数量的训练找出模式与类别之间的内在联系,以隐性方式学习和存储输入-输出模式之间的非线性映射关系,因此,本文综合利用感知数据在时间和空间的相关性,建立基于BP神经网络的数据重建模型,最后得到缺失数据的估计值。
这里的时空相关性表现为两个方面:
1) 时域相关性。同一传感器在相邻时刻(相干时间内)采集到的数据之间存在的时间相关性,超出相干时间,数据之间的关联性明显下降。
2) 空域相关性。相邻传感器(相干距离内)在同一时刻采集到的数据之间存在的空间相关性,超出相干距离规定的空间范围,数据之间的关联性明显下降。
图1为高速公路微波检测器的区间车流量的时空检测数据。横坐标表示采样时刻,也就是以该时刻为终点,过去一段时间内统计得到的车流量。纵坐标是检测点位,对应不同的空间位置,不同的几何外形表示不同的ABCDE传感器。观察矩阵图中数据发现,A检测点在时刻1的数据(93) ,与B点在时刻2的数据(94) 相关度更高。也就是说,沿对角线上的数据关联程度明显高于水平线和垂直线上的关联度。原因在于,不同传感器的部署位置不同,检测数据具有一定“定时漂移”特征,即“此时此处”的数据和“彼时彼处”的数据更相关,类似“绿波带”的交通流“流动”特性。
图2是同一路段内相邻5个检测点的车流量变化曲线,图中每一条折线对应一个检测点。这也是从另一个角度描述数据的时空关联性。对比图1和图2,图1中对角线的斜率,图2中两条折线的平移间隔,都反映了该路段的平均车速。
图3是检测点车流量随时域统计窗口变化的曲线。可以看出,若统计窗口较小,此时段内通过的车流量不稳定,随机性更强,两个检测点检测到的车流量数据相差较大,但随着窗口的增大,数据趋于稳定,两个检测点的车流量数据差距越来越小,逐渐趋于相等。例如,在一天的统计窗口内,若两个检测点之间没有进出闸道,那么观察到的车流量几乎相同,此时的时域关联性对填补数据没有帮助。
需要注意的是,数据的相关性不仅与车流量统计窗口大小有关,还与传感器的布设间隔有关。图4是在采样时间间隔固定的条件下,不同的检测点采集的车流量随采样距离变化的曲线。
从图4可以看出,传感器布设间隔越大,车流量的相关性越小,当两个传感器的距离在2km以上时,A点和B点的车流量并没有明显的正相关。这是因为交通流量自身的弥散效应,随着检测点距离的增加,两处检测数据的关联程度会更低。
3 基于时空相关性的数据填补算法
由于数据之间不仅存在时间上的相关性,在空间上也存在一定的相关性,若使用单一的时域线性插值,对缺失多个数据或缺失较长时间的情况下填充效果不理想,且影响时空关联的因素涵盖传感器间隔、车辆速度、采样频率等,很难用线性模型表示,为此,本文引入非线性的BP神经网络,其网络结构如图5所示。BP神经网络包括输入层、隐含层和输出层[9]。同一层各个神经元无连接,层与层之间神经元全连接,右下角特写部分是单一神经元内部的计算操作。正向传播是从输入层神经元到隐含层再到输出层逐层计算[10],若输出层未得到期望的输出,则使用梯度下降法沿连接线反向传播误差,逐层更新权重ω 和偏差b,直至目标函数的误差满足要求,训练完成。神经网络的传播都是线性矩阵运 算,为了解决线性模型所不能解决的问题,需要在隐藏层中加入非线性的激活函数f。
BP网络的核心是以相邻若干节点(空域)和相邻时刻(时域)的已知数据作为网络输入,以缺失数据的预估结果作为输出,通过一定量的样本学习训练,将诊断知识隐性存储于网络的拓扑结构和连接权值ω和 b 中,形成从已知数据值到缺失数据预估值之间的非线性映射关系。
在此映射过程中,输入层神经元个数取决于输入数据的时空选择区域,其中,空域对应相邻感知节点的数量,时域对应第2节提到的插值窗口。时空选择区域对算法的性能影响重大,选择区域太小,时空关联窗口小,恢复的数据准确性较低;而选择的区域太大,输入的神经元节点过多,训练时间长,影响数据填补的实时性。
因此本文选取3~8 个。采用计算速度更快的ReLU激活函数,用Adam算法优化模型,减小损失函数,当训练选取的样本数batch_size选择32且学习率设定为0.001时模型的误差最小。本场景中,输出层输出是一个估计值,故神经元个数为1。由于传感器沿公路线型布局,结构简单,为了提高算法的收敛速度,本文选取一层隐含层,隐含层神经元个数为输出层的两倍。