基于图卷积网络的偏振图像伪装人员检测方法研究
作者: 黄启恒 王勇
摘要:针对伪装人员检测中颜色纹理相似、姿态复杂、局部遮挡严重和传统偏振特征参量存在干扰等问题,提出一种基于图卷积网络的偏振图像伪装人员检测算法。首先,将图映射模块、图卷积模块和图逆映射模块等构建图卷积偏振信息提取网络,提取四方向偏振图像的伪装人员全局偏振特征表示;然后,设计金字塔池化网络融合多尺度偏振特征,并采用分类检测网络对伪装人员识别检测;最后,自建三类伪装模式人员数据集进行检测研究。实验结果表明,所提算法的检测精度相比于经典检测算法都取得明显的提升,有效改善伪装人员检测效果。
关键词:目标检测;偏振成像;深度学习;偏振特征;图卷积网络
中图分类号:TP391.41 文献标识码:A
文章编号:1009-3044(2023)36-0004-05
开放科学(资源服务)标识码(OSID)
0 引言
伪装人员检测是一项新兴的计算机视觉任务,其目的是识别通过伪装技术隐藏于背景环境中的人员,并定位其在图像中的位置。随着多种多样的伪装方式应用于军事领域,具有伪装模式的目标检测难度逐步增加,近年来,虽然通用目标检测算法[1]取得了优异的检测效果,但是在伪装目标检测研究中仍然存在许多挑战,主要包括伪装目标与周围环境之间的边缘相融和颜色高度相似等困难。针对此类困难,本文将主要研究基于军事伪装模式的人员检测算法。
当前的伪装目标检测算法[2-6]主要基于可见光RGB图像提出的,这些检测算法可大致分为两类:基于手工设计特征的伪装目标检测算法[2-4]和基于深度学习特征的伪装目标检测算法[5-6]。其中,由于受到伪装目标固有的纹理特征与环境背景存在巨大差异的启发,一部分基于手工设计特征的检测算法主要集中于提取纹理特征表示伪装目标。例如,SONG等人[2]提出一种包括亮度、纹理方向和熵组成的伪装纹理描述子,再通过特征的权值结构相似度来衡量伪装纹理的性能。文献[3]提取局部的灰度共生矩阵表示纹理特征,然后采用分水岭分割算法检测伪装目标。另一部分基于手工设计特征的检测算法[4]则是提取多尺度的颜色、强度和LBP算子特征表示伪装目标与背景,再计算并融合局部与全局的显著性图来评估伪装目标检测的性能。随着深度学习网络展现出优异的性能,已有部分伪装目标检测算法采用卷积神经网络[5-6]等实现伪装目标的特征表示。
由于可见光RGB图像中伪装目标与背景的颜色、纹理信息差异度甚小的局限性,并且伪装人员相比静态伪装目标存在姿态复杂、局部遮挡严重等问题,使得现有的伪装目标检测器难以获取伪装目标区分性的特征表示。为了准确地检测伪装人员,受偏振光能反映物体固有属性的启发,本文利用偏振图像中伪装人员与背景的差异性,提取偏振特征信息来增强伪装人员与背景的可具区分性表示。虽然现有的偏振特征信息提取方法能利用斯托克斯(stokes)参量有效提取偏振度参量、偏振角参量表示目标,但是由于伪装人员在复杂的背景环境中的偏振度与偏振角信息较弱,如图1所示,采用偏振度与偏振角特征信息表示伪装人员不能有效提升伪装人员检测正确率。因此,受图卷积神经网络具有处理图结构数据优势的启发,本文提出一种基于图卷积网络的偏振图像伪装人员检测算法,获取四个方向(0°,45°,90°和135°)原始偏振图像之间的弱耦合关系,弥补偏振度与偏振角特征信息在非正交方向信息的丢失,提取伪装人员丰富的全局偏振特征信息表示,从而提高伪装人员检测正确率。
综上所述,本文研究工作的主要贡献有:1)针对伪装人员与背景环境的颜色纹理相似、姿态复杂、局部遮挡等问题,本文提出了一种基于图卷积偏振特征提取网络的伪装人员检测算法,学习伪装人员的全局偏振特征信息,增强伪装人员与背景的特征差异,提高伪装人员检测精度。2)针对伪装目标数据集当前只集中于基于可见光RGB图像,本文构建了基于偏振图像的三类伪装模式人员数据集(Multicam数据集、Woodland数据集和ACU数据集)用于偏振信息提取与伪装人员检测的研究。3)本文算法在三个伪装人员数据集上进行大量的验证对比实验,实验结果表明,本文算法的检测精度AP50(%)在Multicam数据集、Woodland数据集和ACU数据集上分别达到90.6%、93.7%、94.5%,均优于大部分经典的检测算法。
1 相关工作
1.1 偏振成像传感器
随着纳米制造技术的发展,分焦平面偏振成像技术近年来取得了进步。图2展示本文所用彩色偏振成像传感器的像素排布。与传统的彩色成像传感器相比,这类偏振传感器具有四个不同方向(0°,45°,90°和135°)的微偏振片均匀排列在表面,允许不同像素同时接收各种调制的光强度。在同一滤光片下由四个偏振片组成的像素为超级像素。通过选择超级像素中接收具有相同方向的偏振光的像素值,可以获取不同方向偏振光的四个原始偏振光强度图。超级像素以拜尔模式排列,因此可以通过传统的RGGB插值算法对这四个原始图像进行去马赛克,以获得0°,45°,90°和135°偏振方向的RGB强度图,图像大小为1024×1024。
1.2 线偏振光计算
使用偏振成像相机可以获得四个方向(0°,45°,90°和135°)偏振光强度分量:[I0]、[I45]、[I90]、[I135],从而能计算斯托克斯参量为:
[S0=12(I0+I45+I90+I135)S1=I0-I90S2=I45-I135S3=Ilh-Irh] (1)
其中,[S0]表示总光强度,[S1]表示0°和90°相互正交的线偏振光强度分量,[S2]表示45°和135°相互正交的线偏振光强度分量,[S3]表示圆偏振光,[Ilh]是左旋偏振光,[Irh]是右旋偏振光,由于人造目标的圆偏振特性并不明显,可忽略[7]。
利用[S0]、[S1]、[S2]三个参量可以计算提取偏振信息的两个常用参考度量,分别是偏振度(DoLP)和偏振角(AoP):
[DoLP=S21+S22S0AoP=12tan-1(S2S1)] (2)
其中,偏振度(DoLP)用于表示线偏振光强度在总光强中的比例,而偏振角(AoP)描述的是最强光矢量振动的方向。偏振度图像和偏振角图像可以通过对四个不同偏振方向的光强图像进行像素运算来获得。
1.3 伪装目标检测
早期的伪装目标检测集中于检测具有纹理、颜色、梯度和运动[8]视觉特征的伪装目标。在实际应用中,单一的视觉特征不能完全准确地表示伪装目标。因此,集成多种特征以提高检测性能[9]。此外,贝叶斯框架已被用于视频中的运动伪装目标检测[10]。尽管这些算法展现出一定的优势,但依靠现有的手工设计的特征表示检测方法在现实应用中往往会检测失败,因为它们只能在相对简单环境背景中实现检测。为此,采用了深度学习特征,并以端到端方式进行训练的模型来实现准确的伪装目标检测。例如,YAN等人[11]提出了一种称为MirrorNet的双流网络,用于具有原始图像和翻转图像的伪装目标检测,其潜在的动机在于翻转的图像可以为伪装目标检测提供有价值的信息。LAMDOUAR等人[12]通过深度学习框架利用运动信息从视频中识别伪装目标,该框架由两个模块组成,即可微分配准模块和运动分割模块。LI等人[13]提出了一种具有相似性测量模块的对抗性学习网络,用于对矛盾信息进行建模,增强了检测显著目标和伪装目标的能力。不同于现有的方法,本文算法将提出一种基于图卷积网络的偏振图像伪装人员检测方法,提取伪装人员全局偏振特征信息表示。
2 基于图卷积网络的偏振图像伪装人员检测方法
2.1 方法总述
本文检测算法基于Faster-RCNN检测算法[14]提出的,如图3所示。其中,有效提取偏振图像中的偏振信息是提升伪装人员检测正确率的关键。受偏振信息能反映物体材质固有属性的启发,结合伪装人员与背景环境偏振信息存在巨大差异,本文提出一种基于图卷积网络的偏振信息提取与检测算法,利用图卷积网络学习全局偏振特征信息,提高伪装人员检测正确率。本文检测框架主要包括图卷积偏振信息提取网络、金字塔池化模块与检测器。四方向的偏振图像作为输入,经过图卷积偏振信息提取网络提取增强的全局偏振特征,然后输入金字塔池化模块进行多尺度融合得到特征图,最后将融合的特征图输入由候选预测边框子网络(RPN)和分类检测子网络(ROI)组成的检测器中进行伪装人员的分类与检测。
2.2 图卷积偏振信息提取网络
如图4所示,图卷积偏振信息提取网络主要由特征提取网络、图映射模块、图卷积网络模块、图逆映射模块和残差网络(ResNet50)[15]组成。
1)特征提取网络
特征提取网络由四层1×1的卷积块组成,卷积块由卷积层,批归一化层(BN层)和非线性激活函数ReLU函数组成。卷积块操作如式(3)所示:
[Fi=fconv(ReLU(BN(conv1×1(xi))))] (3)
式中[fconv(⋅)]表示卷积块完整运算,[xi]表示输入图像,[conv1×1(⋅)]是1×1卷积运算,[BN(⋅)]表示批归一化运算,[ReLU(⋅)]是非线性函数,[Fi]表示经过卷积块运算后的输出特征向量。本文的特征提取网络的输出特征向量是第四层卷积块的输出特征向量与第一层、第二层、第三层卷积块的输出特征向量进行像素相加操作而得到的。给定输入的四个方向的偏振图像表示为[x0,45,90,135],经过特征提取网络后得到输出向量[Fc],其运算过程如式(4)所示:
[F1=fconv(ReLU(BN(conv1×1(x0,45,90,135))))F2=fconv(ReLU(BN(conv1×1(F1))))F3=fconv(ReLU(BN(conv1×1(F2))))F4=fconv(ReLU(BN(conv1×1(F3))))Fc=F1⊕F2⊕F3⊕F4] (4)
式中[F1,F2,F3]分别表示第一层、第二层、第三层卷积块的输出特征向量。
2)图映射模块
图映射模块由一层1×1的卷积层和图映射表示操作组成。给定输入特征向量为[Fc∈Rh×w×c];首先,采用1×1的卷积层将特征向量转换成低维特征,表示为[Flc∈Rh×w×c];然后,利用图映射表示操作将特征向量转换为图节点嵌入表示[Vc∈Rc×k]。采用文献[16]的策略,将图映射表示操作参数化为[W∈Rk×c]和[Σ∈Rk×c]。其中参数[W]中的每一列[wk]表示第[k]个节点的可学习中心参数,具体来看,每个节点表示可通过式(5)计算:
[vk=v′kv′k2,v′k=1iqikiqik(fi-wk)/σk] (5)
其中[σk]是参数[Σ]的列向量,[v′k]是特征向量[fi]与[wk]残差值的加权平均。[vk]是第[k]个节点的表示,并且构成节点特征矩阵[V]的第[k]列。[qik]是特征向量[fi]到[wk]的软分配,可以用下式计算:
[qik=exp(-(fi-wk)/σk22/2)jexp(-(fi-wk)/σk22/2)] (6)