贝叶斯优化与集成学习在弹载雷达目标识别中的应用
作者: 张攀博 高静 吴元伟
摘 要: 空空导弹在打击低空、 超低空目标时, 弹载雷达区分目标和杂波的性能下降。 本文针对弹载雷达目标识别问题, 应用多种集成学习算法和贝叶斯优化算法, 建立了多个目标识别模型, 测试并对比了模型性能。 通过特征提取、 数据标准化和特征选择, 构建了优选特征的目标杂波数据集。 使用贝叶斯优化算法进行调参, 构建了XGBoost、 LightGBM和CatBoost目标识别模型并测试。 测试结果表明, XGBoost、 LightGBM、 CatBoost的目标识别效果优于随机森林、 支持向量机和AdaBoost。 选择XGBoost、 LightGBM和CatBoost和随机森林为基分类器, 构建了Stacking目标识别模型并测试。 测试结果表明, Stacking的目标识别准确率达到98.88%, 优于组成它的四个单一模型, 但运行效率大幅降低。 综合来看, CatBoost的目标识别准确率达到98.03%, 虽不是最优, 但其测试时间为0.011 s, 运行效率的优势更明显。
关键词: 弹载雷达; 目标识别; 贝叶斯优化; 集成学习; XGBoost; LightGBM; CatBoost; Stacking
中图分类号: TJ760
文献标识码: A
文章编号: 1673-5048(2024)01-0058-08
DOI: 10.12132/ISSN.1673-5048.2023.0049
0 引 言
空空导弹作为实现对敌压制对己支援的夺取制空权的关键武器装备, 对战争的胜负有着极大的影响[1]。 未来空战的作战环境愈发恶劣, 雷达型空空导弹在打击低空、 超低空突防的隐身战机、 无人机时, 弹载雷达的目标识别性能在一定程度上会被强地海杂波影响[2]。 弹载雷达下视工作时所面临的杂波通常都不是广义平稳的, 弹体飞行姿态、 擦地角、 地貌、 海情等因素都会影响杂波的分布特性, 使得自适应杂波抑制方法性能迅速下降[3]。 强烈的杂波会造成严重虚警, 抬高目标检测门限, 缩短弹载雷达的作用距离, 导致空空导弹命中率降低[4]。 因此, 进一步加强弹载雷达区分目标与杂波的能力, 对于提升空空导弹作战效能具有重要意义。
近年来, 以机器学习为代表的人工智能技术发展迅速, 彰显了其在军事领域的应用前景[5]。 针对空中威胁的智能目标识别技术, 通过仿真分析真实采集数据和专家知识构造具备多维特征的样本数据集, 实现对目标和杂波的特征学习与精准快速的区分, 为进一步提高空空导弹检测、 跟踪并毁伤目标的成功率提供新的技术方案与信息保障[6]。 因此, 使用机器学习的方法提升弹载雷达目标识别的能力, 是实现空空导弹智能化、 自主化的重要组成部分。
机器学习算法种类众多, 图1为各机器学习算法种类关系图。 目前, 针对舰载、 岸基等其他类型的雷达, 已经有机器学习方法应用于目标与杂波的区分问题, 但大多使用传统的支持向量机(Support Vector Machine, SVM)方法。 2007年, 文献[7]提出了一种基于改进支持向量机的海面目标检测方法, 在实测海杂波数据上进行了仿真实验, 验证了该方法较强的
目标检测能力和抗杂波性能。 2013年, 文献[8]提出了基于支持向量机的海面弱目标检测方法, 在低信杂比条件下仍能取得良好的检测性能。 2020年, 文献[9]构建支持向量机分类器, 在候选航迹层面区分真假目标, 取得了显著的虚警抑制效果。 但支持向量机方法在训练时需要在特征空间中计算样本点到分割超平面的距离, 计算量较大, 导致模型的训练时间和测试时间都较长, 且其在面对复杂的非线性问题时, 取得的识别精度不够高。
近几年, 开始有集成学习方法应用于雷达目标识别问题, 取得了优于支持向量机的识别精度, 证明了集成学习方法的优越性。 2020年, 文献[10]利用AdaBoost构建了杂波抑制模型, 较之于传统的支持向量机和K近邻分类器, 取得了更好的剩余杂波抑制效果。 2022年, 文献[11]引入随机森林构建海面小目标检测模型, 提升了雷达的检测性能。 2022年, 文献[12]提出了一种基于随机森林的雷达目标多维特征检测方法, 实现了精准鲁棒的雷达目标检测能力。 可以看出, 已有的基于集成学习的雷达目标识别方法, 多使用属于Bagging算法的随机森林和属于基础的Boosting算法的AdaBoost, 而仍属于集成学习范畴的Boosting算法XGBoost、 LightGBM和CatBoost, 以及Stacking模型融合方法, 应用研究较少。
综上, 本文将集成学习中Boosting算法XGBoost、 LightGBM和CatBoost, 以及Stacking模型融合方法应用于弹载雷达目标识别问题, 在算法训练时使用贝叶斯优化算法进行调参, 最终实现优于文献中的随机森林、 支持向量机和AdaBoost的目标识别性能。
1 研究方法
1.1 目标杂波数据集的建立
1.1.1 数据来源
为了尽可能得到满足真实对抗环境下弹载雷达目标识别需求的机器学习算法, 本文采用真实采集的飞机类目标回波数据和地杂波数据, 构建了弹载雷达目标杂波训练集、 验证集和测试集。 其中, 训练集用来训练机器学习目标识别模型, 需要的数据量相对较多, 验证集用来在使用贝叶斯优化对模型进行调参时验证模型性能并调整模型参数, 测试集全程不参与目标识别模型的训练与调整, 保证模型从未使用过测试集中的数据, 用来评价模型的目标识别性能, 验证模型的泛化性。
1.1.2 特征提取
特征空间决定了机器学习的上界, 是影响目标识别性能最关键的因素, 良好的机器学习分类器只是能够更加逼近这个上界[13], 因此选择目标与杂波差异性较大的特征作为候选特征非常重要。
单脉冲弹载雷达通过两个天线阵列的和差波束的比值来获得目标的角度信息。 设子天线阵1的输出为E1, 子天线阵2的输出为E2=E1ejΔφ, Δφ为两个通道的相位差。 由两个子天线阵的输出, 可以求得和通道与差通道的输出, 即
EΣ=E1+E1ejΔφ=2E1cos(Δφ/2)·ejΔφ/2(1)
EΔ=E1-E1ejΔφ=-2jE1sin(Δφ/2)·ejΔφ/2(2)
求差通道与和通道的输出之比:
因此, 在限定范围内, K(θ)会随着θ单调变化, 那么, 确定了K(θ)值, 就可以估算出目标偏离的角度值。
考虑到Δφ=LsinΔθ/λ为目标到天线的距离差带来的待测相位差, 可以得到待测相位差Δφ为
根据相位测角原理, 待测角度Δθ为
得到待测角度θ为
弹载雷达在自检时完成各通道的幅相补偿, 对目标检测时测量失调角的实部理论上为零; 而在杂波背景下, 地海面背景回波的离散叠加导致和差幅度相位的不一致, 分析其与目标测角特征的差异可以用于目标的识别。
另一方面, 弹载雷达的测角误差与信号强度满足以下公式:
式中: km为天线差波束归一化斜率; θ3dB为弹载雷达的3 dB波束宽度; S/N为积累后测角通道的信噪比。 由此可知, 弹载雷达测角的误差是与信号幅度强耦合的物理特征, 则信号幅度信息可以作为区分目标和杂波的依据。
综上, 可以根据单脉冲弹载雷达测量输出的失调角与幅度信息, 构建目标和杂波的特征空间。 具体地, 本文提取归一化幅度实部AR、 归一化幅度虚部AI、 Y路失调角实部YR、 Y路失调角虚部YI、 Z路失调角实部ZR、 Z路失调角虚部ZI共6类特征。 同时, 在雷达信号处理过程中, 会进行非相参积累, 对回波重复测量多次。 本文重复测量6次, 则每类特征得到6个测量值, 最终构成36个维度的特征向量: AR1-6、 AI1-6、 YR1-6、 YI1-6、 ZR1-6和ZI1-6, 作为候选特征数据集。
1.1.3 数据标准化
由于特征提取后得到的归一化幅度和失调角不在同一数量级, 直接组成训练特征集在后续机器学习模型中训练, 可能导致模型收敛速度慢, 准确率降低, 因此, 需要进行数据标准化。
常见的标准化方式有两种: 离差标准化和标准差标准化, 对序列x1, x2, …, xn标准化的转换公式如下:
考虑到离差标准化极易受个别异常值的影响, 本文采用标准差标准化。
1.1.4 特征选择
特征提取和数据标准化后得到的候选特征数据集, 如果直接输入模型进行训练, 可能会导致模型复杂度高, 训练时间长等问题, 甚至会降低模型准确率。 特征选择方法通过评估特征与类别标签之间的相关性, 对特征重要性进行定量分析, 删除低于设定阈值的无关特征, 降低机器学习算法训练时的计算复杂度, 减少模型运行时间, 提高算法准确性, 且有防止过拟合的作用。 本文使用基于随机森林基尼指数的特征选择方法。
随机森林在训练时, 使用CART节点分裂算法, 将根节点分裂为子树, 它在分裂时尽可能使基尼指数最小, 基尼指数越小, 代表该特征属性的分类能力越强。 因此, 基尼指数可以作为衡量特征重要性的一个指标[14]。 计算各候选特征的基尼指数, 设定某一阈值, 删去低于该阈值的特征, 得到特征重要性较高的优选特征, 实现特征选择的目的。
基尼指数计算公式如下:
式中: T为数据集; N为数据集中的类别个数; pn为样本点属于第n类的概率。
对目标杂波的候选特征数据集中的36个特征的重要性进行排序, 结果如图2所示。 由图可知, Z路失调角实部、 归一化幅度实部和归一化幅度虚部三类特征更有效。 因此选取ZR1-6、 AR1-6和AI1-6共三类18个特征作为目标杂波的优选特征数据集, 输入机器学习模型进行训练和测试。
1.2 贝叶斯优化算法
机器学习算法的超参数数量大都较多, 不同的超参数组合, 也会导致模型的准确性存在差异。 贝叶斯优化[15]基于变量的先验知识, 使用代理模型的后验概率分布构造用于平衡探索和开发过程的采集函数, 尽可能不漏掉未尝试区域中更好的超参数组合, 同时也能回避不必要的目标函数评估, 快速找到全局最优值, 是机器学习模型调参问题中较优秀的优化算法。
贝叶斯优化算法的关键是TPE代理模型和EI采集函数。 将TPE代理模型的后验分布作为搜索最优值的依据, p(y)表示其目标函数的风险分布, 其中, y的意义是风险值, p(xy)表示待优化参数的先验分布, 其中, {x1, x2, …, xk}表示超参数组合。 EI采集函数指出下一组试验的超参数组合, 最终找到最优超参数。 TPE代理模型建模时使用非参数密度模型, 可用式(11)描述:
式中: e(x)和g(x)分别是风险损失y=f(xi)小于y和大于y对应的观测值产生的密度。
TPE代理模型使用e(x)和g(x), 区分风险较小和风险较大的超参数集合, y的意义是当前观测风险值y的γ分位数, 即p(y<y)=γ。
最大期望提升EI表示为
结合贝叶斯公式, 变形得到:
为了降低计算量, 上式进一步简化为
由式(15)可知, EI值反比于g(x)/e(x), 尽可能使e(x)的概率大, g(x)的概率小, 就能得到最大的EI值, 同时得到对应的最优超参数。