基于深度强化学习的来袭导弹智能拦截与平台机动策略优化技术

作者: 吕振瑞 沈欣 李少博 田鹏 司迎利

基于深度强化学习的来袭导弹智能拦截与平台机动策略优化技术0

摘  要:      目前空中作战环境日益复杂, 新作战方式对空中平台生存能力提出了巨大挑战, 需要采用新型硬杀伤手段来防御先进的空空导弹。 为了提升发射空空导弹拦截来袭导弹这一硬杀伤手段的胜率和效率, 提出了一种基于强化学习的载机平台智能机动策略和拦截弹发射策略。 首先, 设计了导弹威胁评估技术, 构建了仿真环境, 并确定了策略模型的状态和奖励函数; 其次, 通过设定不同的来袭空空导弹攻击角度和位置, 在不同载机平台姿态下, 训练了机动与拦截策略, 实现了对来袭目标的主动拦截和载机平台的有效机动。 实验表明, 相较于运筹学博弈策略5.8%的平均逃离概率, 使用基于强化学习的机动、 拦截策略后, 逃离概率可提升至56.8%; 同时, 拦截弹利用率提高了约13.3%, 且响应时间始终保持在24 ms以内。 设计的策略能够自适应不同数量的来袭导弹, 显著提高了载机平台的生存能力和对来袭导弹的拦截成功率, 并支持在空战多维状态空间中的持续优化。

关键词:     拦截弹; 机动策略; 强化学习; 拦截策略; 逃离概率; 响应时间; 空空导弹

中图分类号:      TJ760

文献标识码:    A

文章编号:     1673-5048(2024)05-0056-11

DOI: 10.12132/ISSN.1673-5048.2024.0045

0  引  言

随着新型战斗机、 新型空空导弹等空战武器装备技术的迅速发展, 以及远中近距等作战模式的不断涌现, 空中平台的防御难度大幅增加, 生存能力遭到了严峻的考验。 伴随空空导弹的机动能力和抗干扰能力的不断提升, 以干扰、 机动逃逸等为主要自卫手段的战斗机传统软防御手段的有效性大打折扣, 甚至面临失效风险, 故需要通过直接拦截来袭导弹等硬杀伤式防御来提升载机的生存能力。 在防御过程中, 来袭导弹的攻击空间运动受我方载机平台运动方式的制约, 载机平台、 来袭导弹、 拦截弹三分空间运动相互强耦合, 载机平台的机动策略将对主动拦截效果产生直接的影响。 因此, 载机平台需要采取智能博弈机动策略, 产生及时且高效的机动, 可以有效改变来袭导弹攻击弹道, 同时在博弈过程中, 载机平台采取智能化拦截弹发射策略, 适时发射一枚或多枚拦截弹进行硬式杀伤防御, 能够大幅提升载机平台的生存能力。

为持续优化机动与发射策略, 相关研究建模策略的优化模型, 采用动态规划与强化学习相结合的方式运行得到优化求解结果, 具体包括以下2个方面:

动态规划算法。 通过自适应动态规划(Adaptive Dynamic Programming,  ADP)[1]、 神经动态规划(Neural Dynamic Programming,  NDP)[2]等算法, 可用于贝尔曼方程求解[3]、 序贯决策[4]、 连续时间线性系统决策[5]、 未知非线性系统稳定决策[6]、 导弹制导决策[7]等。

强化学习算法。 通过基于模型的强化学习[8]、 基于高效扩散策略的离线强化学习[9]、 密集型强化学习[10]等算法, 可用于机器人连续高效控制[11-12]、 优化导弹的末端制导策略[13]、 整合和适应性制导及控制[14-15]、 空战目标分配决策[16-17]、 飞机路径规划[18]等。

虽然上述优化算法能在一定程度上解决特定场景的

收稿日期: 2024-03-12

作者简介: 吕振瑞(1987-), 男, 宁夏吴忠人, 硕士, 高级工程师。

*通信作者: 司迎利(1985-), 男, 甘肃静宁人, 硕士, 高级工程师。

优化问题, 但在面向策略优化的动态规划、 强化学习等算法设计中仍存在明显不足: 一方面, 这些算法难以在空战中直接使用, 如当前使用的最优控制策略[19]、 策略迭代方法[20]等均属于间接控制, 其实际优化效果依赖于预置的专家先验知识及其复杂的预处理过程, 由于策略需要多次迭代以收敛至最优策略, 在空战等复杂、 动态决策场景下面临高昂的计算成本, 同时也难以获得精确、 全面的空战专家知识; 另一方面, 这些算法在空战中的实际优化效果不足, 泛化性有限, 如当前使用的自适应PID[21]、 模型参考自适应[22]、 随机生成动作向量优化[23]、 在线自适应优化强化学习[24-26]、 非线性系统的实时优化[27]、 仿射非线性连续系统优化[28]、 ADP方法[29]、 改进型Actor-Critic网络和奖励函数[30]等均可提升动态规划、 强化学习算法性能, 但需要持续的在线学习和实时性能。 在处理高维度和连续动作空间时, 通常面临样本效率低和探索不足的挑战, 其优化效果和泛化能力会受到数据质量和多样性的限制, 难以有效应对新空战场景, 也难以在复杂、 动态空战场景下保障决策鲁棒性。

航空兵器  2024年第31卷第5期

吕振瑞, 等: 基于深度强化学习的来袭导弹智能拦截与平台机动策略优化技术

综上, 将动态规划、 强化学习等算法应用于空中平台防御尤其是硬杀伤式防御手段, 仍然面临许多挑战。 本文针对上述问题, 探索一种基于深度强化学习的智能化空中平台防御策略。 通过对策略迭代、 学习算法和奖励函数的改进, 提高载机平台的防御效果, 并在空战仿真环境中实验验证拦截的有效性。

1  载机平台动力学方程

航迹坐标系的原点O固连于飞机的质心处。 Oxh轴沿飞机飞行速度方向, 向前为正; Oyh轴在通过Oxh的铅垂面内与Oxh轴垂直, 向上为正; Ozh轴垂直于Oxhyh平面, 指向飞机右向为正, 构成右手系。

切向过载nx: 角标x表示Oxh轴方向, 沿载机的飞行速度方向, 用于控制载机的水平轴向加速度, 取nxmax=2。

法向过载nf: 角标f代表法向, 表示垂直于飞机机翼平面和飞机飞行方向, 由速度方向垂直的ny与nz共同确定, nf=ny+nz, 取nfmax=Nmax, Nmax代表飞机的法向过载最大值。

载机的转弯坡度角: γs=arccos1nf, 角标s代表侧倾含义。

在载机航迹坐标系Oxhyhzh(见图1)下建立的载机3自由度质点动力学方程如式(1)所示。

V·=g(nx-sinθ)

θ·=gV(nfcosγs-cosθ)

ψ·s=-gVcosθnfsinγs(1)

假设载机做无侧滑运动, 忽略载机侧滑角的影响, 则侧滑角β为零, 侧力F为零。

忽略载机迎角的影响, 则迎角α为零, 俯仰角等于航迹倾斜角θ与迎角α之和, 则θ =。

假设载机运动时不计风速, 则航迹坐标系的Oxh轴、 速度坐标系的Oxa轴与机体坐标系的Oxb轴一致, 即γs=γ, ψs=ψ。

假设载机质量m为常数, 且重力加速度g不随飞行高度的变化而变化。

2  来袭导弹威胁能力评估

来袭空空导弹目标威胁评估的目的是明确来袭空空导弹目标对载机是否构成威胁, 以及威胁程度的大小, 然后按威胁程度排序。 针对拦截来袭导弹的空战场景, 来袭导弹包括角度、 距离和速度3方面威胁, 并对这些威胁进行量化计算, 通过模糊理论[31]进行加权平均, 计算出最终的威胁系数。

2.1  威胁模型建模

来袭导弹威胁度超实时评估模型的建模依赖于载机和来袭导弹的相对运动模型, 本文采用距离-角度-速度势场函数。 如图2所示, 来袭导弹弹体的重心与载机重心的连线定义为视线; 来袭导弹弹体的正方向与视线的夹角称为来袭导弹的进入角qm; 来袭导弹的速度矢量为Vm; 载机的速度矢量为Vu。

(1) 距离势场函数(距离威胁度)

距离势场函数Ud为载机和导弹之间的距离威胁模型, 用于评估导弹对载机的威胁程度。 这个威胁程度取决于二者之间的距离D, 如式(2)所示。

Ud=kd1D+σ-1Dbound2(D+σ)2  if D<Dbound

0  if D≥Dbound (2)

D=x2+y2+z2(3)

式中: kd为正的系数; D为导弹与载机的距离;  x, y, z为分别表示载机与导弹在x, y, z三维坐标轴上的坐标差; σ为小量(防止分母为0和乘数为0, 造成(0, 0)点突变); Dbound为距离边界, 即导弹最大攻击范围, 大于此值, 威胁度为0。

距离威胁值随载机与来袭导弹相对距离变化的函数如图3所示, 红色线条表示D<Dbound条件下的距离威胁值, 绿色线条表示D≥Dbound条件下的距离威胁值, 即我方载机在来袭导弹攻击区外的范围, 此时威胁值为0。

在载机规避导弹问题中, 由于距离势场函数考虑高度的影响, 而载机爬升性能并没有导弹强, 来袭导弹在发射后, 急速提高速度, 短期速度增加能力比载机高。 因此, 使用距离势场函数时, 可以去掉高度的影响, 即D=x2+y2。

(2) 进入角的势场函数(角度威胁度)

来袭导弹对载机的威胁不仅可以从距离角度考虑, 也可以从导弹进入角(导弹速度方向与视线方向的夹角)考虑。 设导弹进入角为qm, 导弹速度为vx, vy, vz, 下标x, y, z表示导弹速度矢量在三维坐标轴x, y, z轴上的分解。 同样不考虑高度的影响, 导弹进入角计算公式如下:

cosqm=Vm·P|Vm|·|P|=xvx+yvyx2+y2·v2x+v2y(4)

式中: Vm为导弹速度矢量; P为载机与导弹的视线矢量。

导弹进入角的势场函数如式(5)所示。

Ua=ka·1qm+σ-11802·(qm+σ)2  if D<Dbound

0  if D≥Dbound(5)

式中: ka为正的系数, 下标a表示“角度”。 角度威胁值随载机与来袭导弹相对角度变化的函数如图4所示, 图中绿色线条表示式(5)在D<Dbound条件下的角度威胁值, 黄色线条表示D≥Dbound条件下的角度威胁值。 随着进入角变小, 角度威胁值呈对数趋势下降。 当进入角大于来袭导弹的最大攻击范围时, 角度威胁值为0。

(3) 速度威胁度

速度威胁度是一个根据导弹相对于载机的速度计算得到的值, 它用来量化导弹的速度对载机的威胁程度。 速度威胁度的计算根据相对速度的不同区间而变化, 具体定义如式(6)所示。

TS=

1  if vivj>1.5

-0.5+vivj  if 0.6<vivj≤1.5

0.1  ifvivj≤0.6 (6)

式中: vi为来袭导弹的预估速度; vj为我方载机的预估速度。 我方载机相对于来袭导弹的运动速度越大, 则受威胁程度越低。 速度威胁值随载机与来袭导弹相对速度变化的函数如图5所示, 图中绿色线条表示vivj≤0.6条件下的速度威胁值, 紫色线条表示0.6<vivj≤1.5条件下的速度威胁值, 红色线条表示vivj>1.5条件下的速度威胁值。

上一篇 点击页面呼出菜单 下一篇