基于MATD3的视距内协同空战机动决策

作者: 张栋 唐俊林 熊威 任智 杨书恒

基于MATD3的视距内协同空战机动决策0

摘 要:为提升多无人作战飞机空战的协同作战能力, 提出一种基于多智能体双延迟深度确定性策略梯度(MATD3)的协同空战机动决策方法。 首先, 基于无人作战飞机的三自由度动力学模型构建空战环境, 并结合飞行员的操纵方式, 设计以控制量的变化量表示的动作空间。 其次, 优化了状态空间和奖励函数的设计, 将友机与敌机的相对关系引入状态空间, 根据相对角度、 相对距离等空战态势因素建立连续型奖励函数, 将飞行约束条件融入离散型奖励函数, 提升机动决策的准确性和机动飞行的安全性; 采用分阶段训练、 启发式引导、 双探索机制、 交替冻结博弈等训练方法, 提高算法的收敛速度和机动策略的鲁棒性。 最后, 构建了二对一空战的仿真场景, 结果表明我方双机能够展现出明显的配合行为, 提高了对空战态势的感知能力。

关键词:无人作战飞机; 协同空战; 机动决策; 多智能体; 深度强化学习; MATD3

中图分类号:       TJ760 文献标识码:    A文章编号:     1673-5048(2023)03-0020-09

DOI: 10.12132/ISSN.1673-5048.2022.0231

0 引 言

随着科技的进步, 空战的战场环境和空间信息越来越复杂, 单机已经无法满足作战需求, 多机协同空战逐渐成为主要的作战样式。 协同空战机动决策是指我方多架战机根据交战双方的相对态势, 相互配合共同决策, 以占据有利态势, 甚至在处于劣势时化解敌机的威胁。 有效的协同机动策略能使战机编队充分发挥整体作战效能, 击毁敌机的同时最大程度减小我方的损伤。

现有的机动决策方法主要包括以矩阵博弈[1]、 微分对策[2]、 影响图[3]为代表的传统方法和以专家系统[4]、 神经网络[5]、 深度强化学习为代表的人工智能方法。 文献[6]基于矩阵博弈提出群决策理论, 以我机对每架敌机的动作偏好排序来进行决策, 为协同机动决策提供新的解决思路。 文献[7]基于状态预测影响图模型提出协同空战机动决策框架, 采用无迹卡尔曼滤波来更新和预测信念状态, 并通过移动视界控制法求解以满足实时性要求。 文献[8]建立了协商微分对策理论, 提出广义微分动态规划算法来求解多机协同机动策略。 文献[9]针对编队协同空战的过程, 提出基于高阶导数和相对模糊熵的二次聚类法, 实现了协同空战决策过程的重构。 文献[10]通过重复目标分配发挥战机的多目标攻击能力, 采用有限外推和粒子群算法求解指标函数, 提升了多机协同决策的效能。 传统方法在多机协同机动决策领域的研究成果显著, 但仍然存在一些不足: 矩阵对策法过于保守, 与空战实际不符; 影响图法推理过程繁杂, 决策响应速度慢; 微分对策法理论复杂, 计算量庞大, 性能函数设计困难。

由于传统方法的固有缺陷, 空战机动决策技术逐渐向具有自学习能力的人工智能方向发展。 专家系统法难以建立完备的规则库以适应复杂的空战环境, 神经网络法难以获取大规模的有效训练样本, 而深度强化学习通过智能体对环境的“试错”进行学习, 训练样本在训练中自产生, 能够适应复杂多变的空战环境, 满足机动决策准确性和实时性的要求, 具有很好的应用前景。 针对一对一空战场景, 深度强化学习取得了不错的应用效果。 文献[11]基于空战态势评估和DQN, 构建机动决策模型, 采用分阶段的训练方法, 逐步获得更加有效的机动策略。 文献[12]基于DDPG, 得出连续平滑的控制量, 提高机动决策的精度, 并通过优化算法产生有效样本, 提高算法的学习效率。 文献[13]在Actor网络上增加与性能损失上限相关的鲁棒性正则化器,  提出SADDPG,并结合最大熵逆强化学习的奖励塑造方法, 训练出具有高鲁棒性和高性能的机动策略。

针对多机协同空战场景, 基于深度强化学习的协同机动策略生成方法逐渐成为研究的热点。 文献[14]将MADDPG应用到状态、 动作都为连续的多机空战场景, 结合空战态势的评估结果设计连续型回报模型来加快收敛速度, 但仿真实现中多机的协同行为并不明显。 文献[15]通过动态目标分配对目标形成合围之势, 并基于启发式强化学习对机动决策序列进行动态解算, 完成四对二场景的空战仿真。 文献[16]通过强化学习来计算协同威胁指数, 描述了二对一空战中友机合作带来的态势提升, 再通过辅助决策模块评估决策集, 最终得出无人机的控制量。 文献[17]基于MADDPG求解协同机动策略, 并与采用预编规则的敌机进行对抗训练, 生成多种典型的双机协同策略。 文献[18]将平均场理论引入DQN, 提出MFSG-Q, 在大规模无人机集群对抗中表现出有效的集群合作行为。 文献[19]通过目标分配和态势评估将编队的战术目标与各无人机的强化学习目标相融合, 基于actor-critic架构建立多机协同机动决策模型。

综上所述, 采用深度强化学习实现多机协同空战机动决策通常有两种途径: 一是采用单智能体强化学习结合目标分配等方法, 这类机动策略仍然采用单智能体的研究方式, 协同能力较弱, 并没有实现真正意义上的协同; 二是采用多智能体深度强化学习方法, 这类方法能够生成比较有效的协同机动策略, 但大多数研究中采用的敌方策略过于简单, 没有充分挖掘多机协同的优势, 对于多机的协同行为考虑不足, 对于友机如何配合进而提升空战优势的研究较少。 针对此类问题, 本文提出了一种基于MATD3空战机动决策方法, 通过改进状态空间、 动作空间和奖励函数的设计, 并借助双探索机制、 分阶段训练、 启发式引导和交替冻结博弈等方法, 提高了多机机动决策的协同程度。

1 视距内空战问题描述

1.1 UCAV运动模型

空战对抗仿真中, 选用高耦合的三自由度动力学模型来创建空战环境[20]。 将UCAV视为一个质点, 考虑升力、 阻力和发动机推力, 比常见的以过载为控制量的三自由度动力学模型更加真实, 具有更高的应用价值[21]。 UCAV的飞行状态参数如图1所示。

1.2 空战相对态势

根据UCAV的三自由度运动模型, 空战中敌我双机的相对位置如图2所示。

图2中, vr和vb分别为敌我双方的速度矢量; d为距离矢量, 从我方UCAV指向敌方UCAV; φ为敌机相对我机的方位角; q为敌机的进入角, 是敌机速度矢量与距离矢量的夹角。

假设近距空空导弹的攻击区是静态的, 有效攻击距离dM与离轴发射角φM均为定值。 近距空空导弹大多采用红外导引头, 具备全向攻击能力。 因为战机尾焰的红外特性最为明显, 尾后攻击的成功率大于迎头攻击, 仍然希望进入角尽可能小。 选取对抗结束的胜负判定标志为: 相对距离小于空空导弹的攻击距离, 方位角小于空空导弹的离轴发射角, 进入角小于90°, 且持续3个决策周期, 可认为满足导弹发射条件, 即

3.5 二对一视距内空战机动决策步骤

我方双机分别以MATD3框架选取机动动作, 通过相互配合来对抗敌方单机, 以夺取空战胜利。 决策步骤如图5所示。

与一对一空战相比, 二对一场景的状态空间更加庞大, 为了增强机动决策的准确性, 使用较大规模的神经网络来拟合协同机动策略。 大规模的神经网络和以控制量变化量表示的动作设计将导致收敛缓慢甚至不收敛的问题。 针对此问题, 采用启发式引导和分阶段训练的方法来改善算法的收敛性。 采用分阶段训练, 让算法先解决简单的任务, 当算法学习到一定策略后再增大任务的难度继续训练。 利用强化学习的经验回放池, 可以存储其他决策方法产生的经验样本, 从而在训练中吸收其他方法的优点。 训练的初期, 可以采用其他决策方法选择动作, 得到环境的奖励, 并与状态一起存入经验回放池。 如此便可以让具有较大规模神经网络的强化学习算法解决复杂的决策问题。

4 仿真分析

4.1 参数设置

仿真中, 敌我双方的对抗区域边界限制为x∈[0 km, 15 km], y∈[0 km, 15 km], z∈[1 km, 12 km]。 双方战机性能相同, 空空导弹发射距离约束dM=3 km, 离轴发射角约束φM=30°, UCAV最大速度vmax=400 m/s, 最小速度vmin=80 m/s, 质量m=14 680 kg, 参考截面积S=49.24 m2, 空气密度ρ=1.205 kg/m3。 Actor和Critic模块的学习率均为0.000 1, 衰减率γ=0.95, Target网络的软策略更新参数τ=0.01。 经验回放池容量为1 000 000, 每次从中抽取1 000条样本进行训练。 攻角、 滚转角和油门的随机噪声初始高斯分布分别为: Nα(0, 0.035), Nγ(0, 0.15), Nδ(0, 0.2)。 各Agent的网络结构相同, 如表3~4所示。

综合考虑决策的实时性和机体操控的稳定性, 每隔1 s, 对抗双方同时进行一次机动动作选择。 每执行5步进行一次训练, 达到回合的最大步数或胜负终止条件, 则本回合结束, 执行下一回合的训练。

我方每架UCAV的奖励函数中, 友机的奖励提升因子k=1。 训练过程分为初始训练阶段和对抗训练阶段。 初始训练阶段直到回合最大步数限制才终止, 先让我方双机跟随直线飞行的敌机, 学习初步的机动策略, 再跟随螺旋飞行的敌机, 以适应敌机速度矢量的变化; 对抗训练阶段加入敌机的机动策略, 进行对抗仿真, 任意一架UCAV达到攻击条件便终止回合。 经测试, 采用本文的动作设计方法, 如果不采用启发式引导的方法, 训练过程中Actor模块的动作输出同质化严重, 导致算法无法收敛。 初始训练阶段中, 部分回合我机使用Min-Max算法按照一对一场景的研究方法做出决策, 生成有效样本来指导神经网络的训练。

敌方单机采用遍历试探法, 从基本动作集中选取动作进行对抗。 每个控制量的变化量有5种取值, 分别为Δα=(-10°, -5°, 0°, 5°, 10°)、 Δγ=(-45°, -22.5°, 0°, 22.5°, 45°)和Δδ=(-1, -0.5, 0, 0.5, 1), 排列组合得到125种基本动作。 敌机决策时, 假设我方双机位置保持不变, 以当前待选动作执行后更新的相对态势来评估该动作的优劣。 态势评估中敌机对我方每架战机的综合奖励各占一半, 根据一对一空战的奖励函数计算。

4.2 初始训练阶段

训练的0~7 000个回合, 令敌机沿固定水平直线匀速飞行, 我方双机的初始位置在以敌机初始位置为圆心、 半径为6 km的部分圆周上随机生成, 速度为250 m/s, 航向指向敌机, 航迹倾角为0°, 攻角为5.73°, 滚转角为0°, 油门系数为0。 训练完成后, 某回合中我方双机的机动轨迹如图6所示。

由图6可知, 我方双机从任意位置出发, 均能迅速绕到敌机后方形成攻击态势, 并稳定保持绝对有利态势, 直到最大步数75而终止。 引入此训练阶段的主要目的是让每架UCAV均能学习到对敌机形成攻击态势的初步智能水平。

训练的7 000~12 000个回合, 令敌机以固定的初始位置、 随机的初始航向角、 固定的航迹倾角大小, 向下或向上螺旋飞行。 我方双机初始位置分别为(3 km, 6.5 km, 5 km)和(3 km, 8.5 km, 5 km), 速度均为250 m/s, 航迹偏角均为0°, 航迹倾角均为0°, 攻角均为5.73°, 滚转角均为0°, 油门系数均为0。 训练完成后, 某回合的机动轨迹如图7所示。

上一篇 点击页面呼出菜单 下一篇