智能空战深度强化决策方法现状与展望
作者: 张烨 涂远刚 张良 崔颢 王靖宇
摘 要: 本文聚焦于现代智能空战决策技术的发展需求, 分析了智能空战场景的要素与特点, 介绍了现有智能空战决策理论的研究现状, 包括基于博弈理论的决策方法、 先验数据驱动的决策方法、 基于自主学习的决策方法, 着重梳理了基于价值和基于策略的深度强化学习智能决策方法。 最后, 面向未来智能空战面临的各种挑战以及传统深度强化学习的局限性, 展望了深度强化学习技术在空战领域的发展方向: 面向集群作战的多体智能决策技术、 面向广域时空的高效智能决策技术、 面向复杂场景的泛化智能决策技术。
关键词: 空战决策; 人工智能; 强化学习; 智能博弈; 集群作战; 深度学习
中图分类号: TJ760
文献标识码: A
文章编号: 1673-5048(2024)03-0021-11
DOI: 10.12132/ISSN.1673-5048.2023.0083
引用格式: 张烨, 涂远刚, 张良, 等 . 智能空战深度强化决策方法现状与展望[ J]. 航空兵器, 2024, 31( 3): 21-31.
Zhang Ye, Tu Yuangang, Zhang Liang, et al. Status and Prospect on Deep Reinforcement Learning Decision-Making Methods for Intelligent Air Combat[ J]. Aero Weaponry, 2024, 31( 3): 21-31.( in Chinese)
0 引 言
随着现代空战逐渐向强对抗、 高动态、 强不确定性等复杂战场环境转变, 由人工智能理论赋能的智能空战决策技术成为各国军事应用智能化的研究重点。 自20世纪60年代以来, 智能空战决策技术随着战场环境和作战形态的演进经历了若干阶段[1]。 早期的空战形态以有人机对抗为主, 智能决策系统依据专家知识生成机动规则, 为飞行员提供辅助决策或对抗训练。 受限于人类固有战术认知, 此阶段的决策算法智能化程度不高。 随着高性能无人装备的出现, 基于智能算法的机动策略演进技术使得无人系统在空战场景中能够补偿有人机在反应速度和毁伤成本上的劣势, 逐渐发展为具有独立作战能力的智能平台[2]。 近年来, 随着有人/无人协同及分布式无人集群等新型作战架构的出现, 智能空战决策技术正在向具有自主学习能力的智能决策理论发展, 逐步由人类经验主导过渡到以无人化自主决策为特征的新模式[3- 4]。 其中, 基于深度强化学习的智能决策算法通过智能体与环境或对手的对抗性博弈, 学习并生成最优策略, 实现累计回报最大化。 与传统决策方法不同的是, 深度强化学习算法不受限于已有的专家经验, 能够通过探索和学习实现对更加复杂空间的适应性和鲁棒性, 在能力涌现、 自演进、 自学习等方面具有优势[5]。
然而, 现有深度强化学习方法在智能空战领域的应用研究仍处于初级阶段, 还存在若干难题和挑战。 例如, 虽然赫伦(Heron)公司凭借深度强化学习技术在“阿尔法狗斗”竞赛项目中击败人类飞行员, 但其对创造性的战术和策略仍缺乏深刻理解[1]。 其次, 战场态势复杂多变, 导致决策过程面临高维状态-动作空间和稀疏奖励问题, 学习效率和收敛平稳性难以提高。 此外, 深度强化学习算法在可解释性、 安全性和泛化性等方面的缺陷, 限制了其在实战装备上的实际应用。 面对上述问题, 如何对现有深度强化学习方法进行适应性改进, 解决复杂战场环境下的自主决策问题, 进而提出支撑指挥与控制智能化的共性技术, 具有重要的理论意义和军事应用价值。
1 智能空战决策技术
1.1 智能空战决策技术要素与特点
智能空战决策技术研究包含三个要素: 作战平台、 组织架构和决策理论, 如图1所示。
智能化作战平台依托智能感知与决策技术实现复杂场景下的侦察和打击任务。 作为现代空战的主要打击手段, 以美国AIM-120、 法国 MICA-EM以及俄罗斯P-77为代表的第四代雷达型空空导弹采用复合制导体制,
收稿日期: 2023-05-10
基金项目: 国家自然科学基金青年项目(52202502); 中央高校基本科研业务费(D5000210857)
*作者简介: 张烨(1990-), 女, 陕西西安人, 副教授。
具有多目标攻击与发射后不管的能力, 并采用了先进的抗干扰技术。 在无人机自主作战系统中, 基于人工智能的“Alpha”AI系统具有一定的代表性。 该系统通过使用基于语言的控制方法与“遗传模糊树”技术, 解决了计算成本和性能之间的冲突, 能够真正实现低成本计算下的高效性能[6]。
智能战场的组织架构是实现智能决策算法的关键, 主要包含有人/无人机协同以及分布式无人集群两种形式。 有人/无人机协同作战以有人平台作为作战时的总指挥, 通过数据通信指挥无人机; 无人机平台执行有人作战平台发出的指令, 完成目标识别、 攻击、 规避和评估等任务, 再将识别与评估结果上传至有人作战平台, 通过收集到的战场信息对无人机进行宏观调控。 该技术利用了机器智能与人类智能的互补关系, 既能避免飞行员处于危险环境中, 又能保证作战指令是受到人类严格把控的。 2019年3月, 美国空军研究实验室(Air Force Research Laboratory, AFRL)发布了“空中博格”(Skyborg)项目, 该项目旨在开发一种基于人工智能技术的无人机系统, 采用模块化和开放式框架, 以此实现即使面对不同的复杂任务也能够快速适应[7]。
分布式集群是智能空战中的另一重要架构, 其以面向任务的组织架构设计, 采用分布式协同和智能决策方法实施全方位攻击。 匈牙利罗德大学的TamásVic-sek团队利用群体智能行为机制, 实现了10架四旋翼无人机的自主集群飞行试验[8]。 美国国防部高级研究项目局(Defense Advanced Research Projects Agency, DARPA)采用群体智能理论构建了面向对象的无人机集群的蜂群战术, 实现了进攻性蜂群使能战术项目[9]。
智能空战决策方法是连接作战平台和组织架构的理论基础。 目前用于解决智能空战决策问题的方法大致可以分为三类: 基于博弈理论的决策方法、 先验数据驱动的决策方法以及基于自主学习的决策方法, 如图2所示。 这些方法是实现智能空战决策的核心关键技术。 1.2 智能空战决策技术
1.2.1 基于博弈理论的决策方法
在军事上, 尤其是在空战领域运用博弈理论早已成为国内外研究的热点。 基于博弈理论的空战问题主要有微分博弈和矩阵博弈。 微分博弈是一种动态博弈策略, 适用于追、 逃、 防御等问题。 矩阵博弈则是通过建立基本机动动作库作为备选动作, 再以空战中的角度、 高度和速度等参数作为评价函数, 以此建立博弈矩阵。
(1) 微分博弈
微分博弈的求解一直是空战决策研究的重点和难点, 通常情况下只能通过梯度下降等方法得到数值解。 文献[10]扩展了经典的微分博弈论, 设计了鞍点策略, 采用了具有代表性的性能度量, 得到了伴随博弈的值函数, 为使用微分博弈理论形式化地分析N个追击者和M个逃避者的复杂高维冲突提供了基础。 文献[11]利用最优控制和微分博弈理论, 推导了任意阶线性导弹和目标动力学的制导律, 并得到了基于理想导弹模型及具有恒定轴向加速度的目标动力学的解析解。 目前来看, 基于微分博弈的空战决策方法存在如下缺点: 基于微分博弈的空战决策模型要经过大量简化才能计算, 因此该方法难以应用于实际场景中; 微分博弈的求解复杂性高、 耗费时间长, 与空战本身具有的特点相矛盾。
(2) 矩阵博弈
矩阵博弈具有方法灵活、 计算速度快、 计算量小等优点。 文献[12]根据角度威胁和距离威胁计算出空战态势评估函数, 构建博弈矩阵。 利用博弈混合策略设计了待优化的目标函数, 并通过基于迁移学习的鸽子启发式优化(Transfer Learning Pigeon-Inspired Optimization, TLPIO)得到最优混合策略。 同时, 所提出的TLPIO并没有随机初始化种群, 而是采用基于Kullback-Leibler (KL)散度的迁移学习方法初始化种群, 提高了优化算法的搜索精度。 文献[13]针对多无人机威胁排序时难以获得完全信息的问题, 利用博弈模型获得不确定参数, 再将已建立好的模糊收益的零和博弈转化为具有清晰收益的矩阵博弈来解决上述问题。 然而, 基于矩阵博弈的空战决策方法还存在着不足之处: 决策时往往只顾及短期收益, 没有考虑长期收益; 矩阵博弈比较保守, 该决策方法只能保证我方收益不低于某个值, 难以获得最优的收益。
1.2.2 先验数据驱动的决策方法
基于先验数据的智能空战决策方法主要分为两类方法: 基于专家系统和基于深度学习的决策方法。 基于专家系统的决策方法是利用人类专家的知识和经验组成一个知识库, 再将其放入计算机中, 根据当前空战态势选择相对应的决策。 基于深度学习的决策方法则是让具有空战经验的飞行员在模拟机中对空战进行决策, 从而获得大量的训练样本, 然后利用深度神经网络强大的拟合与计算能力, 得出当前空战态势与在该态势下执行的决策动作之间的关系。
(1) 专家系统
传统专家系统基于当前空战态势, 用类似于IF-ELSE-THEN的逻辑规则产生基本的控制律。 具有代表性的是美军自适应机动逻辑(Adaptive Maneuver Logic, AML)系统[14], NASA考虑到空战决策的高实时性、 随机性等特点, 认为经验丰富的人类飞行员能够较好地应对空战场景, 故借助专家系统使无人机能够拥有自主决策的能力。 其缺点也较为明显: 规则库的建立复杂; 策略简单且固定; 对于不同的机型适配性很差。
文献[15]开发了一种嵌入式专家系统, 汇聚了大量专家提供的空战专业知识, 再利用快速原型法促进知识的获取。 考虑到空战场景的复杂多变性, 专家系统难以利用不确定因素完成任务, 针对上述问题, 文献[16]利用模糊贝叶斯网络(Fuzzy Bayesian Network, FBN)处理不确定因素, 构建了一个基于专家系统和FBN的混合战术决策系统。 仿真结果显示该系统能够提高实时性, 同时能够处理环境中的不确定因素。 文献[17]针对作战环境复杂、 对专家知识的过度依赖以及学习效率低等问题, 利用动态质量重放(Dynamic Quality Replay, DQR)技术, 有效引导智能体从历史数据中学习战术策略。 目前基于专家系统决策方法的研究已经较为成熟, 与其他方法的结合也能弥补该方法的部分缺点, 但依旧存在着不足之处: 将人类专家的知识和经验转化为知识库的过程本身就很复杂, 且不够全面; 专家系统的学习能力差, 难以对新的知识进行学习。
(2) 深度学习
神经网络作为深度学习中最为成熟与重要的算法之一, 是对人脑神经元的一种模拟与抽象, 在学习以及构建极其复杂模型方面尤其突出。 在早期, 文献[18]就探索了人工神经网络在空战机动中的适用性, 然而其解释性差, 需要大量的样本数据进行训练, 难以真正应用在实际空战中。