飞行器博弈制导进程与展望

作者: 郭建国 陆东陈 周敏

飞行器博弈制导进程与展望0

摘 要:博弈制导可处理复杂系统中涉及多方合作、 竞争的动态问题, 有利于实现智能化战场上信息价值最大化发挥, 推动精确制导武器的智能化发展。 本文总结了博弈制导的基本分类和建模方法, 从终端角度约束、 时间约束、 过载约束、 末速约束等方面提出了飞行器博弈制导的关键性问题, 搭建了矩阵博弈、 微分博弈两种典型博弈模型求解框架, 从解析解、 数值解、 智能算法等方面对博弈制导的求解方法进行梳理。 最后, 从非线性微分博弈求解方法, 非完备信息博弈算法, 不均衡、 非对称信息下多飞行器协同, 多类型武器体系博弈等方向出发, 对飞行器博弈制导未来的发展趋势进行了展望和总结。

关键词:  博弈制导; 微分博弈; 矩阵博弈; 智能算法; 自适应算法

中图分类号:  TJ765; V249

文献标识码: A

文章编号:  1673-5048(2024)02-0008-09

DOI: 10.12132/ISSN.1673-5048.2024.0022

0 引  言

随着飞行器种类的不断增加、 飞行任务的复杂化以及飞行性能的优化需求, 传统制导系统在应对多智能体环境、 不确定性和动态性方面显得愈发力不从心。 为解决这些问题, 新的方法和理论不断涌现, 推动着制导技术向高精度和智能化方向发展, 飞行器制导系统产生了巨大变革, 其中博弈制导技术的崛起无疑成为引领这一变革的先锋。

博弈制导的理论最早由Isaacs[1]提出。 20世纪80年代和90年代初期, 随着博弈论在多领域的发展, 研究者开始将博弈论引入飞行器制导领域, 博弈制导[2-7]的理论框架逐渐建立。 博弈制导的概念并非局限于对手与对手之间的竞争, 更是一种综合性的智能控制范式。 博弈理论和制导控制理论的有机结合提供了一种有效框架来分析多方参与、 相互竞争或合作的决策过程, 将博弈理论引入飞行器制导研究能够更精准地构建阵营对抗态势, 综合考虑对手信息制定制导策略, 在不同信息优势下获取最优制导策略, 实现对战场的全局把控。

20世纪末期, 针对不同目标、 不同环境的博弈制导系统设计需求, 研究者开始将博弈制导应用于实际问题, 逐渐深入研究博弈模型的构建和求解方法。 博弈制导的本质是一种考虑双方行为和反应的制导方法, 其所追求的不仅是单一飞行器的最优控制策略, 更是在复杂、 动态环境下实现多智能体之间的协同与对抗。 这种博弈思维的引入, 使得飞行器能够更为智能地应对诸如多体协同打击等复杂情境。 通过分析博弈策略, 飞行器能够在动态变化的环境中做出实时决策, 提高任务执行的适应性和鲁棒性。 相比于经典制导方法, 博弈制导具有如下优势: (1)动态适应性, 即博弈制导能够根据对手的策略实时调整自身策略。 (2)预测能力, 即能够预测并应对可能的反制措施。 (3)决策优化, 即在多目标、 多威胁环境下提供优化的制导决策。 (4)复杂场景, 即更适合处理高度动态和不确定的战场环境。 相比之下, 常规制导律通常基于固定算法或预设条件, 可能在复杂或快速变化的环境中表现不足。 而博弈制导的灵活性和适应性使其在现代复杂战场环境中更具优势。

21世纪初期, 随着对多智能体系统研究的兴起, 博弈制导开始更多地与多智能体系统理论相结合。 这使得研究者能够更全面地考虑导弹与目标以及其他智能体间的相互作用; 近年来, 随着强化学习和深度学习的兴起, 一些研究开始探索这些方法在博弈制导中的应用, 包括使用强化学习算法优化导弹的制导策略, 以适应复杂和动态的战场环境。

尽管博弈制导技术带来了显著的优势, 但在实际应用中仍然面临一系列挑战, 如博弈模型建立、 博弈模型求解等。 本文将深入研究博弈制导技术在飞行器领域的应用, 从一对一追逃博弈到多体协同对抗, 从基础理论到智能算法, 探讨其对飞行器制导领域的影响与推动作用, 并展望博弈制导技术在飞行器领域的发展趋势。

1 博弈制导模型建立

博弈制导模型的基本要素包括参与者、 策略、 收益、 信息四个方面, 根据实际制导场景对四要素进行定义。

(1) 参与者: 即参与博弈且拥有决策权的各方阵营。 根据攻防场景, 将各飞行器按照目的进行阵营划分, 从对抗角度来看, 一对一攻防场景可划分为追击方和逃逸方, 多飞行器对抗场景按战场态势分为攻击方和防御方, 其中多飞行器对抗场景下往往蕴含着协同合作, 可建模为合作博弈模型。

(2) 策略: 一局博弈中每个参与者的完整的博弈行动方案称为参与者的策略。 制导问题的本质为得到一种满足各种约束需求的制导律, 主要分为两类: 一是根据制导需求, 考虑各种约束条件进行制导律设计, 即微分博弈问题; 二是在已有的机动策略库中通过比较分析, 选取一种最优的制导律, 多建立为矩阵博弈问题。 此外, 一对一攻防博弈中双方策略一般为完全对抗策略, 多体对抗的策略设计中往往需要考虑相同阵营间的协同合作问题。

(3) 收益: 一局博弈结束时的结果称为收益, 一般为包含参与者博弈策略的函数, 用于评价博弈策略的好坏。 博弈制导模型中的得失一般为以控制指令和状态为变量的性能函数, 用以表征控制策略的优劣程度。 性能函数的设计需要考虑实际制导问题中的各种约束条件以及制导性能, 包括脱靶量、 角度误差等终端约束和带有控制量和误差积分形式的过程约束。

(4) 信息: 即博弈各参与者对其他参与者的信息掌握程度。 博弈制导中的信息主要包括动力学模型、 控制执行机构、 机动策略以及表征收益的性能函数等。 一般情况下对各阵营间飞行器建立相同的动力学模型, 并假定具有理想的控制执行机构, 结合状态转移矩阵用零控脱靶量或脱靶量建立当前状态下制导策略与收益的映射关系。

博弈制导数学模型可表示为

x·=f(x, u)(1)

J=(x(tf))+∫L(x(τ), u(τ), w(τ), τ)dτ(2)

式(1)为系统模型, 式(2)为性能函数。 其中, (x(tf))为终端型性能指标; L(x(τ), u(τ), w(τ), τ)为积分型性能指标; u(τ), w(τ)为双方机动策略。 双方通过选取博弈策略分别使得性能函数达到极大或极小:

u*=minu∈UJ(u, w)

w*=maxw∈WJ(u, w) (3)

结合博弈相关理论, 对该模型进行纳什均衡解[8](u*, w*)的求取, 使得式(4)成立:

J(u*, w)≤J(u*, w*)≤J(u, w*)(4)

非合作博弈考虑对对方阵营飞行器的机动能力、 机动策略的掌握情况, 当已知对方机动策略时, 转化为最优控制问题; 当对方飞行器策略未知时, 建立博弈模型进行纳什均衡解的求取, 根据信息的掌握情况选取不同的模型求解方法。

纳什均衡是一种相对平衡状态, 本质是各阵营间的策略组合, 每个决策者都在对方阵营策略给定的情况下做出最佳反应, 参与方均不具有单方面改变策略的动机, 是博弈制导问题中最常见的解的形式。

2 博弈制导研究现状及关键性问题

在飞行器博弈制导中, 除了制导精度的表征脱靶量外, 还期望己方具有更多的打击优势, 从而对终端角度、 剩余时间、 过载受限、 飞行末速等方面提出需求, 并结合研究现状对飞行器博弈制导的关键问题进行梳理。

2.1 多种约束问题研究现状

(1) 终端角度约束

对坦克、 舰艇、 航空母舰等大型攻击目标而言, 不同碰撞角度下的毁伤效果有所差异, 对于新型飞行器, 不同角度的探测效果也有所不同。 终端角度约束是指制导武器在攻击末段应达到的特定攻击角度, 保证最优探测效果的同时达到最大杀伤效果。

终端角度约束制导方法由 Kim 等[9]首次提出, 目前针对终端角度约束的制导律已有很多研究, 主要包括: 基于比例导引, 如偏置比例导引[10-12]; 基于现代控制理论, 如最优控制[13]、 自适应变结构控制[14-15]等; 基于几何曲线[16]、 优化理论以及协同打击[17]等其他类型的制导方法。 有关终端角度约束的研究大多针对地面固定目标或匀加速直线运动目标, 未考虑目标机动情况。

微分博弈制导律能在击中目标的同时满足特定的性能需求, 适用于解决机动目标下的终端角度约束问题。 文献[18]基于线性高斯伪谱模型预测控制(LGPMPC)方法, 结合了线性正交最优控制、 模型预测控制和高斯伪谱法, 解决了具有二次性能指标和硬终端约束的非线性最优控制问题, 但耗时较长; Shaferman等[19]考虑了终端角度约束问题, 按照目标机动是否已知分别推导了微分博弈制导律和最优制导律, 在目标机动时也具有较好的打击效果, 但该方法假定导弹机动不受限制; 文献[20-21]沿用Shaferman等人的思想, 推导出一个有偏置的最优制导律, 所提出的制导律适合于拦截高速机动的目标, 并且在临近终点时需要较小的制导指令, 可以成功避免指令饱和, 但参数选取是一大难点。

(2) 剩余时间约束

在导弹制导和空间交会等场景中, 通过估算目标到达时间(即剩余飞行时间)来调整制导策略, 以提高制导的效率和准确性。 剩余时间约束多用于协同制导问题, 要求飞行器在同一时刻到达目标位移, 以实现对目标的围捕, 达到协同效果; 剩余时间约束也可用于优化制导算法, 确保飞行器能在最短时间内击中目标, 有助于减少目标逃逸概率, 同时提高制导系统对快速变化情况的适应能力。

近年来, 研究者们通过引入时间优化模型或引入偏置项来满足剩余时间的约束。 文献[22]在最优导引律中引入时变修正项, 实现了对导弹飞行时间的准确控制; 文献[23]基于二维制导模型, 在小角度假设下推导了剩余飞行时间的估算模型, 通过构造时间误差和滑模面,设计了一种无奇异点的时间约束末制导律, 能够控制导弹以期望的攻击时间击中目标点, 并通过设计附加项解决制导律的控制奇异问题; 文献[24] 针对空空导弹期望时间拦截强机动目标问题, 提出一种不依赖剩余时间估计的新型攻击时间约束滑模制导律; 文献[25]结合一致性算法设计分布式制导律, 并基于李雅普诺夫理论证明系统在有限时间收敛, 可以实现同时打击。

(3) 过载能量约束

受物理结构和动力系统的限制, 飞行器的可用过载并不能满足所有的制导指令需求, 因此在进行制导律设计时需要考虑过载约束问题。 目前在飞行器博弈制导中过载约束问题的研究主要包括两个方向: 一是以过载二次型积分形式为性能函数的能量最优问题, 也被称为过载“软约束”问题; 二是严格保证过载不超限的“硬约束”问题。

在博弈制导中的微分博弈模型能够有效解决各种约束问题, 针对“软约束”问题, 借助最优控制理论求得微分博弈模型的纳什均衡解, 但这往往存在小区间内的过载发散问题, 因此过载硬约束问题的研究非常重要。 目前大多数研究者通过施加饱和控制来避免过载超限问题, 很少从根本上将过载约束考虑进制导律的设计中。 文献[26]提出一种带有时变加速度限制的微分博弈制导律; 文献[27-28]提出一种考虑加速度硬约束的组合线性二次型制导律, 采用分段思想, 在制导初段预先将状态约束到一个奇异博弈空间, 在该博弈空间能够保证飞行器在实现末制导打击的同时, 制导指令不超出可用过载。

(4) 末速最大约束

高末速可以增强穿透力和破坏力, 提升攻击的有效性, 末速最大约束用于确保制导武器在接近目标时保持较高速度, 这对于打击高机动性目标尤为关键。 研究者们通过改善推进系统和优化飞行轨迹来实现高末速。 在博弈制导中, 可建立控制量与末速度间的映射关系, 将末速度作为终端约束引入性能指标, 然后借助博弈模型进行求解, 但目前的研究较少。

上一篇 点击页面呼出菜单 下一篇