基于强化学习的带落角约束的制导律研究

基于强化学习的带落角约束的制导律研究0

引用格式：康冰冰，姜涛，曹建，等. 基于强化学习的带落角约束的制导律研究［ J］. 航空兵器，2023， 30（ 6）： 44-49.

Kang Bingbing，Jiang Tao，Cao Jian，et al. Research on Guidance Law with Constraint Attack Angle Based on Reinforcement Learning［ J］. Aero Weaponry，2023， 30（ 6）： 44-49.（ in Chinese）

摘要：针对以特定角度攻击面目标的制导律设计问题，采用深度确定性策略梯度算法构建强化学习制导律模型，设计了模型状态、奖励规则及制导环境。通过设定不同的初始条件和攻击角度，训练强化学习制导律模型，获得了稳定的制导律。强化学习制导律能够使导弹以设定的落角命中固定目标，以较小的落角误差命中低速运动面目标。仿真结果表明，与带落角约束的最优制导律相比，带落角约束的强化学习制导律的约束角度收敛速度更快，加速度变化更加平滑，制导末时刻的加速度值更小，适应战场环境的能力更强。

关键词：制导律；强化学习；深度确定性策略梯度；落角约束；马尔可夫；智能算法

中图分类号： TJ765

文献标识码： A

文章编号： 1673-5048（2023）06-0044-06

DOI： 10.12132/ISSN.1673-5048.2023.0062

收稿日期： 2023-04-10

*作者简介：康冰冰（1991-），男，山东潍坊人，讲师，博士。

0 引言

毁伤目标首先考虑的因素是武器弹药能否命中目标或者脱靶量是否在一定的毁伤范围内。与非制导武器相比，制导武器极大的提高了命中目标的精度，保证了毁伤效果。制导律是制导武器提高命中精度的核心之一，制导律一般通过最优控制、李雅普诺夫稳定性理论、滑模控制等算法［1］设计，最常用的制导律是比例导引律及其偏置形式［2］。

在实际作战中，弹目交会情形和目标易损特性等也极大的影响作战使用效率，如攻击混凝土结构、钢制结构等坚硬目标时，弹着角过小容易发生跳弹；攻击舰船、建筑物等目标时，导弹以一定的方向攻击目标的易损部位，可以增加毁伤效果。因此，针对特定目标，尤其是地面、海面目标，制导武器以一定的角度攻击目标，可以达到更好毁伤效果。

针对固定目标，文献［3］利用计算几何学设计了制导律，调整终点碰撞线，导弹能以指定落角攻击目标，通过调整轨迹长度控制导弹飞行时间；文献［4］利用直线飞行的虚拟领弹建立几何关系，采用最优控制使跟踪弹飞行轨迹与虚拟领弹同步，实现了特定落角攻击目标；文献［5］利用最优控制推导带落角约束的偏置比例制导律；文献［6］推导了三维协同制导律，制导过程分为协同、比例导引两个阶段，基于此研究了导弹以不同的落角攻击目标的协同制导律［7］；文献［8］利用李雅普诺夫稳定性定理，设计制导误差并进行收敛设计，实现了具有固定落角的协同制导；文献［9］以比例制导律为基础设计了具有固定落角约束的制导律，且收敛时间固定。

针对具有约束的制导问题，传统的设计方法一般计算比较复杂，有的还需要做一些近似处理。近年来，随着人工智能的发展，智能算法开始进入武器领域，文献［10］综述了智能航迹规划算法，对强化学习、神经网络、深度学习等算法进行了分析；文献［11］利用深度神经网络预测导弹撞击目标的时间，实现导弹协同攻击固定目标；文献［12］针对机动目标采用DDPG设计了制导律，与比例制导律、改进的比例制导律相比，脱靶量更小，拦截效果更好；文献［13］采用Q-learning、EBDQN设计了导航比具有自适应特性的末制导律，与传统方法相比，脱靶量更小，更加稳定；文献［14］设计了DQN与神经网络结合的制导律，与DQN制导律相比，脱靶量更小；文献［15］设计了基于TD3算法的制导律，制导律的泛化特性较好；文献［16］设计了基于TRPO的强化学习制导律，与比例制导律相比，具有更好的拦截效果；文献［17］设

计了基于蒙特卡洛和Q-learning的两种强化学习的导航比，与传统比例制导律相比，具有更好的拦截效果；文献［18］基于分层强化学习算法研究了空战决策，结果表明训练的模型能有效提高辅助决策效率；文献［19］利用DDPG算法构建了制导、控制一体化框架，算法直接输出舵偏量，该算法的能耗更低。

比例制导律及其变型是应用广泛的制导律，当弹目交会状态有一定约束时，尤其是目标存在一定的速度时，传统制导律能否适应复杂的战场环境值得分析。由于强化学习在制导律设计上展现出了独特的优势，受此启发，本文采用强化学习算法，针对具有落角约束的制导问题展开研究，并与传统的最优制导律（扩展比例制导律）对比分析，验证了强化学习制导律的有效性和对战场环境的适应性。

1 问题描述

如图1所示，采用二维平面图描述空面导弹攻击固定目标的情形，导弹简化为平面上的一个点，并假定导弹速度恒定，加速度只能改变速度的方向。图中，T为要攻击的固定目标，坐标在原点为（0，0）；空面导弹M末制导初始时刻位于（xM， yM）；速度是恒定值为vM；加速度为aM；LOS为弹目视线；l为弹目距离；η为弹道倾角；θ为弹目视线角；θF为终端落角；ζ为方向误差角。由于末制导导引头需要对目标进行探测，因此，假定方向误差角ζ<π2。

弹目几何关系可以用下式表示：

dldt=－vMcosζ（1）

dθdt=－vMlsinζ（2）

dηdt=aMvM（3）

ζ=η－θ（4）

整理式（2）～（4）得

dζdt=aMvM+vMlsinζ（5）

2 最优制导律

最优制导律（Optimal Guidance Law，OPL）是传统成熟的制导律，设初始弹目距离l=l0，终端弹目交会时弹目距离接近0，令lF=0，终端落角约束为θF。

在以上约束条件下，性能指标函数设定为

J=12∫0r0a2Mlndr（6）

式中： n≥0。

根据最优制导律的求解方法得到加速度［2］：

aM=－v2Ml（n+2）（n+3）sin（η－θ）+

v2Ml（n+1）（n+2）（θ－θF）（7）

式（7）是扩展比例制导律的形式，考虑到空面导弹的过载限制，本文令加速度满足-90≤aM≤90。

3 强化学习制导律

3.1 强化学习

在机器学习中，各种学习算法通常需要批量的输入数据和对应的输出数据或标签数据，这些数据集还应满足独立同分布。通过对数据的训练，机器学习寻得数据的内在规律，训练好的模型可以对一个输入数据进行输出预测，并且预测值与观测值一致或预测误差很小。但是在一些情况下，数据是序列的，不满足独立同分布。例如导弹制导问题，前一时刻与后一时刻的制导飞行数据间有强相关关系，需要连续的制导飞行数据才能确定制导律的好坏，一个特定时刻的加速度值无法做出正确的判断。这就是强化学习要解决的问题。

强化学习基本原理如图2所示，智能体是做出决策的机器，智能体感知环境状态st计算出相应决策动作at，动作at作用于环境产生了奖励r，环境进入下一个状态st+1，智能体根据新的状态做下一个决策。依照一定的算法，可以计算出使累计奖励最大的决策动作序列，这就是强化学习的思想。

强化学习的核心是马尔科夫决策过程，马尔科夫决策过程可由一个五元组［S， A， P， r， γ］表示。S为由状态构成的集合，状态可以是离散的，也可以是连续的；A为由动作构成的集合，动作集合可以是有限的，也可以是无限的；r为奖励函数，通常表示为r（s，a），r的值由状态s及动作a共同确定，考虑到动作a影响状态s，在某些情况下r也可表示为r（s）；P（s′|s，a）为状态转移的概率函数，即在状态s下采取动作a进入下一个状态s′的概率；γ为折扣参数，通常是介于0到1之间的数。

为了判断智能体决策的优劣，将t时刻以后的奖励相加得到Gt，并称为回报：

Gt=rt+γrt+1+γ2rt+2+…=∑∞i=1γirt+i（8）

考虑到马尔科夫决策过程可能处于无限循环，折扣参数γ＜1可以避免回报无限的大。rt是现时刻得到的奖励值，而t+1时刻以后的奖励rt+i是对未来的估计值，存在一定的不确定性。降低折扣参数可以提高现时刻奖励的重要程度，同时降低未来时刻的不确定性。

这样智能体以最大化回报的期望为目标，以当前状态为输入，输出一个动作。智能体选择动作的规则或者函数称为策略π，可表示为

π（a|s）=P（At=a|St=s）（9）

式中： P为概率函数，表示智能体根据输入状态s输出动作a的概率。如果P是在输入状态s输出动作集A的概率分布，则这个策略是随机性策略，策略根据概率采样输出一个动作a；如果在输入状态s下输出一个确定的动作，即输出该动作的概率，P=1，则这个策略就是确定性策略。

判断策略的好坏是通过贝尔曼期望方程实现的：

Qπ（s，a）=γ∑P（s′|s， a）∑π（a′|s′）·

Qπ（s′，a′）+r（s，a）（10）

Vπ（s）=∑π（a|s）r（s，a）+∑π（a|s）·

（γ∑P（s′|s，a）Vπ（s′））（11）

式中： Qπ（s，a）为策略π下的动作价值函数；Vπ（s）为策略π下的状态价值函数。

3.2 深度确定性策略梯度（DDPG）算法

DDPG算法是可以处理连续动作空间的离线学习策略。DDPG算法框架如图3所示，策略网络和评价网络均使用神经网络结构。策略网络用于拟合状态s与动作a的函数关系a（s），策略网络在动作价值的评判下，通过训练寻找最优策略。估计网络用来拟合状态s、动作a与奖励r的函数关系r（s，a），通过离线的数据进行训练。策略网络、评价网络和环境构成了一个完整的马尔可夫决策过程。估计策略网络和目标策略网络具有相同的神经网络结构，神经网络参数分别为σ和σ′。估计评价网络和目标评价网络具有相同的神经网络结构，神经网络参数分别为ω和ω′。采用两套相同评价网络和策略网络是为了防止神经网络参数变化过于剧烈，解决神经网络训练不稳定的问题。估计网络实时更新参数ω和σ，目标网络按照下式软更新参数ω′和σ′：

ω′=τω+（1－τ）ω′（12）

σ′=τσ+（1－τ）σ′（13）

式中： 0<τ≤1。

估计评价网络按照下式，最小化目标损失更新网络参数ω：

L=1N∑Ni=1（yi－Qw（si，ai））2（14）

式中： Qw（si，ai）为估计评价网络的输出；yi为目标评价网络的输出， yi=ri+γQw′（s′i，a′i），Qw′（s′i，a′i），a′i=μσ′（s′）为目标策略网络输出。

估计策略网络采用链式法则最大化Qw梯度策略更新估计策略网络参数σ：

基于强化学习的带落角约束的制导律研究

经典小说推荐

杂志订阅