基于任务评估反馈的异构无人机动态任务分配
作者: 张友安 何子琦 李博宸 宋磊
摘 要: 异构无人机在动态战场环境下的任务分配是实现无人机快速战斗力生成的关键技术之一。 针对现有异构无人机的任务分配方法难以响应战场不确定性带来的任务需求变化和潜在的求解可行性问题, 提出一种基于任务评估反馈的动态任务分配方法。 通过设计任务评估反馈模块实现对无人机任务执行效能的实时监控, 并利用事件触发机制响应动态环境中变化的任务需求, 基于深度Q网络实现异构无人机分配, 利用任务分配和执行解耦以及动作过滤机制缓解传统强化学习稀疏奖励导致训练难以收敛的问题, 形成动态快速的任务实时响应方案。 仿真结果表明, 提出方法可有效应对不确定战场环境带来的任务失效, 最终实现比现有方法更优的任务完成率。
关键词: 无人机; 任务分配; 战场不确定性; 任务评估; 稀疏奖励; 深度Q网络; 强化学习
中图分类号: TJ760.1; V43
文献标识码: A
文章编号: 1673-5048(2024)06-0078-08
DOI: 10.12132/ISSN.1673-5048.2024.0027
0 引 言
无人机因其功能种类丰富, 适用场景广泛, 控制自由度高等特性, 在未来军事领域的应用中被各国政府寄予厚望[1-3]。 当前, 搭载各类载荷、 机动能力不一的多型异构无人机已列装或具备大规模使用条件, 异构无人机的作战运用已成为亟待解决的热点问题。 以任务为牵引, 组建符合任务需求的无人编组, 从而快速形成战斗力施用于实际战场环境, 是解决无人机应用的关键技术之一。 通过匹配无人机能力属性与任务需求, 实现对无人机的任务分配, 是组建无人编组的可行技术路线[4-6]。 与常规商业用途不同, 战场环境更加复杂多变, 突发事件以及天气等不可控因素更多, 给无人编组的实际任务收益带来了较大的不确定性[7-8]。 因此针对战场环境下的异构无人机任务分配问题, 不仅要求给出满足任务需求的任务分配方案, 同时需要能够根据战场态势的变化以及已分配任务执行状态的反馈, 及时对分配方案进行调整, 以保证无人编组能够顺利实现预定的作战目标。
针对无人编组的任务分配问题, 较为传统的方法大多基于优化算法以及智能搜索算法进行求解。 文献[9]针对传统目标优化算法难以解决混合变量和多个复杂约束的问题, 提出了一种基于拐点的协同多目标粒子群优化算法。 文献[10]考虑不确定性因素对任务分配结果的影响, 基于模糊可信性理论提出了一种模糊机会约束规划模型, 并采用自适应参数调整策略等多种方法对模型进行了优化, 使得模型在不确定性环境下的表现有所提升。 文献[11]提出一种基于合同网的分布式多无人机任务分配方法, 解决了通信约束下的异构无人机察打任务分配问题。 上述传统的优化算法, 大多未考虑任务执行过程的不确定性, 或者在处理环境不确定性时引入人为的主观因素, 难以实现战场环境下的动态任务调度。 在动态战场环境下, 传统的优化方法在资源能力和复杂环境不确定性的双重影响下, 容易出现实时求解不可行的问题。
近年来, 深度强化学习技术的不断发展为动态不确定环境下的任务分配问题求解提供了新的解决思路。 文献[12]将任务分配问题建模为马尔可夫决策过程, 提出了一种基于强化学习的任务分配方法, 能够在考虑环境不确定性的情况下进行任务分配, 与搜索优化算法相比取得了更优的求解效率。 文献[13]针对集群在线任务分配存在的环境不确定、 耗时过长等问题提出了一种基于分区间强化学习的快速任务分配算法。 与传统优化算法相比, 上述方法在解决不确定性问题方面具有一定的优势, 然而仍局限于静态问题, 通常假设在任务分配开始前就已经获得所有任务的全部信息, 任务执行过程的实际状态并未得到充分考虑。 在战场对抗环境中, 实际任务需求往往难以获得精确估计。 如击毁某目标建筑物所需自杀式无人机数目通常难以预知, 需要根据任务执行过程进行无人机动态调度和编组调整。 上述静态任务分配缺乏对于任务执行过程中突发事件的响应能力, 而利用多智能体强化学习进行任务需求到无人机动作的端到端生成往往存在稀疏奖励的问题, 导致训练难以收敛[14]。 针对以上问题, 基于分层解耦的方法可实现动态环境下的有效任务响应[15-16]。 如文献[17]提出了一种根据任务执行效能反馈对任务进行优化再分配的架构, 在具有较强外部扰动环境下, 实现了弹性任务分配。
为了实现任务动态响应, 同时缓解强化学习训练过程存在的稀疏奖励问题, 本文提出了一种具有分层反馈结构的任务分配框架, 通过任务评估模块构建任务执行到任务分配的反馈机制, 根据实际任务效果动态调整任务分配结果, 从而应对实际战场环境带来的不确定性。 基于深度Q网络求解任务分配问题, 利用任务评估模块实时反馈当前时步任务信息, 以缓解仅考虑任务完成结果导致的稀疏奖励, 并设计动作过滤机制提升训练的收敛速率。 当任务执行受阻时, 该框架可根据任务执行反馈的数据重新评估任务需求, 并更新任务分配方案, 直至总体目标达成。 相比于文献[9-13], 本文提出方法的优势可总结如下:
(1) 通过任务执行反馈信息及时对无人编组构成进行调整, 充分考虑了环境不确定性对任务分配结果的影响, 实现对战场态势的快速动态响应, 同时避免了传统优化方法存在的求解可行性问题。
(2) 采用计算解耦的思想, 缓解了强化学习算法中稀疏奖励导致训练难收敛的问题, 在深度Q网络的基础上, 引入了动作过滤机制, 提升了模型的训练速度和训练效果。
1 无人编组动态任务分配模型
本文主要考虑战场不确定性环境下的无人编组任务分配问题, 即在给定异构无人机能力情况和初始任务部分信息的条件下, 生成任务分配方案从而组建无人编组执行指定任务, 同时能够根据无人编组的任务执行效果动态调整任务分配方案以满足实际任务需求。 其中任务分配指根据已知信息按照优先级顺序为每个任务构建无人编组, 使得任务能够完成且执行成本最低。 由于在任务开始前, 难以获得关于任务的完整信息, 且环境条件使得无人编组实际执行效能具有不确定性, 因此需要在任务执行过程中, 通过任务执行评估模块根据执行状况对前期估计的任务需求进行调整, 并适时调整分配方案以动态应对未知或突发状况。
1.1 任务分配
假设共有Nk种类型的无人机可供调用, 设i种类型的无人机可供调用的数量为Nui。 不同类型的无人机具有不同的若干种能力属性, 如隐身能力、 侦察能力等。 设Nk种类型的无人机共有Nc种能力, 由矩阵 Fu∈瘙綆Nk×Nc表示。 其中Fuij 表示第i种类型的无人机第j种能力属性的大小。 假设无人机的能力属性受到天气等环境因素的影响。 给定任务周边环境条件Env(Tk)下, 第j种能力属性的实际效能服从高斯分布N(μjk, σjk), 其中μjk, σjk为给定的经验值。
设当前战场上有Nt个需要监视、 攻击或驱赶的目标, 因此需要对每个目标执行特定战术任务。 设任务间不存在相互依赖, 每个任务Tm需要由一组具有相应能力的无人机协作完成, 如完成近距离侦察任务的一组无人机需要具备隐身、 侦察和信息传输的能力。 完成任务所需的能力使用任务能力需求矩阵Ft∈瘙綆Nt×Nc表示。 当分配的一组无人机能够提供任务所要求的全部能力时, 认为该任务能够顺利执行。 考虑资源有限条件下, 可能存在有任务无法被立即完成的情况, 因此根据任务紧迫性与重要程度, 对任务优先级进行评估, 优先确保重要任务能够完成。 设任务集合T表示当前战场中存在的所有作战任务, 则T={T1, T2, …, TNt}, 其中下标表示该任务的优先级。
任务分配问题, 即为每个任务Tm分配一组满足约束的无人机, 使得任务能够完成且执行成本最低。 由此, 构建任务m的代价函数:
Rm(dm, δ+m)=-wmdm+dm∑Ncj=1δ+m, j (1)
代价函数由任务完成情况和资源冗余两部分组成。 式中: wm表示任务m的优先级权重; dm为0, 1变量, 表示任务m是否满足其全部能力需求; δ+m, j表示任务m中能力j超出需求的程度。 考虑任务需求与环境因素影响, 建立任务分配的混合整数线性规划问题模型:
mina, δ+m, j, δ-m, j, b, dJ=∑Ntm=1Rm(dm, δ+m)
s.t.
am, -fa(Fu|Env(Tm))-, j=Ftm, j+δ+m, j-δ-m, j
am, -fa(Fu|Env(Tm))-Ftm, j≥-M(1-bm, j)
bm, -C-, m≥-M(1-dm)
a-, j1≤Nui
δ+m, j≥0, δ-m, j≥0, j∈{1, …, Nk}
ami∈
i∈{1, …, Nk},
j∈{1, …, Nc}, m∈{1, …, Nt} (2)
式中: a∈t×Nk表示任务分配结果矩阵, am, -表示矩阵的第m行, 即任务m的分配结果; δ-m, j表示任务m的能力j不满足需求的程度; bm, j为0, 1变量, 若任务m的能力j满足约束要求, 则bm, j=1, 未被满足则为0。 fa(Fu|Env(Tm))表示无人机在任务地点附近环境条件Env(Tm)下实际具备的能力; M为无限大正数, 1为全1向量。 C∈Nt为任务能力特征矩阵:
C-, m=(Ft)T·diag1vm-, m(3)
式中: vm为(Ft)T第m列的元素之和, 即矩阵C的每一列元素之和为1。
在上述模型中, 优化目标为尽可能使优先级较高的任务需求得到满足, 并减少资源冗余。 式(2)中第一条约束中松弛量δ+m, j, δ-m, j分别表示任务m所需能力j冗余和未被满足的部分, 通过在目标函数中极小化分配成功的任务的能力冗余量实现资源的合理分配。 式(2)中第二条约束通过引入变量bm, j对任务中单项能力是否满足进行标记。 约束3通过任务能力特征矩阵C判断该任务所需能力是否得到满足, 并通过变量dm表示, 通过在目标函数中对dm进行加权, 使得优先级较高的任务需求能够优先被满足。 约束4保证分配方案具有可行性。
1.2 任务评估反馈
考虑在战场不确定性环境中, 通常难以在任务开始前获得关于任务的全部准确信息, 因此为了能够顺利完成任务, 以及应对执行过程中的突发状况, 需要通过任务执行状态对预先估计的任务需求进行不断调整。
假设所有参与任务的无人机都能够与指控中心通信。 在任务开始前根据已知情报, 评估各任务需求并给出Ft。 设无人机系统理论状态满足:
x·sim=f(xsim)+g(xsim)u(4)
式中: xsim为无人机理论状态; u为无人机控制输入。 考虑到突发的恶劣天气以及对方阵地未知的对空防御力量等状况可能会导致无人机偏离预定理论轨迹, 无人机任务实际执行状态定义为xact, 并与任务实际情况Tr有关: