基于人工智能技术的火力运用辅助决策系统

基于人工智能技术的火力运用辅助决策系统0

摘要：随着军事任务的多样性和火力成分的多元化，高效火力运用的难度逐渐增加。针对步兵战车火力运用智能辅助决策问题，围绕步兵战车分队火力打击目标威胁估计、火力分配、毁伤等级评估和火力运用等方面需求，基于深度强化学习、优化技术实现步兵战车分队指挥的火力分配辅助决策应用研究，开发了基于人工智能技术的火力运用辅助决策系统，通过实验验证火力运用原则等火力运用理论研究成果的有效性，支持了本领域内相关教学、科研工作。

关键词：火力运用；辅助决策；循环神经网络；深度强化学习；遗传算法

中图分类号：TP18 文献标识码：A

文章编号：1009-3044（2022）30-0014-04

开放科学（资源服务）标识码（OSID）：

现代化战争的特点及其对指挥的要求，已迫使我们不得不进行军事辅助决策系统的研究[1]。步兵战车火力运用研究，需要紧密结合各种作战类型的战术环境，应用前沿的人工智能技术[2-3]，并通过计算机辅助决策[4-5]。

李大鹏等人[1]采用层次分析法和线性规划法对坦克连冲击时目标价值和火力分配问题进行了分析，并在理论分析基础上，开发了火力分配辅助决策软件。巩珏等人[6]研究并开发的辅助决策系统使得炮兵打击辅助决策和军事地理信息系统不再独立，而是将来两者紧密结合了起来，并且该系统基于MGIS。孙心珲[7]根据炮兵指挥自动化系统和炮兵设计训练模拟系统的发展要求，建立到了辅助决策专家模型和炮兵分队设计指挥评估模型，有一定指导作用。辅助决策系统在舰艇防空作战也有所研究，姚晓白等人[8]根据该方面对火力分配的需求，并结合舰艇武器系统的具体特点，建立了面向辅助决策系统的舰艇防空火力分配模型。张弛等人[9]采用战术兵棋的相关理念，提出了基于地形的战场火力势算法，用于定量表现战场中火力体系的强弱分布态势，辅助指挥员进行决策，提高指挥谋略和作战计算能力。王宏磊等人[10]对战场实际情况作出合理假设，并在此基础上基于马尔可夫理论建立动态火力匹配模型，建立的模型对许多辅助决策系统的开发提供了理论基础，尤其在对指挥系统的目标处理子系统及战场目标综合处理等方面尤为重要。以上研究面向炮兵指挥、舰艇防空作战指挥等领域，本文将围绕步兵战车分队火力打击目标威胁估计、火力分配、毁伤等级评估和火力运用等方面开展研究和系统开发。

1 系统总体设计

1.1 设计思路

步兵战车分队指挥时形成火力分配决策，这是步兵战车火力运用的核心问题。采用深度强化学习技术，构建步兵战车分队指挥智能体（简称分队指挥AI），将深度神经网络放在步兵战车分队作战环境下进行训练，使分队指挥AI兼具威胁估计能力和目标分配决策能力，通过毁伤评估作为环境奖励，不断优化目标分配策略，实现基于人工智能技术分队指挥的“自我进化”，总体设计思路如图1所示。

1.2 功能构成

基于AI技术的步兵战车火力运用辅助决策系统，以步兵分队指挥火力分配辅助决策为核心任务，包括应用层、交互层、功能层、计算层和资源层，功能组成架构如图2所示。

2 功能模块构建与实现

2.1 威胁估计模块

威胁估计模块用于根据步兵战车分队作战态势得出敌方目标威胁程度、等级，并进行威胁排序。项目主要进行目标威胁度评估，进而得到威胁度优先级排序。该模块由威胁度评估指标构建、威胁度评估特征空间约简等7个子模块构建，其组成结构如图3所示。

其中，目标威胁度评估综合子模块采用模糊综合评判方法，根据评估指标的隶属度，把定性评价转变为定量评价，对受多种因素影响的目标威胁做出整体评价，并确定目标威胁等级。

模糊评价是利用数学方法，按照评价标准和实测值，对事物做出评价前进行模糊变换的一种方法。而综合评价就是对受许多要素影响的对象或事物做出总体评价，即根据对评价的全体所给的条件，先对其中的所有对象赋予一个实数，所赋予的实数要求为非负的，该非负实数即为评价结果，得出评价结果后进行排序，最后择取适当的结果。模糊综合评价方法的过程可大体分为6步，具体步骤如下：

1）确定因素集

首先，建立所研究问题的评估指标体系，然后将建立的指标体系映射为相应的模糊综合评估因素集。设确立的评估因素集为[U=u1，u2，…，um]，m表示评估因素数量，即评估基础指标的数量。

2）确定模糊评判集和对应得分

常用模糊评判集一般有两种，第一种是[v1]={优、良、中、差}，第二种是[v2]={好、较好、一般、较差、差}。这两种评判集使用人员可以任选一种，或根据所研究具体问题的需要，设计适当的评判集。评判集确定后，就应为模糊综合做准备，即明确所有评判等级的分数。设确定的评判集得分为[v=v1，v2，…，vm]，m的含义同上。

3）确定底层指标的隶属度函数

所谓底层指标的隶属度，就是底层指标的无量纲的0-1的评估值，如0.9。确定底层指标的隶属度，就是实现评估基础指标值的无量纲转化。本文中对所有底层指标区分指标的类型，定性指标采用专家方法确定隶属度，定量指标采用统一的隶属度函数确定隶属度，将专家方法与函数方法相结合。

假设有n名专家对于某一因素逐一打分，第j个专家在（0，1）上给出该指标得分值为[xj]，其自信度为[aj]，n名专家分别打分后会得到n个数对[xj，aj]，j=1，2，…，n，即n个专家的分值和自信度数对，则该因素或该评估指标的隶属度为：

[Rj=j=1najxjj=1naj] （1）

其中，[Rj]就是待评估指标的隶属度值，它是一个无量纲的0到1的数。

随后，将评估对象相对于理想对象的满意程度或匹配程度，定义为该评估对象的满意度，即隶属度[R]。例如，对某些取值要求越大越好的指标，即效应型指标，则隶属度为：

[Rj=1 xj≥Mjxj-mjMj-mj mj≤xj≤Mj0 xj≤ mj] （2）

其中，评估指标为效应型；上式中[xj]代表指标初始评估值；[Mj]代表理想最大值，[mj]为理想最小值。

根据以上情况可类似处理成本型指标。对适中型指标，则隶属度为：

[Rj=2×xj-mj Mj-mj mj≤xj≤Mj-mj22×Mj-xj Mj-mj Mj-mj2≤xj≤Mj0 xj> Mj或xj<mj]（3）

4）基于AHP的指标加权

在模糊综合评判过程中，综合评判的结果受指标权重的直接影响。模糊综合评估方法不同于传统的评估方法，该方法确定指标权重时采用的是AHP层次分析法。具体步骤如下：

首先，选用一种AHP打分方法，对评估指标体系中的同层因素两两比较量化，生成判断矩阵：

[A=aijn×n]；

其次，进行层次排序及其一致性检验。在求出矩阵A的所有特征值后找出其最大值，再使最大值所对应的特征向量中的各元素之和为1（即归一化），得到的结果为某层各个因素对应于上层某因素的相对重要性权值。判断矩阵受人们的主观判断影响，因此不可避免地带有估计误差，所以还需进行一致性检验。

5）确定模糊聚合方法

得到本层指标的隶属度值是模糊综合的目的。为了更好地达到这一目的，模糊聚合综合了两类信息，一类是下层指标的隶属度值，另一类是下层指标对本层的权重。模糊综合方法常用如下两种：

（1）模糊矩阵的合成运算，实现模糊聚合，即：

[B=A∘R=B1，B2，…，Bn] （4）

式中，n为评判等级数；[Bn=∨mAi∧Rij]，j=1，2，…，n；∧表示[Ai]与[Rij]比较取最小值；∨表示要在[Ai∧Rij]的几个值中取最大值。[B]的各分量之和如果不为1，则需进行归一化处理。

6）模糊综合

为了得到最终结果，需进行模糊综合来确定顶层指标对各评价等级的隶属度，计算公式如下：

[D=BVT] （5）

其中，[B]、[V]、[D]分别有不同含义，[B]为顶层指标的隶属度向量，[V]为评判集得分向量，[D]为顶层指标的模糊综合评价值。

以上步骤，就实现了评估基础指标的无量纲化、评估聚合和评估综合，得到了用户最关心的顶层指标，即作战效能的模糊综合评估值，完成了基于模糊综合评价方法的作战效能评估解算过程。

2.2 火力分配模块

火力分配模块用于根据步兵战车分队作战威胁态势和己方兵力态势进行火力分配决策。该模块由初始打击方案生成、目标毁伤效果预估和火力分配策略优化模型构建等五个子模块构成，其组成结构，如图4所示。

该模块的输入为威胁估计数据和毁伤评估数据，输出为火力分配决策文本。其中，毁伤评估数据作为火力分配策略优化的行动效果反馈数据。

火力分配策略优化模型构建子模块是火力分配模块的核心子模块，也是系统功能实现的关键核心部分。该子模块用于构建火力分配方案的优化策略空间，并采用一定的优化方法，在策略空间进行火力分配方案寻优，支持火力分配方案优化或火力分配策略优化。优化产物用于支持射击规则的更新。

火力分配策略优化模型构建的基本运行框架，如图5所示。

本文构建遗传算法模型，支持火力分配方案探索优化。遗传算法（GA）是一种逐步寻找最优解的优化算法，该算法的思想与人类进化过程相似，简而言之，就是适者生存，优胜劣汰，只不过该过程是用计算机来进行模拟。遗传算法实现全局优化是利用个体与群体间的信息交互，搜索信息是适应度函数，运算对象为决策变量的编码，算法流程如图6所示。

1）初始化种群，在产生种群的过程中必须是随机的，种群中的个体不只是个体，还代表了其对应的染色体基因编码。

2）编码与解码。把待解决的问题参数转化为种群的染色体基因码空间，其实质就是将问题参数化描述。