红外对抗中各因素之间关系的深度挖掘

作者: 陈鞭 伍友利 吴鑫 甘跃鹏

红外对抗中各因素之间关系的深度挖掘0

摘要:为研究红外对抗中各因素之间及其与导弹脱靶量之间的关系,基于FP-Growth算法进行关联规则挖掘。在红外对抗挖掘过程中,用K-Means聚类算法对诱饵投掷时刻、导弹进入角和弹目初始距离等连续因素进行离散化处理,用Kulc和IR指标对得到的关联规则进行深度筛选。两个筛选指标共过滤掉69条效果不佳的关联规则,得到最终规则。结果表明,关联规则挖掘方法在红外抗干扰评估研究中有效可行,可为分析红外对抗问题提供研究思路。

关键词:红外对抗;聚类离散化;关联规则;Kulc指标;IR指标; 诱饵; 目标; 导弹

0引言

红外对抗是红外空空导弹与目标相互博弈的一个过程。红外对抗是高非线性、高复杂性问题,对其研究的关注点是在不同的对抗场景下,红外导弹能否命中目标,即脱靶量是否满足要求。但是红外对抗中的影响因素众多,包括导弹、目标、诱饵以及弹目相对态势等方面[1-2],且存在很大的不确定性。对于这种超复杂的红外对抗问题,虽然目前无法直接给出各影响因素与脱靶量之间的函数关系,但是仍然需要研究其之间的联系,发现影响导弹抗干扰能力的一些规律。

关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表现出来。文献[3]利用关联规则探索危险源原因,从而挖掘出导致危险源的不安全事件。文献[4]采用关联规则方法挖掘图书馆图书流通数据,不仅帮助读者找到不同学科知识之间的内在联系,同时还有利于图书馆调整资源布局。文献[5]使用关联规则方法研究隧道管片渗漏与盾构掘进参数之间的关联性,分析关键掘进参数渗漏原理。文献[6]根据数据挖掘理论,挖掘出民航鸟击事件中各属性间的关系,从而发现导致鸟击事件的相关因素。文献[7]通过关联规则方法对数据进行挖掘分析,根据得到的关联规则强弱对红外抗干扰评估指标体系进行约简。同样,关联规则方法也可应用到红外对抗问题中,但以上文献中对于连续型因素都是直接根据经验人为取值或划分区间来进行离散化,未充分利用已有数据;同时,对于挖掘出的关联规则,直接作为最终规则使用,没有对规则本身进行深入分析和筛选。

为此,本文将基于获取的试验数据,采用K-Means聚类算法对连续因素离散化,预处理后用FP-Growth算法进行关联规则挖掘,然后用Kulc和IR两个指标对所得规则作进一步分析和筛选。

1对抗因素分析

红外对抗示意图如图1所示[8]。红外导弹打击目标飞机时,飞机会投掷诱饵弹来干扰导弹,从而影响导弹的作战效能。导弹、目标飞机、诱饵是红外对抗过程中的三个主要因素,此外,还有弹目相对态势、自然环境等。

基于以上分析,本文确定的红外对抗因素见表1。

其中,诱饵齐投数及方向取值:1表示单发左右交替

投掷,即目标向左侧投掷1枚诱饵,经过相应的组内时间间隔后,再向右侧投掷1枚,然后经过组内时间间隔后,再向左侧投掷1枚,如此循环,每次仅投掷1枚,直至这一组诱饵投完;2表示单发左右同时投掷,即目标同时向两侧各投掷1枚诱饵,经过相应的组内时间间隔后,再同时向两侧各投掷1枚,如此循环,每次共投掷2枚,直至这一组诱饵投完;3表示双发同时左边投掷,即目标向左侧一次性投掷2枚诱饵,经过相应的组内时间间隔后,再向左侧一次性投掷2枚,如此循环,每次投掷2枚,直至这一组诱饵投完;4表示双发同时右边投掷,与3类似。

诱饵组数蕴含在因素的取值中,可由诱饵总数除以每组诱饵数得到,如诱饵总数为12枚,每组诱饵数为4枚,则有3组。一组投完后,经过相应的组间时间间隔,再接着投下一组,且每一组均按照选定的诱饵齐投数及方向投掷诱饵。组与组之间可能有交集:当组内时间间隔较大,而组间时间间隔较小时,一组诱饵可能还没投掷完,就已经经过了相应的组间时间间隔,需要开始投掷下一组诱饵了,这种情况是可以的。因为在诱饵投掷器中,每组诱饵之间互不干涉,按照设定的程序各自独立投放诱饵,每组的工作持续时间可能有“干涉”。航空兵器目标机动类型取值:1为无机动;2为右转弯机动;3为左转弯机动;4为跃升机动;5为俯冲机动。目标的每种机动类型数据,都是通过软件生成的,已经包含了飞行速度、机动过载、飞行高度等因素值的设定,生成的机动数据直接装订到仿真系统中,试验时直接选用。

诱饵投掷时刻、导弹水平进入角、弹目初始距离为连续型因素。导弹垂直进入角设为0°。

2数据获取及预处理

2.1数据获取

为了获取大量数据,基于MATLAB2018和Visual Studio2010,开发了红外对抗仿真平台。仿真原理如图2所示。在表1中,各因素取一个具体值后,构成一个水平组合,即一个具体的对抗场景。由拉丁超立方抽样方法得到不同的水平组合,即可设置出覆盖面广的对抗场景进行仿真试验,得到所需数据[7]

2.2聚类离散化

由于关联规则方法无法处理连续型数值变量,为了将原始数据转换为适合建模的格式,需要对数据进行离散化。而聚类算法可以充分利用已有数据对连续型因素进行离散化处理。聚类分析是在没有给出划分类别的情况下,根据数据相似度进行样本分组的一种方法[9]。聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将其划分为若干组,划分的原则是组内样本最小化而组间距离最大化。常用的聚类方法有划分方法、层次分析法等,本文采用划分方法中的K-Means算法进行离散化处理。K-Means聚类算法[10-11]是典型的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。则诱弹投掷时刻、导弹水平进入角、弹目初始距离聚类离散化后的结果如表2所示。

根据表1~2对数据进行预编号,如表3所示。表中共有41个编号,分别对应10个参数的不同项。其中,脱靶量是仿真结果,表示在对应输入因素作用下,运行红外对抗仿真系统所得导弹脱靶量。至此数据预处理完毕,可用于后续关联规则挖掘。

3关联规则挖掘

关联规则分析也称为购物篮分析,最早是为发现超市销售数据库中不同商品之间的关联关系,从而采取有效措施来增加超市整体利润。常用的关联规则方法有Apriori算法,该算法是通过连接产生候选项及其支持度,然后通过剪枝生成频繁项集。但是,每次生成新的频繁项集都要对数据库进行一次完整扫描,当数据库较大时,其效率低下。而FP-Growth算法(Frequent Pattern Growth Algorithm)通过构造频繁模式树将数据库进行压缩,极大地减少数据库扫描次数,提高算法效率,非常适用于红外对抗仿真大规模高维度数据挖掘。

3.1FP-Growth算法

关联规则挖掘中通常使用的度量指标有支持度Sup和置信度Conf两个,定义如下[12-14]

(1) 支持度Sup

支持度表示因素组合项在整个数据记录中发生的可能性,公式为

Sup(A→B)=P(A∪B)=Count(A, B)Count(D)(1)

式中:(A→B)表示因素项A发生的同时因素项B发生,Count(A, B)为因素项{A, B}的频数,Count(D)为数据库D所包含的记录数。

(2) 置信度Conf

置信度表示因素项A发生的前提下因素项B发生的可能性大小,公式为

Conf(A→B)=P(BA)=Count(A, B)Count(A)(2)

置信度过低,则一般认为因素项A发生的前提下因素项B发生的可能性很小,说明该规则A→B可信度很低。

关联规则挖掘就是要找出形如A→B的表达式,使其支持度、置信度都不小于最小支持度和最小置信度。FP-Growth算法的主要步骤为:首先,根据数据构造出FP树;然后,通过FP树发现满足最小支持度的所有频繁项集;最后,从提取的频繁项集中找出满足置信度要求的关联规则。

基于预处理数据,为得到含有数据量比较少的因素的规则,最小支持度设为0.05,最小置信度设为0.65,通过FP-Growth算法,初步挖掘出关联规则。

3.2深度筛选

支持度指标受数据记录总数影响,其度量性能较差,仅用支持度和置信度对关联规则进行评价不够全面,需要添加新指标来进一步过滤关联规则。为此,引入Kulc(Kulczynski)和IR(Imbalance Ratio)两个指标[15]。Kulc和IR两个度量指标与数据记录总数无直接关联,而是与因素项本身的个数有关,可度量出因素项之间相关性的强弱。当用支持度和置信度得到关联规则后,因为支持度要考虑到数据记录总数,这时可能会遗留一些实际上相关性弱的规则,如果与其他规则一起分析和使用,可能会产生矛盾或得到错误的结论。而由Kulc和IR两个指标可过滤掉相关性不强的规则,使剩下的关联规则更可靠,留下更感兴趣的规则。

(1) Kulc指标

Kulc指标可以视为因素项集{A, B}之间置信度的平均值,即

Kulc(A, B)=12(P(A|B)+P(B|A))=

12Count(A, B)Count(B)+Count(A, B)Count(A)(3)

若Kulc(A, B)<0.5,则因素项集{A, B}之间是负相关;若Kulc(A, B)=0.5,则因素项集{A, B}之间无明显关联;若Kulc(A, B)>0.5,则因素项集{A, B}之间是正相关;且Kulc(A, B)值越接近0.5,因素项集{A, B}之间关联越弱。

(2) IR指标

IR指标是度量因素集{A, B}间的不平衡程度,即IR(A, B)=Sup(A)-Sup(B)Sup(A)+Sup(B)-Sup(A∪B)=Count(A)Count(D)-Count(B)Count(D)Count(A)Count(D)+Count(B)Count(D)-Count(A, B)Count(D)=Count(A)-Count(B)Count(A)+Count(B)-Count(A, B)(4)

当Kulc(A, B)值接近0.5时,需要用IR指标进行二次判断。若IR(A, B)值越接近0,则因素集{A, B}之间关联越弱;若IR(A, B)值越接近1,则因素集{A, B}之间关联越强。

设置Kulc<0.4或Kulc>0.6,minIR=0.4,若0.4≤Kulc≤0.6,则判断IR≥minIR。对于初步获得的关联规则,经过Kulc和IR指标评价后,共删减掉69条关联规则,得到最终规则。将最终规则分为脱靶量的规则和仅含对抗因素的规则。部分规则分别如表4~5所示。

表4为红外对抗因素与导弹脱靶量之间的关联规则,部分规则分析如下,其余不再赘述。

序号2:规则G1, I1→J1的支持度为30%,置信度为90%,表示导弹水平进入角在0°~60°、弹目初始距离在3~6km时,脱靶量小于10m的概率达到90%。此种态势下弹目距离较近,导弹从尾后攻击目标,目标飞机尾焰暴露在导引头视场中,且辐射特征明显。导弹能识别目标,不会轻易被诱饵诱偏,能稳定跟踪目标,命中概率大,脱靶量较小。

序号12:规则F1, G2, I2→J3表示诱饵投掷组间间隔为0.2s、导弹水平进入角在60°~110°、弹目初始距离在6~8km时,脱靶量大于30m的概率达到75%。此种态势下弹目距离较远,导弹侧向攻击目标,目标部分尾焰被机身遮蔽,且诱饵组间间隔取最小值0.2s,诱饵能持续保持高辐射,对导弹产生强干扰。此时,导弹被诱偏后,需要较长时间才能再次定位,目标容易逃离导引头视场,使导弹脱靶,产生很大的脱靶量。

上一篇 点击页面呼出菜单 下一篇