联邦学习和证据理论在智慧城市网络安全态势感知中的应用研究

作者: 刘岩 韩璐 李娜

联邦学习和证据理论在智慧城市网络安全态势感知中的应用研究0

摘要:随着数字经济的全面推进,我国的“智慧城市”建设开始进入实质性的启动阶段,城市网络安全问题就更为突出、严重,面向智慧城市的城市级网络安全态势感知技术研究和应用迅速成为学术界和工业界的研究热点。此前,为得到性能更佳的态势感知模型,传统做法是利用机器学习、深度学习等手段集中训练网络数据,从而获得模型参数。但随着智慧城市中建设中网络设备类型增多,数据属性多样,流量内容复杂多变,网络边界模糊,影响态势评估的不确定性增加,加之对集中训练带来的数据安全和隐私保护的担忧,数据安全问题已然成为智慧城市中网络安全态势感知技术发展的重要制约瓶颈和亟需突破的关键挑战。在这种情况下,“联邦学习”的概念被提出,旨在保护数据安全与隐私的同时,利用分布的网络数据进行联合模型训练,从而达到或接近基于数据集中的训练效果。为此,该文借助“联邦学习”和“证据理论”,对智慧城市网络安全态势感知技术的应用模式和方法进行了研究和探讨,以期为智慧城市的网络安全态势感知技术发展提供一定的借鉴和参考。

关键词:网络安全态势感知;联邦学习;证据理论;数据安全;智慧城市

中图分类号:TP311   文献标识码:A

文章编号:1009-3044(2022)15-0022-03

随着数字中国建设整体布局的不断推进,我国的“智慧城市”建设开始进入实质性的启动阶段,以智慧医疗、智慧交通、智慧家居、智慧金融、智能制造等为代表的一系列智慧城市基础设施的建成落地,为千行百业提供了全新的发展动力和活力。智慧城市的平稳运行,离不开大量联网设备的交流协作,史无前例的超大规模、属性复杂的网络流量运行在城域互联网上,给城市的网络安全保卫工作带来了严峻的考验,城市网络安全与否已成为事关城市平稳运行的重大问题。

《CNCERT互联网安全威胁报告-2022年1月》数据显示,2022年1月我国境内感染木马或僵尸网络恶意程序的终端数为446万余个;境内被篡改网站数量4 327个,其中被篡改政府网站数量为24个;境内被植入后门的网站数量为1 812个,其中政府网站有2个;针对境内网站的仿冒页面数量为187个;CNVD收集整理信息系统安全漏洞2 072个。其中,高危漏洞631个,可被利用来实施远程攻击的漏洞有1 719个[1]。面对如此严峻的互联网安全形势,如何快速且准确地感知城域互联网网络中的异常信息,预测网络安全态势,增强网络安全主动防御能力成为城市网络安全主管部门和网络运营商的关注重点。

目前网络安全态势感知技术都是把事先利用机器学习、深度学习等手段集中训练网络数据得到的态势理解模型,部署在某个网络汇聚节点上,对流经此节点的流量进行特征匹配和识别。训练使用的网络数据的质量决定了态势感知和评估的成效。但智慧城市里联网的设备种类繁多、网络边界模糊、数据属性多样、流量内容复杂多变、影响网络安全的不确定因素大大增加,现有的网络安全态势感知技术和产品不足以满足现实需求。加之对网络数据集中训练带来的数据安全和隐私问题的担忧,安全态势感知技术服务提供者们只能使用自身数据训练,数据不全面,使得训练得到的模型无法满足网络安全主管部门和网络运营商的现实监管需求。“联邦学习”能够在训练数据不共享的情况下达到参数共享目的,具有数据隔离、质量保证、各参数方地位等同、独立性等优点;证据理论为降低网络态势感知中的不确定性因素提供了解决思路,受到学术界和工业界的广泛关注。本文详细地探讨了联邦学习和证据理论的原理及其在智慧城市网络安全态势感知中的应用模式和方法,以期待为其发展提供参考。

1 智慧城市网络安全态势感知概述

态势感知的概念来源于军事对峙领域,1999年Tim Bass将态势感知引进了网络安全的研究中,由此产生了网络安全态势感知这个概念[2]。网络安全态势感知是综合分析网络安全要素,评估网络安全状况,预测其发展趋势,并以可视化的方式展现给用户,并给出相应的报表和应对措施。

从上述概念看,网络安全态势感知的过程大致包括以下几个步骤:

1)数据采集:通过在网络中某个节点部署探针等检测工具,对流经此节点的数据进行采集获取,这是态势感知的前提;

2)态势理解:对采集到的数据进行分类、归并、关联分析等手段进行处理融合,对融合的信息进行综合分析,得出影响网络的整体安全状况,这是态势感知基础;

3)态势评估:定性、定量分析网络当前的安全状态和薄弱环节,并给出相应的应对措施,这是态势感知的核心;

4)态势预测:通过对态势评估输出的数据,预测网络安全状况的发展趋势,这是态势感知的目标。

在网络安全态势分析方面,已经有很多成熟的模型,比如始于感知的Endsley模型、终于循环对抗的OODA模型、基于数据融合的JDL模型和采用假设推理的RPD模型等,但他们都离不开态势感知、态势理解和态势预测这三个基本点。

网络安全态势感知模型中也都需要通过网络安全态势特征提取技术、网络入侵检测技术、网络安全态势感知评估技术、网络安全态势预测技术等关键技术完成对网络安全态势要素获取、理解、预测和评估[3]。

随着计算能力的提升,机器学习和深度学习由于具有较强的学习能力、较好的适应性、易实现自动化,且对复杂的特征处理、数据分类、预测等在实践中能获得较好的效果,在网络安全态势感知中得到深入的研究和广泛的应用。

自数据安全法和个人信息保护法实施以来,出于数据安全和隐私保护的需要,目前使用的网络安全态势感知模型多是由安全态势感知技术服务提供者使用单一来源或者多源同质的流量数据训练得到的,即使使用机器学习和深度学习等新技术,但受限于训练数据质量,使得产生的知识库模型不够完备,达不到预期效果。而且智慧城市的高效运转离不开各类联网设备的交互协作,智能家居设备、车联网设备、企业中的生产设备等网络节点组成了史无前例的超大规模网络,呈现感知节点数量众多,节点通信协议类型不同、连接多样,网络结构复杂多变,随机因素增大等特点。面对如此复杂的城域互联网,寻找新的网络安全态势感知解决方案已成为当前的重要课题。

2相关概念

2.1联邦学习

作为面向数据孤岛和隐私保护的机器学习解决方案,联邦学习最早应用于谷歌输入法,实现输入法的候选词预测。联邦学习本质上是一种分布式的机器学习技术,很大程度上解决了“数据孤岛”问题。

根据数据特点,联邦学习可被分为纵向联邦学习、横向联邦学习和联邦迁徙学习。

1)横向联邦学习:特点是数据集特征和标签信息相同,但训练样本不完全相同。把数据集按照横向(即用户维度)切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。

2)纵向联邦学习:特点是各数据集特征和标签信息不同,但训练样本基本相同。把数据集按照纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。

3)特点是各数据集特征、标签信息以及训练样本基本不相同。不对数据进行切分,而利用迁移学习克服数据或标签不足的情况。

在上述各类联邦学习的训练过程中,各参与方不需要交换训练数据,仅需要交换各自训练产生的模型参数,后由中心服务器将参数进行聚合,得到全局模型后,再分发给各个参与方,参与方对己方模型进行更新;经过若干轮迭代,最终得到一个趋近于集中式机器学习结果的模型。总的来说,联邦学习具有以下优势:

1)数据安全:原始训练数据保留在本地,只需往中央服务器传递模型参数,传输过程可采用加密交换,一定程度上保证了参与方的数据安全;

2)质量保证:虽然没有将数据集中训练,但进行了多轮次迭代。有研究表明,联邦学习模型的识别性能与数据中心化分析的识别性能可以相提并论,较个别分析的识别性能更优[4];

3)独立自主:各参与方能够独立决定是否参与或者退出,自主决定传输参数。

从数据安全和隐私保护角度看,目前联邦学习的框架可以分为以下几类:

1)非加密的联邦学习框架,即未对任何信息加密,所有的中间数据(如梯度)全是明文传输与计算;

2)基于差分隐私的联邦学习框架,在原始数据或模型参数中添加随机噪声,数据不再是全明文,而是添加过噪声的隐私数据;

3)基于安全多方计算的联邦学习框架,使用同态加密、混淆电路、秘密共享等方法对数据进行加密[5]。

2.2 D-S证据理论

D-S证据理论是一种处理不确定性问题的完整理论。起源于20世纪60年代的哈佛大学数学家A.P. Dempster利用上、下限概率解决多值映射问题,1967年起他连续发表一系列论文,标志着证据理论的正式诞生。而后Dempster的学生G.shafer对证据理论做了进一步研究,引入信任函数概念,形成了一套“证据”和“组合”来处理不确定性推理的数学方法从而形成了该理论。

Dempster-Shafer(D-S)证据理论定义了一个识别框架[Θ=θ1,θ2,…θN],其中[θ1,θ2,…θN]表示一组相互排斥且完备的假设集。在这个识别框架中存在一个称为基本概率设置(Basic Probability Assignment, BPA)的映射[m:2Θ→0,1],[m∅=0且θ⊆Θmθ=1],[mθ]表示对[θ]的信任程度。其中使得[mθ>0]的[θ]我们称之为焦元。定义信度函数(Belief,[Bel])[Bel:θ→0,1],并且满足[Belθ=B⊆θmB],[Belθ]能够表示所有确定赋予[θ]本身及其较小子集上的BPA的和。定义似然函数(Plausibility,Pl)[Pl:θ→0,1],并且满足[Plθ=B⋂θ≠∅mB]。那么[Plθ=1-Belθ],其中[θ]是[θ]的补集。[Belθ,Plθ]组成信任区间,表示对[θ]的确认程度。

假设存在两个完全独立且安全可靠的证据的BPA分别为[m1和m2],对于任何[θ⊆Θ],Dempster合成规则为:

[mθ=m1+m2θ=0,  θ=∅B⋂C=θm1Bm2C1-B⋂C≠∅m1Bm2C,  θ≠∅]

从定义可以看出,D-S证据理论可以综合不同数据源的数据,利用合成规则将不同数据源的信任函数不断融合,随着证据不断积累而逐步降低不确定性,获得精确推理结果,再根据决策逻辑对融合后的信任函数进行判断。最大的特点就是对不确定性信息的描述采用“区间估计”,而非“点估计”,在区分不知道和不确定方面以及精确反映证据收集方面显示出很大的灵活性,常应用于目标识别、监控检测、故障诊断、医疗诊 断、决策分析等领域。

3 基于联邦学习和D-S证据理论的网络安全态势感知架构模式

智慧城市的建设目前主要是以行业为单元共同推进,致力于打造智慧物流体系、智慧制造体系、智慧贸易体系、智慧能源应用体系、智慧公共服务、智慧社会管理体系、智慧交通体系、智慧健康保障体系、智慧安居服务体系、智慧文化服务体系等。其城域互联网中运行的网络数据大致可分为以下几类:

1)以智能驾驶、智能交通为核心的车联网类数据;

2)以智能家居、智能安防为核心的家居物联网类数据;

3)以智慧医疗、健康穿戴为核心的医疗类数据;

4)以智能制造、智能能源为核心的工业互联网类数据。

按照上述网络类别看,智慧城市的网络态势感知可以以行业为基本单元,以本行业中的关键信息基础设施和重要信息系统为最小单元开展。具体如下:

1)数据采集:在设施或者系统的网络出入口部署采集设备,对流入和流出的网络数据按需要进行采集和留存。

2)数据训练:因行业内网络节点设备用途相近,流量内容相似度高,故可以在关键信息基础设施和重要信息系统的归属单位部署训练服务器对采集到的数据进行清洗等预处理后,采用随机森林、深度信念网络或卷积神经网络等机器学习手段进行训练,在行业网络主管部门部署中心服务器用于聚合本行业的训练模型参数。经过多轮次训练和迭代后形成本行业的态势感知模型和特征知识库。

上一篇 点击页面呼出菜单 下一篇