智能化应用发展场景下网络安全防御技术分析
作者: 杨晋云 宋超峰
摘要:智能化应用发展场景下,网络安全防御技术进一步升级。简单介绍网络安全防御,论述网络安全防御在智能化场景下的发展趋势,探究智能化应用发展场景下的网络安全防御技术。得出:智能化场景下,网络安全防御向行为分析、自动化应对、威胁情报、机器学习、可解释人工智能等方向发展,人工智能技术、神经网络、专家系统在网络安全防御领域的潜力被逐步发掘。
关键词:智能化应用;网络安全防御技术;人工智能技术;神经网络;专家系统
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2024)31-0091-05
开放科学(资源服务)标识码(OSID) :
1 网络安全防御概述
网络安全防御是指为保护数字信息和网络基础设施安全而采取的措施和策略,旨在保护网络、应用程序、计算机数据免受网络攻击、未经授权访问等威胁[1]。网络安全防御主要组成如图1所示。
图1中,网络安全防御主要由持续漏洞/入侵监控、潜在威胁教育、攻击后恢复、快速响应处理威胁等几个部分构成。
2 智能化场景下网络安全领域发展趋势
2.1 行为分析
行为分析是智能化场景下网络安全领域发展的基本趋势,表现为自动分析用户网络行为,在检测到用户于不常登录地点开展敏感操作时,提醒管理员进行调查验证[2]。智能化场景下,网络行为分析对象不仅涉及传统反威胁应用程序(如图2所示),而且涉及专有网络的不寻常事件及趋势。
在智能化场景下的网络行为分析发展过程中,将以通用模型引入、模型训练为重点构建AIGC(Artifi⁃cial Intelligence Generated Content,生成式人工智能)大模型。首先,经开源平台、第三方服务商引入MOSS(Model of Open-domain Serialized Generation ofHuman-like Text,对话式大型语言模型)、GPT(Genera⁃tive Pre-trained Transformer,基于人工智能的语言模型)等轻量级自适应模型。其次,经SecGPT(开源式网络安全大模型)处理高度动态的网络安全数据,确保安全防御与网络安全环境同步。再次,借助网络安全数据,应用更高性能的流量,分析神经网络推理算法与算子库。最后,开展定向大数据训练,有效检测网络行为中蕴含的威胁信息[3]。
2.2 自动化应对
智能化场景下,网络安全领域趋向于自动化入侵响应、自动化攻击应对、自动化漏洞挖掘与修复。智能化场景下的网络安全漏洞自动应对可借助特定类型漏洞程序,根据漏洞自动定位、分析、生成补丁并验证应用。比如,借助ChapGPT(Chat Generative Pretrainedtransformer) 的代码理解与生成能力,开发自动化工具,搜索软件中的漏洞并提出修复建议,实现网络软件安全的自动化加固[4]。在代码理解方面,作为一种自然语言处理模型,ChapGPT使用了基于Trans⁃former的神经网络架构,将一种语言的文本自动转换为另外一种语言(可被计算机理解)的语言文本,并从文本数据中抽取有价值的信息,完成代码的准确理解及快速生成。同时,ChapGPT是当前最先进的预训练语言模型,可以从大量文本数据中查找相关信息,并从文本数据中识别具有特定名称的实体,完成软件漏洞的快速搜索。根据实体漏洞名称及特征,ChapGPT 自动生成逻辑、语法均高度准确的连贯文本,为漏洞修复提供支持。基于ChapGPT的网络安全漏洞自动化修复程序如下:
第一,建立初始prompt,获得首个patch;
第二,通过test suite,判定patch是否成立;
第三,输入已获得的plausible patch及相关信息,获得更多plausible patch;
第四,重复test suite判断和plausible patch输入。
虽然ChapGPT在代码理解、漏洞修复方面取得了很大进展,但在理解、处理代码语义及漏洞建议方面仍然存在局限性。因自然语言对语境的大力依赖性,ChapGPT极难准确理解、阐释代码中的复杂语义,导致代码处理期间解释错误问题频繁发生。同时,在漏洞修复方面,ChapGPT存在逻辑一致性的不足,无法判断逻辑结构,导致生成漏洞修复建议存在逻辑上的矛盾性,对漏洞修复效果造成不利影响。
2.3 威胁情报
智能化场景下,网络安全领域倾向于分析海量威胁情报数据,发现潜在安全威胁、攻击模式,辅助网络安全威胁预防与应对决策[5]。比如,在一次实际应用中,一家成立于2013 年的公司Darktrace 的AI(Artifi⁃cial Intelligence,人工智能)系统通过比较一个看似正常的请求与正常行为模式的差异,识别出请求潜在恶意性,自动阻止威胁并发出警报,通知安全团队采取进一步行动,规避复杂攻击对公司内部网络造成的破坏。
2.4 机器学习
机器学习是计算机无需显式编程即可学习的技术,可以跨海量数据集为支撑构建行为模型,在模型中对新输入信息进行预测,是网络安全防御的主流趋势[6]。根据ABI Research分析估测报告,在网络安全界,机器学习将推动2021年1月到12月全年人工智能及分析的投资达到960亿美元,越来越多网络科技公司开始运用机器学习开展网络安全防御。智能化场景下,网络安全防御领域的入侵检测趋向于应用机器学习算法,集成分析网络流量、日志数据,发现潜在入侵行为(含未知攻击)。比如,Google Chrome Chrome 浏览器借助机器学习ML(Machine Learning) 分析安卓移动终端入侵,识别被入侵终端恶意软件并清除,此时,在某些时段,若权限提示总是被拒绝,则下次可被自动阻止(如图3所示)。
在网络安全防御领域,机器学习还可用于过滤垃圾邮件、检测恶意软件等。比如,Google通过机器学习自由学习垃圾邮件的特征与模式,高效过滤垃圾邮件。根据Google官方发布数据,利用机器学习技术,其垃圾邮件和网络钓鱼邮件的识别率已经达到99.9%。在检测垃圾邮件这一使用场景下,经过训练的机器学习模型可以根据邮件中的词汇顺序,判断其是否属于垃圾邮件或正常邮件,若为垃圾邮件则进行过滤。再如,Unit 42研究人员提出了基于虚拟机监控程序的沙盒中基于内存的工件构建的机器学习渠道,可以精准检测Advanced WildFire中的恶意软件。在恶意软件检测场景下,机器学习模型以恶意软件在沙盒内的执行痕迹为基础,根据任何数量的线索预测恶意行为,避免恶意软件无意或有意地破坏沙盒环境。
2.5 可解释人工智能
可解释人工智能是网络攻击方法日益复杂背景下网络安全领域的重点发展趋势。作为一种高度透明的人工智能,可解释的人工智能(如图4所示)可以描述人工智能模型、预期影响、潜在偏差。
图4中,可解释的人工智能遵循有意义、知识限制、解释准确性、解释等规则。将可解释的人工智能规则应用到网络安全防御领域,可以阐释特定活动或异常被标记为潜在威胁的原因,提高漏洞、潜在危害评估透明度,便于按照漏洞优先级制定安全策略,增强网络安全防御决策准确度。
具体到网络安全防御实践应用中,可解释的人工智能在攻击溯源、安全事件解释、安全策略优化等方面表现突出。在攻击溯源场景下,可解释的人工智能可建立网络流量的正常行为模型,监控当前流量与模型的区别,将超出特定阈值的流量标记为攻击。随后,分析标记为攻击的网络流量可疑事件之间的关联,识别具有攻击模式的事件序列。最后,利用贝叶斯网络统计模型(或决策树模型、支持向量机模型)对网络流量进行分类,完成攻击流量溯源。
在安全事件解释场景下,可解释的人工智能通过围绕输入操作,生成局部可解释模型可不可知论机器,对本地安全事件进行解释,并对可疑文件进行分类,以判断其是否为恶意软件。
在安全策略优化场景下,可解释的人工智能创建交互式可视化仪表板,展示网络安全策略的制定、运行过程,辅助寻找安全策略的不足。同时,借助趋势线、图表等可视化元素,直观呈现安全策略的运行数据。在这个基础上,提供自定义选项,运行策略制定者根据特定需求调整,实现安全策略的优化。
3 智能化应用发展场景下网络安全防御技术
3.1 人工智能技术
智能化应用发展场景下,网络规模持续扩大,攻击形式日益多样,攻击对象呈现出随机性特点,因网络节点本身攻击承受能力各异,造成大量节点安全度量数据冗余。基于此,可以引入人工智能范畴的不精确推理技术——权重D-S证据(Dempster-Shafer) ,区分网络节点危险程度“不确定”与“不知道”,实现更科学的网络安全防御管理[7]。在不确定信息处理方面,权重D-S证据合成公式可以综合不同专家(或数据源)的知识(或数据),支撑不确定信息的智能化快速处理。同时,较之概率推理理论,权重D-S证据处理不确定信息需要的先验数据更为直观、获得难度小,处理效率较高。在基于权重D-S证据的网络安全防御管理过程中,主要步骤如下:
第一,明确全部网络态势数据辨识框架,如下:
bel:2⊗ → [ 0,1] ,∀A ⊆ D (1)
式(1)为命题A的信任函数,命题借助集合表示,变量x的全部可能取值形成集合⊗,且集合中的元素有空集、存在互斥。2⊗是网络态势数据辨识框架的全部子集;bel:2⊗表示网络态势数据辨识框架的全部子集的真实信任程度。Bel(A) 表示A的真实信任程度,Pl(A) 表示A的非假信任程度,Pl(A) -Bel(A) 表示命题A不可知的程度,广泛用于未知网络安全信息处理。
第二,分配网络节点度量权重,建立证据与命题逻辑(网络节点数据→网络安全态势汇聚方式)。根据复杂网络理论关于各节点对网络影响力的多重差异,设定网络安全防御管理中,需解决关键节点的重要度I(i) 由结构重要度、资产重要度、功能重要度组成,逐一度量后,考虑网络节点总数,进行权重分配。即:
式(2)中,W为权重,i为网络节点;I(i) 为关键节点的重要度;A为网络节点总数。
第三,根据网络节点数据,不间断使用带权重的Dempster证据合成规则,融合新的网络安全态势概率分配。融合规则如下:
式(3)中,m(V) 为带权重的Dempster证据合成规则表达,即证据重要度。在m(V) =1时,证据重要度最高;V是证据的焦元;i为网络节点;Vi为i个网络节点证据的焦元;mi为基本概率分配系数。
第四,基于差异思维,修正网络安全态势融合结果,获得高度精准的网络安全状态信息,规避网络拥塞、系统崩溃对网络安全防御的影响。差异系数表示为:
式(4)中,i、j均为网络节点;sij 表示i、j的差异系数,与证据差异度呈正相关;kij表示证据i、j的冲突;dij表示i、j证据融合结果的可信程度。对于任意参与融合的网络节点i、j,用信任系数进行修正,参与后续网络安全防御证据融合中,实现网络安全防御管理工作的自适应优化。
3.2 神经网络
智能化应用场景下,网络未来安全态势预测成为网络安全防御的重要任务,神经网络是这一任务成功完成的重要技术支撑。在网络安全态势预测方面,RBF神经网络可以寻找网络安全态势值的非线性映射关系,将复杂的模式分类问题非线性投射到高维空间,促使原本低维非线性可分问题变得线性可分,适应复杂网络系统安全态势预测形式。同时,RBF神可以利用均方根误差(或归一化均方根误差、多元统计系数)等参数检验预测网络安全态势值的准确性,在预测网络安全态势时表现出色。但是,RBF神经网络是一种前馈神经网络,在网络安全态势预测领域的表现受RBF中心点选择的直接影响,对于给定的网络安全态势预测问题,一旦RBF中心选择不当,预测准确度将会显著下降。同时,RBF神经网络对噪声、异常值高度敏感,面对未知网络态势数据,RBF神经网络将过度拟合训练集,导致未知网络安全态势预测准确度下降。较之传统前馈神经网络,RBF神经网络的计算复杂度较高,随着中心数量的增长,计算量呈指数级增长,计算复杂度的增加,可能导致RBF神经网络在处理大规模数据集时效率下降。因此,根据网络安全态势非线性时间序列的特征,可借助训练RBF(Radial basis func⁃tion,径向基函数网络)神经网络的方式,寻找态势值和后续值的非线性映射关系[8]。进而,借助映射关系,开展网络态势预测,预测框架如图5所示。