关于第三代开源情报的几点思考及启示
作者: 范家玮
信息时代的发展日新月异,网络化、信息化、数字化使得数据泛滥,信息爆炸。在此社会背景下,开源情报的搜集、加工、开发和生产充斥着各式各样的挑战,开源情报在互联网发展的催化下面临着转型升级。
2018 年 5 月,美国兰德公司发布的《定义国防事业第二代开源情报》报告(以下简称为“报告”)中提到了对第三代开源情报的展望。距报告发布已五年,信息技术的发展是否为人类开启了第三代开源情报?本文试通过文献解读和特点分析法,从到来的时间节点、聚焦的情报流程以及与私营高科技公司合作的趋势,判断第三代开源情报时代尚未到来,但报告中对第三代开源情报的描述与展望值得思考。
对第三代开源情报的几点思考
定义第三代开源情报的时间节点 报告提出第三代开源情报的起始点为2016年或2020年,但这两个时间点均尚早。
从Web 3.0的发展趋势来看,报告中指出,“正如从Web 1.0过渡到Web 2.0使得成指数级增加的用户所生成的数据可以解析和分析其特定特征,过渡到Web 3.0,机器学习和自然语言处理将占主导地位,这已经提高了智能数据分类、翻译和分析方法的效率”,“第二代OSINT的发展在很大程度上是因为Web 2.0——互联网上下文向动态网页和用户生成内容的转变。然而,十多年来,技术专家一直在谈论向Web 3.0的演变——‘语义Web’——它将包括直接和间接的数据机器处理、机器学习和自动推理”。可以看出,第二代开源情报的发展基于Web 2.0,那么对第三代开源情报的展望应基于Web 3.0。
学界对于Web 3.0是否真的已经到来仍存在疑问。2022年,杜雨和张孜铭主持撰写的《Web3.0 :赋能数字经济新时代》出版,该书介绍了互联网发展的全景以及Web 3.0的现状。实际上,Web 3.0的含义长时间处于变化的状态:在区块链技术没有诞生之前,Web 3.0通常指“语义网”,万维网之父蒂姆·伯纳斯·李提出该概念时对其的认识就是更为智能的互联网;随着区块链技术的出现和发展,区块链已经成为Web 3.0的底层技术,美国一家私人风险投资公司Andreessen Horowitz(a16z)认为“我们正在跨入Web 3.0的黄金期。底层的区块链技术已相当先进,各种应用程序的用户数量动辄以千万计”。

诚然,纵观现代互联网实践,Web 3.0的发展日益显著,但用户与平台之间仍处于不平等状态。平台掌握大量流量资源和数据,用户是被分发的对象,消耗个人时间和金钱,贡献数据给商家平台,并没有实现Web 3.0畅想的去中心化互联网环境。这一“运行在区块链技术上的去中心化”本质特征未能实现,也证明第三代网络并未真正到来。开源情报仍更多在Web 2.0环境中向前探索,仍保持第二代开源情报的特征,因此推断在2016年或者2020年迎来第三代开源情报为时尚早。
从人工智能的发展现状来看,近年来,机器学习、自然语言处理、自动推理、大数据等人工智能技术蓬勃发展。美国认为人工智能将开辟开源情报的未来。
2017年,美国中央情报局 (Central Intelligence Agency,CIA)负责科学与技术的副局长在华盛顿举行的情报和国家安全峰会上称,CIA与人工智能直接相关的试点项目至少有137个。2018年,美国防部在首席信息官下设联合人工智能中心(Joint Artificial Intelligence Center,JAIC),并开发典型情报领域人工智能系统。2019年,美国家情报总监办公室(Office of the Director of National Intelligence,ODNI)发布《国家情报战略》,重点分析了人工智能、自动化等新兴技术给情报界带来的机遇与挑战。2020年4月,美战略与国际研究中心(Center for Strategic and International Studies,CSIS)成立技术与情报工作组,研究发布了《分析优势:利用新兴技术来转变情报分析》等报告,重点探讨了新兴技术对美国情报界的影响和应用。依据《2020 年国家人工智能计划法案》,2021年1月12日,美国白宫科学技术政策办公室(OSTP)宣布成立国家人工智能计划办公室(National Artificial Intelligence Initiative Office,NAIIO)。该办公室将成为联邦政府协调和沟通美国各界AI研究和决策的中心枢纽,确保美国未来数年内在 AI 这一关键领域的领导地位。此外,美国人工智能国家安全委员会提出了关于2025年前促进情报领域人工智能发展的建议:强化情报界对科技的领导力,制定并实施必要的通用技术标准和政策,以便在整个情报界快速扩展支持人工智能的应用程序。
综上,美国正在发展人工智能技术并力图将其广泛用于情报领域,也提出了2025年目标。美国情报界同样致力于利用人工智能技术优化开源情报流程,确保美国开源情报优势。
从美国开源情报工作实践来看,在2005年之后的时间里,美国开源情报实践面临的诸多问题中,判断是否已经迎来第三代开源情报,一些明显问题是否解决是很重要的评判依据。
兰德公司报告提出,“随着加密技术成为主流,它为情报机构带来了新的定义问题。对潜在情报价值的信息进行解密通常属于国家情报局及其下属信号情报机构权限范围,然而,传统上政府机构是加密技术的使用者。如果用户提供的信息目前被认为是开源情报所使用的加密,那么情报机构现在会考虑信息的信号情报特征,并将责任转移到国家情报局吗?”近些年,一些外部观察人士支持建立一个除现有开源中心之外,完全在情报机构之外的开源机构,目标是不仅向情报分析师也向包括国会委员在内的联邦政府所有部门提供开源信息。不过这也是一个设想,并未付诸实践。2005年国家情报总监开源中心成立,而现如今并没有一家同样具有划时代意义的专门致力于开源情报的新机构成立。此外,由于互联网提供了海量的开源信息,需要有效的分析方法,从泛滥的信息中提取出真正有价值的情报。据悉,美陆军情报和保密司令部意图能够匿名扫描多达40个国家以及66种语言的社会媒体平台和开源信息,而且陆军希望能从智能手机上实现这一点。从国土安全部到国防高级研究计划局等机构都希望运用智能处理技术来面对庞大的数据规模和种类繁多的语言。
显然当前状况还不能够很好地满足需要,美国正努力发展并试图广泛应用新兴技术。美国东部时间2022年7月27日9时,华尔街日报发布新闻称开源情报基金会(OSINT Foundation)成立,该组织的高层人员和咨询委员会成员都曾在政府机构任职,均有30多年的情报行业工作经验。目前其在俄乌问题上给予美国情报支援,而组织的根本目的是通过加深对开源情报的理解和认识、支持该领域就业机会和分享其使用的最佳标准来支持美国家安全。以上系列开源情报工作实践表明,美国正在发展其开源情报能力,意图将其规范化、广泛化,但是并未形成第三代开源情报畅想的局面。可以肯定的是这些量的积累必定能在不长的时间里实现开源情报的第三代转型。
综上三方面的原因,第三代开源情报并未到来,但开源情报正在以可观的速度向前发展。第三代开源情报的发展应处于Web 3.0环境——一个更加平等、隐私保护化、去中心化的网络世界;同时人工智能技术应更广泛和有效地应用于开源情报工作。第三代开源情报并非完全替代第二代开源情报,二者可以平行发展,然而在丰富的开源情报实践中可以预料,第三代开源情报或将以更加突破性的优势胜出。
第三代开源情报聚焦的情报流程 兰德公司在报告中以问号形式提出第三代开源情报或将聚焦开源情报的搜集和分发。这是基于对未来互联网发展特征的判断而得出的合理预测。
随着Web3.0的来临,网络数据本身依托于开放的数学算法与协议,不依赖机构和个人。使用者或创作者对自己贡献的内容有所有权和收益权,用户能清楚知道这些数据的用途,并且具有决策权。这样的去中心化互联网能够让用户平等使用互联网并实现隐私保护。对于这样的网络特点,无疑给开源情报工作人员带来了挑战,主要集中在海量数据的抽取和加密技术下的信息访问两方面。反观人工智能新兴技术的发展,机器学习、自动推理技术、可视化技术、密码技术等成为应对第三代互联网难题的重要工具。上述风险与应对工具在开源情报流程的搜集和分发阶段体现的更为明显。
面对虚拟的互联网空间,开源情报需要从庞大的原始数据中提取需要的信息。普通的检索功能不再满足需求,当下的开源情报工作需要更精准的信息检索。正如报告中强调的,利用机器学习这项前沿技术搭建筛选平台,构建知识库从而实现自动化检索和高效信息抓取有助于搜集工作。通过对机器的反复训练,机器学习更加深入有效,对原始数据的筛选和所需信息的分类将会更加精准。依此技术来帮助情报人员完成原始数据的筛选、分类、抽取工作。

报告提出“随着加密软件变得日益普及、易于访问和更加强大,加密也可能成为第三代开源情报更为普遍的特性”,这要求开源情报工作应该设法在搜集工作中使用先进的破密手段,以获取更多有价值数据源的访问权。分发阶段同样面临难题:如何将开源情报按需要分类、定级传报给相应的用户;如何利用情报共享通道将开源情报安全便捷地分发给用户。机器学习可以智能推送与该情报用户关联度高的情报产品,并为不同的用户群体确认情报产品的优先等级。依靠自动推理技术、密码技术选取个人定制的情报产品通过认证、授权、管理(分类管理和密码管理)、备份、校验等工作确保数据传输的安全。同样报告中提到,可视化情报产品的出现能够更好地传递情报分析人员的意图,也更能直观理解目标的相关信息,从而辅助决策。
基于网络发展的特性和人工智能前沿技术的发展,为了应对此类风险与挑战,第三代开源情报应聚焦情报的搜集和分发,从而实现人工智能在情报领域的有效利用,化解去中心化网络带来的问题。
私营科技公司助力第三代开源情报 兰德公司报告表明,情报界通常使用商业成品工具进行开源情报分析。然而这些商业成品工具大多以商业目的(如广告、消费者喜好、需求等)开发而成,并不完全符合情报界对开源情报分析的需求。同时,这些商业成品工具以及生产这些工具的公司一直处于动态,社交媒体的分析技术也是与时俱进,快速发展的,因此情报界对于这些工具的使用容易过时。正是这样动态的市场环境,给开源情报分析带来了许多问题。可访问的数据可能会被公司限制或者删除,比如当一家公司有能力生产出新兴社交媒体分析技术并将其本土化时,他们将会倾向于限制或者删除数据源,从而削弱其他数据访问者的竞争力。这种情况使得开源情报分析人员对数据的获取受到访问权的限制。

在未来,开源情报的价值将更加突出,对于决策的辅助作用也日益显著。基于此,面对复杂的网络环境和分析技术,报告提到在理想情况下,情报界将数据源和分析平台转移到分类系统,在引入一个分类系统之前,应充分了解机构及其平台,并建立起可信关系,缩短审查时间。如果情报界选择开发本地工具将伴随着高昂的代价。这启示其他国家第三代开源情报分析处理工作应采取公私合作的方式,通过签订合同建立联系,改变现状。实际上,已经有许多私营部门逐渐发展成美国情报界技术和咨询服务的供应商,他们为美国政府军队提供情报搜集、情报分析、情报预测、风险评估、自动化数据库系统技术等服务。结合当前发展趋势,加强国家开源情报能力与高科技企业的联合,在保证信息安全的基础上,充分发挥民间高科技成果的优势,促进国家开源情报的高效、安全、智能发展。报告中提到的众多人工智能技术,如自然语言处理技术、自动推理、智能识别技术、机器学习技术等都应该与开源情报融合,成为情报工作所匹配的工具,帮助开源情报实现新发展。