什么阻碍了AI走出实验室
作者: 格雷戈里·维亚尔 江璟璐 塔尼娅·詹尼利亚 安-弗朗西丝·卡梅伦
北美一家大型医院为人工智能(AI)赋能系统提高病患护理质量的前景而欢欣鼓舞。然而,当它打算从概念升级到原型构建时,却发现建立和运行系统所需的数据分散在20个传统系统中,检索起来非常复杂。最后,它只好放弃该项目。
高级分析技术和AI有望产生帮助企业保持竞争优势的洞见。它们在这方面的能力很大程度上取决于能否获得优质的数据,但有时候,组织偏偏没有能让AI发挥作用的数据。
最近,我们研究了组织如何将AI项目从实验室研发环境转至生产环境,以及在此过程中它们遇到了哪些问题。为此,我们采访了六家北美公司的AI主管和信息提供者,这些公司的规模和所处行业各不相同。一个关键发现是,尽管许多人在评定数据质量时,主要依据的是其准确度和完整性(参见副栏“什么是优质数据”),但是数据可被机器访问的程度(数据质量的一个维度)似乎才是将AI从实验成果转化为商业应用过程中会遇到的更大挑战。更重要的是,我们发现数据可访问性通常仅被当作IT问题来处理。实际上,我们的分析表明这是一个管理问题,而人们对AI数据可访问性的性质和作用存在误解,则令这一问题更加严重。
数据可访问性的关键不在于数据本身的属性,而在于是否具备能够让机器获取数据的要素。虽然组织拥有的数据浩如烟海,但数据访问仍然是一大挑战,尤其是在AI开发与运行的环境中,这一挑战因为以下两个彼此关联的原因而变得更加艰巨。首先,AI项目通常会牵涉各种利益相关者群体,他们对数据可访问性的兴趣各不相同。其次,典型的AI开发生命周期往往会削弱数据可访问性的重要性。
AI利益相关者在数据可访问性方面的差异
大部分数据可访问性问题的核心是,AI项目会牵涉各种各样的参与者群体,对于数据可访问性的性质和作用,他们有不同的兴趣、观点和影响力。例如,业务主管通常会参与流程的启动和收尾工作,帮助界定AI的用例,并利用最终产品,但他们往往并不会考虑数据的访问方式。“业务部门的人总是以为自己有AI需要的数据。”一家AI咨询公司的产品交付副总裁说。“他们想快点开始,然后,当我们掀开盖子时,”他笑着说,“我们得到了PDF文件、Excel电子表格,接着我们要收集所有这些东西,再用光学字符识别技术来处理。这从来都不是一件容易的事情。”
另一方面,开发、测试并维护模型的数据科学家,还有可能与之合作的科学顾问都会重点关注获取模型开发所需的数据。与业务部门的利益相关者一样,他们对数据可访问性的兴趣也不大。
数据工程师负责构建基础设施,以生成数据,供数据科学家的模型使用。他们会适当关注一下数据的可访问性。但他们常常认为,从操作系统中提取出来用于原型开发的数据,也可以直接用于生产。这种看法有时并不正确。
数据可访问性问题对于软件工程师来说更重要一些。他们负责将AI打包到产品或服务中,这些产品或服务必须能够在生产环境中获取数据。虽然IT部门的成员很少被视为AI项目的主要参与者,但他们要为AI所需的技术基础设施(包括数据)提供支持。他们的工作能帮助组织严格遵守保护技术和数据资产的安全政策和治理机制。
上述每一类利益相关者都各自发挥着重要作用。同时,他们对数据可访问性的看法也受其直接职责所限。例如,一家大型金融机构的AI主管告诉我们,他的团队需要从操作系统中获取大量数据。然而,许多操作系统是在主机上运行的,从构建之初,就无法在支持常规操作的同时,再支持此类数据访问需求。当负责维护操作系统的IT人员听说他的AI项目要求访问数据时,很是不情不愿。他告诉我们,有一次,他们这样回答:“我可不想让那些刚出校门的技术狂每天都跑过来检索15TB的数据,那会把整个系统都给搞崩的。”
AI生命周期削弱数据可访问性
除了各类利益相关者兴趣不同的问题之外,AI项目的典型生命周期也会促使团队专注于模型的快速迭代开发。于是,关于数据可访问性的重要对话,尤其是与AI在组织中实施相关的对话,迟迟没有开展。在此过程中,数据可访问性的性质发生了改变,它同组织的数据管理结构、机制和技术基础设施的关系,从彼此独立转为相互关联。随着AI从一个单纯的概念转变为组织使用的实际产品或服务,关键利益相关者在AI开发各个阶段的参与情况也随之发生变化(参见副栏“AI生命周期中的利益相关者和数据”)。我们在之前研究的六个组织中发现,典型的AI生命周期都是分为五个阶段。为了弄明白数据可访问性为何经常被忽视,我们需要逐一分析这几个阶段。
第一阶段:构思 构思阶段相当于一个过滤器,用于找出AI在组织中的潜在高级业务用例。在这个阶段,大多数对话都是在管理人员、商务顾问和科学顾问(有时也是全职学者)之间进行的,其目标是为商业和科学创造一个会谈空间,由此催生出来的业务用例应该看起来前景良好、切实可行。在AI咨询公司,这个关键第一步的作用是向客户科普AI的潜力。不过,这个阶段的重点是数据的存在,而不是数据可访问性。讨论的核心话题是业务目标以及应用AI模型解决组织当前的问题。
第二阶段:蓝图 出于优先级别、资源限制或缺乏潜在价值等原因,构思阶段产生的用例并不能全部被选中在一定时间内实施。蓝图阶段会生成一个综合用例,其中包含一些细节,例如清晰且可衡量的业务目标、列出具体AI技术的行动计划,以及应当准备好提供给AI的数据要素。在蓝图阶段,评估数据可访问性仍然以数据的存在为唯一指标,因为组织会着眼于流程的下一个阶段,即构建工作原型。其背后的假设是,只要数据存在就足够了,因为这样团队就可以继续向前推进。
第三阶段:概念验证 在概念验证阶段,数据科学家构建一个或多个模型来实施商定的用例。大部分工作的重点是以迭代方式创建、训练和测试模型,衡量比较它们各自的性能,并检验输入新数据的AI是否达到了预期效果。数据从源系统中被提取出来,由数据工程师进行转换,使其符合在建模型的格式和精度要求。解决方案最终可能是通过一个装有用户界面的应用程序交付,或者紧密集成在组织的业务流程中(比如说,用于修改银行的信贷申请流程),但在概念验证阶段,这些工作通常还不是重点。同样,团队主要关心的是获取数据来推进他们的短期工作,几乎不会考虑AI进入生产阶段后,数据访问最终会采取何种形式。
第四阶段:最简可行产品(minimum viable product, MVP) 一旦概念验证的某个版本表现出足够的价值,就可以被优化为MVP。此时,数据科学家和数据工程师便功成身退,下一步工作由软件工程师接手,因为如果AI适于应用,最终就会走出实验室,被部署在组织的基础设施中,并与其他生产系统集成。在先前几个阶段,模型开发是大家密切关注的问题,由此产生的一个意外结果是,对生产中数据可访问性的考虑已退居次要地位。当软件工程师和IT人员深入讨论待交付解决方案的规格和集成时,就可能会从数据可访问性相关问题中发现,模型使用的某个关键功能需要大量计划外的工作。
第五阶段:生产 在最后这个阶段,包含AI的改进版MVP被投入生产,现在必须向其输入直接从生产系统中获取的数据。数据可能需要从多个系统中提取并进行转换,从而生成模型所需的输入项来支持生产中的业务用例。无论这一工作是实时进行还是批量进行(例如,频繁反复训练和测试模型),与AI集成相关的真正问题总是会在这一步浮现出来,尤其是涉及组织数据基础设施的问题。如果自主系统无法按照要求的数量或速度提供、提取并集成数据(比如受传统系统所限),AI就可能会失去全部的潜在价值。
关于AI数据可访问性的四个误解
除了弄清AI开发的不同作用和阶段及其对数据可访问性的影响之外,了解人们对数据性质的一些主要误解,以及许多组织如何看待数据的性质,也会有所帮助。
误解一:数据可访问性是个技术问题 虽然技术问题往往颇为复杂,但只要找到合适的人才和资源,通常都是可以解决的。参与我们研究的人认为,数据可访问性其实是一个涉及技术的管理问题。在设计AI解决方案之初就必须明确认识到,哪怕是完整、准确、及时的数据,如果无法实现快速方便的检索,也没有任何价值。数据存在于大量数据库和电子表格中的某个位置,未必就意味着它是可以访问的。有时,之所以出现数据可访问性问题,是因为数据治理或安全政策限制了访问。
业务人员和IT人员之间的优先权之争已经存在了几十年。如果再把AI团队的优先级别也加到这对组合中,那么事情很快就会变成一团乱麻。如果仅仅将数据可访问性视为技术问题,产品和服务或许就会卡在概念验证阶段,直到其他团队来解决数据可访问性的难题,最终导致进度延误、成本增加。还有一种可能是,数据太复杂或检索成本太高导致数据被遗漏,使产品和服务无法发挥全部潜力。在这两种情况下,AI都无法兑现承诺,其原因不在于AI模型,而在于数据可访问性。
误解二:数据只是运营的副产品 当组织中分析和AI活动与运营分离,人们尚未意识到AI有潜力改进或革新整个组织的流程时,经常会出现这种误解。于是,虽然运营系统(例如企业资源规划和客户关系管理)消费并生产数据,但没有人了解这些数据对AI的潜在价值。如果分析团队或AI团队想要使用运营产生的数据,只能自己去检索并加以利用,这与传统数据仓库团队做了多年的工作并无太大区别。
在充斥着此类误解的地方,组织可能坐拥大量数据,却没有被AI充分利用。造成这一现象的主要原因是,业务流程产生的数字痕迹往往散布在各个运营系统。如此一来,检索必要的数据以重建流程全貌就成了难题。简而言之,数据作为价值创造输入项的战略潜力未能得到充分开发。
误解三:数据可访问性问题可以等到AI生命周期的后期阶段再解决 AI生命周期的五个阶段旨在推动AI团队以敏捷模式工作,尤其是在概念验证阶段和MVP阶段。就其本身的性质而言,AI是一种不确定的努力,因此它很适合采用这种方法。团队必须有能力用模型开展实验,根据实验结果来找出解决组织问题的最佳方案。但遗憾的是,这种方式也会促使团队在前三个阶段的大部分时间里,几乎完全专注于AI工作中的科研部分。参与构思、蓝图和概念验证阶段的利益相关者,同处理数据可访问性问题的利益相关者不是同一群人。数据工程师主要关心的是创建可供数据科学家构建和训练模型的平面文件。他们认为,只要能生成此类文件,动用能力所及的一切手段(包括黑客、变通办法和模拟数据)都是合理的。
若想让AI赋能的系统为组织增值,就必须将其打包为可以同组织基础设施集成的产品或服务。集成问题常常是在生命周期的后期阶段解决(参见副栏“AI生命周期中的利益相关者和数据”)。于是,软件工程师和IT人员就成了公布坏消息的人。如果公司不尽早解决数据可访问性问题,最终往往就会付出始料未及的额外成本。此外,当其他利益相关者(通常是IT人员)的优先次序被意外打乱以解决数据可访问性问题时,项目可能会停滞下来。在某些情况下,AI项目甚至可能无法在生产中实现。
误解四:实验室数据和实际运营数据是一样的 公司构建AI基础上的概念验证已经越来越纯熟。然而真正的考验是,它们能否从概念验证阶段的受控实验室环境顺利过渡到散乱无序的生产环境。人们常常认为,一旦AI通过了MVP阶段进入生产阶段,就可以复制概念验证阶段的数据检索流程,几乎不用付出任何成本。但是别忘了,概念验证阶段的数据来自一些平面数据文件,而这些文件通常是基于历史数据快照创建,专门用来构建和测试模型的。
在生产阶段,AI必须连接到多个即时系统,这些系统会检索AI工作所需的输入项,有时以实时方式进行。需要提取的这些数据可能具有相同的特征,但其访问和检索方式千差万别。例如,运营对数据量和速度的要求,或许与反复训练模型的要求相差甚远。实际上,我们研究的一些AI咨询公司会刻意限定自己的业务范围,仅提供概念验证开发服务,从而完全避开生产中的数据问题。
如果组织认定实验室数据和生产数据是一样的,就会忽视数据可访问性当中相当多的复杂性。这意味着AI项目或许能快速启动,但需要付出大量额外的时间和精力才能在生产中运行。
如何管理AI的数据可访问性
数据可访问性问题会影响AI在组织中的成功。为了解决这一问题,我们提出三条建议,以帮助组织更好地管理AI的数据可访问性:让利益相关者将数据可访问性理解为业务问题,认识到组织数据对AI的价值,在AI的整个生命周期中始终考虑数据可访问性。