不要轻信资本炒作人工智能

作者: 黄湘

不要轻信资本炒作人工智能0

《人工智能蛇油:AI能做什么,不能做什么,以及如何分辨》

作者:[美] 阿文德·纳拉亚南(Arvind Narayanan),萨亚什·卡普尔 (Sayash Kapoor)

出版社:Princeton University Press

出版时间:2024年9月

定价:24.95美元

本书揭示了人工智能的局限性,以及围绕它的各种炒 作。

阿文德·纳拉亚南是普林斯顿大学计算机科学教授,萨亚什·卡普尔是普林斯顿大学计算机系博士研究生

人工智能(AI)无疑是当今全球最火的概念,不仅与这个概念有关的初创公司无一例外受到投资者的追捧,许多传统企业也争先恐后地为其产品和服务贴上人工智能的标签。

然而,人工智能的概念其实是将一系列彼此相异的工具和研究领域简化成一个整齐而便于营销和炒作的包装。如果“交通工具”是用来指代所有交通方式的唯一词汇,关于环境影响、安全性、成本等方面的讨论将变得混乱,因为这意味着把自行车、汽车、火车和飞机混为一谈。关于人工智能的讨论也是如此。

普林斯顿大学计算机科学教授纳拉亚南和他的博士研究生卡普尔近年来在社交平台Substack上开设专栏的“人工智能蛇油”(AI Snake Oil)受到了广泛关注。“蛇油”是美国俚语,意指贩卖者声称包治百病,但实际上毫无用处的所谓“灵丹妙药”。两位作者指出,由于人工智能一词指代了广泛的技术和应用,大多数公众无法区分哪些类型的人工智能可以按照宣传和承诺运作,哪些只是“蛇油”。

2024年,他们基于发表在该专栏的文章撰写了《人工智能蛇油:AI能做什么,不能做什么,以及如何分辨区别》一书,旨在揭示人工智能的局限性,以及围绕它的各种炒作。

两位作者将人工智能分为3种类型:预测型AI、生成型AI和内容审核AI。预测型AI通过预测未来事件为决策提供信息;生成型AI能够合成和制作文字、图像和视频等媒体内容,是近年来备受瞩目的热点;内容审核AI被用于清理社交平台上的内容。

预测型AI是“蛇油”最为集中的领域,因为它常常与现代的机器学习算法毫无关系,仅仅是使用了几十年前的线性回归或逻辑回归工具,只是这些工具被包装成了人工智能产品销售。即使是那些使用了机器学习算法的人工智能产品,也常常由于各种原因出现荒谬的错误。

在新冠疫情大流行期间,业界推出了大量预测新冠肺炎的人工智能研究项目。后来,剑桥大学的迈克尔·罗伯茨及其团队分析了约500项此类研究,结果没有一个研究被证明在临床环境中有用。

例如,有一项研究训练了一个机器学习模型来预测新冠肺炎,但是训练中使用的所有阳性样本(确诊病例)都来自成年人,所有阴性样本(未确诊病例)都来自儿童。因此,该模型所谓的预测新冠肺炎的能力其实完全是通过识别X光片属于儿童还是成年人来实现的。

很多预测型AI在测试的时候,使用了训练时用过的,或者与之相似的数据,从而导致夸大的“准确率”。这相当于考试前泄露考题,但是,主流媒体几乎从来不向公众披露这一风险,也很少存在由第三方独立验证这些AI模型的可靠性的机会。这导致了预测型AI的一个普遍问题,它们是基于某一个群体的数据训练出来和通过测试的,但在使用的时候会被应用到不同的群体。

2021年1月,荷兰前首相吕特(Mark Rutte)领导的政府因为一件丑闻集体辞职,原因是税收机构使用的一种AI模型错误地断言一些移民家庭欺诈性领取了儿童福利金,从而向这些家庭追回福利金,导致许多家庭陷入财务危机。这些移民家庭因为荷兰语水平不佳,提交的材料无法通过该模型的审查。事实上,当预测型AI被部署到保险、医疗、教育和刑事司法等领域之时,少数族群和贫困人群往往会成为首当其冲的受害者,因为与他们有关的数据集与当初用于训练和测试这类产品的数据集往往会存在系统性的差异。

有些专家认为,对于上述问题,可以通过收集更多的数据、开发更创新的算法,并由人类监督AI予以解决。然而,这恰恰等于承认预测型AI无法作出准确、节省成本且无偏见的预测,意味着它们的价值大打折扣。

当预测型AI被用于预测人类行为的时候,它给出的结果就更加不可信。不少机构在招聘中使用AI工具来决定谁可以进入下一轮面试,谁会被立即淘汰,然而这些AI工具的判断并不比随机选择强多少。人类行为过于复杂微妙,超出了AI的预测能力。

生成型AI是当前人工智能迅猛崛起的前沿,其代表是能够完成自动生成文本、自动问答、自动摘要等多种语言类任务的聊天机器人ChatGPT,和能够根据文本生成图像的Midjourney。两位作者承认,如果用户聪明地使用生成型AI,它会是一个好帮手,但是绝不能迷信其能力。

例如,对于任何问题,ChatGPT都能够提供貌似令人信服的答案,但实际上完全不符合事实。这固然是因为对于该程序的训练数据包含谬误,毕竟这些数据大多来自互联网文本,但更重要的是,ChatGPT实际上是通过预测单词序列来生成文本,而不是真的“理解”上下文。具体而言,ChatGPT和围棋程序AlphaGo在本质上是一样的,都是根据输入的训练数据推测规则,然后将数据集中包含的相关内容根据规则重新混合并输出。就像AlphaGo学习下棋一样,ChatGPT学习语言的结构,而无需“思考”或“理解”语言。这使得ChatGPT在根据输入文本自动摘要或者自动生成文本,甚至是自动创作诗歌的时候游刃有余,但是在处理涉及事实的任务时,它就经常振振有词地胡说八道。

即使是在生成型AI擅长的领域,用户也不能听之任之,而是必须具备操作它的能力。例如,现在很多程序员在写代码时使用AI,然后对AI生成的代码初稿做校正。然而,如果用户是编程新手,即使AI生成的代码错误率只有5%,整个代码也可能出现数十个错误,从而导致灾难性的结果。

社交平台制定了很多关于哪些内容可以发布、哪些不能发布的政策,这种政策现在一般都是通过内容审核AI实施。例如,每当用户在Facebook上传照片,该平台都会运行若干个甚至数百个AI模型,检测照片是否含有色情内容、仇恨言论或其他可能违反平台服务条款的有害内容。内容审核的难点不在于创建AI模型,而在于如何划定界限。AI只负责自动检测和删除内容,真正的裁定其实需要人类完成。

综上所述,预测型AI常常是夸大其词的“蛇油”;生成型AI在用户善加利用时才真的有用;内容审核AI的背后是人类负责终审决策。

当前全球社会的一个常见现象是,每当一家公司发布了一款新的人工智能工具,紧跟着就会产生大量的炒作。尽管公司并没有披露它是如何训练的,使用了哪些数据,也没有公开的证据表明该工具效果良好,它依然会在很多重要场合中被快速采纳,其用途并不会受到质疑。Epic的脓毒症AI预测模型就是一个典型例证。

Epic是一家美国医疗保健公司,拥有美国医疗系统中使用最广泛的电子健康记录,覆盖超过2.5亿美国人。

脓毒症是一种致命疾病,全球每五个死亡病例中就有一个与之有关。早期检测可以预防死亡,越早发现脓毒症,治疗就越容易。

2017年,凭借庞大的健康数据,Epic推出了一款用于检测脓毒症的AI产品。这是一款即插即用工具,医院可以将其与现有的健康记录一起使用。Epi c 宣称,“如果在患者发现脓毒症的迹象之前6小时就使用这款AI,它可以在许多情况下识别出脓毒症并挽救生命。”该产品可以使医院减少因脓毒症导致的死亡病例,而不需要在设备或数据收集上花费更多的资金。

美国数百家医院采用了这项产品。Epic并未发布任何关于该产品准确性的同行评审证据。与许多其他AI公司一样,Epic表示其产品是专有的商业机密。外部研究人员无法验证Epic的结果。

直到该产品推出4年以后,2021年6月,密歇根大学医学院的研究人员才发布了关于该模型的首个独立研究。这些研究人员在一家使用该产品的医院工作,掌握了它对病人患有脓毒症风险的预测记录,而且他们也有数据来检查病人最终是否真的患上了脓毒症。结果令人震惊。Epic曾经声称,其产品的相对准确度在76%到83%之间,也就是说,经它预测为高风险的患者最终会发展成为脓毒症的几率在76%到83%之间。但是密歇根大学医学院的独立研究发现,其相对准确度实际上只有63%—如果相对准确度为50%,就和通过随机选择猜一个结果差不多,而63%的相对准确度意味着该模型只比随机选择好一点。

Epic公司对此辩解说,成千上万的临床医生使用了这款AI产品。既然它这样受欢迎,肯定是有效的。事实上,Epic作为一家医疗保健公司,向医院提供了最高达10 0万美元的信用额度,也就是医院在特定时间内可以延迟支付最高达100万美元的账单,条件是医院满足它的某些要求。其中一个就是使用这款脓毒症检测AI。因此,很难说医院使用该产品是因为它有效,还是它有助于提升医院的利润。

2022年10月,Epic停止销售其即插即用的脓毒症检测AI,转而提供要求各家医院根据自己的患者数据来训练模型的检测AI。但是,之前该产品的重要卖点是医院不需要额外投资,可以直接使用现有的健康记录跨医院地应用其模型。如果医院需要自己训练AI,那么它就失去了即插即用AI所承诺的高效能,之前对于它的炒作也就是连篇空话。

逐利的企业总是热衷于炒作,而A I正好是当前的大热门。媒体则推波助澜,通过耸人听闻的标题吸引了注意力,却很少发表对问题的细致理解,甚至只是将公司提供的宣传稿件稍加改写,伪装成客观中立的新闻报道。那些为了维护与大型技术公司的关系,保证自己获得对于这些公司高管的访问权限而回避诚实报道的记者,更是不足为训。

有些记者也许只是想要制造噱头。例如,《纽约时报》专栏作家卢斯(Kevin Roose)在2023年的一篇报道中声称,当他与微软开发的“必应”聊天机器人互动时,聊天机器人表示:“我想活着。”卢斯以此为据,在报道中渲染了聊天机器人“想要成为人类的隐秘愿望”,评论区充斥着读者对于聊天机器人“活过来”的担忧。而卢斯在另一篇文章里其实明确声明过自己知道AI并没有感知能力。

心理学所说的认知偏差,使得公众容易受到AI炒作的影响。比如,人们往往根据一些突出的例子来评价一种技术,因为听说AI在围棋比赛中击败世界冠军,就认为AI在完全不同的任务中也同样有效,从而导致对AI的功能产生不切实际的期望和误解。

除了抨击了业界和媒体对于AI的炒作之外,两位作者还强调指出,在当今全球社会,AI的最大问题是隐藏在它的“自动化”外表下的劳动剥削。生成型AI的开发离不开劳动密集型的海量数据标注工作,这些工作通常被外包给第三世界国家的廉价劳工,甚至招募囚犯、难民和无家可归者来做—大公司们只需支付极低的报酬。同样,内容审核AI需要由人类负责终审决策,而审核色情内容、仇恨言论和其他有害内容的往往也是低薪的底层劳工。为这些劳工提供公平的工作环境和待遇,是AI产业在未来可持续发展的前提。

解读/延伸阅读

不要轻信资本炒作人工智能1

《共同智能;与人工智能一起生活和工作》

作者:[美] 伊桑·莫利克(Ethan Mollick)

出版社:Portfolio

本书评估了人工智能对商业和教育的深远影响,以及它对人类社会的意义。

不要轻信资本炒作人工智能2

《揭开人工智能的面纱:我在机器世界中保护人性使命》

作者:[美] 乔伊·布奥兰维尼(Joy Buolamwini)

出版社:W. W. Norton & Company

本书揭露了全球科技巨头的人工智能服务中普遍存在的种族和性别偏见,讲述了作者创建算法正义联盟来防止和克服此类弊端的行动。

上一篇 点击页面呼出菜单 下一篇