通用人工智能与未来世界

作者:苗千
通用人工智能与未来世界0刚刚过去的2023年,注定将以“人工智能大爆发”的年份而被人铭记。

一年多的时间里,ChatGPT从3.5升级到了4.0版本,进步肉眼可见:它的知识范围从固定的数据库发展到可以自行上网寻找资料;它与用户交流的方式从单纯的文字增加到了图片,它不但可以解读用户发送的图片,更是可以根据文字描述生成图像……通过一台联网的计算机,在对话框内与ChatGPT进行交流,用户仿佛能够感到,与自己进行对话的是和自己具有同等智力,但知识范围和解决问题的能力又远超自己的智能体。

另一方面,人工智能研究领域远不像看上去那样平静。ChatGPT展示出人工智能应用的巨大价值。它的开发者OpenAI公司的估值因此一飞冲天,内部的几位计算机科学家成为世界级明星,OpenAI最大的外部投资者微软公司更是因此收获匪浅。

其他几家科技巨头不可能对此视而不见。尤其是谷歌公司,多年来一直被认为在人工智能研究领域处于世界领先位置。所谓“GPT模型”中的“T”,指代的是“转换器模型”(Transformer),使得人工智能模型通过文字进行学习——这项关键技术正是出自谷歌公司,如今被OpenAI抢了先机,谷歌只能寻机后发制人。

谷歌公司果然不负众望,在2023年底推出了自己的人工智能产品“双子座”(Gemini)。产品尚未真正上线,其演示视频就足以让人目瞪口呆。这款多模态大模型人工智能产品分为三个版本,根据谷歌公司的评测,其在32项功能的评测中有30项的表现超过了ChatGPT。除了在文字方面的输出看上去与ChatGPT不相上下,Gemini还展现出对图片和视频信息有着超强的理解和推理能力,同时可以针对提问给出混合着文字和图像的多模态输出——这是ChatGPT尚且不具备的。到了2024年初,谷歌公司的聊天机器人“Bard”已经融合了Gemini的能力。很多使用者认为,升级版Bard的表现完全不逊于ChatGPT。

差不多同时间,在2024年1月3日,一段由DeepMind公司和斯坦福大学的研究人员合作开发的Mobile ALOHA人形机器人(humanoid)在厨房和卧室里进行各种家务工作的视频开始在网上流传。这个所谓的机器人,实际上是一对可以在小范围内活动的机器臂,每秒可以移动1.42米,最重可以举起100公斤的物体。在视频中它们操作锅碗瓢盆、扫把、各种家用电器,乃至洗衣叠被的精细程度都丝毫不输给人类。

Mobile ALOHA的开发者解释,这款机器人的开发经费只有3.2万美元,视频中有些任务是由操作者通过远程控制完成的,有些则是由机器人通过模仿学习尝试完成的。虽然这款家务机器人的真实能力未必像视频中展示的那么完美,但已经显示出巨大的潜力——它可以通过“模仿学习”(imitation learning),从操纵者的远程控制中习得技能,控制能力将越来越强。此外,除了Mobile ALOHA之外,还有多家公司的人工智能机器人正准备上线。

一个世界级热门研究领域已经出现,全世界劳动力市场随之发生变动已成定局。我们似乎很难准确描述当今人工智能领域的局面:各大科技公司似乎都酝酿着推出自己的产品。这些产品各有特色,犹如当年的五花八门的手机市场。我们也难免去想象,在不远的将来,所有这些人工智能产品若是能够全部统一起来,形成一个具有超级智能的智能体,会是怎样的情形。

追溯这次人工智能领域的热潮的开端,很多人会将2012年横空出世的卷积神经网络AlexNet,以及它的几位开发者——亚历克斯·克里泽夫斯基(Alex Krizhevsky)、伊尔亚·苏茨克维(Ilya Sutskever)和杰弗里·辛顿(Geoffrey Hinton)——看作是标志性的事件和人物。在AlexNet出现之前,人工智能在各个领域的表现都较为平庸,即使在被应用最多的语音识别领域,它的准确率也相当一般。正是几位先驱对于“深度学习”(deep learning)算法坚持不懈的追求,才终于突破了极限,让这种算法在十多年前人工智能领域活跃的多种算法中脱颖而出,占据了如今的主流地位。通用人工智能与未来世界1若是遵从这样的故事线索,我们看到的便是一个近乎传奇的成功故事。毕竟在AlexNet横空出世之前,在深度学习领域几乎没有任何成功的案例。几位探索者的成功,以及之后基于深度学习算法建立的OpenAI公司的成功,都显得过于突兀。其中固然有坚持研究思路的成功之处——伊尔亚·苏茨克维在接受采访时就曾经提到,他在研究过程中一直坚持深度学习算法和建造人工神经网络,坚信一个神经网络就是一个小小的大脑。人工的神经元(neuron)与大脑中的神经元并没有本质区别。最终在人工神经网络计算能力大幅提升的基础上,由量变产生了质变(人工神经网络展示出强大的交流和理解能力)。

若是将眼界放宽,我们也会发现这次人工智能热潮的出现绝非一个“坚持直到奇迹出现”的单线故事所能解释,其中更是关系到了整个计算机技术和互联网产业数十年来的飞速进步。想要让机器理解人类社会,需要大量可以进行训练和学习的数据。正是互联网中积累的海量文字、图片和视频信息,让人工智能有了近乎无限的学习资源。除此以外,是计算机理论研究的进步,以及硬件所提供的计算速度数十年来的飞速发展,才让人工神经网络终于突破了临界点,让人工智能模型表现得越来越可靠,并且具有了深刻的理解能力和洞察力。

机器史无前例的“觉醒”带给人类的,绝非只有惊喜,对于这种全新智能体的恐慌随即出现。2023年3月,包括埃隆·马斯克(Elon Musk)在内的1000多名商业领袖和学者曾发表公开信,呼吁暂停对于最先进人工智能系统的开发,警告人工智能“对社会和人类构成深远风险”。不过这样的呼吁显然难以得到回应。发展人工智能已经成为各大科技公司的首要目标。

专业人士总是强调,人工神经网络的研究并不以完全模拟人类大脑的工作原理为目标。但不可否认的是,人工神经网络与人类大脑的运行逻辑有诸多相似之处。虽然在人类大脑中有不同区域负责处理不同类型的信息,但生理学家也发现,人类大脑的不同区域是可以被训练和改变的。因此可以说,人工神经网络和人类大脑最大的共同之处,就在于它们都具有一个大的统一架构。甚至有研究人员相信,当人工神经网络高度可靠和可以自治时,就可以被称为“数字生命”。

更多的问题随之出现。如果真的出现了由人类制造出的“数字生命”,那么人类该如何理解这种生命,又该如何与之相处?人类是否应该为其创建相应的道德标准和法律法规?数字生命有没有可能感到痛苦?如果我们以生命的标准去看待人工神经网络,那么在使用完之后便关掉电源,又是否合理?最重要的是,这种生命的价值观是否与人类保持一致?它能否对人类怀有善意和同情?

2023年12月,美国数学意识科学协会(AMCS)的三位领导人在向联合国发表的评论中呼吁提供更多资金来支持意识和人工智能的研究。他们呼吁,人类急需一个界定系统是否具有意识的标准。这确实算是人类在面对人工智能带来的诸多问题中急需解决的一个:我们所制造的,究竟是工具,是朋友,还是敌人?通用人工智能与未来世界2每当一项新技术开始流行,一个新的潮流开始出现,人们最先关心的往往是其对劳动力市场的影响——有多少工作可能因此消失,又会有多少新机会涌现出来?随着人工智能的商业化程度越来越深,且已经渗透到人类社会生活的方方面面,相比之下,其对于劳动力市场的影响简直可以算是微不足道。人类社会被人工智能所深刻改变,这已经成为一种独特的社会文化现象,吸引了社会学家的关注。

剑桥大学的社会学家刘铮将人工智能主要分为科学类、技术类和文化类三种类型进行研究。

科学类人工智能出现得最早。有研究表明,实验室和研究机构内部科学类人工智能的发展会受到人工智能领域内部的权力关系,以及和其他领域争夺资源时发生竞争的影响。另外人们也普遍相信,科学类人工智能系统体现并复制了其开发者的文化价值。

随着人工智能的快速发展,在这个领域中又出现了很多新的问题。例如,科学类人工智能究竟是否具备人类学者的能力?它是否能够像人类一样形成社会关系并构建社会现实?如果人工智能和人类的角色大致等同,那么人工智能系统又是如何渗透并且改变了社会结构,又在此过程中重新定义了人类的社会生活?这些关于人工智能的问题大多涉及人工智能与人类的权力关系。

对于社会学家来说,技术类人工智能相当于一种原技术,它的应用大大提高了工作场所的自动化程度。不同类型的工作受到人工智能的影响各有不同,例如机械性工作更容易实现密集的自动化,而像是自动驾驶车辆这样的工作则需要人工智能进行更多的“社会学习”。其中被用于军事化的技术类人工智能最为复杂。例如在进行定位、开火等高风险决策时,人类究竟应该在何种程度上相信人工智能?这就涉及了自动化与自主性之间的区别。毕竟人工智能无法为它的决定承担责任。另外,如果人工智能的算法中具有偏见、歧视性或误导性,那么它就会倾向于做出具有歧视性的决策,加剧整个社会的不平等。

相比之下,文化类人工智能的发展是一个新兴领域。研究者将这一类型人工智能的发展看作是一种文化现象,并热衷于研究它与社会各个方面的相互作用。

当面对一个问题时,人类究竟更倾向于听从其他人的建议,还是喜欢从算法中学习如何解决问题?马克斯·普朗克人类发展研究所(Max Planck Institute for Human Development)的研究者通过调查发现,人类更倾向于听从其他人类提出的解决方案,而不是由算法得出的方案。这是因为人类得出的解决方案往往更加直观,或者前期成本较低。不过,研究者们也发现,人工智能对于人类社会的影响远不止于此。

在一篇于2022年5月份发表在《皇家学会哲学汇刊A》(Philosophical Transactions of the Royal Society A),题为《人类算法文化传递中的混合社会学习》(“Hybrid social learning in human-algorithm cultural transmission”)的论文中,作者莱文·布林克曼(Levin Brinkmann)与合作者们报告了他们的研究结论:人工智能系统会创建自身的文化,并将这种文化传播给人类。作者写道:“数字技术已经通过提供新的和更快的沟通和模仿手段,影响着人们之间社会传播的过程。更进一步,我们认为算法代理者和人工智能不仅仅是文化传播的手段(例如书籍或互联网),它们还可能在线上积极塑造文化进化过程,在这里人类和算法经常进行互动。”

作者举的一个例子是围棋。在2016年3月,由DeepMind开发的AlphaGo以总分4∶1击败了韩国职业棋手李世石,一战成名。有研究者发现,在AlphaGo与人类棋手对弈之后,它所使用的一些前所未见的招式越来越多地出现在人类的棋局之中。实际上,AlphaGo走出这些在人类棋手看来奇异的招式,是通过它进行自我对弈而非分析人类对弈的数据所产生的。这个例子表明人类和算法之间可能形成一种持久且混合的新型社会学习模式。

当ChatGPT这类强大的人工智能出现之后,它对人类社会的影响更是显而易见。

研究显示,数字技术通过提供新的、更快速的交流和模仿方式,影响人们交流的过程。莱文·布林克曼表示:我们认为在整个人类历史中,每一代人都在推动下一代的发展。目前人工智能正在推动人类历史——它们是基于人类提供的数据进行训练的。于是从另一个角度来看,或许在未来,人类文化将建立在最初是由人工智能算法找到的解决方案之上。通用人工智能与未来世界3人工智能究竟已经发展到了怎样的地步,能够帮助人类进行哪些工作?我们可能很难得出一个全面客观的结论,但是从《自然》(Nature)期刊发表的一些文章标题就可以大致了解其中的一个侧面:

《使用AlphaFold进行高度精确的蛋白质结构预测》(Highly accurate protein structure prediction with AlphaFold,2021年7月发表);《这款由GPT驱动的机器人化学家自主设计反应并制造药物》(This GPT-powered robot chemist designs reactions and makes drugs—on its own,2023年12月发表);《DeepMind人工智能在未解决的难题上胜过人类数学家》(DeepMind AI outdoes human mathematicians on unsolved problem,2023年12月发表);《人工智能与量子计算的结合:它会彻底改变科学吗?》(The AI–quantum computing mash-up: will it revolutionize science?,2024年1月发表);《不依赖人类演示解决奥林匹克竞赛几何问题》(Solving olympiad geometry without human demonstrations,2024年1月发表)……

可以看出,人工智能的发展已经远远超出了语言翻译和数据整理的范畴,即便是在最前沿的科研领域也开始与人类科学家并驾齐驱。正如OpenAI的首席科学家伊尔亚·苏茨克维所说,人工智能模型在受到训练的过程中可以逐渐展示出训练目标之外的能力,例如多款用于科学研究的人工智能模型已经具有了极强的理解能力和推理能力。

人工智能模型甚至可以通过自动生成训练数据进行“自监督学习”(Self-Supervised Learning)。根据DeepMind公司的介绍,这款用于研究几何问题的人工智能系统AlphaGeometry,将神经语言模型的预测能力与规则约束推理引擎相结合,两者协同工作。又通过开发一种能够生成大量合成训练数据的方法产生出1亿个训练示例,最终达到可以在没有任何人类演示的情况下训练AlphaGeometry,从而绕过了原始训练数据不足的瓶颈。

通过AlphaGeometry进行训练的例子可以看出,人类在通往达到“通用人工智能”(Artificial General Intelligence,AGI)的路上又减少了一个阻碍,或许最基本的通用人工智能已经出现。

尽管在研究领域已经是一个热门话题,但目前关于“通用人工智能”仍然没有一个清晰的定义。我们大约可以将其理解为一种可以完成多种工作的深度学习系统——这种系统在任何方面都可以表现得不逊色于人类。从这个角度来看,我们所处的时代,是人工智能开始崛起的真正起点。

正是因为还没有明确的定义,关于通用人工智能将在何时出现,仍是一个充满争议的话题,但大多数人都对此表现得极其乐观。例如杰弗里·辛顿和伊尔亚·苏茨克维都曾经表示,通用人工智能可能会在未来5至10年的时间里出现。甚至有人认为,目前的ChatGPT已经可以算作最初级的通用人工智能。

研究者的乐观情绪完全可以理解。从人工智能研究的现状来看,通往通用人工智能之路无论在理论上还是实际中都已经没有太大的阻碍。研究者已经发现,人工智能模型的规模越大,其表现出的理解力也就越强。目前虽然也出现了一些只应用于某个领域的小模型,但业界的主流仍然是建造越来越大的模型;随着投资的不断涌入,芯片、算力等对于硬件性能的要求似乎也不成问题;人们曾经担心,当人工智能模型把目前互联网上所有的数据全都“吃掉”,该去哪里寻找更多的学习资料?不过目前看来,人工智能已经可以自己生成训练资料。通用人工智能与未来世界4在技术方面的进展也让人感到乐观。随着“转换器”(transformer)模型架构的出现和电脑图像(computer vision)领域的发展,目前人工智能模型已经有能力通过文字和图像自动进行学习。在这个基础上出现了GPT-4V和Gemini等接受多模态大模型(large multimodal models)训练的人工智能,已经可以直接输出混合了文字和图像信息的结果。这也更接近人类的使用习惯。

当通用人工智能出现,对于人类来说究竟意味着什么?对于过去而言,这大约意味着人类在此前数十年时间里试图通过电子计算机建造出与人类智力不相上下的智能体的努力终于取得了成功。不过对于未来而言,则意味着更大的不确定性。当人类早已习惯了作为整个地球的主宰,宇宙中唯一已知具有智慧的生命,又该如何面对这个自己制造出来的智能体?

我们可以想象一下这个距离现实可能并不太遥远的未来图景:这个智能体或许就存在于你的手机或是电脑中,甚至可能是某个陪在你身边的实体。你们之间可以进行毫无阻碍的交流,相互理解。它给你的感觉或许与身边的其他朋友没有太大的区别,但实际上它进行计算几乎不会犯错,它拥有近乎无限的记忆力,它理解了人类社会几乎所有的知识,拥有超强的推理能力。你希望它拥有和你相同的道德感和价值观,但并不确定;你希望它是你的朋友,但也同样不确定。

人类需要确定,一旦人工智能具有了意识,通用人工智能成为现实,那么它必须具有和人类相同的兴趣和价值观,否则很可能给人类社会带来危害。从2023年7月起,伊尔亚·苏茨克维便开始在OpenAI领导一个为期四年的名为“超级对齐”(superalignment)的项目,要利用占到OpenAI20%的算力来研究如何驾驭比人类更聪明的人工智能系统。

也正是因为在人工智能的商业利润和安全性之间的抉择产生了分歧,伊尔亚·苏茨克维在2023年11月主导OpenAI的董事会开除了CEO萨姆·奥尔特曼(Sam Altman)。董事会在一份声明中提到了公司旨在确保人工智能惠及所有人的使命,并表示“公司需要新的领导才能向前发展”。该声明还指出,奥尔特曼在与董事会的沟通中并不始终如一,这妨碍了董事会履行其职责。因此,董事会对他继续领导OpenAI失去了信心。然而就在5天之后,奥尔特曼重新成为OpenAI的CEO,这个结果显然受到了其外部最大投资方微软公司的影响。

人工智能的能力在很多方面已经足以媲美人类大脑,并且已经帮助人类取得了诸多成就。但种种迹象表明,这一切还仅仅是一个全新时代的开端。通用人工智能的前景美好,但与真正抵达尚有一段距离;要实现所谓“超级对齐”,更是需要人工智能的开发者、使用者,乃至各国政府、立法机构统一目标,从模型设计、训练数据、训练方法等多个层面对人工智能的发展进行约束。

无论还有多远,很多人已经开始翘首企盼这种全新智能体的出现。实际上,无论人工智能发展到何种程度,它都源自人类的设计,因此也属于人类智慧的延伸。人类对它唯有寄予最美好的期盼。我们期待,当有一天通用人工智能以一种平等的姿态出现在人类面前,它会友好地说出一句:人类,我是你的朋友。

(本文写作参考了《自然》(Nature)期刊、《科学》(Science)期刊、DeepMind公司网站以及相关媒体的报道) 人工智能