人工智能需要有更大的自主性

作者:苗千
人工智能需要有更大的自主性0人工智能研究在最近几年能够取得巨大的突破,其背后真正的推动力来自哪里?想要继续前进,整个产业又面临着哪些挑战?带着这些问题,本刊对具有15年人工智能从业经历、硅谷资深工程经理、专攻自然语言处理和计算机视觉领域研究的学者斯蒂文进行了专访。应采访对象要求,本文仅使用其化名。人工智能的这一次浪潮,与之前有哪些不一样?

三联生活周刊:电子计算机在20世纪中期就出现了,人类关于人工智能的研究也随之开始。此后这方面的研究经过了多次的高潮和低谷。最近人工智能又一次取得突破的关键是什么?

斯蒂文:人类对于人工智能的研究从创建计算机之初就已经开始了,人工智能作为一个研究领域更是在1956年的达特茅斯会议得到了确立,在那之后还经历了好多个不同的浪潮。每一次浪潮往往都是从软件、硬件、数据等各方面的革新开始的。

关于这一次的浪潮与之前有哪些不一样,在我看来主要有三点。第一点和数据有关。如果我们一直追溯到上世纪70年代和80年代,当时人工智能研究的主流叫作expert systems(专家系统),专注于模拟人类专家的知识和经验来解决特定领域的问题。但是,它这样的设计也带来了一系列的困难,尤其是建立其知识库和获取常识的难度。之所以选择这样的设计,很大程度上也是受到了数据的限制。当时还没有互联网,也没有大量的数据存储空间,自然也就没有现在经过了几十年的发展之后互联网上互通互联的海量数据,比如Common Crawl上的数千亿单词的网页数据集。

第二点和软件有关。在过去十多年的时间里,深度学习和人工神经网络所带来的应用真正地走向了大众,并做到了让每个人都可以从中受益。深度学习到底做了什么事情呢?它实际上就是通过建造一个深层的大规模的人工神经网络来使得这个系统拥有了更强的表征能力,可以更好地从大量的数据里学习到高级的抽象的概念。

之前那几代人工智能的浪潮里,那些模型的表征能力和现在的系统相比都是很有限的。用语言模型来打个比方,那些曾经的模型往往没办法真正完整表达人类语言中所有的细节,比如说人类语言的嘲讽的概念,不同语言或者文化之间的细微差别——这些细微的东西在模型表征能力比较粗糙的情况下,是没办法被完全表达的。在最近十几年里,很多成功的研究都是关于如何让这些模型的表征能力更强。有个数学公式叫作universal approximation theorem(通用近似定理)。这个定理讲的是当深度人工神经网络足够复杂的时候,它可以近似任何一个方程。在我看来,这是一个非常重要的数学基础。这也就意味着我们现在所用的模型可以比以前更好地学习这些数据,再从数据里面发掘出更有意义的应用。

第三点和硬件有关。我们现在的计算机已经有了和以往不在一个规模等级的计算和存储能力。要在这么复杂的模型上进行运算,并且从这么多的数据里学习到东西,就需要非常有效率的硬件。比如在过去的30年间,世界上最快的超级计算机的每秒钟浮点运算整整上升了1000万倍。也只有达到这样的程度,我们才可能获得这样的效果。

可以说,这三点的结合造就了这一次人工智能研究的又一次突破。

三联生活周刊:从研究者的角度来说,这次研究的突破是不是在几年前就已经发生了,只不过对于大众来说,突破性的应用产品才出现不久?

斯蒂文:是的。在我看来这次进步并不是一个忽然从0到100的突变,而是一个渐进的过程。它只不过是在某一个时间点或是某一个产品上,忽然被大众所了解了。在这一瞬间,对于大众来说会觉得是一个突变。但是对于在人工智能领域耕耘多年的研究人员和工程人员来说,是一个很有意思的渐进的过程。

三联生活周刊:有关人工智能的资料总会出现一个词叫作“大语言模型”(Large Language Model)。从字面意义来看,这好像是用于在不同的语言之间进行翻译的工具。为什么它对于人工智能的发展这么重要?

斯蒂文:这是个很好的问题,在2014年有一篇题为《神经网络的序列到序列学习》(“Sequence to Sequence Learning with Neural Networks”)的论文,它在引言部分清楚地回答了这个问题。这篇论文提到,除了不同语言之间的翻译功能之外,很多人工智能的功能其实都可以被转换成从文字到文字的“翻译”工作。

比如智能问答这个功能,它就可以被看成人工智能在把用户问的问题(文字)“翻译”成对应的答案(文字)。举一个例子,比如说你问人工智能宫保鸡丁的做法,那么它的回答就会是:基于互联网上的菜谱,要做宫保鸡丁,你应该先这么做然后这么做——实际上这就是从文字到文字的“翻译”功能的一个应用。

所谓从文字到文字的翻译,从狭义的角度来说,就只是机器把一句法文翻译成一句中文,或者把一句中文翻译成一句日语。但是如果把它扩展来看,它就可以替代或者说可以表征大部分自然语言处理的问题。如果我们可以让模型把图像作为输入或是输出,那么它可以完成的工作就更广了。后来的大语言模型的发展也大都借鉴了这个思路。

三联生活周刊:目前很多人都把人工智能研究等同于人工神经网络的研究。除了人工神经网络之外,人工智能还有没有其他的研究方向?

斯蒂文:在我看来,人工智能作为计算机科学的一个子分支,在下面还有很多的分支,其中有一类分支是机器学习,人工神经网络又是机器学习的其中一种算法。所以严格来说,人工神经网络只能算是人工智能或者说机器学习的一个子算法。

为什么大众有一种错觉,认为人工智能就是人工神经网络呢?我认为主要和最近人工神经网络获得的很多成功直接相关,也有媒体进行宣传的因素。当然也有可能,比如在10年之后,可能在人工智能的其他领域又有新的革新。但是目前还有这么多的研究人员进行人工神经网络研究,就是因为大家觉得在这个子分支里面还有很大的潜力值得我们继续挖掘。等到有一天这个领域被挖掘得差不多,那么人们也会自然而然地去同时探索其他的领域了。人工智能需要有更大的自主性1三联生活周刊:ChatGPT中的G表示Generative(生成式),P表示Pre-Trained(预训练),而T表示Transformer(转换器)。能否深入解释一下这三者分别代表了什么吗?

斯蒂文:我们可以认为“生成式”“预训练”和“转换器”大致分别代表了这个系统三个不同的方面。

首先,“转换器”代表了这个模型本身的架构,就是说这个模型中不同的“神经元”(neuron)之间是基于转换器架构进行连接的。

其次,“预训练”指的是一种模型训练的方式。预训练本身是一个很有意思的范式,它的意思是,基于我们已经拥有海量数据的前提,我们先对模型在这个大规模的数据上进行一个(预)训练。结束之后,我们认为这个模型就已经具有了很多重要的先验知识。在有了这些知识之后,接下来关于特定的问题,我们只需要一些小规模的特定数据继续训练这个模型就可以达到很好的效果。

最后,“生成式”在我看来是一种应用的方式,也就是说利用这个模型来生成文字。在GPT刚刚出现的时候,它还有一个很重要的竞争对手叫BERT(Bidirectional Encoder Representations from Transfomers),基于转换器的双向(文本)编码表征。从名字上也能看出来,BERT在应用中更多是被用于编码表征不同的文本,所以被大量用于文本分类、理解和检索上。但是GPT完全以文本生成为目的,所以被大量用于给定条件的文本生成、智能问答等领域。

三联生活周刊:那么为什么GPT结合在一起会这么成功?

斯蒂文:前面说过,最近人工智能又一次取得突破的关键是软件、硬件和数据三方面的革新。而GPT里的三个词就大致对应了这三方面的革新。

首先关于“转换器模型”,谷歌在2017年发表的论文《(文本到文本的翻译)只需要用注意力机制来建模》(“Attention Is All You Need”)已经证明了“转换器”为什么可以如此成功。在这篇文章里,作者讨论了“转换器”相比于之前的模型的种种优势,包括之前的模型常常会遇到“长距离依赖”(long distance dependency)问题,比如说它在学习下一个词的时候会忘记之前的某个词。另外之前的模型都是“线性模型”(sequential model),也就是说要读下一个文本之前必须要把它之前的东西都训练完成,这样就导致模型很难进行大规模的并行训练,也就限制了我们到底能训练多大的模型。转换器则让我们可以尽量扩大模型和训练的规模。它在各个方面都非常的有效。这一点直接对应了软件(模型)的革新。与此同时,OpenAI和微软合作建立了包括28万个中央处理器(CPU)内核和1万个专用图形处理器(GPU)的、世界上已公开的最大的深度学习超级计算机来专门训练GPT,这一点就对应了硬件的革新。

其次关于“预训练”。我们之前说过,“预训练”是一种模型训练的方式。关于大语言模型的“预训练”一般指的都是在无标注数据上的关于给定前文来预测下一个词的训练。一般来说,人工智能系统常常需要在大量的人工标注过的数据上训练,然而人工标注是一个繁琐、昂贵并且很容易出错的过程(比如给一段中文文本写出它对应的法语翻译)。但是因为这个任务(给定前文来预测下一个词)设计得十分巧妙,大语言模型可以在没有经过人工标注的数据上直接进行“预训练”,这就让我们可以利用互联网上海量的数据。这一点也就直接对应了我们之前提到过的数据的革新。

这三者合在一起,硬件、软件、数据上的量变,最后带来的是模型能力的质变。

最后关于“生成”。我们之前提到过,大量的问题可以被转换成文字到文字的翻译问题,那就意味着我们如果可以训练一个超级强大的文本生成模型,我们也就可以解决很多可以转换成为文字到文字翻译的问题。这也就是它强大的通用性。

三联生活周刊:在OpenAI的ChatGPT面世大约一年以后,谷歌近日也推出了自己的人工智能应用“双子座”(Gemini)。Gemini是沿用了GPT方式,还是走出了一条新路?

斯蒂文:新出现的人工智能模型大多数仍然是基于转换器和预训练架构。Gemini比较不一样的地方在于它进行“混合多模态信息训练”(training with interleaved multimodal informations),这和其他许多模型是不一样的。很多以前的多模态人工智能系统往往是通过先训练一个文本模型,再训练一个图片模型,最后再把它们混合在一起。然而我们每天在互联网或者生活中接收的信息本来就是多模态的,比如说一篇新闻稿里常常同时会有图片、文本,甚至相关的音频和视频,如果按照以往的做法就有可能造成信息的丢失,并且也不符合我们处理日常生活信息的方式。谷歌在其论文中提到,Gemini最初就是使用混合多模态数据进行训练的,并且支持直接输出混合的图片和文本结果。我们甚至可以想象将来是否可以用它来生成一篇图文并茂的新闻稿。人工智能的目标并不是完全模拟人脑

三联生活周刊:人工神经网络所模拟的是人类大脑。目前人工神经网络中的神经元数量已经逐渐接近人脑神经元的数量。那么人工神经网络的神经元数量还会进一步提高吗?或者说,提高神经元数量是不是人工神经网络研究最重要的目标?

斯蒂文:人类大脑神经元的构成给人工神经网络的研究提供了一定的启发,但它并不以模拟人类大脑神经元的原理为目标。发展出更大规模的、能力更强的模型,这些年来一直是人工智能研究很重要的方向之一。其中还涉及两方面的因素:

首先,从理论出发,增大模型的规模来提升模型的能力是有明确数学依据的。比如在数学和机器学习领域都涉及一个经典问题,就是如何用一条线来划分空间中的一些点。这些点有蓝色的,也有绿色的,如果能够画一条线正好穿过这些点,让左边都是蓝色的点,右边都是绿色的点,那么很容易,画一下就完成了。

但是空间中的点一般都没有这么容易划分,它们常常是散乱分布的。那又该怎么做呢?实际上现在人工神经网络做的事情就是通过其中的非线性变化对空间进行折叠操作。假设这些点本来散乱分布在一个平面上,蓝色的点分布在这个平面上的一个正方形里,绿色的点在正方形的外面,在这种情况下,我们没有办法用一条简单的线把它们的区域划分开。但是,如果我们巧妙地把平面沿着正方形的两条对角线分别对折,最后只需要画一条线就把问题解决了。每做一次非线性变化,就相当于把空间折叠了一下。空间被折叠了越多次,就越容易划分。这也就代表了更大的模型,或者说更深的人工神经网络有着更强的表征能力。这在数学中直接对应的就是通用近似定理——当你的人工智能网络足够强的时候,它就可以模拟任何的函数。这也是我们要进一步扩大模型规模的理由。

其次,从工程出发,当我们在工业界实践的时候,就会发现模型的规模每增大一个量级,我们都要面对完全不一样的问题。比如说我们的电脑里有内存和显存,它们各有不同的规格。但是看看现在动辄几十亿或者百亿参数级别的模型,假设每个参数都需要用一个浮点位置来存储,只要做一个很简单的计算就能发现,有可能整个内存都放不下这些参数。也就是说,当模型大到了一定规模之后,我们想要用这些模型做一次计算,都要通过好几次内存的数据交换,涉及很多复杂的底层操作,问题的本质就已经发生了变化。

另外,当模型的规模变得很大之后,可能就需要很大的成本来训练这个模型。那么就不仅需要很多的机器和显卡,同时还需要很长的时间来训练这个模型。万一在这中间的某一天,有一个显卡或者有一个浮点运算计算错了又该怎么办?该怎么去及时发现这个问题?而且这个错误有可能导致后面花时间训练出来的东西全都是错误的。所以说,当模型的规模变得越来越大,其中也就牵扯越来越多的工程问题。

目前大家看到的是,把模型的规模做大对它的能力的提升是有明显好处的。但是当模型变得过大,难以运转的时候又该怎么办?是不是会有一个更加有效控制成本的方式?这也是当下很流行的另一个研究领域。也就是说,我们能不能用一个相对较小的模型,来取得差不多的效果?这里也有很多工程学的挑战。

三联生活周刊:人工神经网络以模拟人类大脑为目标,那么它有没有可能具备人脑的一些更加高级的功能,比如进行推理,以及一些非理性的功能?

斯蒂文:关于人脑中非理性的功能我了解得不多。关于推理功能,OpenAI的首席科学家伊尔亚·苏茨克维(Ilya Sutskever)在最近的一次访谈中提到,人们在训练模型的过程中间,能够渐渐看到模型在推理上所展现出来的能力。对于基础模型来说,目前的训练大多是关于给它看了一些文字之后能否准确地推断出下一个词是什么。苏茨克维举了一个例子:如果我们给模型读一本侦探小说,在小说中真凶的名字被放在了最后,模型在阅读了大量数据并且受到大量的实践训练之后,可以准确地推断出这本小说中的最后一个词,也就是凶手是谁,我们是不是可以认为它有一定的推理能力?

当然并不是说我们真的会用大模型去做这个事情(推理侦探小说故事里的真凶)。或许有兴趣的读者可以去试一试。这个例子的目的就是展示大模型在学习和训练的过程中其实也学到了很多超出训练项目本身的东西。

三联生活周刊:在2023年也发生了很多关于人工智能是否有“意识”的讨论。我们对于人的意识还没有特别清晰的定义。那么在人工智能研究领域,关于人工智能是否有“意识”,是否有明确的判断标准?

斯蒂文:我对于这个领域并没有特别的了解,但这确实是媒体和大众非常热衷的一个话题。目前在学术界或者工业界,讨论得更多的是AGI(Artificial General Intelligence,通用人工智能)的定义。关于这方面我可以讲一讲我的想法。

关于通用人工智能,目前有很多不同的定义,大致可以分为几个不同的层次。第一层我认为是最狭窄的定义,就是说这是一个统一的人工智能系统。它并不会像以前的很多模型一样,单纯为了解决某一个问题而设计,而是一个通用系统,可以解决各种不同的问题。

更广一点的定义可以理解为软件和硬件的协同。我们可以理解这样的人工智能已经有了人类级别的智力,同时也拥有人类的感知能力,它可以帮助人类做很多不同的事情。

再广一点的定义是最近硅谷的一些科学家提出的:在这样的基础之上是不是还可以实现自动化,就是说怎样才可以让人工智能有更大的自主性。另外在人工智能有了自主性的情况下我们还要做大量的协调,让人工智能的目标和价值观和人类保持一致。

三联生活周刊:人工智能发展的速度很快。那么目前制约人工智能发展最大的阻力是什么?是来自算法、模型的规模,还是硬件?

斯蒂文:我们之前说到了这一次人工智能浪潮的发生是基于三个方面的革新:软件、数据和硬件。我认为接下来人工智能仍然会沿着这三个方向前进。很多人对于未来的阻碍会有不同的看法,其实在每个领域都有正反方不同的意见。

在数据领域,很多人认为现在的模型已经把大部分的互联网数据都“吃掉”了。那么接下来要去哪里找数据?但也有人认为这个问题是可以解决的,因为我们可以让模型或者利用其他方法自动生成一些数据。这样的话我们相当于拥有了一个无穷大的数据集,那数据问题就完全解决了。

在硬件方面,同样存在着正反方的观点。有些人认为现在芯片短缺,尤其是高端机器学习芯片的短缺是一个很大的问题。但有些人觉得目前这个领域有这么多潜在的应用,会吸引到大量的投资。在工业界有大量企业愿意为这个方向做更大的投入,所以接下来会有更多更好的硬件出现。

在软件方面,有些人觉得目前主流的转换器模型已经成功地存在了六七年时间,下一个可以替代它的模型却还没有出现。但也有人认为转换器模型本身还有很多值得挖掘的地方,比如说在它的内部可能有些设计还有很多可以优化的空间,我们还可以把它设计得更好。

三联生活周刊:对很多人来说,2023年是人工智能领域爆炸式发展的一年。作为一个专业人士,你认为这一年中,在人工智能领域标志性的事件有哪些?

斯蒂文:我认为在研究方面的突破是OpenAI的GPT-4V和谷歌的Gemini的出现。因为这两个人工智能系统代表了目前最前沿的多模态的人工智能的发展方向。因为随着音频和视频一起变成了输入和输出的一部分,这样的技术突破一定会带来2024年的机器人或者是更多领域的革命。在应用方面我认为是OpenAI的GPT Store(GPT应用商店),虽然还很难说它接下来能否成功,但在我看来这是一个很好的尝试,可以让大家把定制化的GPT更好地带给用户。还有一个重要事件就是《纽约时报》对微软公司和OpenAI的起诉,这是一个非常重要的法律案件,将来必定会对人工智能的发展产生深远的影响。 人工智能