人工智能还可以从人类大脑学到很多

作者:苗千

主笔·苗千(发自加拿大)人工智能还可以从人类大脑学到很多0加拿大英属哥伦比亚大学副教授、向量研究所成员杰夫·克鲁恩(Jeff Clune)的研究方向集中在深度学习(Deep Learning)、深度强化学习(Deep Reinforcement Learning)以及进化神经网络(Evolving Neural Networks)等领域的发展和实际应用。他同时致力于研究利用人工智能技术让机器人的表现更接近于人类。克鲁恩曾经在OpenAI进行研究工作,目前仍担任DeepMind公司资深研究顾问,对于学术界和工业界在人工智能领域的研究状况都有深入了解。关于人工智能的现状和未来,尤其是自然语言处理方面的问题,克鲁恩教授接受了本刊专访。人工智能与大脑的工作原理相似

三联生活周刊:基于神经网络的计算机模型可以完成很多不同的任务,例如下国际象棋、下围棋、和人进行对话、驾驶汽车……在所有的这些能力之中,有什么是相同的?

克鲁恩:目前所有这些让人激动的关于人工智能的应用,都是基于相同的理念,叫作神经网络。这个理念已经存在了数十年时间,但是直到人类有了大数据和强大的计算能力之后才得到真正的发展。我们得以发展出更大的神经网络——当神经网络变得“更大”时,也就需要变得“更深”,因此我们有了“深度神经网络”,它还有另一个名字叫作“深度学习”(Deep Learning)。目前所有的这些人工智能系统都在应用深度学习技术。这也证明了深度学习技术非常强大,在很多领域都可以得到应用。

要想理解不同深度学习系统的共通之处,就需要简单解释一下它的原理。在人类的大脑中有大约上千亿个神经元,在神经元之间则可以形成数百万亿计的连接。当信息通过不同的感官,例如眼睛、耳朵、鼻子进入大脑,它们也就进入了大脑中复杂的神经网络之中。这个系统随之会对信息进行处理,而系统最终的输出,可能就是我们说出的几句话,或是做出的几个动作。

对于人工智能系统来说,逻辑是相同的。在电脑中也有一个模仿神经元所构成的复杂的神经网络。它接收输入信息,然后产生输出信息。当神经网络处理视觉信号时,例如自动驾驶汽车,它会接收到从摄像头输入的图像信息,而它给出的输出信息则可能是刹车或是转弯;在最初的一些神经网络中,它可能会对一些输入的像素信息进行判断,输出的结果则可能是“这是一只猫”或是“这是一只狗”;对于ChatGPT来说,人们对这个语言模型输入一些文字,例如“请给我讲5个笑话”,它的输出则会是另外的一些文字;目前这个模型已经非常成熟,所以它可能会输出5个非常好笑的笑话。

所有这些应用,都是基于一些输入信息而产出输出信息。和人类大脑一样,神经网络所具有的一个卓越能力,就是从低级到高级,逐级处理输入信息。比如对于图像来说,它最初可能只是看到一些颜色不同的像素而已,随后它会开始识别一些更加高级的特征,例如它开始辨别一些线条的边界——这属于神经网络的第一个层级,而后在第二个层级则会把之前层级所辨别的结果收集到一起,比如说它可以辨别出有一个横向的线条和一个纵向的线条交织在一起,随后它辨认出了转折。它发现总共有4处转折,这时它会进一步发现自己辨认出了一个方形。出于同样的原理,它还可能辨认出三角形和圆形等。那么到了下一个层级,它可能会发现辨认出了两个圆圈、一个三角形和一条线,它进一步发现这是一张脸孔。神经网络就是这样缓慢地建构起识别能力。这让它逐渐开始有能力分辨猫和狗。这也正是所有人工智能学习系统的发展过程,让它可以下围棋,与人对话,直到可以写诗。人工智能还可以从人类大脑学到很多1三联生活周刊:人脑处理信息也是通过不同的层级来逐级处理吗?

克鲁恩:是的,目前我们对于人脑的理解正是如此。最好的例子就是对于视觉信号的处理,我们可以确实地在大脑中发现对于竖直线条和横向线条做出反应的神经元——这也就相当于大脑神经系统的第一个层级,随后我们也可以发现对于转折、人脸做出反应的神经元。

我最近的一些工作可以发现在人工智能神经网络中的神经元究竟会对哪些信息做出反应,甚至可以细化到不同的图片,例如不同的神经元会对汽车、蜡烛、面孔等不同的图像做出反应。更有趣的地方在于,有研究者利用我们发明的针对人工智能的技术,将其应用在其他动物上,例如他们发现猴子大脑的某些神经元会对猴子的面孔做出反应。虽然人类大脑、动物大脑和人工神经网络有很大的区别,但在某种程度上来说,它们又都是在进行大致相同的工作。

三联生活周刊:所以说神经网络并不是一个完全的“黑盒子”,我们可以理解在其中究竟发生了什么。

克鲁恩:人们通常会认为神经网络的内部是一个黑盒子,因为想要弄清楚在里面发生了什么非常困难。我刚才提到的我和同事们开发的技术,可以在这个黑盒子里亮起一点光,让人们对里面发生了什么有一丁点的了解。但在神经网络的内部仍然是非常复杂、非常难以理解的。我们很难理解数十亿个神经元的活动。所以我会说它算是一个“灰盒子”。我们还远远没有达到能够理解在神经网络内部究竟如何工作的程度。

三联生活周刊:在未来,我们还可能从人类大脑中学习到什么?

克鲁恩:人工智能模型还可以从中学到很多东西,我举两个例子——

人脑可以完成得相当出色,而人工神经网络无法实现的功能就是,人脑可以持续地进行学习。例如我已经有10年没有打过排球了,但是如果让我现在开始打排球,我还是能够记得一些排球的基本动作。经过一段时间的练习之后,我很可能达到自己在10年前打排球的水准,然后就可以进行进一步的学习并进步。但是对于人工神经网络来说,如果你先训练它打排球,然后再训练它下围棋,它会学会如何下围棋,但又会完全忘记打排球。人工智能网络并不是像动物一样逐渐遗忘,而是忽然完全遗忘——在研究中,这有一个有意思的名字,叫作“灾难性遗忘”(catastrophic forgetting)。我们对于人脑遗忘的机制并不完全理解,目前在这个领域有很多理论,也有很多研究正在进行。目前我们还不知道该怎么让人工神经网络不要灾难性遗忘。

另一个例子是关于效率的。人脑学习新任务的效率要远远高于人工神经网络——尽管这个差距正在迅速被缩小。还有一个问题在于所需的能量。人脑运行所需要的能量要比人工神经网络,例如ChatGPT所需要的能量小几个数量级,而ChatGPT只能完成人脑工作的一小部分而已。在这方面它也需要向人脑学习。

三联生活周刊:ChatGPT中的“GPT”三个字母指的是“生成式预训练转化器”,这是目前用于自然语言处理的最佳方法吗?还有没有其他用于自然语言处理的方法?

克鲁恩:可以说,目前“GPT”就是进行自然语言处理的最佳方法。现在进行自然语言处理的所有成果都是在GPT方法之上进行的改进,而非选择一条与之完全不同的方式。目前从GPT的基本模式出发已经衍生出了数千种不同的方法,在这些方法之中可能会产生出更好的变种。我自己并不知道除了GPT模式之外的更好的自然语言处理方法。

三联生活周刊:我们通常会提到计算机模型进行“自然语言处理”(Natural Language Processing)。那么自然语言和计算机语言之间的本质区别究竟是什么?是语言的模糊性还是语法?

克鲁恩:所谓自然语言,我们指的是人类说的语言。实际上并不存在与人类语言相对的所谓“机器语言”,我们所谈论的机器语言,指的是电脑程序,甚至是更低级的二进制信息以及逻辑运算等。

如果要讨论两者的区别,我认为主要在于普遍性。我们基本上可以使用自然语言去谈论一切事情,而不需要特别准确。人类语言可以比较模糊,也需要借助上下文来理解。比如我的孩子们正在学说话,我发现他们能够说很多的词语。但当他们开始问我问题,我就意识到他们还没有能力理解我的回答。因为我们通常会表达一些模糊的意思,我们会去体会说话者试图表达的意思,而不是仔细检查对方说的每一个词语是否准确。但是几年前的人工智能模型,以及我的孩子们,都会非常认真地分析我说的每一个词,这样就会造成完全无法交流的结果,因为会造成很多的误解。我认为从传统的所谓“计算机语言”到现在的生成式预训练转化器,机器已经开始理解人类语言的模糊性,从上下文中寻求解释,从而理解人的真正意思。人工智能还可以从人类大脑学到很多2三联生活周刊:我在使用ChatGPT时发现,无论问它什么问题,它总会给我一个确定的答案,即便这个答案是完全错误的。我们为什么不能训练计算机模型可以承认它无法回答某些问题,有些图片它无法识别,有些语句它无法理解?

克鲁恩:这是在目前人工智能研究中一个尚未解决的问题,尤其是在ChatGPT这类产品中。人工智能并不明白它究竟理解什么——这是一个已经持续很久的问题了。在2012年神经网络技术开始流行的时候,我的研究组就发现了深度神经网络非常容易被欺骗。比如说我们生成一些只有白噪音的图片,就像是以前电视屏幕上的雪花斑点,我们可以很容易地让人工智能相信它“看到”的是一把吉他或是一只孔雀、一条金鱼,因为人工智能并不知道,它之前从未见过这样的图像。

目前看来这个问题有所改进。有数百个研究者发表了几千篇论文,试图解决这个问题,但是还没有很好的解决办法。人工神经网络可以完成很多任务,但在很多时候它表现得过于自信,并不知道自己处在一个完全无知的领域,应该直接承认“我不知道”。相反,它会直接编造一些答案。

三联生活周刊:究竟为什么会出现这种现象?

克鲁恩:简单来说,这是人工智能研究领域的一个基础性问题,目前我们还没有完美的解决办法。但我对此感到乐观,我们最终会解决这个问题。目前有很多的研究者正在研究,也对此投入了大量的资金。现在已经出现一些新工具,看起来情况会逐渐好转。据我所知,ChatGPT-4在这方面就比之前版本表现得更好。

我们要知道,GPT之类的对话机器人是通过互联网资料进行训练的。我们给它10个单词,然后会让它预测第11个、第12个和第13个单词是什么。从这个角度看,在网络上,人们通常不会说“我不理解这个问题”,不理解某个问题的人通常就不会回答问题,只有理解某个问题的人才会去发言。但是在生活中,我们经常要说“我不知道”,因为说假话会产生不好的结果。

对于人工智能来说,产生出虚假的答案并不会造成什么不好的结果——当然情况正在改变,有些新版本的GPT对话机器人已经不完全是在互联网的文本中进行训练。我们先是在互联网上对它进行“预训练”,而后再对它进行精细的调试。我们对它提问,之后再对它的答案进行评价。如果它产生出虚构的答案,我们就会告诉它这是错误的,它应该直接说“不知道”,就像教育小孩子一样。如果不断地训练它不要说谎,不要编造虚假的信息,不要过于自信……或许我们可以“教育”神经网络,让它学会对于不理解的问题直接回答“不知道”。解决这个问题的方式和教育孩子的方式是一模一样的。

三联生活周刊:ChatGPT使用英文的表现要强于使用中文的表现。在神经网络语言模型中仍然无法跨越不同语言的界限吗?

克鲁恩:对于大多数语言模型来说,它们主要都是通过英语文本被训练的;而且很多设计语言模型的研究者其母语也是英语,因此他们的主要目标是让模型在英语环境中表现出色。这可能就是人们看到ChatGPT在使用其他语言时表现不佳的原因。当然这个情况也正在改变,很多研究者试图用多种语言对模型进行训练。想要让语言模型真正实现多语言是可能的。当然在目前看来还有些技术困难,比如说要让语言模型熟悉一些完全不同的字母表,这需要让模型不断地根据互联网内容进行训练,让它们表现越来越好。

还有一个问题,它也揭示了人类大脑、其他动物的大脑以及人工神经网络之间的不同。人类大脑对于“不平衡的训练内容”(imbalanced trainingset)表现得很好。比如说我有一个数据库,其中大部分都是斑马,也有很多狮子,但是几乎不包括稀有动物,例如非洲艾虎(zorilla)。目前流行的机器学习模型对此表现得都不够好,它们会把注意力都放在斑马和狮子上,而忽略非洲艾虎。而一个人如果想要学习一门极其小众的语言,即便在网络上没有很多关于这种语言的资源,他也能够像学习英语、法语和中文一样学得很出色——只要投入足够的努力就可能做到。但是对于目前的机器学习模型来说,如果没有足够数量的数据,就无法进行出色的学习。ChatGPT使用西班牙语、法语、中文等语言时表现应该都还不错,如果有人使用更加罕见的语言与它交流,结果就会差得多了。

三联生活周刊:人们认为神经网络可以处理几乎所有问题,那么为什么它在自然语言处理和图像识别领域表现得尤为出色?

克鲁恩:对于这个问题最简单的回答是,在自然语言和图像方面我们有很多已经进行了标记的数据。在很久之前人们就准备了大量的进行过标记的图像资料,也正是从这个领域出发,人工智能的发展开始活跃起来。最近我们开始研究不需要监测的学习,神经网络不再需要经过标记的数据。但只要我们仍然需要应对原有的问题,例如通过一些给定的词语对之后的词语进行预测,就仍然需要大量的数据。

因此问题就变成了:我们去哪里寻找大部分(用于训练人工神经网络的)数据?答案是互联网。而互联网上大部分的数据是什么形式?是文字。因此我们可以看到目前出现了很多语言模型;互联网上也有很多图像信息,因此目前人工智能在图像领域也有很多的应用;互联网上同样也有很多音频信息,所以我们也看到出现了越来越多关于音频的人工智能模型。下一个前线就在于视频——目前看来开发视频模型更加困难,原因在于视频数据的时序性很强。但是现在也已经出现了一些人工智能视频模型。

可以说,这主要与数据来源以及某个领域的发展历史有关。尤其是在视觉领域,促进人工智能发展的一个重要因素在于人工智能模型一旦发现了数据中的某个结构,我们就希望它能够一直利用这个结构。比如说如果它可以在一页文档中认识字母“B”,我们就会手动让模型迅速掌握这个能力,认出页面中所有的“B”,促进它迅速发展。不过现在我们已经无需再这样做,而是让它自己从数据中学习。人工智能还可以从人类大脑学到很多3三联生活周刊:目前看来人工智能在大多数领域的表现都可以强于人类,但是为什么发展出所谓的“通用人工智能”如此困难?

克鲁恩:我认为在过去的5年到10年时间里,我们取得的最深刻的进展就是让“通用人工智能”看起来不再遥不可及,而且越来越有可能实现。公平地说,我并不认为目前人工智能已经可以在所有领域都超过人类。我们经常在媒体上看到这样的标题:“人工智能下一个要超越人类的领域”——这往往是一个人工智能尚未超过人类的领域。而每次面对这样的挑战,研究者总要花费很大的努力去开发新的系统。

目前已经可以开发出特定的人工智能系统去解决某些特殊问题,而想要开发出一个人工智能系统,在所有的领域都能够超过人类,则要难得多。但目前我们拥有的一些技术,例如GPT,就已经被证明可以应用在很多领域。我们越来越意识到,现在已经有了开发通用人工智能的工具,只是还需要更多的时间去实现。有很多的研究者对此还表示怀疑,认为还缺少必要的工具,也还需要做出很多的突破。我并不是其中的一员,我认为只是需要把不同的工具组合在一起,然后再对它们进行一些改造。在这方面我们已经不再需要重大的、基本性的、概念上的范式转变以实现通用人工智能。在现有的基础上,有更多的数据、更强的计算能力、更多的时间,以及一些调试,就有可能实现这个目标。

考虑到我们已经取得的成就,这种令人吃惊、害怕或是令人振奋的通用人工智能时代可能离我们并不遥远。有人预测,有可能在未来几年、十几年或是几十年的时间里就可以实现通用人工智能。这种看法在10年前或是20年前都不实际,但是现在看起来却已经不再遥不可及。这可能是一个好消息,也可能是一个可怕的消息。我们需要证明这样的通用人工智能系统是安全的,不会被人滥用,也不会变得危险。我们只知道要发生一些根本性的变化。我们需要尽量保证这种变化是正面的。

三联生活周刊:谈到安全和改变,那么我们现在是否对于“自我意识”(self-awareness)有了清晰的定义?是否只有人类才具有自我意识?我们究竟该如何判断人工智能系统是否具有自我意识?

克鲁恩:这是人工智能研究领域最重要的问题之一,而目前只有极少数人在研究它。简单来说,目前并没有一个好的指标去评判一个人工智能系统是否能够感受到痛苦或是快乐,或者会不会感觉自己被困在一个盒子里。

我认为值得担心的地方在于,每过一段时间,人工智能系统所生成的语言确实像是有自我意识的人才能够说出的话。我们又该如何应对?人们总是说:“我相信总会有一天,人工智能系统会产生出感觉,甚至是自我意识,但我并不认为这一天已经到来了。”当你问人们为什么会有这样的想法,如何才能相信人工智能系统已经可以感受痛苦和快乐,你得不到任何令人满意的答案。基本上我们就是一直把这个问题拖延下去,认为这种事情绝对不会在现在发生,否则就会显得太奇怪了。最起码我们现在还不需要为与人工智能系统相关的伦理问题操心——也许有一天这会成为一个问题,但绝对不会是今天。

实际上我也持有类似的态度,我并不相信现有的人工智能系统能够感受到痛苦和快乐。我的担忧在于没有一个评判标准来告诉我们究竟该在什么时候开始关注这个问题。我们假装这是别人该去担心的问题,但是现在(人工智能发展的趋势)逼着我们开始关注这个问题。我们绝对不希望创造出一些人工智能奴隶,在无意间对人工智能造成伤害。

三联生活周刊:在人工智能研究领域,目前看来在工业界和学术界之间有一个巨大的鸿沟。只有一些巨型商业公司例如微软、谷歌等才有能力开发出ChatGPT这样的产品。现在在工业界和学术界之间还存在着很强的联系吗?

克鲁恩:当然,在人工智能研究领域,工业界和学术界之间依然有非常紧密的联系。首先,很多学术界的教授同时也在顶级商业公司的实验室工作。比如说我自己就曾经在Uber人工智能实验室工作,之后又去了OpenAI,随后又去了怀俄明大学和英属哥伦比亚大学,现在我同时也是DeepMind公司的顾问。我并不算是一个例外,很多学术界的教授都有在商业公司的兼职。这样可以让专业知识在工业界和学术界中流转,并且共享人才。当然还有很多研究生在毕业之后进入这些商业公司的实验室工作。

要承认的是,现在很多在人工智能方面震惊世界的研究确实只有大商业公司才有能力进行。之前在大学实验室里会进行一些基础性的研究,但现在商业公司也开始做基础性研究。现在大多数的基础研究和技术突破都是发生在大公司而非学术象牙塔里。可以说,在人工智能研究领域,学术界已经不像以前那样还有重要的地位,因为商业公司的实验室可以投入巨大的资金去支持某项研究。

当然还有另外一个趋势,现在人工智能已经可以帮助人类解决实际问题,因此越来越多的商业公司开始努力将其商业化,而不再像之前一样重视基础性研究。因此学术界可以将研究重点放在基础性研究,为下一波人工智能热潮打好基础。

三联生活周刊:说到“智能”,人工智能所表现出的智能与人类的智能有任何本质区别吗?

克鲁恩:我对于(人类特有的)“智能”的定义是,目前人工智能做得还不如人类的领域(注:此处克鲁恩显然是在反讽)。曾经有一段时间,人们认为下国际象棋是人类智慧的标志,人工智能只会进行计算,没有真正的智能,不可能会下国际象棋;随后人们又开始说,国际象棋并不代表真正的智能,只有下围棋才代表真正的智能,而人工智能又胜过了围棋世界冠军;最终,人们认为能够回答一些常识性的问题,解决一些逻辑难题,甚至会写诗……才算具有智能,现在我们有了ChatGPT。现在人们还在寻找一块所谓的“安全地带”,在这里,人工智能表现得不如人类——这才算是真正的智能,直到人工智能在这个领域的表现也超过人类。

三联生活周刊:所以,这种所谓的“安全地带”存在吗?

克鲁恩:不存在。压根就没有这样的安全地带。没有任何理由认为人工智能无法在所有领域都超越人类。关于这个问题,人类或许会争论数百年,甚至是数千年,直到某一天出现一个全面超越人类的“机器人”或是“电子人”。人类愿意相信人工智能永远都无法超越人类,这会让人类自我感觉很好。人类也愿意相信自己是太阳系和宇宙的中心,是上帝创造地球的理由……人类愿意相信自己在宇宙中的地位非常特殊。而人工智能则是最新的科技进步成果,让人类能够认识到自己并不特殊。

三联生活周刊:目前在人工智能领域最大的难题是什么?

克鲁恩:还有很多的研究难题。比如让人工智能表现得诚实,能够承认自己不知道,不要因为过于自信而犯错。我们还希望把各个方面整合在一起,让人工智能系统可以像人一样看、听、闻、触摸,可以在真实的世界里移动,做出各种动作——我们把这称为“多模态”(multi-modality)。

不过我认为最大的难题在于如何将其从数字世界转移到真实的世界中。我们想一想在过去100年里人类社会的发展——能够赚更多钱、社会地位更高的工作往往是脑力劳动;一些体力工作,比如制造业、服务业等行业的收入都相对较低,相比之下医生、律师、电脑程序员、CEO……这类工作的收入就要高得多。颇有讽刺意味的是,人工智能来自数字世界,如果你现在的工作需要写很多的文字,发很多的邮件,制作很多的PPT,每天花很多时间使用电脑……那么你的工作很可能是最先会被人工智能所取代的。对于人工智能来说,更难的工作在于如何系鞋带,如何拧螺丝,如何打扫房间……可以说,相比于清洁工的工作,律师的工作会很快就被人工智能所取代。

在真实世界中制造出机器人要困难得多。有一个著名的短语:“人先成为比特,而后成为原子。”(People be bits before atoms,意为在数字时代中,人首先是以数字化的形式存在,然后才是以物理形式存在。)数字世界中的问题会比真实世界中的问题更容易解决。我们在制造机器人方面已经取得了很大的进步,但这依然算是人工智能领域最大的难题——它所使用的技术和我们现在所使用的技术是一样的,例如GPT、深度学习等,只不过难度更大。

三联生活周刊:你希望在未来几年里能取得怎样的突破?

克鲁恩:我曾经预测,在2030年我们有30%的可能性拥有通用人工智能——也就是阿兰·图灵曾经预言过的人工智能形式。我认为每隔几个月就会出现人工智能领域的某个突破,直至到达某个临界点,人工智能可以帮助我们做大量的工作。我猜想到了2030年——有30%的可能——人工智能将取代现在一半以上的人类工作。这是个不可思议的速度,也将造成人类社会的巨大转变。之后人工智能将会继续发展,在各方面远远超过人类的能力。

三联生活周刊:说到图灵对于人工智能的想象,你认为“图灵测试”仍然重要吗?

克鲁恩:是的,我认为图灵测试非常重要。我认为我是目前不多的认为图灵测试仍然非常重要的研究者。我不理解为什么人们不在现有的系统上进行图灵测试。我会非常好奇现有人工智能系统的表现。但图灵测试的问题在于它的表述并不是很严谨,因此在进行测试时必须非常小心谨慎。

我认为ChatGPT-4还无法通过图灵测试,但我猜测ChatGPT-5或是ChatGPT-6有可能通过这个测试——这非常令人振奋,因为我们所谈论的是人类历史上最伟大的科学成就。(注:英国数学家、计算机学家、人工智能领域的开创者阿兰·图灵在1950年提出了一个思想实验:如果一台计算机能够在人类不能分辨的程度上模仿人类的语言,那么我们可以认为它具有智能。这个思想实验也被称为“图灵测试”。) 人工智能Chatgpt