清华跑出的AI“第一梯队”:锤子不该只砸钉子
作者: 朱秋雨
“这一轮AI浪潮,到底怎么挣钱?”
10月17日,在深圳举办的世界人工智能大会上,一名国内头部AI公司的负责人以此为标题,开始了他的演讲。
现场座无虚席。观众手机举得很高,后排站了满满的两排人。
毫无疑问,落地、挣钱是当下AI从业者最关注的话题。年初人们对AI大模型的欢呼声量变低,越来越多人开始发问:这一轮的生成式AI,与往常有什么不同?它能带来新的价值吗?
智谱AI的CEO张鹏,也在长期思考着这些问题:AI,目前为止普通人摸不着的技术,如何才能正确判断它的价值。他的公司由清华大学知识工程实验室(KEG)孵化,在2023年一举成为中国AI明星企业之一。
这一年,智谱AI获得了25亿人民币的投资。投资方集合一众大厂:美团、蚂蚁、阿里、腾讯。
令互联网大厂竞相跟投的,不止是清华系的“背景”。
这家创业公司最特别的是,它拥有与国际顶级机构不一样的技术路径,GLM(General Language Model),一个独属于中国的自研路径。
回到2022年3月。一篇7位中国作者合写的论文发布,轰动学界。
他们在文中大胆指出,目前所有的预训练模型框架中,都有各自的缺陷。比如,众所周知的GPT,原理是根据前一个词预测后面词的出现概率,生成了答案。这是一个单向的过程,不利于机器理解语言。
而世界级大厂谷歌提出的Bert模型框架,是在一句话里挖空一个单词,让机器学会完形填空。它却又不利于迅速生成答案。
“我们提出了一种通用语言模型(GLM)来应对这一挑战。”在论文里,一个全新的大模型路径被提出。紧接着,2022年8月,智谱AI对外发布,基于GLM的1300亿参数开源大模型GLM-130B。这是当年全亚洲唯一入选斯坦福评测的主流大模型。
一切就像命运般“赌”对了。
三个月后,这个年轻的创业公司随着ChatGPT的发布备受瞩目。有人形容,这是最像OpenAI的中国公司,研究背景强,同样追求更远的事情—让机器像人一样思考。
面对火热的关注,毕业于清华的张鹏却很冷静,习惯反思。他告诉南风窗,早在2022年中旬,团队已经预料到了这一轮技术带来的爆发。但当下的AI大模型虽然迭代迅速,仍旧面临如何创造新价值的问题。
他预想了很多种情况的发生。如果有一天,AI的进步真的让技术持有者面临奥本海默的抉择,张鹏说,他会坚持一个原则:Don’ t do evil。
“基于已有认知情况,不要作恶。”
以下是南风窗与张鹏的对话:
ALL in 大模型
南风窗:从2019年创业到现在,这几年你自己有什么感受的变化?尤其是AI行业经历了几年的“冷板凳”,今年大家的关注度突然间上升了那么多。
张鹏:我的感觉跟你的不太一样。回溯我国,人工智能产业更多在2012年随着“AI四小龙”的兴起开始进入市场。只有十几年发展时间,速度却非常快。在我眼里,人工智能领域一直是快速上扬的进程。当然,以前在学校,我看得更多是全球最顶尖的研究成果,感知上和国内的市场可能是两码事。
所以,我没觉得AI是一个“冷板凳”。但ChatGPT出现后,确实改变了一些事情,让人工智能行业从过去单在技术上推进,到如今整个产业对AI的关注。这是两条线。两条线交汇到一起,形成现在这个局面。
南风窗:上述我偏向投资的角度,今年对AI领域的投资确实更热一点。回看三年前,2020年6月11日,GPT-3发布,这是一个学术和产业界关注到的大事。这一天刚好是智谱AI成立一周年。“生日”碰上GPT-3的发布,有改变智谱AI的命运轨迹吗?
张鹏:我们2016、2017年开始研究AI产业时就一直在讨论,到底应该做什么事。上一代的AI技术(即行业大模型)不是我们想要的,因为预见得到技术天花板。果然,2018、2019年前后,AI企业纷纷到达发展的天花板,陷入瓶颈。
2019年时智谱成立。我们很明确的想法是,做下一代的人工智能。这就是清华大学人工智能研究院名誉院长张钹院士所说的,要发展第三代人工智能—“认知智能”。与张钹院士聊时,我们想清楚一件事,AI未来的方向里一定要有两条腿:一是数据驱动,另一个是知识驱动。从筹备创业一直到2020年,我们都在这个框架下用各种技术,如信息学习、数据挖掘、训练模型,推动认知智能的落地。
2020年,智谱成立一周年,正好碰上GPT-3的发布。那一天,我们请了张钹院士等人座谈,讨论的便是:GPT-3为代表的大模型,是不是我们所追寻的认知智能可能的解决方案。
我们接着做了一些小规模的实验,取得了一点成果。但到2021年初,我们发现,世界顶尖的水平领先我们挺多的。既然要去做下一代的技术,不上不下还是不行,应该瞄准最先进的技术去追赶;于是开始考虑,投入资源做一个世界顶级水平、类似GPT-3的千亿级模型。
2022年8月,智谱AI对外发布,基于GLM的1300亿参数开源大模型GLM-130B。这是当年全亚洲唯一入选斯坦福评测的主流大模型。
那时候,公司内部讨论最多的问题便是,要不要投这么多钱,做一个无法保证成功的大模型。经过对我们实力的评估,我们最终决定还是冒一点风险。做出投入的最本质原因,还是我们笃定AI大模型会是未来很重要的一件事。
当时国内这样认知的人非常少。别说创业公司了,大厂可能都很少。
南风窗:你刚刚说,想对标GPT-3。智谱AI最特别的一点就是GLM的路径。当时就确定,想走的路径是区别于谷歌和OpenAI,基于中国人自研的GLM路径吗?
张鹏:对。我们投入大成本做千亿模型的时候,在算法的研究层面已经完成了。GLM的路径在百亿模型上验证成功了,区别是我们没做千亿参数模型的验证,并不确定基于GLM能不能让我们超越GPT-3的水平。
南风窗:如此看来,百亿参数级的模型,对很多创业公司是可以接受的成本。但如果跨到千亿级参数,这就是一个飙升的难度,是决定一个公司的攸关时刻。
张鹏:对,一个是公司从经营层面怎么来决策,是否要冒这个风险。
另一个更大的层面,从百亿到千亿参数的研发,难度不是简单的乘10倍。很多技术上的风险和问题,不是说有决心、有钱,敢冒风险就能解决,这是大家比较害怕的事,也是到现在为止能跑出千亿模型的机构还非常少的原因之一。
南风窗:GLM还有一个特点,它比较节约算力,国产芯片也可以使用。这个特点怎么做到的?
张鹏:这就是所谓的“穷人的孩子早当家”。2020年底、2021年初做大模型研发时,算力不够,我们只能到处去借。借到的算力要一点一点地抠出来,分给研究和工程。
所以我们天然地对资源的浪费挺关注。当时的模型除了训练,还进行算法优化,做了很多提速量化压缩的辅助性工作。这些工作的目的是为了降成本,让大家更好地使用它。
而且我们必须笃信能这么做,否则,我们资源厚度不如国外的企业,起步比人家晚。在又不如人家的前提下,如果不做出一些创新,怎么可能追得上?
不要把我们做的事情定义成中国版ChatGPT。我们眼里,ChatGPT只是一个阶段性的成果。它不是我们的终极目标。
南风窗:背靠清华,智谱在中国的发展有一种“天之骄子”的感觉,这三年,智谱在发展的过程中有遇到灰暗的时刻吗?
张鹏:我们没有认为自己是天才。刚创业出来跟投资人聊天,他们最大的一个质疑就是:“你们一帮从学校出来的,整个创业院队又不年轻,你们凭什么能成功?没有一个人有市场和创业的经验,凭什么能成功?”一开始其实挺困难的,得面对这些问题。
南风窗:所以与外界想象的不同,清华系在投资者面前没有太多的加成
张鹏:“清华系”能起到锦上添花的作用。它不能是一个创业公司的全部,甚至都不能是你的最重要的三件事情之一。对于我们想做的事情而言,一开始资源方面确实紧缺。
AI不是用来砸已有钉子
南风窗:上述来看,智谱AI的气质还是与OpenAI有些相似,创业公司,注重技术和研究,靠技术夺得头筹。但你之前在受访时强调,智谱不是中国版OpenAI,你为什么会这样说?

张鹏:这里我要纠正一下外界的解读。从我的角度看,我们确实很多方向上的选择和决策,都和OpenAI有点像。我之前说的是,不要盯着OpenAI实现阶段性的目标。也就是说,不要把我们做的事情定义成中国版ChatGPT。我们眼里,ChatGPT只是一个阶段性的成果。它不是我们的终极目标。
我们的终极目标和OpenAI很接近,那就是实现通用人工智能。OpenAI毕竟还是比我们领先,所以在很多选择上,我们第一步就是虚心学习。他们做了很多创新,如果我们觉得有道理的,就想办法去做。
南风窗:智谱与OpenAI有相似的目标,实现通用人工智能(AGI)。你的AGI定义是什么样的?现在我们有了涌现很多智能的大语言模型,你觉得实现通用人工智能的下一个突破的点在哪里?
张鹏:通用人工智能,在不同的专家和学者眼里,有不同的解读。很难说清楚AGI的具体定义是什么。但我相信一种更简单的描绘:拿人做对比。像图灵测试,通过行为学的定义,用对话的方式让人分辨机器和人(如果人分辨不清哪个是机器哪个是人,说明机器通过了测试)。
目前的AI早就通过了“图灵测试”,但还有很多问题,比如容易出现幻觉和有毒性的词汇,逻辑能力也不足。这些还有赖于工程问题的解决。
目前的AI早就通过了“图灵测试”,但还有很多问题,比如容易出现幻觉和有毒性的词汇,逻辑能力也不足。这些还有赖于工程问题的解决。
今后我认为还有几个重要的方向:
一是多模态。人类的智能包含了很多能力,视觉、听觉等。我们在尝试这些能力跟大模型融合。这是未来很重要的方向。
第二,如同红杉资本在《Generative AI’ s Act Two》的文章中所说的,生成式AI的故事进入了第二幕。所谓的第二幕就是应用。现在,大模型的智能能力已经初步具备了,具备基本的人际沟通能力了。但怎么把它用到实际当中去,产生真正价值,怎么来做这个事情,还待解答。
第三,上述事情假如我们都能实现了,下一步我们该考虑,AI是否不仅达到人的水平,还能超过人。也就是Super Intelligence(超级人工智能)的出现。
南风窗:刚刚我们一直在聊说落地和技术,这是智谱的两条腿。大模型在国内掀起浪潮半年多了,想知道在未来,这两条腿共同前进的目标是什么?
张鹏:有一个比较抽象的目标,那就是让大模型的能力,真正创造出一些比较大价值的应用。面向消费者端,那便是创造一个Super App(超级应用)。
在面向企业端,即在应用场景给客户带来更大的价值。我们常提的叫“降本增效”,后面我还补了两个词,叫作“提质”,提升质量;还有,“创新”。