汉语如何进化

作者:杨璐
汉语如何进化0计算机被发明出来的时候,早期是全英文环境,并未考虑到使用表意文字的群体。计算机上能实现汉字的输入、显示和输出是一批科学家努力的结果。但这只攻克了第一个难题。人类希望计算机可以帮助自己做事,比如说通过搜索引擎搜到信息或者做翻译。同时,最好可以用人类语言就能发出计算机理解的指令。计算机理解汉语,还有重重困难。第一重困难是对词的处理。拼音文字的词与词之间有空格,汉字是一个个字排成列。把一列汉字分成词,不同分法有不同含义。第二重困难是对句子的处理。汉语语法很灵活,拼音文字已经成熟的处理人类语言的办法不能照搬。

在深度学习和大模型技术出现之前,中国的科学家和计算机专家们奔着“如何让计算机理解汉语”这个目标,努力了几十年。现在,大模型技术用上千亿参数对语言建立复杂的模型,汉语,甚至语言之间的差异都不再是问题。

汉字和汉语在应用这项技术时,是否毫无障碍了呢?网友们如此热衷于中文测评,显然是中国的大模型还没有给大家“国货自信”。除了算力、技术代差等因素,我们还面临新困难。大模型就像一个正在学习的孩子,它的“学问”和“能力”跟训练语料相关,需要广博和精深。我们目前的高质量中文语料是缺乏的,但采访中,我们还没看到通盘的解决方案。我们只能抛出这个讨论。一切都还在发展中。中文大模型和ChatGPT的中文考试

孙茂松是清华大学计算机系长聘教授,人工智能研究院常务副院长。早在2016年,他就带着学生开始做一个叫“九歌”的人工智能作诗系统。几经技术迭代。我们采访当中,孙茂松教授以“探索天空”为题目,让ChatGPT-4和“九歌”分别做一首五言律诗。

ChatGPT-4的作品是:

探索天空乘翱翔,星辰闪耀迎征程。云端自由逐风起,尘世束缚化尘埃。

飞鸟羡慕我轻盈,流云陪伴我飘扬。高山脉络尽收眼,无限宇宙尽浩瀚。

九歌的作品是:

探索天空处,人间不可居。一身犹是客,万里欲何如。日月双轮转,乾坤一局虚。此心无所住,随处是吾庐。

一问通天理,穷幽兴不孤。自怜多远梦,空复负良图。浪说三山近,无因一苇趋。神仙吾未学,难与问真符。

五言律诗是我们文化里有代表性的文学体裁。它要求每句五个音节,两句一组,总句数是偶数。孙茂松说:“ChatGPT-4没有专门拿古诗作训练,它写出来的诗读起来挺不错,意思写得也挺好,但不符合五律。它已经七个字了,也不押韵。我们的模型是用古诗训练过的,它的押韵、平仄都是对的。而且,它的内容有现代人的意思。比如,它把探索天空这个主题给嵌进来,古人一般是不说‘探索’这个词的。”

以孙茂松作为学术带头人的清华大学计算机系自然语言处理与社会人文计算实验室,是国内最早开展自然语言处理研究的科研单位。所谓自然语言处理,就是让计算机能够理解、处理、生成和模拟人类的语言。在最近一年多兴起的大模型创业热里,社交媒体上津津乐道国内有实力的科研师承或者团队,孙茂松和他的同事、学生们经常出现在各种盘点名单的前列。汉语如何进化1孙茂松研究如何让计算机理解汉语,超过了40年的时间。他说:“2012年以来,深度学习的范式出来了。AlphaGo就是利用了这个范式击败人类棋手。我们比较早认识到,这个范式跟从前的比,能力比较强。我们就要发展它。首先,我们要找个任务来学模型,只有先学习和体会,才有能力改进和提高模型。”孙茂松就选择古诗,这个有难度的任务。他说:“古诗要求有一定的结构,要平仄、要押韵,前后文主题、意境和表达的情感还要有一致性,对机器来讲是很有挑战的。写诗歌,对我们也是鞭策。它要是写得不好,谁都可以骂你。”

2017年,“九歌”正式上线之后,跟清华大学的诗歌社团清莲诗社进行过作诗比赛。评委来自清华大学人文学院、计算机系和北大学生诗词社团。匿名评审之后,“九歌”的作品获得了最佳格律奖,青莲诗社同学的作品获得了最佳意境和最佳创意奖,“九歌”写作的《古月堂》还以微弱优势获得现场观众投票的“最佳人气奖”。它是一个持续的项目,随着人工智能技术的发展不断升级版本。目前是升级到大模型技术。我们看到的五律《探索天空》,就是大模型写的。孙茂松说:“它学了大量古诗之后,可能就掌握了中国古诗的某些规则,然后我们再给它一些关键词。它就知道要写的这首诗里需要有什么,哪些词组合在一起,可能是跟这些关键词相关的。”

ChatGPT是人工智能公司OpenAI的自然语言生成模型的产品。它在2022年11月正式上线,就备受瞩目。在中国,跟进这项技术的公司从互联网巨头到初创企业,可以列出一个很长的名单,被称为“百模大战”。一直深耕AI技术的百度公司,创始人、董事长兼首席执行官李彦宏在去年一次演讲里说:“这是自iPhone之后,信息科技领域最大一次突破和创新。”他认为,大模型技术改变了人工智能,也会给社会带来科技和经济上的变革。

网友虽然没有科学家和企业家那么多专业知识,但也特别关心大模型技术的发展,特别是它能不能理解中文。大家乐此不疲地给大语言模型出“中文十级测试”。比如,有人考大模型:“我多亏跑了两步,差点没上上上上海的车。请问我是赶上车了还是没赶上车?”还有比如说:“冬天:能穿多少穿多少。夏天:能穿多少穿多少。这两句话的区别是什么。”短视频里有特别多类似的测评。

新技术能不能听懂汉语?能不能用古老又璀璨的中华文学体裁创作?中国人这种潜意识的关注,是有历史渊源的。近代以来跟通信和传播相关的技术,很多源于西方,以拼音文字为底色。作为使用表意文字的中国人,被隔离在科技鸿沟的另一边:电报极大地提高了信息传播的速度,但摩尔斯电码是26个点线组合,对应26个字母,另外还有10套组合对应从0到9的数字。最初没有考虑汉字发电报怎么办。打字机极大地提高了办公效率,英文打字机上有26个大写字母、26个小写字母和10个数字符号的铸字。它的键盘更简单,只需要26个字母,大小写切换键、空格和标点符号。中文打字机却是一个难题。流传下来最常见的中文打字机,需要一个数千字组成的常用字盘和一个备用字盘。打字员要从几千个字里找到每一个要打的字的位置,它的普及难度高于英文打字机,便携性更是无从谈起。

中国寻求现代化的道路上,这些差异甚至让文化先驱们一度怀疑,延续两千多年的汉字和我们的母语,还应不应该存在。一百多年前,“汉字革命、改用拼音”,曾经引起过很多人的共鸣。以后,每当站在科技鸿沟面前,总有人担心和自我审视,汉字和汉语适配未来吗?现在每天有十几亿人,用汉字或者汉语把他们的想法输入进智能手机和电脑,再传播开来,是因为有一批人带领汉字和汉语跨越了技术障碍。

汉语对计算机来讲,真的很难。这是我采访自然语言处理科学家时,发现他们无意识就会透露出的意思。现在,大模型技术出现了。计算机能够流畅地理解英语,与人自如地进行多轮对话,甚至进行各种文学体裁的创作。前尘往事之下,我们本能就会关心,它对汉语的理解力是怎么样的?中国公司的大语言模型和美国公司开发的大语言模型谁更懂汉语?在大语言模型技术面前,我们有哪些障碍和难题。汉语如何进化2冯志伟即将迎来85岁的生日,他依旧还在享受工作乐趣。我们采访的前一天,他特地坐高铁从出差地赶回北京。他是中国最早从事计算语言、机器翻译的科学家之一,获得过中国计算机学会颁发的自然语言处理与中文计算(NLPCC)杰出成就奖。

人类最早产生让计算机理解人类语言的念头,就是在机器翻译领域。1954年,美国乔治敦大学用IBM-701计算机进行了世界上第一次机器翻译实验,用计算机将60个简单的俄语句子翻译成英语。它向世人展示了用计算机进行翻译的可能性。这个实验被当时的英文报纸报道,其中一份越过大洋收藏在北京大学图书馆里。

1957年,冯志伟考入北京大学,读到了这篇报道。除了机器翻译的报道,给冯志伟留下深刻印象的还有一篇发表在英文版《无线电工程师协会会刊:信息论》杂志上的文章《语言描写的三个模型》,作者是后来鼎鼎大名的语言学家、哲学家乔姆斯基。乔姆斯基用数学方法给自然语言建立了三个不同的模型,分析了这些模型对于自然语言的描述能力和解释能力。汉语如何进化3用数学方法研究语言和机器翻译,引起了冯志伟极大的好奇心。同时,他在专业上遇到了麻烦。“我学的是地球化学专业。在做光谱分析实验的时候,我能用数学算出稀有元素的谱线位置,但看不到。因为我有轻微色弱。老师说我未来是无法从事地质一线工作的,但可以留在大学教书。我考这个专业是受到一位苏联科学家故事的鼓舞,希望能够像他一样找到稀有金属矿藏,报效国家。地质一线的工作做不了了,我想不如将来干机器翻译吧。”

当时,计算机在中国非常罕见,也没有用来打汉字,更不用说还要翻译成外文。北京大学的文件都是用中文打字机打出来的。冯志伟说:“北大有专门的打字室,有超过100个专业打字员。打字机上常用键盘上有2000个字,补充键盘上有1500个字,我去试打过,找字很慢。”他想学机器翻译,但难住了教务长。“老师听我讲机器翻译,觉得很奇怪。我又把乔姆斯基用数学方法来做语言分析讲给他。北大终究是北大,领导很开明。他说我们没有机器翻译这个专业。你想学的这个可能跟中文有些关系,你转到中文系去吧。他判断我这个想法属于语言学,这一点他是对的。”冯志伟说。

北大中文系群星荟萃。冯志伟的老师有王力、朱德熙、岑麒祥、周有光等语言学家。他们教给冯志伟古今中外的语言学知识,但大师们都是文科教授,关于如何用数学方法研究语言,依旧没办法帮到他。直到吕叔湘从中科院语言所到北大来讲课,冯志伟把机器翻译的想法又讲了一遍。“他知道机器翻译,因为他单位的刘涌泉正在从事机器翻译的研究。吕叔湘先生就介绍我们认识了。”冯志伟说。

机器翻译当时在全球都算前沿科技。1956年,机器翻译被列入了我国科学发展规划,课题名为“机器翻译、自然语言翻译规则的建立和自然语言的数学理论”。我国是在美国、苏联、英国之后,第四个研究机器翻译的国家。1958年,刘涌泉和中科院语言所的同事们组成了机器翻译研究组,进行俄汉翻译系统的研究。受限于当时的电子技术,这项研究要将俄文材料代码化,翻译出来的译文也是代码。

冯志伟打算读完研究生之后,去中科院语言所跟刘涌泉一起做研究,但“文革”改变了一切。他辗转回到故乡昆明,成为一名中学物理老师。业余时间,他到云南省图书馆帮忙,借此机会阅读外文资料,了解计算机技术的发展。“国外已经发展到超大规模集成电路的新时期了。我心里很激动,觉得中国长期这样下去可能也不行。中国人未来也会使用计算机的。计算机使用的是英文字母。到那时,中国人就要给汉字编码,才能输入和输出。汉字编码,就成了我关心的问题。”冯志伟说。

编码需要用到美国科学家香农的信息论和编码定理。根据这些理论,“熵”用来表示语言符号中所包含的信息量的大小。在编码时,码字的平均长度不能小于字符的熵。“香农算出英语字母的熵是4.03比特,也就是说每当我们读到一个英语字母就获得了4.03比特的信息,一个比特相当于二进制代码中的一位。给英语字母编码,码字的长度是一个字节,也就是8个二进制代码,相当于8比特。英语字母的熵小于8比特,因此可以使用单字节编码。”冯志伟说。汉字是否也用单字节编码呢?他当时查阅了很多信息,连汉字的熵都还没人算过。

冯志伟开始计算汉字的熵。根据香农的办法,他要统计出汉字在文本中出现的频率。“香农只需要统计26个字母的概率。汉字有6万多个字符,计算汉字熵的工作量远超过香农。我又做了一些数学研究,证明如果统计12376个字,就能计算出汉字的熵。”冯志伟说。他发动身边10个爱读书的朋友,基本也都是中学老师,每读一页书就把所有字出现频率画“正”字统计出来。“我们组成了一个团队,大家都很认真,当时也没事情做。从1971年一直干到1973年,我们手上的几本书都看完了,字头达不到1万多字,又看了《天工开物》《本草纲目》等等。到了计算的时候,我岳父是在单位专门打算盘的,所以他也来帮忙。我最后算出汉字熵是9.65比特。”冯志伟说。

这个数字代表着我们每读一个汉字所获得的信息量。冯志伟说:“根据香农的编码定理,如果汉字码字的长度不能小于9.65比特,它就不能采用英文字母那样的单字节编码,而是要采用双字节编码。我属于先知先觉的人,感觉将来中国一定会要面对汉字编码这个问题。我是个小人物,当时的政治环境里也没有什么地方可以刊登。我曾经写过一个材料交给云南省科委,没有得到回应。这篇计算汉字熵的论文,是1984年,我从法国学习回来之后,身份变了,才发表的。”冯志伟说。输入法、汉字显示、输出:汉字进入计算机的难题解决了

冯志伟蹉跎的岁月里,计算机理解人类语言的研究其实也停滞了。1964年,美国科学院成立了一个“自动语言处理咨询委员会”调查机器翻译的情况。结论是认为机器翻译研究遇到了难以克服的“语义障碍”,机器翻译的质量在短期内不会有很大提高。受这个报告的影响,全球机器翻译研究陷入萧条。

跟美国相比,我国还有更迫切的事情。计算机是全英文的环境,这种背景下,我们谈论它何时能够理解汉语再翻译成其他语言,实在是太奢侈了。孙茂松在上世纪80年代初考上清华大学计算机系,他说:“如果不能用中文使用计算机,中国就无法进入到信息社会。1978年以后,有一段时间,我们国家计算机领域最重要的事情就是解决汉字在计算机里的输入、输出和显示问题。”

冯志伟的预感是对的。从1978年到80年代,为了让汉字在计算机里显示出来,汉字编码是一个基础工作。国家部委、研究机构和编码研究者通过不同途径研究编码方案。汉字编码一度掀起研究高潮。冯志伟当初通过手工计算得出的“双字节编码”,为汉字编码提供了语言学根据。汉语如何进化4仅有编码还不够,汉字要在计算机上使用是个系统工程。孙茂松说:“当时做了一个汉卡,把汉字字库置入这个硬件里。汉卡插进计算机,就能显示汉字了。这是倪光南院士的工作。汉字还要能输出,王选院士被称为当代毕昇,他解决的就是汉字输出的问题。他用矢量来显示汉字。矢量输出快,也容易变化,这种办法就可以显示各种字体。这两位院士的工作都是跟汉字相关。”

汉字的输入则是一个持续优化的过程。中国人口基数庞大,人们受教育水平和使用习惯不一样,输入汉字的需求就不一样。孙茂松说:“打字输入有拼音的办法,有根据字型的办法。周有光先生在汉语拼音制定和推广上做出了杰出贡献。懂汉语的人就会用拼音,所以用拼音把汉字往计算机里输入,老百姓基本都会。周有光先生虽然不是直接对计算机行业做出贡献,但他的这个贡献可能跟拼音制定相比,一点都不小。根据字型往计算机里送,有一个很有名的五笔字型。它当时发明出来的时候,很轰动。五笔字型打字比拼音快,但它要学一下,专业人士会去用。”

输入还可以手写或者语音。孙茂松说:“汉字识别和语音识别,是80年代最热门的人工智能任务之一。我本科毕业设计最后半年,做的就是手写汉字识别。它们也是最典型的人工智能挑战,而且这个挑战延续了好几十年,到现在大模型技术出来之后,它才解决得比较好。因为手写和语音太难了,比如手写一个‘土’字,到底是‘土’还是‘士’,计算机可能有各种解读。再比如说一个多音字,计算机怎么识别?孤立去看单独的字,可能不行,计算机要根据上下文判断,它就必须有智能。”汉字处理在输出领域也有其他的形态。孙茂松说:“我有一句话,让计算机说出来,这就是语音合成。科大讯飞就是靠语音合成做起来的。”

汉字和汉语突破了全英文环境,中国才有了个人计算机、手机、智能手机的普及。如80年代的科学家和研究者们所愿,中国进入了信息社会。后面是我们熟悉的故事:在信息化工具普及程度之上,是庞大的电子信息产业、有全球影响力的互联网公司,5G网络基础设施、大数据、云计算等技术。大模型技术,是要在信息技术肥沃的土壤里才能长出来的。它需要庞大的资金、数据资源、人才密度。它作为一种技术创新,也需要搜索引擎、机器翻译、各种智能硬件的应用场景,才能形成正向的循环,推动新的投入。汉语如何进化5攻克汉字处理的难题,只是过了第一道关。对计算机来讲汉语难题还有:第二道关对词的处理、第三道关对句子的处理。汉语词和语法的特殊性,让我们没法照搬英文的自然语言处理技术。如果从50年代,国家把机器翻译列入科学规划算起,为了让计算机理解汉语,中国的自然语言处理专家们研究了几十年。

汉语即便从表意文字变成汉语拼音,对外人来讲,其实都很难理解它的形式。冯志伟在2011年曾经接到过一个任务,推动汉语拼音国际标准的修订。冯志伟说:“因为计算机和手机的普及,中国人已经习惯了连词输入,比如北京,是一个词,不再是‘北’字和‘京’字。教育部希望把某些专有名连成词。”推动这件事很费劲。

英语、法语、德语等拼音语言都是以词为单位,词与词之间有空格。汉语是以字为单位,不懂汉语的人眼里,它们是一长串符号。冯志伟说:“比如美国的图书馆里,他们给中文书编目录,作者名、国家名、出版社名等都是一个字一个拼音单独标出来。从前就有外国人问我,《红楼梦》是一个词还是分开的,《三国演义》是一个词还是三国是一个词,演义是一个词?分词的问题,中国语言学界都一直有争论,扯不清楚,更不用说外国人了。”冯志伟后来辗转柏林、巴黎、华盛顿、北京,才说服国际工作组同意修改。人名、地名、机构名、民族名和语言名的汉语拼音不能一个字一个拼音地单列,必须连成词。

计算机处理自然语言的时候,是以词语为识别单位的。它处理的每一句话,都要面对前面所讲的分词难题。孙茂松说:“长江,我们都知道是一个专有名词,而不是一条长的江。但如果是南京市长江大桥,分词不同,意思就不一样了。它可以是南京市/长江大桥。它也可以是南京市长/江大桥。”汉语跟英语相比,形式灵活,分词就不如英语容易。孙茂松说:“我是一个上海人,英文可以说‘I am a Shanghainese’。am,就是一个形式标志。汉语里说,我上海人,把am给去掉了,我们中国人都能理解,但是计算机很难理解。”

汉语语法也有特殊性,不能直接用国外的理论。冯志伟在1978年底被派去法国,跟随数学家、计算机专家沃古瓦学习自然语言处理。他原本打算用乔姆斯基的理论来分析汉语句子,但发现寸步难行。“我告诉沃古瓦教授,汉语里讲‘面包吃了’,意思其实是‘面包被吃了’,但是汉语里一般不用‘被’;汉语里还可以说‘约翰吃了’,实际上是‘约翰把面包吃了’。如果我使用乔姆斯基的理论,用计算机去分析这两个不同的句子,得出的是一样的树形图。”冯志伟说。法国的计算机专家听完也头疼。冯志伟说:“他听完很惊讶,怎么会有语言能够不分主动和被动呢?”冯志伟只能根据汉语的特点,在乔姆斯基的基础上进行改进。他后来提出了一种新模型,才把108句汉语通过计算机翻译成法语、英语、日语、德语、俄语等,完成了研究实验。这是世界上第一个把汉语翻译成多语种外语的机器翻译系统。

孙茂松毕业之后,早期就是研究汉语分词这个基础性难题。在《中文信息处理发展简史》关于分词的章节里,孙茂松的论文内容时常被引用。他提出过若干重要的概念,并且对一些难题给出过有效的处理策略。

聚沙成塔。孙茂松在这些研究基础上,研制出一个集合自动分词、词性标注、专名识别和新词识别等分词任务为一体的汉语分析软件CSegTag。这个软件应用在清华和欧盟近10个国家合作的欧盟第六框架计划(FP6)项目“超对等语义搜索引擎”中。“这个东西,我前前后后做了10年左右。当然,这中间还有其他的工作,不是只做这一件事儿。但是,这件事要做好,其实非常不容易。比如要解决‘南京市长江大桥’的分词,就要想很多办法。这是一个人工智能的工作。”孙茂松说。2020年,孙茂松当选为欧洲科学院外籍院士。2022年,他入选了国际计算语言协会ACL Fellow名单。每一次入选的理由,都会提到他为汉语的自然语言处理做出重大贡献,并为中国计算语言学的发展提供持续服务。

除了孙茂松,中国很多主要的大学和研究机构都有专家研究汉语的分词、句子结构和语义等,但在当时的技术条件下,计算机始终无法百分之百理解汉语。“汉语太复杂了”成了孙茂松回忆过去的口头禅。

到底有多复杂?说回自动分词。理论上已经有了解决的办法,建一个语料库,里面都是已经切分好的语料。这些语料拿去给计算机,基于统计的办法去学习,再遇到新的句子,计算机就会处理了。中国建了很多语料库。从外行的角度想,如果语料库足够大、足够广,比如把分散的语料库集中起来,不就可以提升准确度?孙茂松说:“没那么简单,分词没有统一标准。比如我坐船,坐船是切开,还是坐船是一个词,不同的人语感不一样。汉语导致大家的语感相当不一致,所以,语料库只能达到尽量自洽,也就是说我的语料库的标准不一定是最好的,但要有一套准则让切词尽量一致。否则,比如我家旁边有一座小桥;河边有小桥。‘小桥’一会儿切开,一会儿合在一起,机器就傻了。”深度学习:大模型前传

百度的研发团队在中关村科技园里办公。这块规划工整的园区里办公大厦也排列得横平竖直般整齐,聚集了百度、腾讯、新浪、联想等互联网公司。早上过了8点,马路上陆续有各公司的班车驶过。跟百度集团副总裁吴甜的采访约在早上9点半,这不是吴甜今天的第一项工作,采访之前,她要开两个办公会议。互联网公司的上班时间在9点到10点之间,但高管们的工作开始得更早。

百度公司虽然是中国互联网的头部企业,但在“风口”跌宕起伏的那个时期里,它总也不在浪尖上。2023年3月推出的文心一言,让百度重新站在聚光灯的中央。我到百度采访的时候,正是“文心一言”上线一周年的前几天。为了让公众了解文心一言的技术原理,吴甜百忙之中刚在中国科协的一档栏目里进行了科普演讲。汉语如何进化6文心一言的视频号也推送系列短片教给公众如何使用它。公众对新技术的接受程度超乎了百度团队的想象。从视频号演示的内容里看,人们用它答疑解惑,这跟对搜索引擎的需求很相近。人们把它当作私人助理,帮助处理人际关系难题,比如说表白或者参加葬礼的时候,讲什么样的话是合适的。人们甚至还跟它聊天,都市生活日趋原子化,总有一些不可与人言、不便与人言的时刻,人们从机器人这里寻求慰藉。

这些带有文化背景的“语言艺术”,已经跨越了自动分词、句法分析、语义分析等自然语言处理领域一直在解决的汉语难题。它是一条“说来话长”的计算机技术演进之路。冯志伟在80年代做的那种自然语言处理研究,是把汉语的结构分析出来,再转换成英语的结构。孙茂松说:“这条路虽然一直有进步,但语言太难了。一旦它进入到开放文本,人们说话是千变万化的,不仅是汉语,英语也存在类似的问题,所以这种办法就不太行。”冯志伟在法国把汉语翻译成多种外语后,又去德国做了把多种外语翻译成汉语的研究。但是,这些翻译的样本都很小。冯志伟说:“这种研究方法的准确率是60%,无法投入实际应用。我后来就转移了研究范式。”

上世纪90年代到2012年之前,专家们做的都是统计模型研究。孙茂松说:“这种方法不再去写规则,而是用统计的方法,让计算机从大量数据中寻找概率最大、最合适的结果。它性能就比从前好了一些,比较有代表性的产出就是谷歌翻译。”孙茂松和同行们研究自动分词,建语料库都是这个技术范式内的工作。它还是无法完全跨域分词、歧义等汉语难题。

在统计模型的时代,计算机理解人类语言的应用,除了机器翻译,搜索引擎出现了。当时互联网发展很快,网络数据急剧增长,信息海洋既能给人提供帮助,也能把人淹没。人们需要自动化工具从信息海洋里打捞出有用的内容。搜索引擎本质上也是一种人与机器的问答。这一次中国大模型热里,几位搜索引擎领域的老兵重回战场,就因为他们跟这项技术有点渊源。搜索引擎出现初期,达不到现在大语言模型给出回答的程度。孙茂松说:“你输入一句话是有结构的,计算机把结构打散了,变成一个个词。计算机又发现网上文章里有其中的一些词,它就把这篇文章提出来。实际上,这篇文章可能和你想搜索的内容是有差异的。因为检索不是基于句子结构。你只能再一条一条自己挑。”

李彦宏是搜索引擎当时一项非常重要的技术“超链分析”的发明人。为了得到比较精确的答案,他的办法是让计算机看哪个链接里这些关键词出现次数最多,它们就链接到哪些网站上,被链接到的网站就是跟用户搜索最相关的。他回国创立了百度公司,搜索引擎也成了百度最知名的产品。

计算机理解人类语言的难题,是被深度学习技术打开局面的。2012年,多伦多大学教授杰夫·辛顿举办一场拍卖来决定他的深度学习研究成果归属。参与拍卖的四家公司是谷歌、百度、微软和DeepMind。这场拍卖跟百度公司有些关系,根据人工智能科学家余凯的回忆文章,2012年,他加入百度,当时深度学习还是一个小众的研究方向。他去清华大学讲座推广这项算法,也在百度做深度学习项目。李彦宏曾经专门给全公司的产品经理发邮件,要大家关注深度学习的最新进展。

2012年10月,杰夫·辛顿向百度表示愿意合作,但希望百度提供100万美元研究经费。李彦宏非常支持。余凯写道:“猜我可能回答得太快了,让辛顿意识到了巨大的机会。”辛顿联系了其他公司,让所有竞争者以秘密竞拍的方式收购他的团队。最后,谷歌得到辛顿的成果。李彦宏亲自经历了国际公司重金投资深度学习之后,把深度学习提到百度的核心技术创新的高度。他在2013年设立了百度深度学习研究院。10年来,在这个领域的投入已经超过了1700亿元。深度学习在国内也逐渐成为研究者关注的领域。孙茂松带领学生研发的“九歌”人工智能作诗系统,就是在清华大学团队研究深度学习的背景下产生的。

吴甜一边想一边说,尽量用直白的语言解释什么是深度学习。她说:“人脑中的神经元连在一起,形成了神经元网络。我们看图片、读书等信息输入时,神经元不断去强化,使得神经元网络能够记忆、还能进行计算、推理或者联想。人工神经网络是研究人员受到人脑神经网络工作机理的启发而设计的。对于大模型来说,当机器学习了海量文字,它不仅学会了语言中的单词、句子、上下文信息,它还能学习到语言中承载的模式、逻辑等等。”

在我们关注到大模型之前,深度学习其实已经渗透到互联网生活里了。吴甜说:“我们通过深度学习的方法,让语音识别、文字识别、机器翻译等好多个产品的准确率大幅度提升。那几年里头,语音、视觉、自然语言处理、知识图谱等技术一直在迅速发展。”在李彦宏的书里,详细回忆过深度学习技术对产品的提升。他写道:“百度领先谷歌发布了基于神经网络的翻译系统。这种技术不需要对语料进行统计分析,而是当大量语言被投喂给人工神经网络时,句子在网络里经过层层传递,转化为计算机可以‘理解’的表达形式,再经过多层复杂的传导运算,生成另一种语言的译文。”搜索引擎也有例子,他写道,百度的知识图谱技术可以分析、理解和推理复杂关系。自然语言处理技术不仅仅是字面匹配,还能分析复杂语法,甚至辨识句子的歧义。汉语如何进化7预训练大模型技术的出现,让计算机理解人类语言的能力又一次提升。2018年,谷歌公司提出预训练语言模型BERT。同一年,OpenAI提出了生成式预训练模型GPT。2019年3月,百度推出了预训练大模型ERNIE(文心)。它可以看作深度学习的进阶。吴甜说:“深度学习技术,我要先给它一个具体的任务,我现在不急着给计算机任务了。打个比方,我先给它很多‘书’去读,这本‘书’上我也不去标注阅读哪一段话,或者应该读出什么样的主题。我们说一个人读书破万卷的话,他学识渊博,博采众长。其实是因为读书的过程中,通过对语言的理解、分析和记忆等,把语言所承载的知识学到了自己的脑子里。计算机去读这些书,也是类似的道理,而且毫不夸张地讲,文心一言读书破万亿。计算机记了非常多的东西之后,它的建模能力非常强,对世界知识进行了压缩,形成一个模型。当我们使用的时候,用相应算法去进行解码,知识就能运用起来了。”

通过这种无标注海量数据的学习,大模型学会了跟人类似的理解、生成、逻辑和记忆等能力,拥有了“智能”的基础。吴甜说:“这种基础模型的通识能力非常强,但使用的时候,我们还要进行精调,要不然它不知道这个任务最后输出什么样的结果是更符合预期的。我们用少量精标的、高质量数据调教它,就是现在常说的对齐。对齐之后,模型就可以使用了。”大模型非常聪明。吴甜说:“现在很多人都在聊‘涌现’,就是模型会生成在输入数据里没有的、出乎意料的内容,就像它有了自己的想法一样。其实因为它压缩了太多数据,任何一个人脑子里的知识都没有它丰富和全面。这时候,它产生的一些东西,我们作为人类,就觉得它涌现出来了。”汉语如何进化8自然语言处理领域很多研究方向,现在都不是问题了。孙茂松说:“你可以理解成,这个模型的框架基本上是确定的,大家都拿积木块去搭这个模型。积木块里有很多参数,参数都是机器自动学的。现在做机器翻译,我们可以设计一个大模型,放世界上多种语言在里面。我们甚至可以完全不懂这些语言,只需要找一个懂这门语言的人把翻译的句段告诉模型。ABCD也好,你我他也好,日语的平假名片假名也好,所有这些语言在系统里找到自己的位置,它们进行互译。”

汉语具有的特殊性,大模型技术已经不需要特别去处理它。孙茂松说:“多种语言在大模型里打通之后,可能出现一种效果。英文语料对中文的理解也有帮助。英语语言学有一种说法,语义世界基本是稳定的。汉语的语义世界和英语的语义世界有差异,但总体上差不多,因为我们接触的事件差不多。比如我们吃苹果、梨、桃子,吃饭、睡觉等有文化差异,但差异不是主流。所以,比如说大模型用英语把这些概念在一个计算空间里各就各位之后,再用少量的中英语料,就可以把中文世界和英文世界进行某种对齐。英文语义就可能来帮助处理中文。我们老祖宗有句话叫大象无形。这是大模型技术比较深刻的原因,它把很多东西打通了。OpenAI公司的人可能都不懂中文,但他们把中文做得很好。”

大模型技术也陆续用在我们的互联网生活里,它类似于一种人工智能基础设施。吴甜说:“我们2019年发布文心大模型1.0之后,一直在做迭代优化的工作。同时,我们把它应用到产品中,比如用于语义搜索,来理解一些非字面的深层次的意思。语义搜索现在就是通过大模型技术去进行的,这跟早年的语义匹配已经有很大区别了。还有比如说,我们的小度音箱系列,也在用文心大模型技术开展产品体验的优化与创新。”大模型技术除了用于C端,也用在B端。李彦宏在2023年第四季度及全年财报电话会上说,当年的12月,约有2.6万家企业调用文心大模型。中国三星、荣耀等公司也是文心大模型的合作伙伴。

2022年11月,OpenAI推出了基于大模型技术的聊天机器人ChatGPT。它可以跟人进行多轮对话,写论文、写小说、写代码、参加考试等等。它聪明得让全球震惊。2023年3月,百度上线了基于文心大模型技术的生成式大语言模型文心一言。阿里上线了通义千问,商汤科技上线了商量,讯飞上线了讯飞星火等等。数个月之内,中国科技公司上演了“百模大战”。

因为聊天机器人,大模型技术破了圈。对于在中国使用的聊天机器人,汉语本身已经不是障碍,但要处理语言背后的文化差异。吴甜纠正我,说文心一言是中文大语言模型不够准确。这种大语言模型,它天生就有多语言能力。因为在预训练的时候,我们不仅仅让它学习中文语料,其他语料也学习了。当然,它为了面向公众服务,必须符合中国的文化和价值观。所以,文心一言中文语料的训练量比ChatGPT要大得多。我举个文化差异的例子。2022年我们发布文生图大模型的时候,有网友拿它跟国外的大模型比。比如佛跳墙,国外的大模型画出来就是一堵墙,然后有个佛像在跳。它可以理解汉字,但理解不了汉字背后文化的东西。

为了让普通人理解大模型,吴甜喜欢用人的成长来做比喻。她说:“我们要教一个孩子的时候,一个好办法就是让他自己看书。我们告诉他要看哪些书,不要看哪些书。当他看到足够多的时候,老师去给他做‘对齐’。对齐的意思是老师告诉他要这样做,还是那样做。他自己再去练习,再去考试。这个过程中,他一直在做强化学习。现在关心AI的人都知道‘提示词’。提示词可以理解为老师问他问题。会问问题很关键,问得好,孩子也答得好。这个孩子我们教育得很好,能力也很强,下一步他要走进社会。他在工作中要应对各种任务的磨炼,要跟客户、领导沟通交流。学习能力强的人往往在反馈的过程里提高得非常迅速。在百度,我们这个过程叫‘数据飞轮’,就是大模型在磨炼反馈中再学习,这就形成了正循环。”同样道理,一个在国际背景里长大的大模型,它虽然懂中文,但如果在中国工作,还需要本地化。算力、算法、应用:解决汉语难题的第四道关

冯志伟一直关注大模型技术的进展。他说:“我会讲英语、法语、德语、日语、俄语,在大众里很难找到吧?大模型可以处理100多种语言,如果靠人的智力,怎么能做得到?我小时候想,能不能用数学来研究翻译,现在已经被大模型彻底实现了。”

冯志伟那一代人,迫切希望拥抱现代科技,最好能跟发达国家交流,最好能用计算机提高翻译速度。冯志伟说:“鸦片战争之后,中国处于被动挨打的地位。爱国志士想到其中一个重要原因就是,中国90%以上是文盲。文盲这么多,要建设一个现代国家是不可能的。汉字又难读又难写,所以,很多人呼吁把汉字改成字母,甚至汉语都不要讲了,讲世界语。我十几岁的时候,思想进步,参加扫盲。教农民识字是很难的,因为农民本来就没什么底子,还有人根本不想学。我教给他们认识人民币上的壹、贰、叁不要认错,能学会100多个字的人就很不错了。”

到了孙茂松上大学的时代,这个行业要解决的问题是把汉字和汉语带入计算机世界。孙茂松那么多的研究,总结下来就是如何让计算机理解汉语。2012年以后,他转向了深度学习的前沿研究。据Gitstar Ranking统计,基于孙茂松研究团队核心成果的开源项目THUNLP在GitHub上获得了近8万个星标,机构排名居全世界高校前列。

大模型的出现让扫除计算机理解汉语的障碍有了可能性。但是,大模型技术本身就能造成一道技术鸿沟。它需要天文数字的资金、丰富的人才储备、海量数据和多样化的应用场景。中国公司现在能让大模型理解和生成汉语,来自互联网产业多年的积累。2023年以来,中国公司纷纷上线大模型项目,被自媒体戏谑为“百模大战”。“一哄而上”在这个语境里,不是贬义。孙茂松在一次会议发言里说:“不是一下子就能蹦出百模的。这一拨人工智能技术开始于2010年,国内自然语言处理、人工智能领域在技术积累和教学经验上都是很充分的,应该说在国际前沿位置。”

吴甜毕业就进入了百度。她先后开拓了机器学习、语义理解、推荐与个性化、用户建模、深度问答、对话系统等众多人工智能技术方向。她是跟这一拨人工智能技术一起成长起来的专家。除了担任百度集团副总裁,她还是深度学习技术及应用国家工程研究中心副主任。吴甜说:“发展到今天,人工智能并不是单点技术做好就可以了,而应该是建设全栈技术。百度有语音、视觉、自然语言处理等全面的人工智能技术布局,这都是做好多模态的基础。百度建设了四层技术体系,芯片层、框架层、模型层、应用层,都有完备的布局和相应的自主创新技术,这四层之间是互相反馈和促进的。”

百度的第一个产品搜索引擎,就是拉动AI技术的一项重要应用。比如国际上,有些国家是直接用谷歌的,如果它们没有自己的搜索引擎,就很难有动力去推动建设底层技术。吴甜说:“百度有自研的搜索引擎,有动力去做研发,如果应用不够深、应用场景不丰富,现在没办法发展大模型。”

2014年成立的商汤科技则是一家很年轻但有深厚技术积累的公司。创始人汤晓鸥教授是全球人工智能领域的开拓者。他创办的香港中文大学MMLab(多媒体实验室),与麻省理工学院、斯坦福等大学的实验室在2016年一起入选了世界十大人工智能先锋实验室。它是亚洲唯一入选的团队。汤晓鸥培养出了一批人工智能科学家。他曾经评价三位在深度学习领域颇有建树的学生:“王晓刚在深度学习最初几年撒下原创种子,何恺明打牢了深度学习的根基,林达华通过开源和大模型让其枝繁叶茂。”王晓刚和林达华都是商汤创始团队成员。林达华现在是我国人工智能科研领域创新机构上海人工智能实验室的领军科学家。

商汤科技也是一家年轻人的公司,员工平均年龄不到30岁。大装置训练平台负责人张行程,说话声音里都带着朝气和自豪。2023年4月,商汤科技发布了自己的大模型。张行程说:“要把大模型做出来,核心要素就是算力。训练大模型对算力的需求是传统机器学习的上万倍。商汤在算力上的积累开始得非常早,远早于很多同类机构。2019年就开始在上海临港筹建人工智能计算中心(AIDC),2021年建好时算力规模有3700Petaflops,现在算力规模达到8100Petaflops,已有超3.5万块GPU。”人才也非常关键。张行程说:“它是全新技术,只有靠算法领域非常活跃的人才,对这个问题去探索解决,才能够做得好。统计到2021年,商汤有40名教授、250多名博士和博士候选人,科研人数超过公司总人数三分之二。在过去九年里,商汤和商汤的联合实验室在三大国际计算机视觉顶级会议上共发表806篇关于深度学习和计算机视觉的研究论文。我们在全球计算机视觉领域是领跑的。”

商汤的大模型有广泛的下游应用场景,比如自动驾驶。2023年,计算机视觉和模式识别顶级会议CVPR的最佳论文《以路径规划为导向的自动驾驶》,就是商汤科技联合上海人工智能实验室和武汉大学完成的。这也是近10年来,CVPR会议上第一篇以中国机构作为第一单位的最佳论文。张行程说:“现在国内厂商普遍使用的自动驾驶技术基本上都靠一个非常复杂的规则系统,有上万条规则。但凡有规则就会有例外,只要有例外它就处理不好。它的灵活度和智能化程度就没有那么高。引入多模态大模型之后,我只要给它足够多的训练语料之后,它就能像人一样去学会处理各种各样的情况。”

除了百度和商汤,还有若干家科技公司、创业公司、科研团队在做大模型。我们越过了技术鸿沟,站在了发展的一边。但是,我们面前依旧有困难。那么多网友在网上不断地给中国大模型和ChatGPT出题,结果上有差距。王强(化名)是一家科技公司技术负责人,他说:“我们跟OpenAI有代差,我们现在的方案是它一年或一年半之前的方案。算力的差距也比较成问题。Meta他们公布了最新的方案,他们有5万个NVIDIA最新的显卡H100组成的集群,专门用来训大模型。那如果算力少了,那么我们能够尝试迭代的方案就少,认知的前进速度就会变慢,本身就跟他们有代差,再加上认知、成长的速度也慢,这个差距可能就会被拉大,总之影响因素还是比较多的。”高质量中文语料库:中国大模型的短板

中国公司的大模型跟英文大模型相比,除了算力被卡脖子,还有一个瓶颈是高质量中文语料的稀缺。今年的两会上,全国政协委员,知乎创始人、CEO周源就提出:“在这样的背景下,国内许多大模型开发的研究机构和企业在进行模型训练时,不得不依赖于外文标注数据集,开源数据集或爬取网络数据。这会限制我们人工智能技术的发展和创新应用的推进,也影响我国在全球人工智能领域的竞争力。”汉语如何进化9语料质量跟大模型“聪明”度相关,因为大模型技术还是属于机器学习的范畴,它要从数据中学习规律。吴甜还是以小孩学习为例,他读什么质量的书、涉猎面宽还是窄、读书多还是少,跟小孩的学问是有直接关系的。孙茂松也在很多场合呼吁重视高质量中文语料库的问题,他是工科教授,特别关注跟科学研究相关的论文。他说:“比如全世界的好代码写完都开源在GitHub上,这个网站被微软给买了。微软就拥有它全部的代码,比如它要是训练一个大模型来写代码。这个大模型写代码就会好,因为微软的数据量大。本来中国公司获取中文语料应该很容易,但现在需要一种机制来解决,比如说大量科技论文怎么能作为语料。如果大模型只能获取新闻、小说等语料做训练,它是一个文科生。”

低质量的语料会把大模型带偏。张行程说:“很多语料是从互联网爬取下来的,处理海量语料的代码大多是非常固定的规则,基于这些规则处理出来的语料就会有各种各样的形态,其中难免就有低质量语料。我提炼一下,大概有几种。第一类还算好一点,它会把一堆毫无关系的段落拼在一起。模型在训练过程中看到的就是一些毫不相干的概念,颠三倒四的内容混合在一起。第二类是广告营销。互联网有一个特点就是广告多,虽然可以进行清洗和筛选,但难免还是会有左边一堆广告,右边一堆广告嵌入到正文的各个角落里。大模型很不容易,它可能看到的都是一些掺杂着广告、语义不连续的句子,最后它还要从里面去学习知识。还有一类就是偏营销的广告语,简单内容翻来覆去地重复,可能看了1万亿内容,里面有1%是这种营销广告。如果不精心挑选语料的话,大模型可能在输出过程中,就开始随机写广告语了。最后一类,网上还会有一些暴力、色情的内容,也会对模型带来干扰。”

高质量语料会提升大模型的性能。今年2月份,商汤科技发布了大模型体系“日日新SenseNova”4.0版本,在长文理解、综合推理、代码生成、多模态交互等表现上升级。这种提升一部分是在算力丰富的基础上,模型结构、参数量的改变。另外就跟语料相关。张行程说:“推理能力包括数字推理、长文本能力,代码生成这些能力的提升都来自于数据的迭代。我们是从原始语料摘了将近1万亿的token。由于我们不会对数据做额外的人工标注,所以选什么数据就很关键。我们新的版本里对数据做了更精细的清洗和筛查,筛出更高质量的数据、更丰富的领域,以及更多的代码。我们还补充和补强了传统中文语料,数学计算相关的语料,我们还引入了更多的模态,比如图片的引入。这些语料和大模型的能力可能不是一一对应的关系,但是,语料加强之后,综合性能被提升了。”

大模型对语料的需求是天文数字。这个行业里有一种说法,互联网上合法合规、能用来训练的数据,已经都被爬取得七七八八了。高质量的数据比如法院判例、裁判文书、医疗诊断记录、政府公共数据、具有科研属性的数据、科研期刊论文、精心校编过的高质量图书等,可能需要妥善考虑和统筹,如何公开、流通和利用。根据AI应用开放社区Hugging Face数据统计,中文开源数据集数量仅占英文开源的11%。

张行程根据他训练大模型的经验总结对语料的要求:“第一是语料多样性要高,各种各样非常全面,不能只有数理化没有文科,或者没有古典文学。任何能想到的方面,它都必须要有。第二个是它的重复度要低,不能某个领域占比特别高。语义要完整,不能是断章的句子或者不同概念拼凑起来。最后就是要合规合法,否则模型会有版权的风险。”但现在,想补齐和提高语料,不是一家企业或者研究结构能解决的问题。为了训练大模型,企业和科研机构只能各显神通。张行程说:“同步在推进的还有,我们会从大模型技术的下游去看使用情况的反馈,它们哪些方面薄弱。我们基于薄弱的情况,去设计策略富集语料。我们想办法在从前的语料库里看有没有金子可以挖。”

百度的办法是寻求专业合作。在去年的深度学习开发者峰会上百度宣布了跟上海世纪出版集团的合作。上海世纪出版集团是《辞海》的出版单位。吴甜说:“《辞海》是精心编撰的,每一个词条的内容质量都非常高。这些数据对于文心大模型的学习来讲,都很重要。”百度还给文心一言请了导师,都是所在行业里的专家,希望他们帮助文心一言加强在各个领域里的认知。第一批导师分别来自化学化工、医疗健康、传统文化、文学创作、交通运输等领域。数字化——我们的文脉:在古籍上把汉语进入计算机重做一遍

冯志伟1985年到语言文字应用研究所工作。这个研究单位直接受国家语言文字工作委员会领导。冯志伟说:“在1985年左右,全国语言文字工作会议在北京开。要求进一步修改、充实汉语拼音方案。从那时开始,用汉语拼音代替汉字等汉字改革的想法再也不提了。”当时已经有技术使得计算机能够处理汉字,汉字作为文明的活化石又一次跨越时代变迁,在迈入信息社会的前夕。冯志伟说:“如果汉字不用了,再过两代、三代,古书都没人读得懂了,我们的文化怎么传承?”

中华文化几千年,在龟甲和兽骨上,在青铜器上,在石鼓上,在简牍上,在帛上,手抄本、刻本,每出现一种载体,我们总是把历史和文化迁移上去,历经战乱、散佚,流传下来。最近几年,人工智能技术上了一个又一个台阶,它们正在被用在古籍上。北京大学数字人文研究中心和字节跳动合作,就在把卷帙浩繁的古籍带入大模型的时代。

在网页上搜索“识典古籍”,或者通过今日头条APP的古籍频道,就可以进入这个项目的界面。王宇说:“读者能看到儒家、道家、佛学和文学经典等类型的古籍。”比如,打开《论语·学而》,左面显示的是古籍原稿,右面是一段原文,一段翻译,间杂呈现。原文的人名、地名、专有名词等下面画了横线,点上去就弹出这个词在头条百科的链接。字节跳动这个项目的负责人王宇还给我演示了一个特别的功能,他任意在文章里选中一句话,选择定位原图的按钮,左面的原稿上相应的位置就被浅橙色标亮出来。

王宇讲话一板一眼,但给我演示这个功能时,有点展示自己孩子表演才艺的小得意。“这是我们自己研发的,互联网公司擅长做阅读体验。它虽然不是说技术很难,但也没那么简单,非常费功夫,要很努力才能做出来。”王宇说。这是个公益项目,字节希望利用自己的优势,让更多的人了解传统文化。“平台上线之后,我看到用户反馈,比如说有一些中学老师,他们希望给学生把课讲得更好。他们利用识典古籍,让学生看到古籍原本是什么样子,古文的背景、周边的历史是什么样子。这个项目对古籍利用有重要的作用。这也是我们的使命。”王宇说。除了王宇这个专职团队,做这件事从技术到人工需要字节跳动里不同部门的支持。字节跳动是个年轻人的公司,互相称呼同学。他们觉得把古籍数字化很有意义,繁忙工作之余,有几百人都报名做志愿者,愿意为这个项目出力。

把古籍做到这样的展示,是把现代汉语的自然语言处理的字处理、词处理、句处理阶段复刻了一遍,并且几乎用上了所有人工智能的新技术。北京大学数字人文研究中心是一个交叉学科的机构,从几年前就开始探索人工智能技术对古籍的开发利用。在识典古籍项目上,又跟字节跳动一起把研究产品化,推向公众。主任王军觉得北大来做这件事有渊源。“胡适先生提出‘整理国故、再造文明’,这是新文化运动的纲领之一,他希望通过整理中国传统文化,使其符合现代社会的需要,进而实现中西融会以创造出新的文明。另外一件事是原燕京大学图书馆馆长洪业先生,是利用西方现代的科学方法对古籍进行整理的先行者。我们现在做的事情仍然是在先贤开辟的方向上继续。”王军说。

古籍整理是一个传统的工作。在选择底本和校本的基础上,对文本进行录入和校对,然后进行标题、分段等版式整理,根据上下文对文字进行校对,识别疑难字、集外字、异体字等等。接下来对古籍进行校勘,加标点和专名识别。专名识别指的是人名、地名、国名、民族名、朝代名、年号等等。人工来做,耗时很长。王军说:“现存古籍国内、国外算下来有20多万种。要把它们全部数字化,靠人工是做不完的。比如一页字,要录入,要校验,要加标点。古籍点校是需要专家指导的。古书在传承过程中它可能有错简、衍脱等情况。这些全都校对出来,时间和成本非常高。”

数字化古籍的第一步录入,是用光学字符识别(OCR)技术完成的。OCR是个很成熟的技术,很多人的手机上就装有OCR的APP,但用在古籍上需要专门研发。王军说:“现代汉语常用字3500个左右,古籍常用汉字在2万字以上,字书里的汉字量有近6万字。文字量庞大,异体字多,字形多变,版式多样,页面模糊,缺乏充足的训练数据。这些都是古籍OCR的挑战性。”近年来的深度学习技术提高了准确率。王宇给我看识典古籍的后台,一张类似于古代笺纸的PDF上标了很多不同样子的数字编号。他说:“古籍是从右往左读的,我们要标出顺序。古籍上还有注文,所以,我们的编号有的是单行,有的是双行。双行的就是有注文的。古文的扫描条件不一样,所以,我们在实践中发现问题,解决问题,因为我们数字化的只是3000多种古籍,训练数据有限。它是一个持续性的投入,后续我们数字化的新书也可以作为数据。它不是说一次性就把技术问题解决了。”

抄本和刻本古籍还没有标点符号。古人读书的时候,要用有颜色的笔在书上加点或者加圈,也就是句读。传统的古文学习都是在老师带领下,经过长时间阅读,形成语感,才能进行正确的句读。王军说:“2018年底,谷歌推出了BERT模型,开启了预训练模型时代。我们用这个技术在古文断句上进行探索,它的准确率比从前的算法提升了一大步。我们现在的平均准确率是94%,先秦、两汉的会差一点,在80%左右,唐宋以后的就会高一些,在98%左右。从前手工工作,我们现在都是机器先做,再人工校对。”汉语如何进化10人工智能应用在古籍领域,除了提高数字化的效率,也让人们学习和研究古籍的效率提高了。王军在他的电脑上随机点开一篇古文里的人名,随后,机器从文中识别出他的出生地、他的斋名、他游历过的地方,围绕着这个人构成了一个知识图谱,呈现出和他有交往关系的人际网络。古籍里所包含的这个人的相关信息就展开在我的眼前。王军说:“如果这个技术走向成熟,普通人就可以借助它对古籍内容有大概的理解。到那时,每个人都不用借助第三者的转述或者解释,直接面对古籍了。”

这个技术还在探索阶段。目前在识典古籍上,用的是搜索增强。王宇说:“我们古籍团队也在想怎么能利用好公司的大模型基座。比如你问我古文里这个字是什么意思,我帮你去调,可以是古籍数据里的,可以是我们百科数据里的,搜索出各种各样的资料来。我们产品上线之后会收集用户的反馈,包括学者的反馈。他们提出问题,我们优化,然后我们还在推新功能。这是长期的事,不是上线就结项了。”

除了通过字节跳动的内容分发能力接触大众,北大还做了一个面向专业学者的古文献分析平台。王军给我举了一个例子,他点开《韩非子》里的一章,“道者万物之始”,“如果我想知道‘万物之始’这个观念,在中国从先秦到元明清这两千多年的过程中是怎么传播的,有没有变化。过去可能需要饱读之士把几百种文献看完,才能总结个大概。现在在古籍数据化的基础上,人工智能技术可以让每一个人都具有这种溯源能力”。王军说。他在这个平台上操作了一下,立刻就出来分析这句话的图表,“万物资始”的观念,最早出现在先秦时期的著作《易经》里,随后,历代怎么演变都列了出来,甚至于从周文王开始,一直到谭嗣同是如何引用的,一目了然。

北京大学数字人文研究中心也在探索大模型技术。训练大模型的投入巨大,数字人文研究中心这种自谋经费的小团队是没能力训练预训练模型的,目前只能利用古籍语料来微调特定领域的应用型模型。它用古籍语料训练,回答问题跟市面上的大模型产品不一样。王军问它读书的方法。它回答:“一遍是一遍功夫,两遍是两遍功夫,在阅读过程中要寻求文字的当然之理,要虚心入里,玩味道理,不要只停留在表面的理解。”这是中国古人的智慧。 人工智能AI大模型汉语