发现程序与分布:语言习得有效模型

作者: 陈保亚 陈樾

发现程序与分布:语言习得有效模型0

[摘 要] ChatGPT的出现引人关注,其最显著的进展应该是自然语言文本的生成。ChatGPT能够生成崭新的合法句子,说明ChatGPT已经获得了自然语言文本的单位和生成规则。ChatGPT不需要和经验打交道,不具备“酸、甜、苦、辣、痛、悲、愁”等词汇背后的经验,却能生成包含这些词的合法句子。这是语言学家、人工智能专家和哲学家需要解释的重要理论问题。决定语言规则的初始概念包括词、词类、语法结构关系、语义结构关系、语用结构关系等,ChatGPT由于是自动学习规则,并未利用这些初始概念,它唯一能够利用的是大规模文本中自然片段的分布。通过文本中自然片段的分布获取单位和规则,这是一种言知而非亲知的学习方式。ChatGPT言知学习方式的成功证明了结构语言学家Harris的发现程序及其核心部分的分布理论具有可行性,也为语言形式主义的可行性提供了证据。ChatGPT基于言知的学习模式需要以大数据和超强运算这样一种强储算能力为基础,还未揭示人类基于亲知的语言学习机制,人类学习依赖的是基于小数据和基本运算这样一种弱储算能力。不过基于言知的学习模式所依赖的发现程序及其分布理论对人类学习语言仍然有必要性。亲知学习方式和言知学习方式都是语言学家需要回答的问题。

[中图分类号] H08   [文献标识码] A   [文章编号] 1674-8174(2025)01-0001-08

1. ChatGPT语言学方法:基于言知的分布理论

ChatGPT的出现引起了人们的广泛关注。作为一种大语言模型(large language model),ChatGPT有两个重要的基础,一个是人工神经网络(artificial neural networks)数学模型,简称ANN,另一个是大数据,包括网络上的各种文本。人工神经网络通常又被称为神经网络,其基本原理就是模仿人类大脑神经网络进行非线性回归计算,自动建立预测模型。这种神经网络有很多隐藏很深的层次,所以其自动建模的过程也称为深度学习(deep learning)。基于人工神经网络,ChatGPT能够自动读取网络上包括维基百科等在内的海量文本,从中模拟出语言生成模型,生成新的句子和文本。ChatGPT在数学计算和数据存储方面,远远超过了人类的大脑。ChatGPT目前已经进入Chat-4版本,尽管还有很多能力无法和人相比,比如数学证明能力,理论创新、领悟和反思等,但ChatGPT能说出在之前所有的海量文本中没有出现过的崭新句子,并且这些句子都极其自然,符合语言规则,这说明ChatGPT肯定还原出了语言单位和规则。言语行为中还原出有限的单位和规则,生成崭新的句子和文本,这是自然语言习得的核心内容。在自然语言文本处理方面,ChatGPT解决了计算语言学中耗时费力的自动分词、词性标注、规则提取等难点问题,这是一个重要的转折。

ChatGPT的语言学习方式和人类语言学习方式不一样。ChatGPT并不和经验打交道,不具备包含在“酸、甜、苦、辣、痛、悲、愁”等词汇背后的经验,却能生成包含这些词的合法句子。ChatGPT直接从海量文本入手,通过自动学习获取单位和规则。人类学习语言需要和经验打交道,“酸、甜、苦、辣、痛、悲、愁”等词汇背后都有生活经验的支持。拿汉语来说,ChatGPT接受的文本只是字的不同排列方式构成的文本,或者说字的不同分布方式构成的文本。ChatGPT只能依赖字和字组的不同分布差异来获取汉语的生成规则。这就引出了一个在理论语言学上非常重要的结论:只要有了足够的文本,就可以还原出单位和组合规则,生成符合规则的崭新句子。这一结论对现有的语言理论形成了很大冲击。现有语言理论承认并启用了很多初始概念或元语言概念,比如词、词类、语法结构关系、语义结构关系和话语结构关系,ChatGPT绕过了这些初始概念。现有的语言理论,尤其是认知语言学,假定语言规则的获取必须依赖经验,ChatGPT也绕过了经验。

ChatGPT的学习模式只跟文本打交道,无需跟经验打交道,这是从文本到文本的学习模式,可以称为言知学习方式。人类的语言学习方式需要跟经验打交道,跟经验打交道的语言学习方式可以称为亲知学习方式。在亲知学习的基础上,人类也具有言知学习方式,因此人类的语言学习方式是亲知和言知共同作用的二元学习方式。目前ChatGPT的言知学习模式是如何实现的,这是语言学、人工智能、哲学需要解释的重要理论问题,核心是机器是否理解语言,能否思维,这是图灵所代表的功能派和塞尔所代表的解释派长期争论的问题。与此相关的问题是如何回答杰克逊(Jackson,1982)提到的另一个思想实验,即“玛丽的房间”(Marys room)。玛丽在一个黑白房间看黑白电视,阅读黑白书籍,学会了关于颜色的所有知识,成为色彩专家。如果某一天玛丽真正看到了现实中的苹果,她关于色彩的知识是否会增加?在这一点上ChatGPT有些像玛丽,不过ChatGPT连电视也可以不看,只在文本中学习就能获得语言规则。这一“知识论证”问题的争论还将持续下去。可以肯定的是,ChatGPT确实学会了语言单位和语言规则,我们需要从语言学角度回答这是如何实现的。这也可能是将来回答“知识论证”的重要条件。

2. Harris分布理论的可行性

语言理论解释语法规则,至少用到了词、词类、语法结构关系、语义结构关系和语用结构关系等初始概念,词类更是长期以来都被当做语法的初始概念。比较下面实例:

“白马”和“很冷”尽管都是偏正关系,但由于直接成分的词类不同,结构的功能也不同,这说明词类具有初始性。词类相同,结构关系也可以不同,下面实例的直接成分词类相同,但由于结构关系不同,既可以是偏正结构,也可以是并列结构,因此意义也不同:

塑料玻璃/电脑桌子/香蕉芒果/香蕉苹果/衣服帽子/学生家长/孩子父亲

这说明结构关系也具有初始性。

词类和句法结构关系这两个初始概念,ChatGPT并没有用到,但ChatGPT所生产的句子中并没有违反词类规则和结构关系的现象,比如类似下面的错误ChatGPT一般不会出现:

*很房间(违反语类规则)

*吃买鸡(“吃”不能带述宾结构,只能是“吃买的鸡”)

这说明ChatGPT通过分布解决了词类和语法结构关系所处理的问题。至于ChatGPT是否在人工神经网络黑箱中建立过词类和句法结构关系这两种初始概念,目前还不清楚。

ChatGPT在言知学习上取得的成功让我们开始重新思考结构语言学中Bloomfield所倡导的分布理论(distributional methodology)。ChatGPT所面临的海量文本只是自然片段的不同分布,即使ChatGPT能够阅读到大量词典,这些词典的定义也是自我循环,根本上也是属于不同的文本分布(陈保亚、陈樾,2024)。所以ChatGPT所能利用的方法就是在自然片段的分布中寻找单位和规则,而这种分布思想,曾经是结构语言学后期的一个重要理论。

布龙菲尔德(Bloomfield,1926、1933)阐述了他的语言行为主义理论,他把词的意义看成词的用法,也即词的分布(distribution)。Bloomfield认为语言的意义必须通过行为活动来解释,因为行为活动是可观察的,可实证的,而通常意义上的“意义”是不可观察的,不可实证的,这就构成著名的“物理主义”,其目的是排斥对意义的主观解释。基本模式是:

S>r……s>R

S的刺激产生了话语r(我想吃苹果),话语r和话语s相互作用,产生了R(摘苹果),这就是物理主义所阐释的语言的意义。由于这种模式是通过可观察的行为来解释意义,使意义的解释进入了实证的范围,所以人们也把这种解释模式称为行为主义解释模式。Bloomfield把词定义为最小的能够独立成句的单位,就是一种分布表述。成句就是一种独立分布。

和Bloomfield一脉传承,Harris(1946、1951)更为系统地阐述了分布理论。Harris认为可以从语素的分布开始,生成全部的话语,所有的功能关系,包括句子成分、语法结构关系、语义结构关系、各种表达关系,都属于元语言,都跟经验有关系,并且带有一定的主观性,因此都被取消,剩下的只有分布和语素类,而语素类也可以通过分布解释,因此语法描写的初始概念就只剩下了语素及其分布,Harris的理论也因此被称为分布理论。Harris此时已经完全和基于经验的功能主义分道扬镳,走向形式化的道路。Harris力图借助最少的概念和原则,从可观察事实出发,提取单位并分类,通过单位的分布来说明组合关系,这一方法后来被Chomsky(1957、1965)称为发现程序(discovery procedure)。

发现程序的出发点是语言调查中得到的音素(phonetic elements)片段或序列,发现程序通过音素的分布发现音位、语素,通过语素的分布发现语类和组合规则。以发现程序为核心的研究取向也被称为“后结构语言学”。Harris(1946)的论文特别系统地讨论了怎样通过语素(morpheme)的分布建立语素类,怎样通过语素类建立语素组合的类。比如名词性语素N可以出现在复数-s前,定冠词the后,组成名词类;动词性语素V可以出现在-ing和ed前,组成动词类。Harris认为the后面是鉴定名词的框架之一(Harris,1946),实际上所有的形容词都可以出现在这个框架中,比如:

the good/the black/the red/the big…

因此the-这个分布环境不仅有名词,也有形容词,因此the A和the N共同形成一个语素组类NP。

语言中语素的分布异常复杂,如果大量观察丰富的文本,可以看出,每个语素都有自己不同的分布,所以语言学家要靠手工全面描写每个语素的所有分布,其难度非常大。Harris(1951)的《结构语言学方法论》把分布分析推到了极致,手续相当严密复杂,阅读起来也相当困难。由于分布分析方法在手续上的复杂性,后来很多结构语言学家都未能走Harris的道路,而是重新走向功能主义的道路,更多的依靠语法结构关系、语义结构关系等初始概念描写语言规则。尽管Harris的分布理论手续复杂,ChatGPT的出现证明,根据文本中自然片段的分布可以得到单位和语言规则。ChatGPT首先要在文本中提取单位,英语文本中的空格和标点符号为ChatGPT提取自然片段提供了条件,这些片段就是词(word)。汉语文本中一个个具体的字也是可观察片段,为ChatGPT提取语法单位提供了条件。根据自然片段的分布归纳单位,再归纳单位在各种分布位置上的各种语法语义特征,每个单位的全部特征被作为一组向量参与组合运算,获得语言规则,最终生成合法的崭新句子。这就是ChatGPT的工作原理,在方法论上和结构语言学发现程序完全相似,分布在发现程序中居于核心地位。ChatGPT在生成文本上的成功对Harris发现程序及其核心方法分布理论的可行性是有力的支持,或者说分布理论在ChatGPT中得到了实现。

ChatGPT所依赖的算法是辛顿(Hinton)等的人工神经网络,而人工神经网络的方法原则从源头上看就是数学中勒让德(Legendre)和高斯(Gauss)的回归理论,只不过勒让德和高斯的回归是线性回归,后来数学家发展出了非线性回归,但基本原则是相同的,即如何从复杂的要素分布中模拟出数学模型,然后预测未知的要素分布。从方法论看,这其实就是数学上的一种分布理论,即通过要素的分布建模。目前的人工智能还未充分发展出和外部经验世界打交道的机器人,所以也只能依赖和经验无关的分布理论。此前在计算语言学中广泛存在的概率模型,也是基于分布概率确定单位和规则,其方法论基础也是分布理论。ChatGPT之所以最终取得成功,并非和语言学中的分布理论不同,而是在于有了强储算能力。网络上的大数据是现成的,近些年来人工智能所作的主要工作就是提高计算机的运算速度,找出最佳的、通过分布提取特征的人工神经网络算法,辛顿(Hinton)等人的反向传播算法(Backpropagation algorithm)以及瓦斯瓦尼(Vaswani)等的人工智能奠基性论文 《关注就是你所需要的》(Attention is all you need),就是算法上有代表性的突破。