汉语二语学习者动词语义范畴构建过程研究

汉语二语学习者动词语义范畴构建过程研究 0

［摘要］本文以全句为窗口，参照《同义词词林》对现代汉语和中介语语料库中动词“喜欢”的共现词的语义范畴进行了对比分析，并抽样考察了汉语二语学习者语义范畴构建的发展过程。结果显示：（1）和目的语者相比，二语者构建语义范畴表现为语义类的窄化和选用词语的集中化；（2）语义范畴的构建随汉语水平的提升而呈现鲜明的发展特点，具体表现为：语义范畴的多样性、丰富度、匹配度和符号化都随着汉语水平的提升而提高，但发展到某个阶段会出现“化石化现象”；不同水平侧重于不同位语义范畴的构建，初中级以高位语义范畴的构建为主，中高级则主要表现为具体词类的扩展；（3）二语者构建语义范畴的丰富度和匹配度并非正相关，在语义概念一致性相对较高的中类范畴上，匹配度和丰富度表现一致，在差异较大的低位范畴词群上，匹配度明显低于丰富度，即语义符号化是二语者习得汉语地道性的主要影响因素，也是词汇习得的难点。

［中图分类号］ H195.3 ［文献标识码］ A ［文章编号］ 1674-8174（2025）01-0080-12

1. 引言

语义范畴包括两类，一类是从词类次范畴小类归纳出来的具有范畴性的语义特征；一类是从词语组合关系中概括出的范畴化的语义关系，其语义基础是纵向聚合的语义特征（邵敬敏、赵春利，2006）。也就是说同目标词组合的语义相关词纵向聚合形成的语义范畴，构成了该目标词的使用环境，其语义能从共现的语义相关词得到凸显（杨惠中，2002；Durrant，2008；徐婷婷，2020）。

二语者在习得目的语过程中会出现语义偏差，即使用不正确的语义范畴来解释词语或进行表达。例如：以下来自汉语中介语语料库系统（储诚志、陈小荷，1993）中高水平二语者的产出语料（划线词为原语料用词，括号内为该位置上的正确用词）。

（1）我们在广州没有过（待）很长时间，马上（就）去了香港。

（2）一五一七年葡萄牙第一次军队来澳门一五五七年中国皇帝赞同（同意）葡萄牙人能在澳门和广州做外贸……

以上语料中，传统的词汇偏误类型“遗漏、误加、误代、错序”（鲁健骥，1987）不足以解释二语产出不地道性的问题。对照《同义词词林》进行语义编码分类可以验证，例（1）“过”（度过）和“待”（停留）属于不同的语义范畴，而“马上-就”和例（2）“赞同-同意”为相同语义范畴下不同的符号表示。所谓词汇使用不地道性的原因实质上就是语义范畴选择和特定范畴与符号不匹配的问题。可见，在二语学习中，仅掌握词汇的意义是不够的。邢红兵（2009、2012）认为学习者习得第二语言词汇的关键在于以目标词在目标语言中的运用为核心的动态词汇知识体系的构建，即学习者需要理解词汇在不同语境中的用法，用词的过程同时也是语义范畴的构建与调整的过程。不同于母语者从用法到意义的获取方式，二语知识的获取是从意义到用法的过程，即其在已获取母语词汇语义范畴的基础上选择合适的目的语符号进行表达（邢红兵，2020）。

目前我们对二语者语义范畴构建的探讨还比较有限。相关研究主要集中在词汇知识的变化（张江丽，2018）、词汇丰富性研究（孙晓明，2009；吴继峰，2016）、心理词汇的发展（张淑静，2005；王志军、郝瑜鑫，2014）、搭配知识的习得（侯晓明等，2022）、词汇句法框架知识的获取（赵奕，2013；石高峰、杨彩影，2021）等方面。其中心理词汇研究涉及到语义范畴，但主要为第一类语义范畴，即具有相同语义特征的词语的纵向聚类，未充分考虑词语间组合关系；搭配知识的习得研究考虑到了词语的组合关系，但其考察窗口有限，无法获取目标词的使用环境。曲学智（2012）以动词“看”为例，提取了全句共现词并进行语义聚类，获取了“看”的使用环境，并对比了中介语各水平与现代汉语的语义分布差异，可惜曲文集中于范畴层面的静态对比未深入至特定符号层面，而二语词汇动态知识习得的关键就在于能否实现由范畴到符号的正确转化。

基于此，本文将借鉴前人的研究成果，以全句为窗口，动词“喜欢”为目标词，拟从语料库中抽取其语义相关共现词，构建该动词的共现语义范畴库，并与目的语进行对比，考察二语学习者在动词使用过程中语义范畴的构建过程及范畴到符号的转化情况，探究影响二语者习得汉语词汇地道性的深层原因及其在语义方面的具体表现。

2. 语义范畴库的构建

2.1 构建方法

共现词语义范畴库的构建方法分为语义相关共现词的提取及语义类标注两部分。搭配关系是共现关系的充分不必要条件，因此适用于搭配的抽取方法同样适用于语义相关共现词的抽取。词语搭配的自动获取方法可分为统计的方法、规则的方法以及规则与统计相结合的方法三类。其中统计方法主要包括：词频统计、平均值和方差、互信息、三次互信息及假设检验等（全昌勤等，2005）。本文综合分析各统计方法，取长补短，使用互信息、t检验、卡方检验（王大亮等，2008）以及相对词序比（RRWR）（曲维光等，2004）来确定和目标词语义相关的共现词，具体的淘汰指标及流程如图1所示。

共现词语义类标注选用《同义词词林》。该书是一部由概念到词汇的汉语义类词典，最早由梅家驹等人于1983年编纂，对汉语同义词和同类词进行划分和归类，经哈尔滨工业大学信息检索研究室的扩展后，现有词7万余条，这些词被分为12个大类，94个中类，1428个小类，小类下进一步划分为词群和原子词群两级。大类依据词的逻辑意义划分，以语义为主，兼顾词类，大类下依据词汇意义并参照题材进一步划分中类，中类下以语义关系密切的标题词命名为小类，小类下以基本义细分为同义词群，再根据词群内部词义显示程度和搭配范围划分为原子词群，每一个词使用一条8位编码来表示其语义类别。总体来说《同义词词林》根据语义形成“范畴-概念-符号”的五层树状结构（见图2）。

语义范畴由高位到低位分别是大类、中类、小类、词群和原子词群。以“牡丹Bh02A02=”为例，其编码结构见表1。

本文对语料库中含有“喜欢”的全句进行了穷尽式提取，基于统计学模型和《同义词词林》进行了语义相关共现词的提取和语义范畴标注，构建了以全句为窗口的共现词语义范畴库，并利用MySQL储存以便于后续的统计与计算。语义范畴库的构建基础、创新点、效果评价及具体操作流程另文详述。

2.2 构建统计

现代汉语语料选用“国家语委现代汉语通用平衡语料库”（简称“语委语料库”②），在线检索语料约2000万字，17万词种数，1300万词频数，语料选材类别广泛，收录了人文与社会科学、自然科学及综合三大类约40个小类的语料。我们提取含“喜欢“的语料1497条，共现词种数（type）7905个，共现总频次（token）53819次，经过统计计算和语义匹配，最终确定心理动词“喜欢”共有3760个语义相关共现词，3998个语义代码，分属于12个大类，94个中类，955个小类，1544个词群，2445个原子词群。

中介语语料来自“汉语中介语语料库系统”。该语料库选取从学习汉语零起点开始不同社会属性、母语背景、学习环境和个人特征的学生在学习和习得汉语过程中各个阶段的书面语料，其中二语者的汉语水平以学习汉语时长进行划分。语料库一百万字以上，总词数（去除标点）16852，总频次429922。从语料库中共提取含“喜欢”语料905条，共现词种数（type） 2137个，共现总频次（token）13921次，经过统计计算和语义匹配，最终确定心理动词“喜欢”共有1347个语义相关共现词，1533个语义代码，分属于12个大类，89个中类，606个小类，843个词群，1163个原子词群。

3. 语义范畴构建及发展研究

3.1 研究指标

邢红兵、辛鑫（2013）将词汇知识的语料库对比分析研究中的关键因素概括为“四率三度”。其中丰富度可以全面观察词语的使用情况，匹配度用来衡量中介语的地道性，匹配度越高，与目的语越接近，并提出二语者是在已有概念系统外学习一种新的语言符号来表达某一概念，其产出能力的高低主要取决于在表达过程中采用的语言形式与目的语间的匹配程度（邢红兵，2020）。周琳（2020）在Read（2000：200）提出词汇多样性的基础上提出词义多样性可用来测量学习者对同一个词不同义项的掌握程度，并证实用于计算词汇多样性的Uber index①公式同样适用于计算词义多样性。

参考以上概念，本文使用丰富度来考察二语学习者语义范畴的构建情况，使用匹配度来衡量二语者构建语义范畴的地道性，使用多样性来评测学习者对不同语义范畴的选择能力，同时，为了进一步考察二语者从概念到词的转换情况，我们引入语义符号化的概念来具体表征从语义范畴到具体词项的选择，将和目的语的共现词及语义代码完全匹配作为语义符号化标准，对二语者语义范畴体系的转换程度进行测量。计算公式分别如下：

（1）语义多样性=（log所有语义类数）2/（log所有语义类数-log不同语义个数）

（2）语义丰富度=中介语语义范畴类数/现代汉语语义范畴类数

（3）语义匹配度=中介语和现代汉语共有语义范畴类数/现代汉语语义范畴类数

（4）语义符号化=中介语和现代汉语共有共现词②数/现代汉语共现词数

3.2 语义范畴对比分析

通过对现代汉语和中介语“喜欢”共现词语义范畴库的简单对比，发现两个语料库在最高位的语义范畴上是一致的，都涵盖了12个大类，也证实了使用不同语言的人的思维对客观事物的反映基本一致（梅家驹、高蕴琦，1990），二语学习者在学习新语言之前已经形成了完整的范畴概念系统。

3.2.1 语义多样性

本文首先使用Uber Index对现代汉语和中介语共现词语料库的词汇多样性及不同位语义范畴上的语义多样性进行了测量。词汇多样性结果分别为26.29和21.29。语义多样性统计结果见图3。

统计结果可见，中介语在词汇多样性、语义多样性和现代汉语相比都存在一定的差距。无论是高位语义范畴还是低位语义范畴，差距随着语义范畴的细化逐渐增大，我们认为二语者习得词汇不仅在于词汇本身的音形义，还包括词汇所在的环境是否能获取到，由结果可见，语义分类越细，和目的语的差距越大，表明二语学习者在词汇使用过程中语义范畴构建的难点主要集中在低位语义范畴上。

为了考察在相似语义多样性的高位语义范畴下的共现词使用情况，我们分别对两个语料库中大类范畴下的共现词数及其共现频次进行了统计，其中共现词出现一词多义分别计算词数，对比结果见图4及图5。

从图4和图5可见，中介语语料库中“喜欢”共现词的大类语义范畴词数和频次都少于现代汉语语料库，但表现出相似的模式。从各语义大类词数和频次所占比例来看，两个语料库中各语义大类的比例分布基本一致，共现词数前5位语义类依次为：抽象事物（D）、物（B）、活动（H）、特征（E）和助语（K），共现频次前5位语义类分别为：助语（K）、人（A）、抽象事物（D）、活动（H）、物（B）。依据《同义词词林》的编排原则，人、物、抽象事物多属名词，特征多属形容词，活动多属动词，助语多属虚词，排名前5的语义类的共现词主要为实词所占比例分别为现代汉语57.05%、中介语61.32%，虚词所占比例分别为现代汉语10.06%、中介语8.94%。各语义类共现词的动态使用情况表现为现代汉语实词分布比例（47.43%）少于中介语实词分布比例（49.35%），而中介语虚词分布比例（32.43%）高于现代汉语虚词分布比例（28.91%），明显可看出二语者使用虚词时存在集中化趋势。

3.2.2 语义丰富度

由最初简单对比可知，中介语和现代汉语在最高位的大类语义范畴的覆盖上并无差异，因此我们对大类下的中类语义范畴的分布情况进行了对比统计，如表2所示。