留学生中介字数据库建设若干问题讨论
作者: 张瑞朋
[关键词] 中介字数据库;建设;语料属性;标注;功能
[摘 要] 目前关于中介字数据库的建设和研究相对较少。文章以中山大学留学生全程性中介字数据库为例,论述了中介字数据库建设过程中应该注意的几个问题:语料要真实自然,这是基本属性;语料要具备连续性和全程性,将有利于纵向和渐进性研究;中介字标注内容包括错字、似别字、别字、不规范字的标注,并详细讨论了偏误类型和偏误原因的标注方法和规范。同时,强调标注要遵循科学性和渐进性。文章还介绍了数据库的功能和价值,并结合实践提出了建库过程中一些可资借鉴的方法和建议。
[中图分类号]H195.3 [文献标识码]A [文章编号]1674-8174(2022)02-0086-09
近年来,汉语中介语语料库的建设呈现繁荣局面,数量增多,语料库类别也多种多样。这些语料库不但为研究者探索汉语的语言现象提供了更多的语料资源,也极大地提高了汉语作为第二语言教学研究的水平。汉字是对外汉语教学界公认的重点和难点,但是关于“汉字”的专门数据库却很少见。数据库和语料库为语言现象测查和定量研究提供了相当可靠而便捷的条件,大量的数据信息和语料使研究成果更为客观,更具应用价值。
目前,国内可使用的中介字数据库十分有限。北京语言大学建有“欧美留学生错别字数据库”,但该库至今未开放。根据戴媛媛(2007),该库基于30多万字的外国学生HSK高等考试作文,收集了2000多个错别字字形,但数据库国别只限于欧美学生,学生水平主要是参加HSK高等考试的学生,而且只包含错字和別字两种偏误汉字形式。
另外,台湾师范大学建有“汉语学习者汉字偏误数据资料库”,该库曾经开放,但近年来关闭,由邓守信教授创建于2009年。它收集了2000多个错字字形,并对其偏误类型进行了细致分类,但该数据库收集的只是错字,而且整个系统基于繁体字,字库收集的是单个错字,没有上下文语料,无法查看其语境,并且书写者只限英语母语者。
中山大学“留学生全程性中介字数据库”(下文简称“中介字数据库”)自2016年开始,基于中山大学“汉字偏误连续性书面语语料库”(下文简称“中介语文本库”)建立。“中介语文本库”于2015年建成,包含了60多个国家留学生的初中高等水平学生日常作文语料,目前大概420万字,其重点标注了汉字偏误。利用“中介语文本库”可以检索汉字偏误情况,也能检索词、短语、句子等语言成分。后来,随着对汉字认识的发展,进一步完善细化了汉字偏误标注的内容和项目,增加了似别字和不规范字的标注,细化了错字和别字类型,并且增加了偏误原因标注。以此文本库为基础,抽取各种汉字偏误标注信息,统计频率,人工录入正字相关信息,建立了“中介字数据库”。
“中介字数据库”是指留学生在习得汉字过程中书写的汉字形式的数据库。“中介字”是本研究提出的一个新概念,专指留学生书写的汉字形式,它和“中介语”相对应,是一个独立的系统。“中介字”概念的提出,表明研究视角由传统汉字向外国留学生汉字书写的转变。这里的“中介字”除了汉字,也可以推广到其他文字系统,其他语言文字的二语学习者书写时也会有“中介字”状态。本文以“中介字”命名,尝试引领起对汉字中介状态的系统研究,包括中介字形式、偏误类型、偏误原因等。
“中介字数据库”由错字数据库、别字数据库、似别字数据库、不规范字数据库等4个子库组成,包含了中介字的偏误信息、所在文本信息和对应正字情况等。它们以“正字”为共同字段互相关联,信息共享。截止目前,数据库中包含了3362个正字的30665个错字形式,9151个别字形式,351个似别字形式,15673个不规范字形式。数据库还有方便的检索和统计功能,方便用户查阅使用。这两个库都在不断更新,自建成便面向学界公开使用。
“中介字数据库”属于专项语料库,它既有一般语料库的基本属性和特点,也有作为专项语料库的特别之处。本文以“中山大学留学生全程性中介字数据库”为例,就中介字数据库建设中的若干问题提出一些思考。
1. 语料属性
1.1 语料的真实性和自然性
真实性和自然性是语料库建设最基本的属性。如果语料不真实、不自然,就失去了研究的基础和价值。中介字数据库和一般的文本语料库有所不同,中介字数据库是针对留学生书写的汉字,真实性和自然性主要体现在以下几个方面:
(1)保持学生书写汉字的原貌,尤其是体现出错字的错误特点。正字和别字能直接打出来,容易呈现,但错字要怎么呈现才真实?目前也有语料库采用扫描错字,再切字的方式,但由于每个留学生写字的大小规格不同,切出来的汉字大小不一,有的可能模糊不清。中山大学中介语文本库和中介字数据库对错字采用truetype造字方式,以图片格式保存,这样可以使图片大小一致。由于对错字的主观认识和造字技术水平不同,所造错字和原字之间难免有距离,但我们认为只要在部件位置、笔画关系等这些大的错误特征上保持一致,体现出原错字的错误之处即可,至于原字笔画粗细、书写风格可以适当忽略,因为这些不影响汉字偏误特征的呈现。
(2)体现汉字书写的各种中介形式。除了错字、别字,数据库还根据大量汉字书写实际,归纳出似别字、不规范字,尽量全面真实表现汉字的中介形式。这是留学生汉字书写真实性和自然性的特别体现。
(3)学生用字选字真实自然。因为“中介字数据库”的信息来源于“中介语文本库”,“中介语文本库”来自中山大学国际汉语学院和中文系国际汉语中心留学生的日常作文,学生选词用字时没有考场的压力,用词造句真实自然。同时,为了防止学生在写作中抄袭,语料失真,在收集语料之前,教师都尽量检查学生作文,并且录入语料前避免录入教师修改过、加工过的二手语料,力求反映学生真实水平(张瑞朋,2012)。因此中介字数据库收集的中介字也具备了用字的真实自然性。
1.2 语料的连续性和全程性
1.2.1 连续性
连续性指学生各个学习水平等级是连续的,不是只有单个水平等级。根据张瑞朋(2012),中山大学中介语文本语料库的语料收集了相同学生的初、中、高级水平的语料,具有连续性,来源于该语料库的“中介字字库”也因此涵盖了相同学生不同等级水平汉字书写的状态,具备了“连续性”,可供纵向研究。纵向研究的作用是:
(1)对比不同国家学生的错字、别字等发展过程。不同国家由于书写背景和认知方式不同,错字、别字形状类别和频次的发展变化也不同,根据收集的连续性语料可以考察这一变化。(2)对比不同水平阶段学生的错字、别字及其他中介字形式的书写和数量,考察中介字的发展变化情况,以便为汉字教学提供启发。(3)纵向考察同一母语背景学生在不同阶段汉字书写的发展变化,包括正确用字、偏误汉字的错误类型及比例变化。近年来,对外汉语教学界在这方面成果颇丰。如:鹿士义(2002)、江新(2004)、郝美玲(2018)等。这些研究都是通过实验和小规模收集汉字材料进行。中山大学中介字数据库集中反映外国学生汉字书写现象,将有助于汉字习得与认知研究从一个新视角观察并获取大量真实的数据,深入开展研究。
1.2.2 全程性
全程性主要指汉字书写发展经历形式的全面性,包括错字、似别字、别字、不规范字、正字几种形式。汉字是语言要素之一,像中介语一样,中介字也有其独特系统,是一个渐进发展的连续统。“错字”是不成形的,在连续统的最左端,是汉字习得的最低阶段。别字比错字正字法意识强。根据大量书写材料,我们发现在错字和别字之间还存在“似别字”。此外,还存在“不规范字”。“正字”是目标汉字,在连续统的最右端,是汉字习得的目的形式。从“错字”到“正字”,经历了似别字、别字、不规范字等阶段,反映了留学生习得汉字是一个逐步迈向目标汉字的渐进的连续统过程,也反映了中介字的复杂性和特殊性。
数据库包括了各种中介字的书写情况,尤其使处于中间阶段的中介字状态(似别字、不规范字)的界定具备一定可操作性,一定程度上反映了中介字的发展过程和习得顺序,为构建汉字习得模型,强化汉字习得机制提供了基础,对于全面研究留学生汉字习得情况,提升汉字教学效果有重要意义。
2. 语料标注
语料标注是“语料深加工的重要环节,也是一个语料库建设水平的重要标志”( 刘连元,1996)。这说明语料标注的内容与质量决定了一个语料库的功能与使用价值。对于一般语料库中词语、短语级别的标注,学界讨论很多。关于汉字标注,目前探讨比较详细的是张宝林(2019:69-87)。这本书对中介语语料库中字、词、短语等各级语言单位标注规范的确定有很大贡献,但这本书的汉字标注规范主要是“为‘通用型’(语料库)服务的,而不是服务于汉字的专项研究”(张宝林,2019:72)。不同类型的语料库标注深度和标注项目不同。同样是汉字标注,通用型语料库“只是从整体角度指出了汉字偏误类型,在各类别下不再分细类”(张宝林,2019:72)。专门的汉字数据库则需要对各类偏误汉字进行尽可能细致的研究,标注方式和内容也不同于通用型语料库。中山大学留学生全程性数据库是专门的汉字数据库,在汉字偏误标注方面也更细致、更全面。在建设数据库过程中,我们遇到了一些问题,也总结了一些经验,下面尝试讨论归纳。
2.1 标注项目和规范
中介字的偏误和母语者的写字偏误不能完全等同。母语者的写字偏误主要是错字和别字,但中介字的偏误有其特殊性和复杂性。汉语二语学习者和母语学习者有不同的文字背景和汉字习得机制,在书写汉字时除了错字、别字,还有其他中介字形式。本文提出了“似别字”“不规范字”这些中间状态。 因此,本文的中介字标注涉及错字、似别字、别字、不规范字几种形式。在标注中,我们尽量给错字、似别字、别字和不规范字各自设立互相区别、不交叉不重叠的类别,使其具有一定可操作性。
错字偏误原因包括形似、形旁相近、声旁相近、基本汉字书写未掌握、母语影响、上下文影响、受合成词影响等7种。其中上下文影响(张瑞朋,2015)和受合成词影响是数据库吸取的偏误原因的新因素。
别字标注包括正字、别字、偏误原因。偏误原因包括音同音近、形近、义近、音形皆近、音义皆近、形义皆近、音形义皆近、音形义无关、上下文影响、双字词内部混用等10种。
似别字标注包括正字、似别字。似别字是本研究提出的一个新概念,它是错字和别字之间的一种中间状态。错字是由于学生没有掌握汉字形体,从而写成了汉字中不存在的字;别字是书写正确但使用不对的字;似别字则是学生没有掌握汉字形体,不会书写,但误打误撞而写成了汉字中存在的字。因为它确实在汉字中存在,所以不能算“错字”;但它又不是因为使用错误而导致,学生头脑中并没有这个字,所以不能算“别字”。
似别字不同于别字,在教学中要区别对待。别字和正字在音、形、义上可能相关,似别字和正字一般只有字形相关。别字在学生的心理词典中是单独储存的,学生书写别字,往往是因为对正字和别字两个字的整体混淆。似别字则大多是因为笔画或部件出错,误打误撞写成了汉字中存在的字,它在学生的心理词典中没有清晰独立的单独储存位置。因此,在教学中似别字和别字要采用不同的纠错方法。对于别字,学生一般学过,教师可以从音、形、义几方面和正字做整体对比,使别字和正字在学生心理词典中牢固储存。对于似别字,具体分两种情况:一是似别字和正字使用频率相差较大,可以确定学生没有学过,比如,爱—*爰,西—*酉,仇—*仉。教师在教学中可以重点指出书写错误之处,不用全面比对两个汉字。还有一种情况是,似别字使用频率和正字相当,学生可能学过也可能没学过,要靠教师根据实际情况判断。比如:平—*采、人—*入。在实际教学中,对于学生学过的汉字,教师可以像“别字”一样处理,从音、形、义几个方面整体对比,帮助学生识记汉字。对于学生没学过的,则像第一种情况,强调其错误之处即可。数据库中把有似别字可能的汉字都标注出来,用户在教学和学习时要注意分辨。似别字现象在数据库中并不少见,应该引起注意。