基于词汇特征与语法模式的汉语二语写作质量动态发展研究

作者: 王浩学 程勇 胡晓清

基于词汇特征与语法模式的汉语二语写作质量动态发展研究0

[关键词] 写作质量;词汇多样性;词汇复杂性;语法多样性;语法复杂性;语料库

[摘  要] 本研究以韩国在华学习者汉语中介语语料库3个年级596名学生共6789条有效作文语料为研究对象,以词汇特征及语法模式为测量指标考察韩国学习者汉语作文水平的动态变化。词汇特征指标包含词汇多样性、词汇复杂性两个维度,共8个指标;语法模式指标包含语法多样性、语法复杂性两个维度,共12个指标。本文创新性地将《国际汉语教学通用课程大纲》(修订版)248条各级语法模式转化为正则表达式,使用SPSS等软件对作文语料进行大规模精细考察与分析。研究结果表明,词汇特征指标中,词汇多样性2(词种数)及词汇复杂性2(高级词种数)与年级分布具有最高的相关性。语法模式指标中,语法多样性2(语法项种数)和语法复杂性2(高级语法项种数)与年级分布具有最高的相关性。本文进一步分析了词汇与语法各指标的相关关系,讨论了词汇紧密性与语法松散性的特征及修辞化表达对指标的影响,并对未来汉语二语词汇及语法教学提出反思和建议。

[中图分类号]H195.3  [文献标识码]A  [文章编号]1674-8174(2022)02-0020-12

1. 引言

近年来,对于汉语二语写作质量的语言特征定量研究逐渐引起了学者的重视。作文语言特征的考察指标主要可以分为词汇类指标和句法类指标。在词汇类指标方面,常用的测量方式有词汇丰富度(lexical richness,LR)、词汇密度(lexical density,LD)、词汇复杂度(lexical sophistication,LS)、词汇独特性(lexical originality,LO)、词汇多样性(lexical variation,LV)、词汇正确性(lexical accuracy,LA)等。吴继峰(2016)发现词汇变化性、词汇复杂性、词汇密度、词汇错误率四个自变量构成的组合能解释英语母语者二语汉语写作成绩总变异的46.2%。王艺璇(2017)发现词种数、词汇错误比重和常用词数三个参项可以解释作文成绩92.8%的变异。张娟娟(2019)发现,词汇丰富性可以解释汉语二语作文成绩71.4%的变异。在句法类指标层面,Jiang(2013)考察了T单位长度、无误T单位长度和无误T单位百分比三个指标测量英语母语者汉语二语写作水平的效度,发现只有无误T单位百分比可以有效区分出不同汉语水平。吴继峰(2016)发现T单位数量、T单位长度、T单位分句数和话题链长度不是测量英语母语者汉语二语写作句法复杂性发展的有效指标,而话题链数量、话题链分句数和零形成分数量才是有效指标,吴继峰(2019)进一步对韩语母语者的研究表明,话题链数量、话题链分句总数、零形成分数量、T单位长度等4个指标既能有效区分韩国学生的汉语水平,也能有效预测其写作质量。Yu(2020)进一步丰富了话题链特征,包括话题链单元、话题链、复杂话题链。朱慧敏(2021)回顾了句法复杂性指标的发展进程,指出“二语书面语句法复杂性测量指标研究由单纯的粗粒度指标向粗细粒度指标结合的发展趋势,且对细粒度指标的研究日益细化和深入”。吴继峰(2021)对比了不同颗粒度的句法复杂度指标对写作质量的关系,将话题链数量、话题链分句总数和零形成分数量作为粗粒度指标,将复杂名词短语比率、复杂名词短语总个数、名词前复杂修饰语总长度作为细粒度指标,其中复杂名词短语比率可以解释记叙文写作成绩总变异23. 3%,名词前复杂修饰语总长度可以解释议论文写作成绩总变异的18. 8%,该研究结论证明了名词短语复杂度细粒度指标是预测记叙文和议论文写作成绩的有效指标。

以上研究均为汉语二语教学作文质量的指标优化作出了探索性贡献,但是仍存在一些可待优化的方向:一是所研究的学生语料样本数量有待进一步扩充,语料内容有待进一步丰富。在汉语二语教学作文质量相关研究中,往往只对少量作文样本进行分析,且作文主题有限;二是汉语二语作文质量的历时考察十分缺乏,汉语二语学习过程中的动态变化应当被进一步重视;三是作文质量指标有待进一步精细化、本土化、数字化。在大多数研究中,T单位、话题链等粗粒度指标只是从一个较为模糊的宏观角度去分析作文质量,后来出现的细粒化指标,如短语比率等,虽较之前的粗粒度指标具有更细化的考察标准,但仍不能精细化考察汉语学习者究竟掌握了哪些具体的知识点,掌握的具体程度如何,缺乏与汉语二语语法教学具体内容的联系。

针对上述不足,在语料选取方面,本研究以韩国在华学习者汉语中介语语料库为语料来源。本研究充分发挥该语料库优势,用庞大的作文语料数量提高结论的可靠性,用年级分类的历时性作文语料考察学生在汉语二语学习过程中的动态变化。在指标选取方面,本研究创新性地构建语法搭配模式正则代码库,精细化考察语法模式的多样性与复杂性。汉语缺乏形态变化,主要语法手段是语序和虚词。基于汉语的此种特点,汉语语法可以归纳为众多的语法搭配模式,《国际汉语教学通用课程大纲》(修订版)(2014,以下简称《大纲》)的常用汉语语法分级表将语法项进行了归纳和总结,在汉语二语教学实践中,教学的目的正是让学生掌握众多具体的词汇知识点与语法知识点并应用于交际。作文中具体语法项的精细考察具有很大意义,但大部分汉语作文质量指标研究往往忽略了对于具体知识点的考察与分析,采取较为笼统的指标,如T单位、话题链等,缺乏符合汉语语法特点的本土化研究指标。为了弥补此方面的空白,本研究基于《大纲》常用汉语语法分级及词汇分级表的结构形式,利用计算机正则表达式进行转化并构建一个语法搭配模式正则代码库。通过编程对作文语料中出现的语法项进行检索统计,将学生所掌握的语法点模式进行量化分析。

2. 研究设计

2.1 研究问题

(1)“词汇特征”和“语法模式”的测量指标有哪些?哪一些指标能够有效反映学生的学习效果?

(2)随着学生年级的增长,哪些指标变化幅度最大?它们与年级的相关性如何?

(3)词汇特征各指标与语法模式各指标之间有无相关性?呈现怎样的关系?

(4)学生对于具体难度等级的词汇和语法的实际掌握情况如何?每一等级的词汇和语法呈现怎样的变化趋势?

2.2 语料来源

本研究语料来源于“国别化汉语中介语语料库库群”中的“韩国在华学习者汉语中介语语料库”(胡晓清,2018a、2018b)。该语料库主要有以下几大特点:语料层次分明、递进性强,分为初级、中级、高级三个大层级;语料控制严,真实性强。真实性包括两层含义,一是文字的真实性,即收录的语料忠实原来的语言文字面貌,对收录语料基本遵从“就错录错”原则,全面反映学生实际语言表现。二是水平的真实性,即收集的语料是学习者真实语言水平的反映;语料采集具有连续性,动态性强。语料库既可以对同学段学习者的语料做横向跟踪,也可以对同一学生、同一学习群体在不同学段、不同年级做纵向跟踪。优化后的语料库基础数据如下表:

2.3 基于正则的语法模式库构建及语料预处理

语法模式库由《大纲》中的语法项转化而成,语法项分为六个难度级别,共248条语法项。语法模式涵盖了《大纲》中所要求汉语二语学习者掌握的基本语法知识,语法项转化为正则代码的示例如下:

在对所有语法项进行正则转化后,可以划分出生语料语法模式库与熟语料语法模式库。生语料语法模式库中的语法知识不需要包含词性信息,可直接在生语料库中检索,如上表中并列复句的正则表达式。熟语料语法模式库的语法知识包含词性信息,需要在分词标注的语料库中检索,如上表中程度副词的正则表达式。语法模式正则代码库将具体的语法知识进行形式化表示,可以直接追踪某一个、某一级语法点在学习过程中的动态变化,对考察学生的学习效果具有极大意义。

在语料的预处理上,本研究采用“机注人校”方法,首先使用北京大学分词与词性标注工具包进行词性标注处理,再进行人工校对与修正。人工修正的主要内容是对标注词性差异格式的修改,使其与正则代码库标注规范保持一致。在生熟语料处理后,设计相关算法,将学生语料写入相关文件,包含每条语料的姓名、年级、字数、字种数、词数、词种数等基础信息,并基于《新汉语水平考试(HSK)词汇》(修订版,2012)及本研究所构建的语法搭配模式正则表达库加入词汇与语法等相关信息。根据前人研究,语料字数长度会对各指标产生较大影响。本研究首先利用SPSS 26.0软件对字数按照3个标准差筛选数据,以减少文本长度对各指标的影响程度,最终得到3个年级共6789篇有效作文语料。之后使用SPSS软件进行数据计算得出词汇特征与语法模式的相关指标,并进行相关的统计分析。

2.4 测量指标及相关操作定义

2.4.1 词汇特征指标

词汇多样性(lexical variation)是指文本中词汇的使用范围。在二语习得作文质量的相关研究中,作文总词数和总词种数因其操作性强、效度高在词汇特征测量中非常多见(Lu,2012),而最常用的词汇多样性测量工具是类符形符比(TTR,type-token ratio),但这个指标极易受样本长度影响,文本越长,类符形符比就会降低(Malvern等,2004:3-14)。为了弥补这个缺陷,不同学者对TTR指标进行进一步优化,Guiraud(1960)提出了RTTR(Root Type Token Ratio),利用G值计算词汇多样性。Carroll(1967)提出了平方根类符形符号比CTTR(Corrected Type Token Ratio),将分母转化为两倍形符的平方根。对数类符形符比(LogTTR,Bilogarithmic TTR)和优博指数(Uber Index)也具备较好的测量效果。Lu(2012)对比了20种词汇多样性测量手段,发现总词种数和平方根TTR(总词种数/[总词数])是信度最高的手段,而优博指数是国内英语和汉语二语词汇多样性较为常用的词汇多样性测量手段(鲍贵, 2008; 王海华, 2012; 吴继峰, 2016)。本文采用四种词汇多样性测量手段:

词汇多样性1 = 总词数

词汇多样性2 = 总词种数

词汇多样性3 (RTTR) =[总词种数总词数]

词汇多样性4 (Uber   index )=(log总词数)2/(log总词数-log总词种数)

词汇复杂性(leixcal sophistication,LS),用于测量“学习者言语产出中相对少见和高级词汇所占的比例”(Read,2000:203)。《新汉语水平考试(HSK)词汇》(修订版,2012)将汉语二语学习者所需要掌握的词汇依据难度水平划分为六级,本研究基于此分级词表,将四到六级词汇作为高级词汇,分析以下四个指标:

词汇复杂性1 = 高级词数

词汇复杂性2 = 高级词种数

词汇复杂性3 = 高级词数/词总数

词汇复杂性4 = 高级词种数/词总种数

2.4.2 语法模式指标

在语法指标的选取方面,本研究并未采用以往大量使用的粗粒度指标。典型的粗粒度指标如Hunt(1996)提出的T单位,Wolfe-Quintero K等(1998)指出比率方式对句子复杂性测量最具有效性,并建议使用其它基于T单位的子句比率等指标来衡量句法复杂性。上述粗粒度指标在汉语二语作文质量研究中较大范围应用与发展,但此类指标具有明显的局限性,虽然可对句法复杂性进行整体性测量,但缺乏对语言使用细节的具体考察,精度较低,对指标结果解释较为模糊,难以与二语教学过程紧密关联。近期具有较细颗粒度的测量指标开始涌现,测量指标逐渐精细至短语层面,Crossley (2014)、Paquot (2019)、吴继峰(2021)等研究均表明复杂短语层面的细粒度指标在测量二语写作质量和区分学习者语言水平上具有较好效果,但复杂短语的考察方式也过于泛化,难以精准契合汉语的语法特点,从而难以对二语教学实践进行具体指导。本文创新性地采用基于汉语语法模式库的细粒度指标,将语法模式指标分为语法多样性与语法复杂性,将语法多样性(grammatical variation)定义为文本中所使用的语法模式的范围。语法多样性越高,表明文本包含更多样的语法结构,具备更丰富的语法知识。本研究中语法多样性以具体的语法知识点的匹配数目及种数进行精细考察,该指标的匹配逻辑与词汇指标相近,均是对具体的语言知识进行检索与统计。前人研究中未有采用此种模式考察语法多样性的先例,本文类比词汇多样性指标,将RTTR、Uber index等计算方式用于语法多样性的考察,采用以下8种语法多样性测量指标:

经典小说推荐

杂志订阅