基于风格计算的印尼书面祖语代际传承研究
作者: 刘华 张馨月
[摘 要] 祖语代际传承是语言保持研究的迫切话题。海外华文文学是“遗产语言”的载体文本,是观察祖语形成、发展及演变的重要窗口。在1965-1998年间,由于特殊的历史原因,印尼华文教育出现大断层,印尼华语作为一种祖语,呈现出缓慢发展甚至断代的发展态势,这在代际传承研究上极具语言特色与研究价值。本文选取印尼新、老华裔作家的代表作品,从传承语的视角出发,运用语料库技术和计算风格学方法,全面考察印尼华文文学在词汇、句子及篇章层面上的祖语特征,目的是挖掘代际华裔作家的祖语风格的差异及成因,并对代际祖语水平进行初步探讨。首次提出“祖语风格”概念,结合案例研究进一步了解个人祖语风格特点,以期能为祖语传承研究、“大华语”的构建与发展及祖语教学提供一些参考价值。
[中图分类号]H195.3 [文献标识码]A [文章编号]1674-8174(2023)02-0031-12
1. 引言
海外华语是汉语的域外变体,是一种传承语或祖语(heritage language)。所谓祖语,主要是指社会主体语言之外作为语言文化传承的祖辈语言(郭熙,2017)。海外华文文学是一个时代语言生活的生动写照,是海外华人与祖籍国情感连接的书面表达,更是华语及华族文化传承与传播的重要载体。陈贤茂(2017)将海外华文文学定义为:“在中国(包括港澳台)以外的国家或地区,凡是用华文(即汉语)作为表达工具而创作的文学作品,都称为海外华文文学。”海外华文文学作品为祖语及祖语代际传承研究,提供了丰富的语料素材。
印度尼西亚是全球华人最多的国家,约有2000万华人。①印尼华语是一种祖语,操持着祖籍国方言的印尼华人是典型的祖语传承者,也是中华文化的传播者,他们为华语的传承与传播做出了重要贡献。1965年,印尼“九·三〇”政变爆发,华文教育断层近32年,印尼华语的发展也被迫中断、冻结,曾经欣欣向荣的印尼华文文学随着华文教育的突然断层而死亡,直至1998年才逐渐复苏。
印尼华语在该断层期发展缓慢,具有明显的保守性特征。传承语的保守性是海外华语特色形成的原因之一(李计伟、张翠玲,2019)。刘上扶(2009)在《东盟各国语言纵横谈》一书中指出:“印尼华人受到特定的社会环境和语言环境的影响,使其语言形式与内涵形成了独特的风格。”本文尝试将计算风格学与祖语代际传承研究相结合,来进一步实证印尼华语独特的祖语风格及代际差异。
2. 语料库与研究方法
2.1 新、老华裔语料库的建设
本文选取《东南亚华文文学大系·印度尼西亚卷》①作品集作为主要研究语料,该套文集共有10册,总计约110万字。印尼华裔作家忠实地记录了从1936年至1997年间近两代人的语言生活,这套文集代表了该时期华人社会较高的祖语水平,也为祖语代际传承研究提供了珍贵的语料。具体如表1所示:
根据表1,本文以1940年为研究分界,将十位作家分为新、老两组。序号1~5归为老华裔作家,平均出生年份约为1932年;6~10归为新华裔作家,平均为1947年,两组相差15年,属于代际传承研究范畴。除了对新、老华裔作家进行整体的代际对比分析,也会探讨传承者个体的祖语风格,即案例研究。本语料中最年轻的女作家为袁霓(叶丽珍),最年长的男作家为阿五(李伟康),年龄相差43岁,分别作为新、老华裔案例研究的代表。
2.2“祖语风格”概念的提出
将计算风格方法应用于汉语语言风格学研究始于20世纪70、80年代,美国威斯康星大学陈炳藻(1980)用词频统计方法考证了《红楼梦》作者的归属问题。目前,计算风格学常用来解决“作者考证”,以及不同作者之间作品风格比较等问题,如:肖天久、刘颖(2015)发现金庸、古龙的小说风格在词语、词类、标点的使用上差别较大。黄晖(2017)发现丰子恺和林文月所译的《源氏物语》在句长、词语使用、标点使用分布上存在显著差异。
语体风格是指人们在语言表达活动中的个人言语特征,能够区别文学作品特征的方法主要有用词、句式、修辞手法、中心意象、主题等信息。曾毅平、朱晓文(2006)指出计算风格学近年来扩展到语言本体研究领域,通过统计不同时代作品语言使用上的特点来研究语言的变迁,提出国内计算风格学主要是描写性统计,缺少推断性统计。本文所提出的“祖语风格”概念,主要指的是海外华裔作家在用华文书写过程中所呈现出来的具有个人特色的语言风格。
鉴于此,本文将借助暨南大学刘华教授研发的“汉语助研”③软件对祖语风格进行统计与分析。该软件全面综合了语料库建设、检索和统计功能,集成了基于语料库方法的汉语字、词、句、篇等研究的各项辅助功能,利用该软件对新、老华裔作家作品中的祖语特征进行定量对比分析,旨在找出作品中较为明显的代际差异特征并尝试解释背后的成因。
2.3 研究流程
第一,将《东南亚华文文学大系·印度尼西亚卷》的纸质版进行扫描和OCR识别,生成生语料文本的电子版,分别建立“印尼新华裔作家作品语料库”“印尼老华裔作家作品语料库”“袁霓作品语料库”和“阿五作品语料库”,共4个语料库。
第二,对照纸质版语料进行人工辅助校对,并删除前言、后记、注释等,只保留正文部分,保证文体的一致性和平衡性。新、老华裔作家语料库的样本量均保持在55万字左右,袁霓作品集和阿五作品集的样本量均在11万字左右。
第三,使用“汉语助研”软件,对语料库分词、标注词性,进行词汇、句子及篇章层面的风格统计与分析,着重对平均词长、词类、词的频序比、成语、词语多样性、平均句长、标点符号、文章难易度等方面进行考察。
第四,从祖语代际传承角度进行分析并得出相关结论。
3. 风格计算与结果分析
3.1 对词汇层面的风格计算与分析
3.1.1 对平均词长的考察
平均词长是指词的平均长度。本文以汉字作为文本语料的词长测量单位,即一个字为一个词长。具体如表2所示。
从整体分类来看,新、老华裔作品集的平均词长之间存在明显差异。新华裔作品集的平均词长为1.44,老华裔作品集为1.16。新华裔作品集的平均词长相对更长,是老华裔的近1.24倍。在案例分类中,袁霓作品集的平均词长为1.48,阿五作品集为1.12。袁霓作品集的平均词长相对更长,是阿五的近1.32倍,与整体分类的结论一致。
新华裔作品集的平均词长相对更长,很大程度上是新华裔作家更倾向于选用双音节词语的结果,这更接近现代汉语词语的特点。老华裔作品集的平均词长相对更短,这集中表现在对古语词和缩略语的使用上。
3.1.1.1 古语词
古语词是现代汉语的组成部分,也是祖语的显著特征。古语词多为单音节词,这大大缩短了老华裔作品集的平均词长。刁晏斌(2022)指出:“在华语中存在不少古今对应的同义词,经常会出现放弃同义的现汉词而使用古语词的现象,即为‘舍今取古’现象”,这在老华裔作品集中也有所体现。具体如表3所示:
3.1.1.2 缩略语
缩略语是指现代汉语中双音节词或多音词的缩减形式。文言色彩较浓的缩略语多为文言词语缩略。老华裔作家使用缩略语也会在一定程度上缩短老华裔作品集的平均词长,在此展示在老华裔作家阿五作品集中的典型用例。具体如表4所示:
3.1.2 对词类的考察
词类是词在语法上的分类,强调的是词的语法性质。一些词类的过频或过少出现,所呈现出来的文体风格的效果是不同的(刘世生、朱瑞青,2006)。频率指的是某一调查对象频次与整个语料所含调查对象总频次;频率差是指对比两个词表同一词条的频率的差值;频率比是指之间的比值(刘华,2020)。本文将结合频率差和频率比的结果,考察新、老华裔在词类使用上最典型的代际差异。具体如表5,图1~4所示。
数据结果显示:从整体分类来看,在老华裔作品集中介词的频率为0.23%,新华裔作品集为0.01%,频率差为0.22%,频率比为23;在案例分类中,袁霓作品集介词的频率为0.02%,阿五作品集为0.55%,频率差为0.53%,频率比为27.5。案例频率差是整体频率差的近2.4倍,可见阿五和袁霓在介词使用上的差异极大,可做进一步分析。
3.1.2.1 介词“以”
老华裔作家更倾向于使用功能性的介词,介词成为新、老华裔作家在词类使用上最为显著的差异;而新华裔作家在实体性的动词、名词、形容词及副词上使用频率相对更高。在案例分类中,阿五和袁霓间的介词频率差差异极大,阿五使用了大量介词。常见的介词有:“于”“乎”“诸”“以”“与”等,统计后发现介词“以”的使用差异最大。具体如表6所示。
数据结果显示:老华裔作家在介词“以”的使用频率上高于新华裔,差异明显。从整体分类来看,新华裔作品集中介词“以”的频率为0.09%,老华裔为0.17%。老、新华裔间作品集的频率差为0.08%,频率比为1.89。在此,展示阿五作品集中介词“以”的用例,具体如表7所示。
老华裔作家使用了大量介词,而介词很大一部分来源于古代汉语,这使得祖语更具“古旧”风格和“文言”色彩,也体现出祖语的保守性以及印尼华裔作家的“崇古”倾向。介词多为单音节词,这也一定程度上缩减了平均词长。
3.1.2.2 语气词“呵”
通过观察发现,老华裔作家在作品中保留了大量语气词“呵”的古语用法。“呵”字在《古代汉语词典》(2013年第2版)里的注释为:“语助词”;在《现代汉语词典》(第7版)中的注释为:“同语气词‘啊’,表示惊异或赞叹”。可见,“呵”字从古代汉语到现代汉语一直保有语气词的用法,但在现代汉语中使用频率不高,一般用语气词“啊”来替代。在本语料中,经过筛选,共统计出206条与语气词“呵”相关的句子,且用法比较丰富,按照在句中位置可分为三类:句首、句中和句尾。下面将分别随机展示两个例句,具体如表8所示。
此外,老华裔作家使用了较多单音节语气词,使祖语风格更具古语色彩,具体如表9所示。
3.1.3 对词的频序比的考察
频序比,是指某一调查对象在不同语料中按频率排列的位序的比值。将所有调查对象按照频率从高到低排列,用调查表中某调查对象的位序值除以参照表中相同调查对象的位序值,得到的就是该调查对象的频序比值(刘华,2020)。本文将频序比由高到低排列,得出新、老华裔作家语料中出现频率相差较大的字词,这可以反映出新、老华裔作家间具体的用词特点。
将袁霓和阿五作品语料库中前1000的词语(覆盖率大致为70%,频次大于5)按频序比由低到高顺序排列,发现两者差异主要体现在介词、连词和副词等功能词的使用上。我们将从表中删选过滤掉名词、动词和形容词等实体性词语,着重考察功能词。选取频序比各自前十名的词后发现,阿五更倾向于使用如“将”“但”“已”等单音节的功能词;而袁霓相反会更倾向于使用如“可是”“所以”“一直”“这个”等现代汉语中的双音节的功能词。这些单音节功能词具有较浓厚的文言色彩,使老华裔作家的作品整体呈现出古朴、庄重的语言风格,具体如表10所示。
由表10可知,新、老华裔作家在用词差异上除了体现在单、双音节词外,也体现在“舍古取今”的用法上,即舍去古语词,选取现汉双音节化后的词语。例如,在表示转折的连词“但”和“可是”的使用上,在“老华裔用词特点表”中排序2的词语为“但”,在老华裔作品集中频序为22,在新华裔作品集中频序为212,频序比为22/212=0.1,可以说明“但”是老华裔最常用的表示转折的连词。新华裔则选用“可是”来表示转折,在“新华裔用词特点表”中排序为1的词语为“可是”,在新华裔作品集中频序为50,在老华裔作品集中频序为580,频序比为50/580=0.09,这说明“可是”是新华裔最常用的表示转折的连词。另外,老华裔更倾向于使用副词“已”表示动作的完成,而新华裔喜欢使用“已经”。总体来说,频序比可以具体反映出新、老华裔作家的用词特点及偏好。