基于多维度熵值考察的常用字表构建

作者: 张艳梅 李如龙 吕展

基于多维度熵值考察的常用字表构建 0

[关键词] 常用字;常用字表;汉字效用;熵值法

[摘 要] 常用字除了字频这一外显特性外,还应当具有稳定性、较广的分布性、构词构字的能产性等特征。以往基于语料选取来考察汉字,无法对每个汉字不同维度的特征进行量化,最终仍主要通过字频来构建字表。文章基于2007—2021年《中国语言生活状况报告》语言大数据,对常用字的字频、稳定性、分布度、构词频、构字频等五个维度进行详细的数据考察与特征分析,使用熵值法建立汉字效用综合测度模型,构建多维度常用字表。通过熵值法构建的汉字效用综合测度模型,从多个方面测量、量化了汉字的效用,得出的排序结果与以往的字表有着较大的差异。不单单考虑字频这一维度之后,大量在稳定性、分布度、构词构字能力等维度具有突出优势的常用字跻身字表前列,由此也更为科学合理。

[中图分类号]H195.3  [文献标识码]A  [文章编号]1674-8174(2024)02-0068-14

1. 引言

我国关于现代汉字常用字的研究是基于字频统计开展的,比较科学的字频统计起于上世纪二三十年代,发端之作当属1928年陈鹤琴先生的《语体文应用字汇》,随后经过一代代学者筚路蓝缕的探索,字频统计研究的方法更加科学、应用的范围更加广泛。至本世纪初教育部国家语委、国家语言资源监测中心首次进行大规模的社会用字用词调查,字频统计这项工作在语料库规模、统计工具、分析方法等方面均有了长足的进步。

回顾近百年的字频统计、常用字研究,整体来看分为三个部分:一是对常用字的理论研究,如周有光(1980)、费锦昌(1988)、高家莺等(1993)、苏培成(1994)等学者,主要集中于常用字的效用问题、功能特征问题等的探讨;二是基于字频统计的常用字表构建,如《常用字表》(1952)、《常用字和常用词》(1985)、《现代汉字常用字表》(1988)、《通用规范汉字表》(2013)等成果,为中小学语文基础教育教材选字用字、国际中文教育教材选字用字、辞书编纂以及汉字机械处理和信息处理等领域提供了重要参考;三是基于大型语料库的用字调查,如周美玲、苏新春(2009)、王衍军(2009)、刘华(2010)、张军(2013)、史晓东等(2015)、赵雪等(2018)、张艳梅、吕展(2022)等学者,基于大规模的语料库,从各个角度对中国语言文字的使用进行调查研究,反映当代汉字用字现状。

在以上的常用字研究中,常用字表的研制最为引人注目。新中国以来常用字表的研制成为了一项重要工作,并取得了一系列丰富的成果,主要由国家组织,规模大、影响深远。在常用字表的研制基础上,高家莺等(1993)、苏培成(1994)等学者总结了构建常用字表所需要考察的维度问题,与《现代汉字常用字表》的选取原则一致,大抵是字频、稳定性、分布度、构词能力、构字能力等五个方面,另外还考虑到了生活常识。以往的常用字表构建工作中,对以上汉字不同维度的考察是基于语料库的选取而开展的:通过选取不同时期、不同学科领域的语料进行字频统计,继而通过考察汉字的构词构字能力与实际使用进行人工干预调整。尽管基于语料选取来考察汉字的不同维度体现了语料基础的科学、全面,但无法对每个汉字不同维度的特征进行量化,最终仍主要通过字频来构建字表,字频依旧是最主要的参考指标。

关于常用字的理论研究有一个非常重要的结论,即周有光(1980)《现代汉字学发凡》总结的汉字字频的不平衡规律,即后来抽象出的“汉字效用递减率”:“汉字的使用效率是很不平衡的。各家的频率统计互有出入。斟酌于各家之间,得到如下的规律:最高频1000字的覆盖率大约是90%,以后每增加1400字大约提高覆盖率十分之一。这就叫‘汉字效用递减率’。”(周有光,1980;周有光,2009:63-64;苏培成,2019:43)周有光先生虽没有明确指出“汉字效用”的概念,但认为字频越大的汉字“汉字效用”越大,因此提出“想办法把用途很小的大量汉字少用乃至不用,‘取其少,弃其多’”(周有光,2009:63-64)。 结合这一观点,本研究认为“汉字效用”是指汉字在中国语言文字生活中实际发挥的作用,不同的汉字“效用”不同,掌握少部分的高效用汉字,就可以识读和听懂汉语实际语言生活中大部分的语言和言语。同时,我们认为,“汉字效用”是一个综合的字用体现,字频只是其外显的一个方面,难以完全反映汉字的总体效用,构建综合的多维度“汉字效用”测度体系能够更全面、更完整地测量与分析常用字在多个维度中的“汉字效用”特点。

因此,基于前人对于常用字选取的原则问题,我们尝试基于2007—2021年《中国语言生活状况报告》的语言大数据,运用计量语言学、数据挖掘的方法对现代汉字常用字的多个维度进行数据考察并量化,使用相关性分析、线性回归、分层回归等方法分析各个维度特征之间的关系,并使用熵值法建立汉字效用综合测度模型,构建多维度常用字表。

2. 相关说明

2.1 相关术语

根据国家语言资源监测与研究中心《中国语言生活状况报告2013》中的《语言监测相关术语》,本研究涉及的相关术语如下:

字种:指被调查语料中字形不同的汉字;

词种:指被调查语料中不重复的词(不区分同形词);

频次:指被调查对象在调查语料中出现的次数;

频序:指被调查对象的频次排序;

覆盖率:指被调查语料内指定调查对象占所有调查对象总量的百分比。

2.2常用字的考察维度

以往常用字表的构建很大程度上基于字频而开展,而字频并不代表汉字的效用,因此有学者提出了“使用度”的说法,将字频与分布结合起来,以此代表效用发挥范围的广狭,而汉字效用发挥的稳定性也十分重要,刘华(2010)提出了汉字的时空分布。这些相关探索,启示我们汉字效用不能单单靠字频表现,常用字表需要构建综合测度指标体系。

对于常用字需要考察的维度问题,基于前人对于常用字特征的分析与总结,我们可以归纳为汉字字频、时空分布能力、生成能力等三个方面。汉字的时空分布能力表现为时间和空间的两条轴上,时间的分布体现为字词在历时发展中的恒定情况即稳定性,空间则集中于领域(适用人群和适用领域)分布即分布度(刘华,2010:100),分别体现了汉字效用发挥的稳定程度以及范围的广狭。汉字的生成能力表现为构词能力与构字能力,即构词频(次)、构字频(次)两个方面,可以突破单个字用的限制,与其他汉字组合成多个高频词,或成为其他汉字的部件。因此,本研究对于常用字的多维度考察,从汉字字频、时空分布能力、生成能力三大方面入手,从字频、稳定性、分布度、构词频、构字频五个维度考虑,如图1所示:

2.3 语料说明

自2005年起,教育部国家语委、国家语言资源监测中心《中国语言生活状况报告》对每年的报纸、广播电视、网络(新闻)用字用词进行调查统计,建立年度国家语言资源监测语料库,包括平面、有声、网络三种媒体:平面媒体语料来源包括国内23家报纸;有声媒体语料来源包括中央电视台3个栏目、中央人民广播电台8个栏目以及央广网、央视网、北京、安徽等16家融媒体共63个栏目的转写文本;网络媒体语料来自新浪的新闻网页。语料选取的规模性、来源的科学性,是自建语料库难以达到的程度,且有声媒体语料一定程度上弥补了以往字频统计中口语语料的不足,因此基于此语料库所统计得出的《年度媒体用字总表》《年度媒体高频词语表》,是目前来说当代中国语言生活中用字用词调查最为科学、全面、可靠的字词使用数据,是测量汉字字频、稳定性、分布度、构词频、构字频的权威数据。

由于2006年并未公布《年度媒体用字总表》《年度媒体高频词语表》,我们选取了《中国语言生活状况报告》中2007—2021共15年的《年度媒体用字总表》《年度媒体高频词语表》,校对、整理并二度统计数据,自建15年媒体用字用词数据库。

3. 研究过程

3.1 常用字字频维度考察

对于常用字字频维度的考察,本研究通过计算汉字的频次来体现。基于2007至2021年度共15年的《年度媒体用字总表》,汇总常用字在15年间的总的频次,以考察其频序,体现字频属性。具体方法如下:将《年度媒体用字总表》中所有字种进行汇总,计算这些字在15年中每年具体的频次值并加和运算,形成15年的总频次值,然后按各个汉字的总频次由高到低排列,形成《现代汉字常用字频度排序表》。受文章篇幅所限,《现代汉字常用字频度排序表》部分展示如表1所示:

3.2 常用字稳定性维度考察

上文关于汉字字频属性的考察,能发现不同汉字之间效用的巨大差异。如前文所言,“汉字效用”的巨大差异为周有光先生“汉字效用递减率”的主要内容,即随着字频的下降,汉字使用的覆盖率呈递减趋势,汉字的效用也呈递减趋势。而汉字效用是动态变化着的,负载着实体意义的汉字在不同年份、不同时期的效用可能存在差异,高频字种①的使用频率是否稳定也应当是其效用的一部分体现,还应当考察汉字效用的时间分布是否均匀稳定。可以通过分析汉字在各个年份《年度媒体用字总表》中频序上下波动的状况,即计算每个汉字15年频序的方差,来体现其效用稳定程度。方差值越小,则频序变化程度越小,汉字效用的稳定性越强。

所谓方差,就是和中心偏离的程度,是用来衡量数据的波动大小(即这组数据偏离平均数的大小)的度量值。在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。其公式为:

[S2=[1n][(X1-x)2+(X2-x)2+…+(Xn-x)2]] 其中,x表示某个汉字15年频序的平均值,n表示频序值的数量,Xn表示某个汉字在第n年的频序,如X1表示某个汉字2007年的频序,X2表示某个汉字2008年的频序,以此类推,X15表示某个汉字2021年的频序。基于上文的《现代汉字常用字频度排序表》,将前3500字②在2007年至2021年中每年的频序进行统计,计算15年频序的方差,部分统计结果展示如表2所示。如“的”字,在《现代汉字常用字频度排序表》中字频属性排第一位,在2007年至2021年的《年度媒体用字总表》中每年频序均排第一位,频序方差为0,15年间字频效用非常稳定。

通过表2的数据及观察所有前3500字的历年稳定性,可以发现汉字频序的稳定程度跟字频在整体上存在正相关的关系:此表中频序代表着字频的大小,频序越靠前的字,字频越大。随着频序的降低,字频的减小,频序方差整体上逐渐增大,汉字的稳定性降低。为了更直观地展示前3500字历年稳定性数据的全貌,我们将这3500字的频序方差制成散点图按稳定程度聚类(如图2所示)可以更明显地观察出稳定性与字频呈正相关的关系。当横坐标频序逐渐增大时,字频减小,汉字的频序方差整体上也逐渐增大,稳定性整体上减弱,但相似频度段内部的汉字稳定程度不一。如取任一数值的频序,相似频度段内的汉字,频序方差均有一定的大小差异。

通过观察图2,可以发现位于前1000频序的高频字中有两个字的稳定性较差,离散程度较大,分别是频序位于760的“疫”和895的“贫”字,具体频序变化如表3所示。“疫”字在2020年、2021年两年中频序极其靠前,并当选“汉语盘点2021”年度国内字、国际字,“贫”字自2016年其频序逐渐上升。两字的稳定性程度相对于前1000频序的字而言较差,频序方差大。主要是因社会热点事件的发生,这两字在近几年字频急升,组成高频词“防疫”“抗疫”以及“扶贫”“脱贫攻坚”等。这说明汉字的效用是动态变化着的,且动态变化的程度不同。总之,负载着实体意义的字在不同年份、不同时期的效用是不同的,热点事件舆情的爆发对相应汉字的效用影响较大。

3.3 常用字分布度维度考察

汉字效用在不同学科、不同领域的文本中的分布情况是不同的。在词频统计方面,尹斌庸、方世增(1994)提出了使用度公式,张普(1999)提出了流通度公式,刘华(2010)将字词的频次、分布、生成能力结合起来提出了字词的使用度公式,以上研究均是将字词的空间分布能力考虑到了常用程度的衡量之中。本研究对于汉字分布度的考察通过分布率来体现,具体方法为:基于上文的《现代汉字常用字频度排序表》,将频序位于前3500的字在2007年至2021年各年统计中的出现文本数进行统计,计算得出其文本分布率,分布率越大,分布度越强。分布率计算的公式如下: