基于多维度熵值考察的常用字表构建

基于多维度熵值考察的常用字表构建 0

［关键词］常用字；常用字表；汉字效用；熵值法

［摘要］常用字除了字频这一外显特性外，还应当具有稳定性、较广的分布性、构词构字的能产性等特征。以往基于语料选取来考察汉字，无法对每个汉字不同维度的特征进行量化，最终仍主要通过字频来构建字表。文章基于2007—2021年《中国语言生活状况报告》语言大数据，对常用字的字频、稳定性、分布度、构词频、构字频等五个维度进行详细的数据考察与特征分析，使用熵值法建立汉字效用综合测度模型，构建多维度常用字表。通过熵值法构建的汉字效用综合测度模型，从多个方面测量、量化了汉字的效用，得出的排序结果与以往的字表有着较大的差异。不单单考虑字频这一维度之后，大量在稳定性、分布度、构词构字能力等维度具有突出优势的常用字跻身字表前列，由此也更为科学合理。

［中图分类号］H195.3 ［文献标识码］A ［文章编号］1674-8174（2024）02-0068-14

1. 引言

我国关于现代汉字常用字的研究是基于字频统计开展的，比较科学的字频统计起于上世纪二三十年代，发端之作当属1928年陈鹤琴先生的《语体文应用字汇》，随后经过一代代学者筚路蓝缕的探索，字频统计研究的方法更加科学、应用的范围更加广泛。至本世纪初教育部国家语委、国家语言资源监测中心首次进行大规模的社会用字用词调查，字频统计这项工作在语料库规模、统计工具、分析方法等方面均有了长足的进步。

回顾近百年的字频统计、常用字研究，整体来看分为三个部分：一是对常用字的理论研究，如周有光（1980）、费锦昌（1988）、高家莺等（1993）、苏培成（1994）等学者，主要集中于常用字的效用问题、功能特征问题等的探讨；二是基于字频统计的常用字表构建，如《常用字表》（1952）、《常用字和常用词》（1985）、《现代汉字常用字表》（1988）、《通用规范汉字表》（2013）等成果，为中小学语文基础教育教材选字用字、国际中文教育教材选字用字、辞书编纂以及汉字机械处理和信息处理等领域提供了重要参考；三是基于大型语料库的用字调查，如周美玲、苏新春（2009）、王衍军（2009）、刘华（2010）、张军（2013）、史晓东等（2015）、赵雪等（2018）、张艳梅、吕展（2022）等学者，基于大规模的语料库，从各个角度对中国语言文字的使用进行调查研究，反映当代汉字用字现状。

在以上的常用字研究中，常用字表的研制最为引人注目。新中国以来常用字表的研制成为了一项重要工作，并取得了一系列丰富的成果，主要由国家组织，规模大、影响深远。在常用字表的研制基础上，高家莺等（1993）、苏培成（1994）等学者总结了构建常用字表所需要考察的维度问题，与《现代汉字常用字表》的选取原则一致，大抵是字频、稳定性、分布度、构词能力、构字能力等五个方面，另外还考虑到了生活常识。以往的常用字表构建工作中，对以上汉字不同维度的考察是基于语料库的选取而开展的：通过选取不同时期、不同学科领域的语料进行字频统计，继而通过考察汉字的构词构字能力与实际使用进行人工干预调整。尽管基于语料选取来考察汉字的不同维度体现了语料基础的科学、全面，但无法对每个汉字不同维度的特征进行量化，最终仍主要通过字频来构建字表，字频依旧是最主要的参考指标。

关于常用字的理论研究有一个非常重要的结论，即周有光（1980）《现代汉字学发凡》总结的汉字字频的不平衡规律，即后来抽象出的“汉字效用递减率”：“汉字的使用效率是很不平衡的。各家的频率统计互有出入。斟酌于各家之间，得到如下的规律：最高频1000字的覆盖率大约是90%，以后每增加1400字大约提高覆盖率十分之一。这就叫‘汉字效用递减率’。”（周有光，1980；周有光，2009：63-64；苏培成，2019：43）周有光先生虽没有明确指出“汉字效用”的概念，但认为字频越大的汉字“汉字效用”越大，因此提出“想办法把用途很小的大量汉字少用乃至不用，‘取其少，弃其多’”（周有光，2009：63-64）。结合这一观点，本研究认为“汉字效用”是指汉字在中国语言文字生活中实际发挥的作用，不同的汉字“效用”不同，掌握少部分的高效用汉字，就可以识读和听懂汉语实际语言生活中大部分的语言和言语。同时，我们认为，“汉字效用”是一个综合的字用体现，字频只是其外显的一个方面，难以完全反映汉字的总体效用，构建综合的多维度“汉字效用”测度体系能够更全面、更完整地测量与分析常用字在多个维度中的“汉字效用”特点。

因此，基于前人对于常用字选取的原则问题，我们尝试基于2007—2021年《中国语言生活状况报告》的语言大数据，运用计量语言学、数据挖掘的方法对现代汉字常用字的多个维度进行数据考察并量化，使用相关性分析、线性回归、分层回归等方法分析各个维度特征之间的关系，并使用熵值法建立汉字效用综合测度模型，构建多维度常用字表。

2. 相关说明

2.1 相关术语

根据国家语言资源监测与研究中心《中国语言生活状况报告2013》中的《语言监测相关术语》，本研究涉及的相关术语如下：

字种：指被调查语料中字形不同的汉字；

词种：指被调查语料中不重复的词（不区分同形词）；

频次：指被调查对象在调查语料中出现的次数；

频序：指被调查对象的频次排序；

覆盖率：指被调查语料内指定调查对象占所有调查对象总量的百分比。

2.2常用字的考察维度

以往常用字表的构建很大程度上基于字频而开展，而字频并不代表汉字的效用，因此有学者提出了“使用度”的说法，将字频与分布结合起来，以此代表效用发挥范围的广狭，而汉字效用发挥的稳定性也十分重要，刘华（2010）提出了汉字的时空分布。这些相关探索，启示我们汉字效用不能单单靠字频表现，常用字表需要构建综合测度指标体系。

对于常用字需要考察的维度问题，基于前人对于常用字特征的分析与总结，我们可以归纳为汉字字频、时空分布能力、生成能力等三个方面。汉字的时空分布能力表现为时间和空间的两条轴上，时间的分布体现为字词在历时发展中的恒定情况即稳定性，空间则集中于领域（适用人群和适用领域）分布即分布度（刘华，2010：100），分别体现了汉字效用发挥的稳定程度以及范围的广狭。汉字的生成能力表现为构词能力与构字能力，即构词频（次）、构字频（次）两个方面，可以突破单个字用的限制，与其他汉字组合成多个高频词，或成为其他汉字的部件。因此，本研究对于常用字的多维度考察，从汉字字频、时空分布能力、生成能力三大方面入手，从字频、稳定性、分布度、构词频、构字频五个维度考虑，如图1所示：

2.3 语料说明

自2005年起，教育部国家语委、国家语言资源监测中心《中国语言生活状况报告》对每年的报纸、广播电视、网络（新闻）用字用词进行调查统计，建立年度国家语言资源监测语料库，包括平面、有声、网络三种媒体：平面媒体语料来源包括国内23家报纸；有声媒体语料来源包括中央电视台3个栏目、中央人民广播电台8个栏目以及央广网、央视网、北京、安徽等16家融媒体共63个栏目的转写文本；网络媒体语料来自新浪的新闻网页。语料选取的规模性、来源的科学性，是自建语料库难以达到的程度，且有声媒体语料一定程度上弥补了以往字频统计中口语语料的不足，因此基于此语料库所统计得出的《年度媒体用字总表》《年度媒体高频词语表》，是目前来说当代中国语言生活中用字用词调查最为科学、全面、可靠的字词使用数据，是测量汉字字频、稳定性、分布度、构词频、构字频的权威数据。

由于2006年并未公布《年度媒体用字总表》《年度媒体高频词语表》，我们选取了《中国语言生活状况报告》中2007—2021共15年的《年度媒体用字总表》《年度媒体高频词语表》，校对、整理并二度统计数据，自建15年媒体用字用词数据库。

3. 研究过程

3.1 常用字字频维度考察

对于常用字字频维度的考察，本研究通过计算汉字的频次来体现。基于2007至2021年度共15年的《年度媒体用字总表》，汇总常用字在15年间的总的频次，以考察其频序，体现字频属性。具体方法如下：将《年度媒体用字总表》中所有字种进行汇总，计算这些字在15年中每年具体的频次值并加和运算，形成15年的总频次值，然后按各个汉字的总频次由高到低排列，形成《现代汉字常用字频度排序表》。受文章篇幅所限，《现代汉字常用字频度排序表》部分展示如表1所示：

3.2 常用字稳定性维度考察

上文关于汉字字频属性的考察，能发现不同汉字之间效用的巨大差异。如前文所言，“汉字效用”的巨大差异为周有光先生“汉字效用递减率”的主要内容，即随着字频的下降，汉字使用的覆盖率呈递减趋势，汉字的效用也呈递减趋势。而汉字效用是动态变化着的，负载着实体意义的汉字在不同年份、不同时期的效用可能存在差异，高频字种①的使用频率是否稳定也应当是其效用的一部分体现，还应当考察汉字效用的时间分布是否均匀稳定。可以通过分析汉字在各个年份《年度媒体用字总表》中频序上下波动的状况，即计算每个汉字15年频序的方差，来体现其效用稳定程度。方差值越小，则频序变化程度越小，汉字效用的稳定性越强。

所谓方差，就是和中心偏离的程度，是用来衡量数据的波动大小（即这组数据偏离平均数的大小）的度量值。在样本容量相同的情况下，方差越大，说明数据的波动越大，越不稳定。其公式为：

[S2=[1n]［（X1-x）2+（X2-x）2+…+（Xn-x）2］] 其中，x表示某个汉字15年频序的平均值，n表示频序值的数量，Xn表示某个汉字在第n年的频序，如X1表示某个汉字2007年的频序，X2表示某个汉字2008年的频序，以此类推，X15表示某个汉字2021年的频序。基于上文的《现代汉字常用字频度排序表》，将前3500字②在2007年至2021年中每年的频序进行统计，计算15年频序的方差，部分统计结果展示如表2所示。如“的”字，在《现代汉字常用字频度排序表》中字频属性排第一位，在2007年至2021年的《年度媒体用字总表》中每年频序均排第一位，频序方差为0，15年间字频效用非常稳定。

通过表2的数据及观察所有前3500字的历年稳定性，可以发现汉字频序的稳定程度跟字频在整体上存在正相关的关系：此表中频序代表着字频的大小，频序越靠前的字，字频越大。随着频序的降低，字频的减小，频序方差整体上逐渐增大，汉字的稳定性降低。为了更直观地展示前3500字历年稳定性数据的全貌，我们将这3500字的频序方差制成散点图按稳定程度聚类（如图2所示）可以更明显地观察出稳定性与字频呈正相关的关系。当横坐标频序逐渐增大时，字频减小，汉字的频序方差整体上也逐渐增大，稳定性整体上减弱，但相似频度段内部的汉字稳定程度不一。如取任一数值的频序，相似频度段内的汉字，频序方差均有一定的大小差异。

通过观察图2，可以发现位于前1000频序的高频字中有两个字的稳定性较差，离散程度较大，分别是频序位于760的“疫”和895的“贫”字，具体频序变化如表3所示。“疫”字在2020年、2021年两年中频序极其靠前，并当选“汉语盘点2021”年度国内字、国际字，“贫”字自2016年其频序逐渐上升。两字的稳定性程度相对于前1000频序的字而言较差，频序方差大。主要是因社会热点事件的发生，这两字在近几年字频急升，组成高频词“防疫”“抗疫”以及“扶贫”“脱贫攻坚”等。这说明汉字的效用是动态变化着的，且动态变化的程度不同。总之，负载着实体意义的字在不同年份、不同时期的效用是不同的，热点事件舆情的爆发对相应汉字的效用影响较大。

3.3 常用字分布度维度考察

汉字效用在不同学科、不同领域的文本中的分布情况是不同的。在词频统计方面，尹斌庸、方世增（1994）提出了使用度公式，张普（1999）提出了流通度公式，刘华（2010）将字词的频次、分布、生成能力结合起来提出了字词的使用度公式，以上研究均是将字词的空间分布能力考虑到了常用程度的衡量之中。本研究对于汉字分布度的考察通过分布率来体现，具体方法为：基于上文的《现代汉字常用字频度排序表》，将频序位于前3500的字在2007年至2021年各年统计中的出现文本数进行统计，计算得出其文本分布率，分布率越大，分布度越强。分布率计算的公式如下：