

用户视域下外向型在线汉语学习词典评价指标体系构建
作者: 陈贤德 杨玉玲
[关键词] 汉语学习词典;用户视域;评价体系;内容分析法;德尔菲法;层次分析法
[摘 要] 外向型汉语学习词典目前存在较严重的质量问题,词典评价研究虽对提高词典质量具有重要意义,但过往研究却存在评价主体单一、评价方法主观、评价内容失衡等诸多问题。为突破词典评价研究瓶颈,提高词典编纂质量,本研究拟构建用户视域下的外向型在线汉语学习词典评价指标体系,构建流程为:首先,从用户需求研究文献、APP Store留言板块、深度访谈等数据源中爬取用户评价语料以构建用户评价语料库,借助内容分析法对语料分析后构建初始评价指标体系。其次,采用德尔菲法对指标体系进行优化。最后,利用层次分析法计算出指标权重。最终确立的评价指标体系包含3个一级指标、19个二级指标及56个三级指标。
[中图分类号] H195.3;H164 [文献标识码] A [文章编号] 1674-8174(2025)01-0092-13
1. 问题的提出
外向型学习词典在助推语言对外传播过程中发挥着巨大作用,以Longman Dictionary of Contemporary English、Collins COBUILD English Language Dictionary、Cambridge International Dictionary of English等为代表的外向型英语学习词典成功地将英语语言背后的文化、习俗、价值观等传播至世界的各个角落,但既有外向型汉语学习词典(以下简称“外汉词典”)质量还不足以承担此重任。纸质词典方面,近20年我国已编纂了百余种外汉纸质词典,其中不乏有为学界所广泛称誉的“精品词典”如《商务馆学汉语词典》(2007)、《汉语教与学词典》(2011)等,但仍有部分词典存在抄袭、变相抄袭、学习性和外向型特征不突出等各类质量问题(宋立文,2021)。在线词典如Pleco、TrainChinese、HanpingLite等则更是良莠不齐、整体质量也不尽如人意(李睿、王衍军,2022)。张志毅(2012)曾说:“我们离辞书强国确还有50年的距离”,目前看来,外汉词典的距离尤甚,如何提升外汉词典质量成为亟待解决的问题。
词典评价在此可发挥重要作用。邹酆(2004:334)指出:“辞书评论能给辞书编纂提供改进意见,并指导适用;能给辞书管理部门提供宏观调控、统一规划管理的依据;能向辞书理论与历史的研究提供业经初步整理的辞书讯息资料”。可见,词典评价可从编纂实践、监管、理论等方面促进词典质量的提升。词典评价研究领域,词典评价标准研究是该领域的研究重心,可划分为整体评价标准研究和局部评价标准研究两类。整体评价标准立足于词典文本的整体结构信息,具有宏观性、系统性的特点。外汉词典方面,目前仅蔡永强(2016:165-168)从理论基础、外部结构、宏观结构、微观结构等维度构建了系统的词典评价体系。局部评价标准主要针对词典某一微观结构信息,如释义上,鲁健骥、吕文华(2006)认为外汉词典的释义应具备“可读性”“熟知性”“区别性”“提示性”;例句上,崔乐(2012)认为外汉词典例句应具备“信息的全面性”“语言的简易性”“篇幅的简短性”等。
过往的外汉词典评价标准研究对引导词典编纂具有一定积极意义,但仍存在以下不足:(1)评价主体单一:我国汉语学习词典遭遇窘况的主要原因是缺乏用户意识(杨玉玲、李宇明,2023),目前词典标准的构建也仅是从专家视角入手,缺乏对用户标准的研究,致使标准缺少应用价值。武继红(2005:90-96)指出:“如果仅仅把词典批评视为学术行为、词典学家的评估或者编者的自我描述,缺乏对词典使用以及使用者的应有关注,就会影响其理论意义和应用价值”;(2)评价方法主观:多依靠内省的定性方法提取编纂经验后面所隐藏的规律,致使结论常欠缺普遍性、科学性;(3)评价内容失衡:多聚焦于释义、例证等微观结构信息,对于词典中的辨析、标记等方面涉及较少,致使评价内容失衡,系统性不足。(4)评价客体未彰显时代特征:缺少对在线词典、融媒词典等新兴词典标准的研究,与时代特征、用户需求悖离。
综上所述,为促进外汉词典评价研究发展,提升外汉词典质量,我们有必要借助科学手段构建出用户视域下的具有系统性的在线外汉词典的评价体系。
2. 基于内容分析法构建初始评价指标体系
内容分析法(Content Analysis)是一种对研究对象的内容进行深入分析,透过现象看本质的科学方法,是一种客观地、系统地、定量地描述交流内容的研究方法。由于内容分析法可以有效地识别个人、团体的喜好偏向、关注焦点和交流趋势等,可用于构建评价体系(向婧怡等,2018;侯平平等,2022)。
2.1 用户评价语料库建立
“合适”的语料库需要具备两个特质:一是与研究目的相适应,能够回答研究问题;二是具有代表性,能够代表研究对象(宫雪、梁宁,2023)。本研究语料库的语料来源共三处,如图1所示:(1)从过往用户需求调查文献中提取评价性语料(左侧语料),文献共计53篇,被调查者约5100余人来自50余个国家和地区,涉及Pleco、Naver、Hanping Lite等各类在线外汉词典。(2)从Pleco、Train Chinese、Hanping Lite等在线外汉词典的APP Store留言板块及用户社区中筛选出用户评价语料(中间语料),由于网络空间具有虚拟性、宽松性、平等性等特点,用户能够比较真实地将其对产品的需求表达出来,可成为研究用户偏好的重要资料(张文、顿雪霏,2010)。(3)对25位汉语学习者(中、高级别,使用在线外汉词典时长3年及以上)有关在线外汉词典的使用需求进行了深度访谈,并从中提取评价性语料(右侧语料)。为保障数据质量,我们对所收集的数据进行了预处理:首先,去除了重复评论、噪音数据、无效符号、表情等不能反映实际语义信息的评论文本。而后,对过滤后的评论文本进行规范化处理,例如进行同义词替换如将“例证”“例句”“例子”统一为“例句”。最后,根据词典特征设置停用词,对数据进行去停用词处理。语料库最终共收集有效评价语料2,6000余条。
2.2 词频分析
词频分析过程为:将语料库中的评价语料储存为txt文本格式,而后利用ROST CM6 对评价文本进行分词,分词完成后,再对其进行词频统计。图2为根据高频词导出的词云图,表1为排名前50的高频词及词频。
通过词频统计可以看出:首先,用户评价的重点为词典的结构信息如例句、释义、收词、检索、标注等。其次,用户关注的内容是广泛的,除词典结构信息外,还对词典的系统功能、练习设置等提出了具体的要求。最后,从高频形容词“方便”“准确”“实用”“易懂”等形容词可推知,用户更为重视词典“实用性”“准确性”等。
2.3 高频词社会网络分析
词频分析能通过提取的评价文本中的高频词反映研究对象的主要特征,但无法反映词组在特定意义上的联系以及文本深层次的结构关系,而社会语义网络分析则能通过构建概念和语义关系的网络图来直观展现高频词之间的关系,有助于了解用户的具体使用偏好,如图3中“难懂”指向“例句”,表明“例句难懂”作为共现词,在总文本中出现频率较高,具有普遍性。社会语义网络分析的过程为,首先对评价文本进行分词处理,提取高频词并过滤掉无意义词汇后,对文本进行特征分析,并形成VNA文件,启动NETDRAW,绘制完成社会语义网络图,如图3所示。
2.4 提取分析单元
结合高频词表、社会语义网络可以确定与核心高频名词相关的分析单元,共提取有效分析单元110个,如表2所示。
对于描述模糊的分析单元,可以分析单元为关键词搜索具体评价语料以明确分析单元所指,如表3所示,分析单元“例句数量”主要指“例句数量太少”或“例句数量太多”。
2.5 编码方案设计
确定分析单元之后,需将单元进行编码归类。编码归类方案通常有3个来源,分别是数据、已有的相关研究、已有的理论(韦艳丽等,2022)。评价指标体系的构建应以明确评价对象本质、属性等为前提,构建结果也应体现评价对象的属性特征(梁宇,2023)。由在线外汉词典所属范畴类型(见图4),首先,在线外汉词典具有与一般词典所共有“典范性”“知识性”“稳定性”等属性,而上述属性特征主要通过词典结构信息考察,同时根据高频词“例句”“释义”等,可设立一级编码指标“结构信息”,下设二级编码指标如“释义”“例证”“义项”“收词”等,将分析单元归入所属二级指标,依据其语义内涵构建三级编码指标,如“例句-丰富性”“例句-实用性”等。归类时需注意,归类必须完全、彻底,能适用于所有分析材料,使所有分析单位都可归入相应的类别,不能出现无处可归的现象,且每一分析单位只能归入一个类别。其次,与外向型学习词典所共有的“学习性”属性,结合高频词“练习”“听力”等,依此设立“练习设计”一级编码指标,下设二级编码指标“练习内容”“练习反馈”,编码归类后可设立“练习内容-多样性”“练习内容-有效性”等三级编码指标。最后,与在线词典所共用的“技术性”属性,结合高频词“系统”“功能”“界面”等,依此设立“技术性能”一级编码指标,其包括“界面设计”“系统运行”“系统功能”等二级编码指标,编码归类后可设立“功能操作-多样性”“功能操作-简易性”等三级编码指标。将最终归类结果视为初拟评价指标体系,归类结果如表4所示。
2.6 信度检验
内容分析中的信度可以定义为不同编码员对内容归类的一致性,为检验分类的信度,选择了A、B、C三位研究生作为编码人员,3位编码人员皆有词典编纂和研究经历。对编码人员进行编码培训后,3位编码员独立完成归类任务。归类完成后,采用Holstis信度计算内容分析中编码员归类的一致性,其中:
[相互同意度=2MN1+N2]
Holstis信度 = [n×相互同意度均值1+[(n-1)×相互同意度均值]]
M为两位编码人员编码一致数量,N1和N2分别为编码单位数,n为编码人员数量。据表5数据显示,Holstis信度达到0.983,满足理论要求(夏长杰、刘奕,2017:28)。
3. 基于德尔菲法评价指标体系优化
德尔菲法,是指反复运用分发专家咨询表的形式,采用背靠背的方法,征询专家小组成员的意见,将专家的意见经过“集中、返回、再集中”的几轮征询,最后使专家小组的意见趋于一致,得出咨询结论的研究方法,本研究借助该方法对初拟评价指标体系进行优化。
3.1 专家基本情况
本研究目的为构建用户视域下的词典评价指标体系,因此本研究所选专家应属“专家型用户”,其遴选标准为:汉语学习年限5年及以上,为国际中文教育或语言学及应用语言学研究生学历,均通过HSK6级考试,为高级汉语学习者;使用在线外汉词典时间5年及以上,为资深在线词典用户。最终遴选16位专家,基本信息如表6所示。
3.2 统计分析
运用德尔菲专家咨询法,对专家开展两轮咨询,通过电子邮件或者微信将问卷发放给专家,对初拟指标进行修改、增删等,并依据Likert7级评分法对指标“重要性”进行评分,评分越高说明该指标对应的程度越高。利用SPSS22.0软件对数据进行整理和分析,计算各指标的平均值、标准差、变异系数、专家意见协调系数、专家积极程度、权威程度等。其中,专家积极程度用积极系数表示,专家积极系数 = 有效问卷回收数/问卷发放数 × 100%,大于 60%为较好。专家权威程度系数(Cr)根据判断依据(Ca)和熟悉程度(Cs)计算,Cr=(Ca + Cs)/2,Cr > 0.70即表示专家权威程度较高咨询结果可靠。判断依据包括理论分析、实践经验、参考国内外资料、直觉四个部分组成,其赋值标准如表7所示,“熟悉程度”按照很熟悉、熟悉、比较熟悉、一般熟悉和不熟悉的层次分别赋值1.0,0.8,0.6,0.4和0.2。专家意见协调系数可通过肯德尔和谐系数Kendalls W和变异系数Vj进行考察,Kendalls W越高(数值在0~1之间)、Vj 越小,说明专家对研究内容的评价结果波动越小、离散程度越低、意见越集中。