基于语料库的中医汉语主题词表构建
作者: 刘华 李晓源
[关键词] 语料库;词语聚类;主题词;中医汉语词表
[摘 要] 分类词表研制是促进中医汉语教学发展的重要前提。基于现有中医汉语类教材、中医专业类教材、中医网站三大语料来源,建设中医汉语语料库;利用词语聚类算法和图式语义场理论,形成中医汉语内部主题分类词簇,有助于构建中医汉语主题分类词表体系。该研究方法可为其他专门用途汉语的词表建设提供参考。
[中图分类号]H08 [文献标识码]A [文章编号]1674-8174(2022)02-0077-09
近年来,伴随汉语国际化的传播发展,专业领域汉语人才的需求在不断扩大,专门用途汉语(Chinese for specific purposes)正成为国际中文教育发展的新方向。中医汉语,作为专门用途汉语的重要组成门类,其教学体系也在实践中得到完善发展。中医汉语词表是开展中医汉语教学的重要基础,词表的构建离不开真实的素材来源与科学的构建方法。基于各类中医语料素材所形成的中医汉语语料库,能为中医汉语的词表构建提供强大的语料支撑和数据基础,结合计算语言学中的词语聚类方法,所获得的分类主题词语集合,可进一步提升词表构建的系统性和科学性。
词表的筛选创建需以真实语料作为底层依据。伴随互联网技术的迅速发展,网络平台已成为语言传播交流的重要媒介,是呈现当今汉语使用情况的开放窗口。因此,在中医汉语语料的收集中,注重对网络语料的获取分析,通过爬虫软件工具,有针对性地抓取中医官方网站的语料素材,可确保底层语料来源的真实。
中医汉语词语不仅包含传统医学知识,而且体现丰富的中华文化理念。学习中医汉语的对象大致可分为两类:一是高等本科院校中医专业类留学生,该类型学生已接受过较高程度的汉语教育,对中医汉语的文化词义具备一定理解能力;另一类是对中医文化感兴趣的中文学习者,该类型学习者汉语水平参差不齐,在理解中医文化内涵时有一定难度。因此,中医汉语词表的创建应关注上述两类对象的现状和需求,注重词表分类的整体系统性。通过基于语义关联度原理的主题聚类方法,将具有文化内涵的词语进行合理分类,依据词语语义的相关性,形成具有主题属性的体系词表。
1. 中医汉语分类词表构建理论与方法
1.1 图式理论和语义场理论
图式理论认为,人们对事物的认识是基于某一主题的知识开展形成的。各种事物都有其不同的特征,图式理论能对事物的特征进行总结归类,寻找事物彼此间的关联属性,使之形成结构性认知储存于人类的头脑中。具体应用到汉语习得层面,汉语交际的各类领域图式是由对应的词语群落组成的。
该词语群落是一个巨大的语义总场,汉语的词语意义主要是通过场内词与词之间的关系表现而来。语义场中的词语都有其概念区间,并在内部形成系统的场级分类。每个语义场会在一个共同语义要素的支配下组建系统的词语语义群落,上一层级词语的义素会为下一层级各词语所共有。词表创建可充分结合图式理论和语义场理念,形成以主题为导向的词表库,有利于帮助学习者在头脑中形成语义联想网络,促进语言的习得记忆。
1.2 主题词簇界定与分级
主题是交际的出发点或对象,亦是思想和语言交际的中心。主题具有群集特性,在文本内容中起到聚拢作用,是语料信息的集中体现。主题词簇是指与某一主题紧密关联的词语群(刘华,2008)。借鉴“领域词语”的分类原理,根据主题词簇在语料中出现的频率和权重,可将其分为两类:主题通用词和主题专类词。
主题通用词是指在两个或两个以上关联度高的主题中可以共用,且使用频率高,具有一定区别作用的词语;主题专类词则是区别话题度高,且细微特征明显,领域个性强的词语。基于该分类原理,可以把中医汉语理解为一个大的主题范畴,每个主题内部可进行分级分类。一级主题包含主题通用词,主题内容更广泛,领域涉及面更大。二级主题包含主题专类词,主题内容更具体,主题描述更细致。如中医汉语中“中医治疗”主题一级词表多包含有关治疗的通用词语:内治、外治、调养、病症、精神、疗法等;而其下一级分类的“针灸”“推拿”“刮痧”等主题类别则体现各自对应的治疗手法,其分别包含的词簇是更具区别特征的专类词语。
1.3 基于语域主题的词语聚类方法
语域题材是指不同场合、情景、领域、交际背景下所使用的语言素材。语言并非独立于语境或情景产生,而是由多种情境特征构成的。领域词聚类原理可利用词语在不同类别(即语域)语料中分布的差异性(即不均匀性)来计算词语对于该类别的贡献度(刘华,2010)。中医汉语包含大量中医领域性专业词语,这些领域性词语具有鲜明的分类区别特征,代表专属于中医领域内的特色内容。
词语聚类的核心原理是利用词语在不同类别语料中分布的差异性来计算词语对于该类别的贡献度。比如,虚词(如“的、和、在”)在不同类别语料中的频率几乎一样,散布均匀;而某些词语(如“经络、气血、寒热、阴虚……”)在“中医”类的语料中出现的频率会远高于它们在其它类别(如体育、政治、娱乐等)语料的频率,它们是中医类别的领域词语。
TF-IDF(term frequency-inverse document frequency)是常用的文本分类的特征提取算法,其中,TF是词频,IDF是逆文本频率指数,其原理是某类词在一篇文本语料中出现的频率高,并且在其他文本语料中出现少,则认为该类词类别区分能力强,语义聚合程度高,适合提取作为分类特征。TFIDF公式本质上反映了词语区分文档主题类别的能力,计算词语在某一话题中的TFIDF值之后,将特征向量倒序排列,那些具有强主题区别能力的词语会排在最前面。
主题词聚类的计算公式(刘华,2010)如下:
其中,[pij=TijLj],Lj是类cj含有的所有词的次数之和,Tij是词i在类cj出现的次数; [pi]-[kpijm],其中m为类别数;N(Wi)表示训练语料中出现词wi的次数,N是训练语料中所有词出现次数之和;n>=1。
主题分类完成后,按照上述公式计算出语料文本中词语的权重,运用n(n>=1)参数主要用来调节词频在选词过程中的影响。当n取值较小时,词频的影响作用变大,倾向选择词频大的词;当n取值较大时,词频的影响作用变小,倾向选择词频小的词。当n=1时,可获取中医领域的通用词语;当n等于2和3时,则中医领域的通用词语变少,而内部类别区别度高的专业词语变多。为了更全面地获取通用词和领域专用词,将词频的影响作用调适到一个较适中的程度,将n设定取值为1.5。
2. 中医汉语聚类词语表构建与词表分析
2.1 中医汉语词表研制流程
中医汉语词表研制主要包含以下步骤:(1)结合中医汉语类教材、中医类教材、中医网站三大语料来源,建设中医汉语语料库。(2)借鉴中医汉语教材和中医网站的知识分类体系,构建中医汉语主题库。(3)将语料库按主题分类,通过词语聚类,获得分类领域特征明显的主题词语。(4)通过人工校对和专家审核,形成具有实用价值的中医汉语词表。
2.2 中医汉语语料库建设
为更有效采集归整中医汉语类语料资源,形成科学合理的主题分类词语库,本研究结合中医汉语类教材和中医类门户网站资源,通过语料采集技术爬取相关语料文本,创建中医汉语语料库。
中医类网站主要以“中医中药网”(https://www.zhzyw.com/)为主,该网站行业知名度、访问量高,内容丰富,分类明晰,主题涵盖广,适用群体广泛,对后期词表创建具有较高适用参考价值。
中医汉语类教材以《中医汉语综合教程》(北京语言大学出版社,2013年)、《实用中医汉语》(外语教学与研究出版社,2010年)、《中医汉语口语入门》(高等教育出版社,2008年)三套教材为主,该类教材主要以留学生和海外学习者为使用对象,内容分类编排合理全面,采用功能—文化相结合的编写理念,整体设计注重汉语交际实用性。
同时为确保后期词表建设分类的合理专业性,语料库建设还收纳了中医专业类教材的部分内容,参考《中医基础理论》(中国中医药出版社,2019年)、《中医基础入门》(军事医学科学出版社,2008年)两本教材部分章节。
2.3 中医汉语主题库构建
由于目前有关中医汉语词语大纲的研究较少,缺乏成熟的词语大纲分类项目作依据支撑,本研究整理归纳了三大语料来源的主题分类体系,以此作为中医汉语词表的创建参考。依照图式理论的词语习得认知理念,汉语词汇的习得记忆通过相互作用的知识结构共同完成。中医知识,凝结我国数千年传统文化智慧结晶,包含大量中国哲学思想和伦理文化,如“阴阳”“五行”“上火”“气”“开窍”等。知识结构中的各模块内容,并非孤立地存在于内部结构中,而是彼此关联,相互影响,形成了独特的中医文化体系。本研究借助中医内部知识的图式结构,从中医文化和医学问诊的角度出发,重点结合现有中医汉语教材和中医网站的主题编排思路,对中医汉语的词表创建进行主题分类。
通过以上三类语料来源的主题分类可知,中医汉语教材类语料共有主题包含中医基础知识、中医治疗、中医养生三个主题,该主题均包含了中医汉语教学的核心内容,是词表建设分类的重要依据。同时,在中医网站和中医教材语料中还存在其他分类的交叉内容,可适当进行合并归类。如中医诊断,是中医体系中诊察病情、辨别病证的基本理论,在中医汉语类教材前两套教材中均有出现,应当添加作为一个主题分类。中药知识,在教材主题分类中较为零散,但其作为中医系统知识的重要组成部分,对于今后进入专业学习的学生而言十分重要,且在中医诊治的汉语交际场景中常涉及中药类专业词语,因此中药知识可纳入词表主题分类中。中医药历史、文化典故、文化习俗几个分类属于中医文化传播的内容,可合并归属于中医文化一个类别中。
综上合并归类,中医汉语词表的一级主题大类包含:中医基础知识、中医诊断、中医治疗、中药知识、中医养生、中医文化六大类(图2)。一级大类建立好后,参照中医网站和中医类教材的分类内容,通过去重筛选将下一级内容归并到每个一级大类中(表2)。
2.4 语料主题分类
主题编排分类完成后,将所搜集的文本教材和网站语料按照主题内容分别放进每个文件夹中。为方便软件对语料数据进行提取、统计、关键词聚类,语料格式全部采用TXT 文本形式。示例文本中 H (Head)是课文对话标题,T (Text)是课文对话内容,W (Word)是本篇对话中与主题相关生词表。每篇文本语料均以<>开始,以</>结尾。由于各TXT文本已归入到细致的小类中,因此在人工进行词表的筛选处理时,需注重把握小类主题的领域特征,把不能显著展现该领域特征的词语进行删除。
2.5 中医汉语语料的文本降噪、分词处理、词频统计
语料收集和归类完成后,接下来利用刘华研发的“汉语助研”软件(语料库建设统计一体化工具),对语料文本进行降噪处理和分词统计工作。由于语料是通过网络爬取和软件扫描识别获取,在文本中会出现各种不规范的格式符号,如垃圾广告链接、网络用语字符、乱码符号等。这些无关的符号信息会影响词频统计的准确度,因此需要对其进行降噪处理,并结合人工检查校对,最终形成可使用的纯文本,同时进行分词处理。
词频的统计结果可为下一步词语聚类的权重计算提供依据。语料中含有大量实体意义不明显的功能词,如“的、了、是、在、和、很”等语气助词、副词、介词、连词。这类词本身并无明显区别意义,但出现频率很高,在其他主题语料库中亦是出现频率最高的日常用词,散布较均匀,不具有主题意义的区别性。为避免受到该类词语的干扰影响,达到突显中医汉语专门领域词语特性的目的,我们需要对该类词进行筛选去除,从而确保专业领域词语的纯净度。
2.6 中医汉语来源的主题聚类与词频统计
词频能直观明晰地展现某个词语在中医语料中的使用情况,一定意义上表明该词语在中医教材编排中的重要程度。但主题词语的提取与词义的主题聚合度密切相关,词频统计并不能完全解决词语主题特性的筛选问题。解决此问题需通过词语聚类的算法,对中医语料的关键词特征进行提取,从而获得中医特征领域词。