一种基于词性标注判断英语语法的应用研究
作者: 罗军平
摘要:文章通过运用Part-Of-Speech Tagging词性标注工具,使计算机能够对未知英语句子的语法错误、句法错误等浅层词性特征信息进行评判。同时,通过建立词性错误特征数据库来提高计算机对英语句子的判断准确性,从而将其应用于现实教学研究。
关键词:词性标注;英语语法;应用
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2024)19-0074-04
1 研究背景
词性标注(Part-Of-Speech tagging, POS tagging) 是机器学习的一种方法,也是自然语言处理(NaturalLanguage Processing, NLP) 研究的内容之一。它又被称为语法标注(grammatical tagging) 或词类消疑(wordcategorydisambiguation) ,是一种通过将语料库内单词的词性根据其内涵意义以及上下文内容关系进行标注的文本数据处理技术。
词性标注作为语法分析器(parser) 的组件之一随着语料库的建立而提出。早期,在宾夕法尼亚大学(University of Pennsylvania) TDAP(Transformations andDiscourse Analysis Project) 项目中,词性标注作为一种语法结构模型被提出,并通过人工指定的上下文规则建立了自动化词性标注系统CGC(Computational Gram⁃mar Coder) 。1971 年,Barbara B. Greene 和Gerald M.Rubin以CGC为基础开发了词性标注系统TAGGIT,并首次对大规模词库Brown Corpus进行了词性标注。随着统计学习方法的成功和更大规模语料库BritishNational Corpus的出现,为词性标注研究中机器学习方法的引入奠定了基础。其中,隐马尔可夫模型(Hid⁃den Markov Model, HMM) 作为一种统计分析模型创立于20世纪70年代。20世纪80—90年代,HMM被应用于语音识别并取得重大成功[1],学界开始尝试使用隐马尔可夫模型进行词性标注,并也取得了成功。之后,以HMM为代表的词性标注方法被广泛应用于各类大规模语料库的NLP和文本挖掘。
关于词性标注的研究在国内外的相关文献比较多,但绝大部分文献基本围绕构建对目标文本的词性标注进行研究,如莫礼平等[2]提出的湘西苗文词性标注知识库系统的构建,唐文[3]研究了融合多特征的老挝语词性标注方法。这些研究大多基于语料库,探讨如何准确地进行语料词性的标注。以知网为例,搜索关键词“词性标注”,可以发现相关的期刊文章有903 条记录,然而大部分文章都是研究汉语、古汉语、少数民族语言,以及其他国家语言的词性标注方法。在搜索结果的基础上进行二次搜索以“英语语法”为关键词,发现只有彭涛等[4]研究的一种基于规则的无监督词性标注方法,该篇文章提出当英语句子进行词性标注时如何既准确又快速的方法,而直接利用词性标注工具进行英语语法计算机判断研究的文章几乎没有。同样,在百度学术文库中以“词性标注 英语语法”为关键词进行搜索,搜索到173条记录,其中大部分与英语语法没有关系,只有吴坤[5]写的英文作文智能评改中词性标注技术的研究与实现的硕士论文中谈到了关于词性标注在英语作文评阅中的应用。
2 设计思路
词性是代表同一类单词的语法分类。对于不同的英语句子,只要语句结构相同,其对应的词性组合就是一致的。鉴于这个特点,利用词性标注来分析英文句子可以大大简化英文单词在句法、语法分析上的障碍。通过判断词性的组合来分析英语句子存在的语法错误,从而进行浅层文本分析,得到相应的错误组合结果,并将其录入错误词性数据库中。这类似于杀毒软件的原理,只要增加病毒库信息就可以对未知病毒进行查杀,从而提高英语语法判断的能力和速度。
2.1 标注工具
本文采用的词性标注工具是由The Stanford Natu⁃ral Language Processing Group 开发的Stanford POSTagger v.3.0,该软件基于Java 工作平台。根据PennTreebank标注集(表1) ,其中:NN表示名词-单数,VB 表示动词,RB表示副词,PRP表示人称代词等。