基于认知概念的语义特征表示方法

作者: 唐忠 梁家栋

摘要:语义分析是自然语言领域研究的重要课题,其目的是让计算机能理解与处理句子中的语义信息。本文以认知概念为基础指导,使用现实世界中的事物及其性质、状态、行为等知识,对句子进行处理以得到包含语义信息的语义特征,用于指导对句子的后续语义分析工作。验证和分析显示,构造的语义特征提高了对汉语句子语义表达的完整和准确性,可以避免歧义,得出句子正确的语法结构,为更广泛有效的语义分析奠定了基础。

关键词:认知概念;语法结构;语义分析;自然语言理解;语义特征

中图分类号:TP18      文献标识码:A

文章编号:1009-3044(2024)22-0011-03

开放科学(资源服务)标识码(OSID)

0 引言

近年来,以信息时代的发展浪潮为背景,网络上文本信息量迅速膨胀。为了帮助人们应对海量信息,自然语言处理(NLP) 在信息技术领域的地位越来越重要,已经是人工智能最重要的研究方向之一。它运用计算机对自然语言进行正确的语义分析,以实现人与计算机之间的无障碍沟通为最终目的。而对句子进行正确的语义分析,就是根据句子的句法结构和句中每个实词的词义,推导出能够反映这个句子意义的某种形式化表示[1]。

在2016年中文信息学会正式发布的中文信息处理发展报告中,关于语义分析的部分[2],将其进一步划分为三个层次:词汇级,句子级和篇章级。其中,句子级的语义分析是指某种可以反映句子含义的形式化表示方法,通常可以根据句法结构或者句中词义信息推导而来,一般分为深层语义分析和浅层语义分析。深层语义分析需要深入理解句子中所包含的多层次的语义信息,过于复杂,经过几十年的发展,取得的效果并不理想。浅层语义分析是对深层语义分析的一种简化,不对整个句子进行详细的语义分析,而是通过提取特征,即计算机能够处理的逻辑形式,以特征进行语义分析。在语义分析中,Luke最早采取使用数据库中预定义的谓词论元和附属论元,通过人工标记数据的方法进行特征训练[3]。现有的这些数据库如GeoQuery[4]、Wikipedia[5]、Yago[6]、WebQestion[7]等。由于这些数据库中预先定义的谓词数量有限,而且此类方法侧重的特征表示方法是从语句到谓词论元结构上的转换,没有深入到语义层面真正地理解句子的语义,所以后续对句子语义的分析并不理想。Xue等人[8-9]在其研究工作中使用句法树信息进行特征表示,例如句子中附属论元相对于谓词论元的位置前后等,有效地构成了包含更多信息的特征,扩大了特征空间。然而,一些语法结构复杂的句子使用句子结构信息的特征不能准确完整地表达句子语义,使得其应用领域受限,只能应用于简单结构的语句中。

汉语自然语言复杂灵活,语言知识难以规则化。但语义是现实世界中的物质在人头脑中的影射,人不仅通过句子的字词、语法结构,还会结合人脑中的认知与知识来完成对句子语义的理解。这类技术的实现非常困难,对其的研究目前还处在实验阶段,但这也是未来语义分析方法的一个重要发展方向。本文将沿着这个方向,依据人的认知与知识概念,针对语义分析中,句子语义的特征构建与表示进行改进与扩展,以指导语义分析,使计算机更好地理解自然语言。

1 相关研究

1.1 认知概念

认知概念是现实世界中的物质在人头脑中的影射,是人的常识与知识复合形成。认知概念对应现实世界各种事物,包括主观和客观的事物,这些事物分别有其不同属性,如性质、状态、动作、类属、组成等。语言学家研究认为:在认知发育的过程中,人类在大脑中建立对世界的基本看法,即概念树结构,并通过语言来表达这种概念树结构[10]。因此,构建语义特征需要抓住语言表达的语义本质,才能同样准确地反映在现实世界对应的认知概念。

1.2 知识库

知识库是进行语义分析的重要工具,主要分为基于词典的知识库和基于百科的知识库。

基于词典的知识库有 WordNet、FrameNet、知网(HowNet) 等。WordNet是一种大规模的英语词典,具有复杂的网络状结构,并不像传统词典那样仅提供单词定义和同义词,而是将英语词汇组织成一个“同义词集”的网络,其中的词汇不仅以同义词集的形式组织,还通过不同类型的语义关系连接,如反义词、上位词(hypernyms) /下位词(hyponyms) 、整体词(holonyms) /部分词(meronyms) 等。FrameNet是一个基于框架语义学的在线词典和相关的语料库,其核心理念是语言中的词汇和语法现象是通过关联到特定的“框架”(frames) ,这些框架代表了一系列相关事件、情境、对象或动作的概念化,每一个概念化都与一系列词条关联,这些词条是词汇条目和它们各自的意义的组合。知网(HowNet) 是最为著名的中文语义知识库,以汉语和英语的词语所代表的概念作为对象,用以描述概念与概念之间、概念与其自身所具有的属性之间的关系。在知网中,各种或简单或复杂的概念用义原组合起来表示,每个词的词义都用义原的组合来解释。

基于百科的知识库往往是在线的,以获得更快的知识更新速度。Freebase集成了多源信息以构建一个全球范围的语义网络,其中的数据围绕“实体”(如人物、地点、事物)和它们之间的“关系”组织。每个实体有唯一标识符,并分类到一种或多种类型中。这些类型定义了实体的属性和与其他实体的潜在关系,使得数据不仅是文本,还具有明确的语义。YAGO(Yet Another Great Ontology) 从Wikipedia等数据源抽取和整合知识,并利用精细算法最小化错误,形成一个精确、多语言且广泛的本体库。它还能提供跨语言的知识表示,支持多语言查询和应用。利用知识库构建语义特征,需将事物相关内容组织在一起,并体现事物间关联,才能进行全面的语义分析。

2 汉语句子语义分析

汉语自然语言的最小单位是词,由词按照一定的语法规则排列成句。词、句所表达的实际意义就是自然语言的语义,表达了人对现实世界的认知。

2.1 词的语义

在汉语的语义学领域,词被视为最微观的语义承载体。实体及其固有的特征、状态和行为这些现实世界的基本要素,在人类认知结构中形成的核心思维概念,都有其符号化的词汇。每一实体以及其众多属性的认知表示,在自然语言的体系中均能找到相应的词汇符号,且这些概念根据其性质被不同的词类所划分和表示。

2.2 句子的语义

句子由词或短语按一定的语法和规则构建而成,表达一个完整的意思。句子表达其描述的主语所具有的性质、状态等属性,并表达其主语与其他事物之间的联系、变化、相互作用和因果发展等。句子表达的内容和语义是认知概念中的事实、判断和过程等。

2.3 语义分析的难点

自然语言是现实世界的映照。但汉语是语义型语言,重意合而轻形式,其语法灵活,句子结构与次序存在省略但仍不影响含义等现象。并且由于存在多义词、同义词,同一个词语在不同句子中可成为不同的语法成分,从而产生歧义。例如,“吃饭”和“吃惊”,同一个词语在不同的搭配中,表达不同的语义。歧义会影响自然语言处理的语义分析效果。人们能够正确理解自然语言所包含的语义是因为除了理解组成句子的字词和语法结构以外,还可以使用自己的知识与认知加以分析,从而排除不符合语境的那个语义。因此,我们基于认知概念,利用事物与其行为、性状、属性以及其他事物间的固有联系,构建语义特征,来指导解决语义分析问题。

3 语义特征分析法

3.1 语义特征

语义特征来源于语义学中的语义成分分析法。语义特征数量众多,性质复杂,理论上讲也许可以穷尽,但实践中无法做到。对于语义特征,从不同的角度有不同的分类方法[11]。

1)  自然性语义特征是从基本的意义、概念和逻辑中分解出来的语义特征,是语义特征的主体部分,数量最多、最丰富、最复杂。尽管词语的固有语义特性源自其相对稳定的词汇含义,这一点归属于语法分析的领域。它依赖于句法结构,并具有语法上的价值。因此,从性质和数量的角度考虑,这不与词语的理论意义相等同。

2)  聚合性语义特征是从聚合的角度划分出来的语义特征。聚合性语义特征脱离于句子,是从词语与词语之间的关联性中分离而出的一类。

3)  附属性语义特征指语义中那些非自然性的、主观的部分。包括语义的感情色彩、词语的语体色彩和形象色彩。

4)  组合性语义特征根据词汇与其他句中词汇的搭配关系而界定的一种语义特征,它对词汇与其他相联系词汇之间的语义匹配产生影响。虽然自然性语义特征可以独立于句子存在,组合性语义特征却是在与其他词汇结合时才显现其特点。这种语义特征建立在词汇的自然含义之上,却必须与其他词汇发生联系后才展现,故此得名“组合性语义属性”。

3.2 语义分析过程

语义特征是词的一种属性,不论实词与虚词。它的独特作用在于解释词在同一句法格式的不同句子中,各自具有的某种特点,这种特点能够将其与同形的句法格式区分开来。例如:“绿”“绿油油的”,两者表达同样的基本词汇意象,但在语义特征中有所区别。我们基于认知概念建立语义特征模型(S,P,M) ,S表示事物主体,P表示事物的属性状态,M表示事物属性状态的联系发展。对于“绿”和“绿油油的”,构建语义特征模型 <s1,p,m1>、<s2,p,m2>。可以发现两者的区别不在于表达的属性p:“绿色”上,而是在于m1:“性质”与m2:“性质的状况或情态”,这种与其他客体联系状态的区别可以完整地反映在两个主题的语法功能上。

传统语义特征在处理句子“李华借小明一支笔”时,借这个词具有歧义,影响后续语义分析效果。我们基于认知概念,为“借”字的语义特征增加维度M,即m1:“给予”,m2:“获取”,从而解决歧义问题。通过分析词汇的语义属性,我们可以准确地辨识出如何围绕一个主义素的相关义素构建起的语义领域,无论大小,并且观察到在这些领域内词汇系统如何持续地发生动态变化:主义素定位于中心,而其他义素在其周围形成有序的修饰层级,扮演辅助性角色;然而,在特定的语义领域中,这些非主义素便转化为区分不同词语的关键性质。

4 特征表示实验与评价

本文使用字典、词典和常识百科知识为基础,针对相关小型、限定领域的多种语法结构进行分析,以验证基于认知常识的语义特征分析表示能力。使用构造率来评价特征分析结果,构造率=正确有效的特征数量/句子中的语法成分数量。例如:句子“他吃饭”的语法成分数量为两个,分别是主语和谓语,构造语义特征为S(p) ,词语和语法成分信息没有损失,语义表达完整,即构造率为100%。而句子“他在食堂吃饭”,对于传统表达S(p) 无法表达出状语信息,构造率为2/3=67%。而利用语义特征分析构造特征可以得到m(s) S(p) ,充分表达了三个语法成分,完整保留了原句子的语义信息。通过实验验证,直接通过语法结构来分析表示汉语句子的语义特征时,构造率为75%左右。而与语义知识结合,句子的语义特征构造率可以达到95%以上。实例分析结果表明,基于认知概念进行语义分析,可以比较有效地获得有歧义句子的语法结构和语法成分、理解句子语义,从而指导后续语义分析工作。

5 结束语

基于认知概念对句子进行分析得到的语义特征,能更规范、结构化地表示现实世界的事物及其属性、行为、相互联系和影响。由于包含更多的语义信息,这种方法有助于解决语义分析中的歧义问题,因此成为自然语言理解和语义分析的未来研究方向之一。

然而,汉语语言具有超出其他语言的灵活性,因此在保证语义特征的准确性和充足性方面面临挑战。为了进行跨领域的句子语义分析,需要整合不同领域的知识。如何有效地管理、查询相应的知识,并运用于特征表示,是下一步需要继续研究的重要方向。

上一篇 点击页面呼出菜单 下一篇