基于增强数据生成的新闻文本实体识别
作者: 刘瑜
摘要:近年来,预训练语言模型的出现极大地推动了新闻文本实体识别领域的发展。然而,高质量、大规模标注数据的匮乏仍然是制约模型性能提升的关键因素。文章针对此问题设计了一种增强数据生成框架,该框架基于预训练语言模型,利用关键词选择和动态遮盖的方法构建损坏文本,再通过文本重构和数据选择生成多样化且连贯的增强数据。将增强数据与原有标准数据结合,用于实体识别模型的微调。实验结果表明,相比于未使用数据增强的基线模型和词汇替换增强模型,文章提出的DRS增强数据生成框架在精确率和召回率上分别取得了3%~7%和2%~9%的提升。
关键词:预训练语言模型;增强数据生成;关键词选择;动态遮盖;微调
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2025)01-0023-04 开放科学(资源服务) 标识码(OSID) :
1 概述
命名实体识别(Named Entity Recognition,NER) 作为自然语言处理(NLP) 领域中的重要组成部分,其目标是从文本中识别出具有特定意义的实体,如人名、地名、组织机构等,并将其分类到预定义的类别中。NER是众多高级NLP应用(例如信息抽取、情感分析、自动标注和问答系统等) 的基础。近年来,深度学习技术,尤其是Transformer架构的出现,为NER领域带来了突破性进展。
丁建平等人[1]对NER研究进行了综述,指出基于深度学习和Transformer模型的NER表现良好,这类模型能够通过大规模的预训练来学习语言结构,再通过针对具体任务的微调来进一步优化模型性能。基于深度学习的NER模型最近在多个领域具有广泛的研究,如利用BERT-BiGRU-CRF模型对网络文本中的地理信息实体进行识别[2]、利用一种交融式的Trans⁃former神经网络模型对司法文本实体进行识别[3]、利用一种基于迁移语料库训练的BERT-BiGRU-CRF模型对金融新闻数据集中的实体进行识别[4]等,并均取得了较好的性能结果。Malmasi等人[5]构建了一种用于NER任务研究的数据集,并指出目前方法在低上下文场景和复杂NER场景下的表现并不理想。尽管有监督的学习方法能显著提升NER的性能,但构建大批量的高质量标注数据仍然是一项巨大的挑战。Liu等人[6]和Zhou 等人[7]指出数据增强是数据稀疏条件下NER的有效解决方案,并在常见NER的基准数据集上表现良好且能生成连贯的增强样本。然而,数据增强也存在一些局限性,在某些情况下,生成的增强样本可能不够连贯或不符合事实,这会导致模型学习到错误的信息,从而影响最终的识别性能。
为了解决这个问题,本文提出了一种新的数据增强框架,旨在解决数据稀疏性问题的同时,生成高质量的增强样本。该增强数据生成框架主要分为构建损坏文本、文本重构和数据选择三个步骤,称为DRS(Damage-Refactoring-Selection) 增强数据框架。现有方法通过同类实体替换等方式生成增强样本,都是在常见基准数据集上设计的,未能为含有语义模糊和复杂实体的复杂NER生成有效的增强样本。本文提出的框架在数据稀疏情况下能够生成用于复杂NER的增强数据,并且通过在增强样本中保留语义模糊命名实体的真实含义,有效缓解上下文与实体不匹配的问题,从而生成多样、连贯、事实准确和高质量的增强样本,提升NER模型的性能。
2 框架
本文设计的DRS增强数据框架的应用流程如图1 所示。
首先将原始的训练数据输入DRS增强数据框架后,进入构建损坏文本流程,通过微调的NER模型提取关键词,再利用选择性遮盖和在实体词汇前后添加标签构建损坏样本。然后通过微调的预训练语言模型进行文本重构,生成一系列增强样本,最后通过数据选择得到高质量且多样化的增强数据。通过上述过程产生的增强数据与原始训练数据合并,用于后续NER模型的训练。
2.1 构建损坏文本
第一步构建损坏文本基于Facebook AI Research 团队开发的XLM-RoBERTa 模型[8],经过一定的微调使其适应本文针对命名实体识别任务的需求。对于训练所输入的句子,通过微调的XLM-RoBERTa模型生成注意力图,从而获得一组与句子中实体最相关的非命名实体词汇,这里称之为关键词。该模型旨在识别与命名实体具有显著依赖关系的非命名实体词汇,并通过参数设置选取排名靠前的词作为关键词。
完成关键词选择后,对句子进行选择性遮盖操作。具体而言,将除关键词和实体词汇外的其他非实体词汇用遮盖标记[M]替换,表示被遮盖(Masked) 的词元(token) 。为避免冗余,连续的遮盖标记将被合并为一个。此外,为提高后续文本重构的质量,在每个实体词汇前后添加标签标记,将其视为句子中的正常上下文。图2展示了完整的损坏样本构建流程。
以这个句子为例,从句子中提取了5个非实体关键词和1个实体词“人工智能”,然后将其他词汇进行遮盖,并在实体词前后添加标签,这里的实体词被标记为实体类型之一的<术语>。
为了能够生成更加多样化的文本,在迭代生成过程中添加动态遮盖步骤,应用统计方法从非实体关键词中随机采样,进行动态的选择性遮盖。具体而言,在每次迭代过程中,首先从一个正态分布N ( μ,σ2 )中采样一个动态的遮盖率ε,该遮盖率被控制在[0,1]之间。通过遮盖率ε 和非实体关键词数量n,确定需要遮盖的非实体关键词数量,再随机选择出对应数量的非实体关键词进行遮盖。这样操作的目的是在每次迭代过程中不全部保留非实体关键词,通过随机采样能够产生不同的遮盖情况,如图3所示。
当采样的遮盖率ε = 0时,5个非实体关键词均会保留;当采样的遮盖率ε = 0.2时,5个非实体关键词会被任意遮盖掉1个(图中展示了遮盖“会议”和遮盖“发展”两种情况) ,从而能够生成更多结构不同的损坏文本。总之,通过迭代完成包含关键词选择和动态遮盖这两个核心步骤的构建损坏文本流程,即可批量生成所设计的损坏文本。
2.2 文本重构
文本重构是DRS框架的第二步,旨在将损坏文本恢复为原始文本。为此,本文采用微调后的BART预训练语言模型[9]来完成该任务。BART是一种序列到序列(seq2seq) 的模型,能够处理自然语言处理任务中的各种问题,并且通过调整输入和输出的格式即可应用于不同的场景。
在编码阶段,BART使用双向Transformer来构建其编码器。双向Transformer允许模型对于给定位置的词,考虑这个词前后的上下文信息。对于输入序列x = [ x1,x2,...,xn ],位置i的输出为:
hi = Bi - Transformer(x1,x2,...,xn ) (1)
式中,Bi - Transformer表示双向Transformer的内部操作,包括多头注意力机制和前馈神经网络层。多头注意力模块允许模型在每个位置关注输入序列中的所有位置,从而捕捉长距离依赖关系;前馈网络用于进一步提取特征,并增强模型的学习能力。每个编码器层包含残差连接和层归一化,以帮助梯度传播和加速训练过程。通过多层Transformer编码器层的堆叠构成BART的编码器。
在解码阶段,BART使用自回归Transformer解码器,这是基于GPT系列模型的设计。自回归的解码器在生成序列中的每个位置时,仅依赖于序列中之前的位置。对于生成的序列y = [ y1,y2,...,ym ],解码器的输出dj(对于位置j) 仅依赖于y1,y2,...,yj - 1:
dj = AutoRegressive - Transformer(y1,y2,...,yj - 1 )j (2)
式中,AutoRegressive - Transformer 表示自回归Transformer的内部操作,同样包括多头注意力机制和前馈神经网络层。但注意力机制被设计成掩码形式,在生成输出序列时会遮盖掉未来的位置,以确保在预测当前位置时不会利用到未来的信息。通过这种方法,解码器每次只考虑之前已经生成的部分,逐步生成序列。
BART的预训练包含两步:首先利用任意一种噪声函数破坏文本,然后学习一个模型来重构回原来的文本,目标是得到一个基于序列到序列的去噪自编码器。在训练期间,BART使用随机遮掩策略,即随机选择输入序列的一部分并将其遮掩。遮掩操作包括完全删除某些片段、替换为[MASK]标记或替换成随机单词。这与本文提出的DRS框架中的文本重构任务高度吻合,二者均致力于从受损文本中恢复原始内容。同时,BART模型因采用双向编码器及自回归解码器的设计,能够有效利用上下文信息并生成连贯的序列,因此特别适用于此类文本重构任务。在本文的文本重构任务中,文本的破坏在第一步已经完成,这里BART的输入就是之前构建的损坏文本,输出是原始未受损坏的文本。确定输入和输出后即可对BART预训练语言模型进行训练和微调,得到最终表现良好的文本重构模型。
2.3 数据选择
数据选择是DRS框架的最后一步,旨在从生成的候选数据中筛选出高质量的增强数据。通过选择性遮蔽产生不同的损坏文本,输入文本重构模型后,会生成额外的训练数据,以此增强数据集的大小和多样性。但这样迭代产生的数据有些会与原始训练数据过于相似,所以在使用这些迭代产生的数据之前需要进行数据选择的过程。
首先需要移除和原始句子过于相似的增强样本,使用多语言Sentence-BERT模型[10]为每个句子提取嵌入向量e,然后通过下面公式计算两个句子间的语义相似度:
式中,sim(⋅)表示两个句子嵌入向量的余弦相似度,i,j 属于N,i ≠ j,N 是数据集的大小。通过设定一个相似度阈值t,当生成句子和原始句子的语义相似度sim > t时,就移除生成的句子。
在创建损坏文本时,在每个实体词的前后都加入了特殊的标签标记。这些符号在之后的实体识别过程中是不需要的,所以在保留下来的生成句子中,需要把这些标签移除。通过这样的数据选择和处理过程,可以确保增强数据的质量和可用性。最后,将处理过的增强数据与原始数据集合并,一同作为训练数据,用于NER模型的进一步训练,这样可以让模型从更多样化的数据变体中学习到更为广泛的实体识别规律。
3 实验
本文使用的数据集基于新闻传媒平台积累的中文新闻数据,通过人工标注获得可用于命名实体识别的标准数据集。在标注规范方面,提供了详细的示例文档和标注结果来帮助理解标注规则,其中包括实体类别明确定义、实体边界确定、特殊情况处理等内容。标注一致性检验包括双人独立标注对比、随机抽样第三方审查、定期培训标注员熟悉标注规范等方法。
标准数据集的样本数量为20 000条,标记的实体分为7种不同类型:人物、地点、机构、时间、产品、设施、术语。按照实体类别进行分层采样,分别设置了三种训练集数量:2 000、4 000和7 000。
本文设置训练集与测试集样本数量比例为1∶9、1∶4和1∶2左右,这样设置的目的是模拟大规模标注训练数据难以获得的实际情况,观测本文提出的方法在少量训练集上对NER模型性能的影响。实验选择XLM-RoBERTa-large 作为基础NER 模型,并添加一个简单的线性层将XLM-RoBERTa-large的输出转换为NER任务所需的输出。模型使用Adam优化器[11]进行优化,学习率设置为0.01,批次大小为16,训练轮次为100,并使用在训练集上表现最佳的模型对测试集进行测试。
对比实验设置3种方法:一是基线模型(仅使用训练集数据) ;二是词汇替换增强模型(词汇用相同实体类别的其他词汇替换生成增强数据) [12];三是本文提出的DRS增强模型。性能指标采用精准率(Precision) 和召回率(Recall) :精准率表示最终模型识别出的命名实体中真正正确的比例,召回率表示所有命中实体中最终模型成功识别的比例。通过精准率关注模型预测的准确性,通过召回率关注模型是否能够尽可能多地找出所有实体,从而全面评估模型的准确性和鲁棒性。实验结果如图4所示。