数字人文视域下古籍文本命名实体识别研究

作者: 许彬炀

数字人文视域下古籍文本命名实体识别研究0

关键词:数字人文;古籍文本;命名实体识别;Bert-BiLSTM-MHA-CRF

中图分类号:TP18 文献标识码:A

文章编号:1009-3044(2024)28-0027-03

0 引言

古籍文本作为文化遗产的重要组成部分,是体现文化自信的重要载体。随着国家实施“中华古籍保护计划”,大量古籍文本实现了数字化保护。随着“数字人文”理念的提出,对古籍保护研究提出了新要求。因此,如何运用现代科学技术深层次挖掘古籍文本潜在的语义知识,是展现中华五千年传统文化精神,实现中华民族文化自信的重要途径。大量学者开始在数字人文视角下,对古籍史书进行数字化的组织和探索,以积极响应国家古籍保护与利用政策。武汉大学的肖希明提出,数据整合主要体现在数据、信息、知识三个层面[1]。上海师范大学的欧阳剑团队构建了典籍分析平台,该平台基于可视化技术,可以实时对典籍进行文本挖掘,从而为历史学、文学等多个领域提供帮助和参考[2]。命名实体识别(Named Entity Recogni⁃tion,简称NER[3]) 作为古籍数字人文研究中最基础的重要环节,其自动化抽取的结果决定着下游任务的准确性。

传统基于规则字典的古籍文本NER方法的准确性局限于专家制定规则及设定词典的覆盖程度,虽易实现但受限于单部古籍,可移植性差。统计机器学习的古籍文本NER方法的准确性受限于初期特征工程的建立。如何运用深度学习模型在低成本的基础上实现高质量的古籍文本NER,是提升“数字人文”研究准确性的重要途径。针对古汉语文本,条件随机场(Conditional Random Field,CRF) 模型是一种较为成熟的技术方案。例如,肖磊[4]与汪青青[5]基于CRF模型分别对《左传》的地名与人名进行识别;黄水清等[6]基于先秦古汉语语料库和CRF模型构建了古汉语地名自动识别模型,并取得了较好的识别效果;叶辉等[7]通过实验发现,基于多特征CRF模型可增强中医古籍《金匮要略》中症状药物实体的抽取能力;王东波等[8]在CRF模型基础上,对先秦语料库中构成历史事件基本实体成分的人名、地名、时间进行抽取并构建自动识别模型。本文尝试以传统古籍文本NER的条件随机场(Conditional Random Fields[9],简称CRF) 为基础模型架构,将古籍NER任务转化为序列标注任务,并在此模型架构基础上融合预训练模型(Bidirectional En⁃coder Representation from Transformers[10],以下简称Bert) 、双向长短期记忆网络模型(Bi-directional LongShort-Term Memory[11],以下简称Bi-LSTM) 和多头自注意力机制(Multi-headed Self-attention[12],以下简称MHA) ,即Bert-BiLSTM-MHA-CRF古籍NER模型,实现对古籍文本高质量的NER研究。

1古籍NER框架

本文针对古籍文本语义关联性强、情感特征明显的特点,提出了Bert-BiLSTM-MHA-CRF古籍NER框架,如图1所示,由古籍文本输入层、Bert预训练层、Bi-LSTM层、MHA层和CRF层组成。

Bert预训练层:考虑到古籍文本多以省略句为主,本文结合Bert预训练模型的强大表征能力,通过Bert 模型中的双向Transformer编码器对输入的古籍文本进行训练。Bert利用其[Mark]掩码语言模型,通过自定义设置参数的语句预测,能够较为准确地捕获古籍文本的上下文语义信息,实现对输入字符语义信息的判断。Bert模型架构由输入层(Input) 、编码层(Transformer) 和输出层(Output) 组成。输入层用于构建古籍文本的单位词向量集合;编码层实现词向量、位置向量和段向量的信息嵌入,以首次获取字符的上下文语义特征;输出层则以单位词向量的形式输出结果。

为规避单次实验可能导致的误判,本文进行了10 次交叉实验,并将其结果作为评估模型性能的指标,以增强实验结果的说服力。对比实验选择了CRF、Bi-LSTM、Bi-LSTM-CRF、Bi-LSTM-MHA-CRF、CNNCRF和CNN等模型,具体对比结果见表2。

从表2中可以看出,在总体效果上,Bert-BiLSTMMHA-CRF古籍NER模型在精确率、召回率和F1值上分别达到了0.8777、0.880 0和0.8789,均实现了最佳性能。与传统CRF模型相比,精确率、召回率和F1值分别提高了0.347 8、0.537 8、0.463 1;与Bi-LSTM模型相比,提高了0.0159、0.1189、0.0706;与Bi-LSTM-CRF模型相比,提高了0.0364、0.0908、0.0645;与CNN模型相比,提高了0.093 0、0.1745、0.1359;与Bi-LSTM-MHACRF模型相比,提高了0.0332、0.0792、0.056 8;与CNN-CRF模型相比,提高了0.0326、0.1300、0.0842。

从不同实体的识别效果来看,无论是PER(人名)、LOC(地名)还是TIM(时间),本文所用的方法效果皆最佳。

对于PER 的识别,本文提出的Bert-BiLSTMMHA-CRF古籍NER模型精确率、召回率和F1值分别达到0.89、0.87和0.88。相较于CRF模型,这三个指标分别提升了0.45、0.71和0.62;相较于Bi-LSTM模型,分别提升了0.01、0.12和0.07;相较于Bi-LSTM-CRF 模型,分别提升了0.03、0.10 和0.07;相较于CNN 模型,分别提升了0.09、0.18和0.14;相较于CNN-CRF模型,分别提升了0.04、0.13 和0.09;相较于Bi-LSTMMHA-CRF模型,分别提升了0.03、0.09和0.06。

对于LOC实体的识别,本文方法的精确率、召回率和F1 值分别达到0.84、0.88 和0.86。相比CRF 模型,这些指标分别提升了0.29、0.25和0.28;相比Bi-LSTM 模型,分别提升了0.03、0.13 和0.08;相比Bi-LSTM-CRF模型,分别提升了0.05、0.10和0.07;相比CNN模型,分别提升了0.13、0.20和0.17;相比CNNCRF模型,分别提升了0.03、0.16 和0.10;相比Bi-LSTM-MHA-CRF模型,分别提升了0.05、0.08和0.07。

对于TIM实体,由于其在古籍文本中的出现较为简单,识别难度相对较低。包括本文模型在内的Bi-LSTM、Bi-LSTM-CRF、CNN、CNN-CRF 和Bi-LSTMMHA-CRF的F1值均达到0.9以上,本文方法的F1值达到0.94,在各模型中效果最佳。

实验结果表明,Bert预训练模型能够较好地实现古籍文本的表征,而Bi-LSTM模型有效捕获字符的上下文语义信息,MHA则通过筛选语义信息,提升了模型的整体准确性。

3 结论

本文提出的Bert-BiLSTM-MHA-CRF 古籍NER 框架在处理古籍文本中表现出细粒度和深层次的文本语义挖掘能力,有效提升了模型的整体准确性。本文提出的古籍NER模型在精确率、召回率和F1值上分别达到0.8777、0.8800和0.8789,较好地实现了对古籍文本的命名实体识别研究。其中,Bert预训练层较好地实现了古籍文本的表征,Bi-LSTM模型精确捕获了字符上下文的语义信息,MHA筛选了重要的语义信息,进一步提升了模型整体的准确性,为后续提高“数字人文”研究提供了高质量的语料支撑。

上一篇 点击页面呼出菜单 下一篇