生成式大语言模型在水利部门档案应用研究

作者: 古丽娜孜·卡地尔

生成式大语言模型在水利部门档案应用研究0

摘要:生成式大语言模型以ChatGPT为代表在科技文献、企业文件、法律文书等各领域的应用取得了显著的成就,也引起了众多研究者的关注。文章以水利档案的大语言模型应用为观察点,从适应性和应用场景两方面进行分析,就大语言模型在水利档案领域的应用可能存在的问题包括:数据安全性问题、专业性不强问题、信息准确性未知问题和技术成本问题等,提出对策及进行探讨,为大语言模型在该领域的拓展提供建议。

关键词:生成式模型;大语言模型;水利部门档案;档案分类;知识图谱

中图分类号:TP391 文献标识码:A

文章编号:1009-3044(2024)31-0015-03

开放科学(资源服务)标识码(OSID) :

0 引言

将人工智能应用于档案管理已成为国家对发展档案事业的明确要求,并写入《“十四五”全国档案事业发展规划》中。水利部门档案管理是国家国土规划、水利事业发展的基础性工作。同时水利部门档案存在数量多、类型广、存储格式复杂等特点,近年来随着信息化和数字化的发展,在水利部门档案管理中取得了一定的成效,但存在两个方面需要改进的方向:一是现有部门档案数据的利用效率不高;二是原有部门档案按照数字化要求重新整理需要大量的工作。

在人工智能领域,近年来以ChatGPT为代表的生成式大语言模型是重要的热点,在众多应用领域中表现出优异的性能[1]。生成式大语言模型通过预训练过程能够理解复杂文本和隐含的语义关系,针对上述两方面的问题,可以推动对水利部门档案数据的知识图谱的构建和新的服务领域的拓展。作为工程领域自然语言处理的典型应用,本文结合生成式大语言模型在水利部门档案中的应用场景,来分析存在的问题,并提出可行的对策方法,其在水利档案领域中的应用和研究具有理论和实践的双重意义。

1 生成式大语言模型概述

人工智能生成技术(Artificial Intelligence Gener⁃ated Content, AIGC)是目前最吸引人的前沿技术之一[2]。用户可以根据自己的个性化需求,使用生成式大语言模型自动创建需要的内容(如图片、文字、视频等)。随着人工智能算法和网络结构的迭代发展,AIGC取得了重大进展[3]。生成式对抗网络(GAN)、对比语言-图像预训练(CLIP)、扩散模型以及多模态生成是AIGC各个领域的核心技术,以便自动生成高质量的内容[4]。在2022年底,OpenAI发布了ChatGPT的公开版本,它完美地回应了任何用自然语言描述的人类请求,进一步吸引了全世界的关注[5-6]。

1.1 发展过程

ChatGPT集成了深度学习、无监督学习、指令微调、多任务学习、上下文学习和强化学习等多种技术,功能强大。ChatGPT 建立在最初的GPT(GenerativePretrained Transformer) 模型之上,该模型已从GPT-1 迭代更新为GPT-4。GPT-1于2018年开发,其最初目的致力于通过无监督学习训练基于一个Transformer 框架的生成式语言模型,并通过对下游任务进一步微调该预训练模型。2019 年开发的GPT-2,则相对GPT-1基础上主要引入多任务学习的思想,采用比GPT-1更多的网络参数和数据进行训练,使预训练的生成语言模型可以推广到大多数监督子任务中,而无须进一步微调。2020年为了进一步提高模型在少样本或零样本设置上的性能,GPT-3被推出。GPT-3将元学习和上下文学习相结合,使模型的泛化能力得到大幅提升,在各种下游任务上超过了大多数现有方法。2023年推出的GPT-4是一个接受图像和文本输入并发出文本输出的大型多模态模型,并且随着自监督学习和多模态大模型的不断发展,ChatGPT在各种专业和学术基准上已经表现出了接近人类水平的性能。

ChatGPT的zero-shot learning能力是重要的研究亮点,这一能力也被称为通用适配能力。这一能力使其在无需特定领域任务数据训练微调的情况下,就能够发现新的类别。这一特点使其灵活性和通用性在面对新的任务或数据时发挥作用。

1.2 工作原理

生成式大语言模型是基于Transformer框架的自然语言处理模型。以ChatGPT为例,其主要通过预训练和微调两种方式进行训练。在预训练方式中,模型通过自监督学习方式训练模型参数,尝试预测给定上下文的每一个词,从而学习到训练语言中的语法、语义、语序和上下文相关的知识。微调的目的是针对特定的任务对模型参数进行优化,使其能更加适应具体的场景。

2 生成式大语言模型在水利部门档案中的应用

2.1 适应性分析

水利部门档案根据其不同的数据及技术规范要求,具有多种不同的类型。这些类型在内容、格式、采集方式、使用领域等方面存在差异。这就需要生成式大语言模型的泛化能力。ChatGPT在对海量的数据的训练下,凭借其对泛化能力的设计,展现出对水利部门档案电子文档的优秀处理能力。

同时在通用的大语言模型之外,可以通过特定类型的水利部门档案电子文档对大语言模型进行微调,从而呈现垂直细分领域的大语言模型,更具有针对性。这就需要高质量和一定数量的领域数据,水利部门档案经过多年的积累和电子化过程,其专业性和规范性使其比其他类型电子文档更具有真实、全面、专业等优势。这些数据加入特定领域生成式大语言模型中作为训练语料,可有效补充该领域数据偏置的问题。

2.2 应用场景分析

1) 水利部门档案分类与摘要抽取。

在水利部门档案的编制过程中,需要对每份档案的目录与内容进行核对及分析,确定其分类,并对档案的内容进行摘要抽取,并做好记录。这一过程通过生成式大语言模型可以很好地理解档案文档的内容,从而对该档案进行准确的分类,并生成流畅的符合水利档案要求的摘要。

大语言模型经过海量各种类型文本的训练,生成了大规模的模型参数,这些参数针对文本中的各种显式和隐式的知识进行获取,能够对水利部门档案中各类信息进行精确的理解和分析,再输出按照任务所需要的各类型信息和摘要,能够显著改善档案管理过程中的效率和质量。

2) 水利部门档案的知识图谱构建。

水利部门档案工作的一个重要任务是构建每份档案之间的知识图谱,面临的挑战主要有:一是档案之间的关联及关联程度如何快速有效地获取;二是已经构建的知识图谱可能存在不全遗漏等问题。

通过大语言模型可以有效缓解或解决上述问题,协助构建更加完整准确的水利部门档案知识图谱。在水利部门档案检索任务中,通过大语言模型与知识图谱相互协作,可以先在大语言模型中解析查询要求,构建语义相似度检索目录,再通过知识图谱寻找最优的检索结果,从而精准查询用户需求,提升质量和效率;在知识图谱不全过程中,可以利用大语言模型对原有知识图谱进行知识的再发现,对原知识图谱中的错误、遗漏、增加等工作进行快速有效的反应[7]。通过智能化的处理极大提高知识图谱构建的科学性和可靠性,为水利部门档案管理智能化提供解决方案。

3) 水利部门档案智能问答系统。

水利部门档案的智能问答系统可以为社会公众需求提供有益的智力和技术支持,从而提升水利部门档案服务社会的能力。在具体的实施过程中存在的问题有:一是如何有效区分所需要回答服务的安全性和保密性方面的要求;二是如何有效准确、全面地理解所提问的问题,并有效检索知识库,作出及时响应;三是如何通过收集各种问题的需求,从而有效迭代提升现有知识库的系统性和结构化。

通过人工的方式无法有效和快速地做到深入分析水利部门档案各种敏感信息,而大语言模型能够结合现有自然语言处理的各种算法和技术,再对水利部门档案文档进行深度理解和分析,识别各种敏感信息,快速有效提升智能审核的效率和质量,保障安全。在智能问答系统中,大语言模型在与用户的几轮对话式互动中,了解用户提问的上下文语境,从而全面理解用户的需求,并根据每轮的反馈检索知识图谱,整理结果,及时给出流畅的询问结果,同时现有大语言模型能够理解文字、图像等信息,所以反馈的结果既包含了详尽的文字内容也可以图文并茂地展示对应的多模态信息,从而提高用户对问答系统的体验。大语言模型是开放的模型架构,能够通过自监督学习和主动学习的机制,将问答系统中收集到的各种问题进行联系,迭代挖掘水利部门档案中的各类信息,从而实现知识图谱和问答系统知识库的迭代更新,使现有的知识利用最大化。

3 应用中可能存在问题及对策

3.1 可能存在问题分析

1) 水利部门档案数据安全性问题。

数据安全是国家安全的重要组成部分,如何保障水利部门档案中各类涉及个人、企业、部门、国家的信息安全,敏感信息的保密是一项极其重要的问题。在水利部门档案通过生成式大语言模型进行开发过程中,需要将大数据量的水利部门档案文档上传至该模型所在的云端,这就存在敏感信息泄漏的风险。因此构建属于我国自主知识产权的生成式大语言模型,并在使用中严格遵守相应的法律法规,通过各种加密技术来全闭环地解决信息泄漏的风险挑战。需要考虑。现有的大语言模型与档案类相关的研究以小的模型为主,实际场景中的应用在安全性仍存在一定风险。

2) 大语言模型在水利部门档案应用中专业性不强问题。

以ChatGPT为代表的大语言模型是在海量的各类型数据集上训练得到的通用大语言模型,其能够在较为普通的非专业领域的数据上获得较好的效果。但在不同的下游任务中,其获得的结果会表现为综合性好但专业性的不足。水利部门档案数据相对于通用大语言模型训练的海量通用数据存在数据构建和用词等语言规范上的不同,从而会在语料数据的术语、语言组织、表现形式、专业知识内涵等方面存在显著差异。这些差异明显的数据直接应用于通用大语言模型,会因为缺乏对水利部门档案这一专业领域知识的缺乏而无法完全匹配,从而导致从理解到生成的偏差。这样的问题也会影响在智能问答系统中的表现,表现为非专业性。

3) 大语言模型获取水利部门档案中信息准确性未知的问题。

生成式大语言模型采用基于神经网络的深度学习框架,其结构由Transformer构成,结构复杂且参数众多,在这一框架中每层的特征无法准确解释,从而造成人们对系统在学习过程中得到的知识准确性未知,进而给生成式大语言模型在实际中的使用带来一定的风险挑战。这一特性会导致生成式大语言模型在一些特殊场合生成无法控制的创造性结果,这对相对固化的水利部门档案应用带来潜在风险。从而使生成的内容相对于水利部门档案真实性下降,造成一定的不可信度上升。

4) 大语言模型在水利部门档案应用中的技术成本问题。

生成式大语言模型需要强大的算力支持和一定的技术支持,在这一新技术应用于水利部门档案应用时,会带来技术成本问题。体现在:一是传统的水利部门档案管理人员需要在原有的档案技术标准和硬件基础之上,进一步接受新的技术培训,从而在水利部门档案的编辑管理中引入新的标准和内容。二是生成式大语言模型采用的基于神经网络的深度学习技术存在复杂度相对较高,对使用者能力要求也相应提高的问题,从而需要加大对管理者的培训投入,从而在普及阶段投入较多人力和物力成本。

3.2 对策分析

生成式大语言模型作为人工智能技术的一个重大突破,在各行业中的应用随着时间的推移会更加深入和广泛,在其应用于水利部门档案应用过程中,需要从以下两个方面进行有针对性的投入。

1) 技术角度。

综合前面提到的问题,在技术方面首先,提倡使用代码开源或具有独立自主知识产权的生成式大语言模型。首先,开源代码的系统其模型细节可知,即对数据处理的过程安全有保障,在部署到云平台等互联网时安全可信,可以从模型最底层就控制好用户的数据安全。其次,生成式大模型在水利部门档案应用中,需要对原始档案文档进行准确的语义理解,因此需要同时关注生成式大模型的两个能力即自然语言理解和自然语言生成。自然语言理解能力对于水利部门档案数据输入后对其内容全面、准确完整地理解,直接关系到自然语言生成时的推理能力,并对摘要质量、智能问答结果起到关键的作用。最后应该在使用通用的生成式大语言模型的基础上,构建专业性更强的水利部门档案大语言模型。通过在通用生成式大语言模型基础上,加入水利部门档案数据集进行训练,同时在模型内容引入水利部门档案先验知识,并进行有针对的优化,这样产生的生成式大模型在水利部门档案领域中具有更强和更高质量的结果输出。

上一篇 点击页面呼出菜单 下一篇