基于分布式计算技术的机器辅助翻译系统建设研究

作者: 李春凤

基于分布式计算技术的机器辅助翻译系统建设研究0

摘要:当前,各种技术下的机器辅助翻译系统存在翻译速度慢、翻译精确率不高等问题,严重影响了使用者的体验度。随着计算机技术的发展和进步,分布式计算技术已日趋成熟,而云计算的应用也大大提升了系统的运算能力,文章提出构建基于分布式计算技术的机器辅助翻译系统,以此来提高机器辅助翻译系统的性能。

关键词:分布式计算技术;机器辅助;翻译系统

中图分类号:TP311        文献标识码:A

文章编号:1009-3044(2022)31-0107-03

电子信息技术时代中,信息网络实现全面普及,智能手机、平板电脑、台式计算机等各种电子通信设备得以广泛运用,人们获取信息的方式日益便捷和多元化,人们的生活、工作、学习也因此更为便利。为了解决人们的各种使用需求,各类计算机软件系统也不断被开发出来,但系统在投入使用的过程中,或多或少都会存在一定的缺陷或者问题,影响了用户的体验度[1]。机器翻译系统是由英国工程师 Booth 和美国工程师Weaver最早提出并研究成功的语言翻译系统,该系统发展至今,形成了两种体系结构,即:基于语言规则的翻译体系和基于语言数据库的翻译体系[2]。这两种体系的最大优点是覆盖范围广和翻译能力超强,其缺点是无法有效适应开放性和灵活性的自然语言,致使翻译出的某些文本不够准确,不符合需要。有学者研究用语料库获得统计数据与语言实例来构建翻译系统,该系统的灵活性较高,但是由于这项技术运用的时间短,语料库的积累量不高,极大地限制了系统的使用功能[3]。基于分布式计算技术发展了十多年,已日趋成熟,能将庞大的工程数据分割成为多个小块,并分配给不同计算机分别计算,以此提高计算机的性能,通过构建基于分布式计算技术的机器辅助翻译系统,以期解决以往此类系统存在的瓶颈。

1 机器辅助翻译系统的软件设计

1.1 机器辅助翻译系统的框架

机器辅助翻译系统就是用知识推理并表示的过程,知识表示又分为两种:即内部知识表示和外部知识表示[4]。内部知识表示是知识在编程语言或者开发工具中的表现方式,外部知识表示是各种各样知识表示模式,并存储于知识库中,语言工作人员能够对规则库、词典等知识进行管理;翻译时生成翻译工作,实现对翻译句子语法、语义特征、词法等各种知识进行语义网络、特征结构、树形图描述[5]。本系统中的知识库设计了专业汉语词典与双语词典、语言模型、规则库、实例库,并将英汉双语实例和有关信息存储于实例库中。除了进行知识库的设计,还设置了用户设置、英汉互译、历史信息查询、词库信息查询和修改、增删、语音翻译模块这几项功能。机器辅助翻译系统功能模块如图1所示。

用户设置功能包括显示界面的调节,用户可以根据自己的喜好和需求调整显示界面的颜色、字体大小、显示跨度等类型。英汉互译模块包含在线翻译和离线翻译两种类型,联网状态下系统进行在线翻译,在断网状态下系统内部进行翻译[6]。历史信息查询能够对用户学习的知识进行时段的统计,帮助用户查询学习过的知识,同时软件也会根据用户的学习经验设置将来的学习计划表,有利于用户做出学习计划。发音模块是用户输入语种时模块发出像真人一样的语音,增强了用户的使用体验。

1.2 机器辅助翻译系统的工作流程

先是用户点击进入系统,等待系统开启,如果是首次运行程序会等待词库加载,非首次运行直接进入系统主界面,进入界面后界面上部显示出单词查询、词库管理、单词翻译和单词本生成这几个板块。例如单词查询模块支持在线查询和离线查询,单词本中支持生词添加、删除,词库管理支持词库的设置、添加和删除,单词翻译选择翻译的语言类型。界面下面便是每个板块下的主要内容界面,当点击进入翻译界面,机器辅助翻译系统就会开启翻译的工作流程。一是翻译前的准备工作,先是各种类型源文件开始格式过滤并进行句段的切分工作,其次对齐原文和已存在译文及构建记忆库,最后是为预翻译、编辑做准备,抽取原文中的翻译术语并构建术语库。二是翻译中实施过程,在翻译过程中利用记忆库、术语库两种辅助工具进行预翻译,以此落实真实翻译工作量和匹配效率,从而确定译文的一体性风格和正确的表述语言。三是翻译后处理过程,这是翻译完成的最后过程,主要任务是语料回收、桌面排版、项目管理等工作,以此确保译文满足用户需求。

1.3 机器辅助翻译系统的数据库设计

机器辅助翻译系统的数据库是整个系统开发的基础保障。为了满足机器辅助翻译系统的多样性功能,数据库中设计了双语语料库、系统记忆库、多语语料库、单语语料库、术语中英词典与程序所需数据。其中,语料库作为数据库中的重要类型之一,是在语言实际使用过程中真实再现的语言数据信息。单语语料库、双语语料库和多语语料库能够实现索引工具、文件查看、索引定位、词单和关键词单等功能,但是每个语料库又有各自的特点,单语语料库适合处理体量小的文件,进行语料检索、词频统计和信息筛选等任务。双语语料库和多语语料库适合处理体量大的文件,支持用户上传、创建和合并语料库等功能。针对机器辅助翻译系统的数据库的特点,数据库构建了系统创建项目文件、文件内容、项目数据资料和文件段落等表格。为了满足复杂查询的需要,同时提高执行程序速度,降低网络通信量,系统建立了有关的视图,能够清楚直观地显示各类信息,并且还确保了数据的安全性。

2 机器辅助翻译系统的硬件设计

机器辅助翻译系统的数据库中包括了双语语料、单语语料、术语中英词典等大量语言资料,这样会增加系统工作的复杂程度和信息的交互过程,影响了大规模语言数据进行翻译时的质量[7]。为了实现高质量高效的翻译,就务必要减小系统的信息交互和工作过程复杂程度,因此本文利用分布式计算机技术将文件以各种方式存储,针对各样的语言类别设计别样的翻译方式,对量小而简单的语言类型使用直接翻译,对量大而复杂多样的语言使用分布式翻译,减小了数据库的负担,有效提高了系统的翻译效率。基于分布式计算技术下的机器辅助翻译系统硬件结构如图2所示。

从图2可见,机器辅助翻译系统硬件结构为用户层、服务层、存储层和计算层。用户层主要是提供文件上传下载服务、内容查看、在线翻译、界面检索服务。服务层向用户提供翻译索引和语言检索的功能。计算层是利用云计算技术计算翻译信息,并采取合并、分离和均衡三种方式处理计算后的不同信息。存储层主要完成文本存储、目录存储与索引存储功能。

首先是存储设计。存储结构的设计是采用类似于分布式框架,各种各样的数据都能存储其中,并且能反复被读取,可以有效减小客户端与软件系统的交互,降低服务器的数据吞吐频次。为了有利于用户的查询,采用目录来分类存储数据,目录不但醒目,而且里面详尽地记录了被存储的数据名称。 其次是检索设计。检索工作是关键词和目录数据中索引匹配的过程,匹配成功则显示检索结果,反之则不显示检索结果。当前检索方式有关键词检索、多属性组合检索和IPC分类检索。由于被翻译的语言类型多种多样,因此通过增加多个词典以实现跨域语种检索。检索模块如图3所示。

从图3可知,检索模块引入了多个数据库,其作用就是能同时调动不同词典中的数据信息,确保检索的结果和关键词检索下的内容相匹配,同时获得多样性的检索结果,更有利于用户在极短时间内获得各种有关的信息资源,使翻译结果更加精准。

3 机器辅助翻译系统的测试

为了测试基于分布式计算技术的机器辅助翻译系统的实际使用效果,选用Matlab平台进行翻译仿真测试,通过测试来实现系统的应用。选择以下系统运行环境:操作系统是Windows 10,64位操作系统,压缩技术Gzip,内存8G,硬盘容量512G,工作模式MVC,CPU是 i5-12400,工作协议HTTP。通过测试翻译系统能正常翻译运行,翻译结果如图4所示。

为了测试翻译精准率,语料资料选择了Corpus of Contemporary American English(COCA) 和现代汉语平衡语料库,也有来自政府文献、法律、新闻等部门整理而来,文章通过从170万句汉英双语平行语料库中随机选取了1500条BLUE值,测试所得结果如表1和表2所示。

从表1和表2测试结果来看,基于分布式计算技术的机器辅助翻译系统有较高的翻译精准率。从系统使用来看,系统可以自动处理文本分句,点击原文句子链接可以展示出句子目标语言译文。假设译者对译文不满意,可以再次翻译和矫正来源翻译实例、统计、记忆库的译文,翻译完成后译者还可以导出目标语言文档,查看译文。

其次,为了测试翻译时间的快慢,分别使用基于语言数据库的机器翻译系统、基于语言规则的翻译系统和基于分布式计算机技术的机器翻译系统来翻译不同大小的文件,处理文件的大小分别为10 KB、1 MB、10MB,结果显示三种翻译系统在翻译10KB的文件时所用的时间一致,在翻译1MB的文件用时依次为:149s、118s、107s,而翻译10MB的文件用时依次为:346s、328s、319s。从翻译处理时间来看,各翻译系统都存在翻译用时随着翻译文件的增大而增多的现象,而基于分布式计算机技术的机器翻译系统在处理10 KB、1 MB、10MB翻译文件的用时最少。

4 结束语

基于分布式计算技术的机器辅助翻译系统是为解决传统翻译系统问题而提出的一种新的机器辅助翻译系统,该系统弥补了传统系统的缺点,在一定程度上提高了翻译的精确度和准确率。该系统虽有所进步,但依然存在不少现实问题亟待优化:词典量虽有所增大,但规范度不足,因此需要提高一些被选取词典的质量;系统的相似度计算机研究不足,各个语种没有深层次探究。要解决这些问题需要花费一定的时间来积累、纠正,但是并不影响系统的使用,较之传统的机器辅助翻译系统已经有了明显的进步。

参考文献:

[1] 李明东,房爱东,卢彪,等.基于机器学习的硬件数据分析系统的实现[J].通化师范学院学报,2019,40(8):6-9.

[2] 王志.基于云计算和大数据的可视化环保设备监管系统研究[J].山东工业技术,2017(12):165.

[3] 刘俊鹏,宋鼎新,张一鸣,等.多种数据泛化策略融合的神经机器翻译系统[J].江西师范大学学报(自然科学版),2020,44(1):39-45.

[4] 范敏.计算机辅助翻译研究的语篇观[J].复旦外国语言文学论丛,2018(1):154-161.

[5] 高梦璐.多策略融合的机器翻译系统研究[J].校园英语,2018(15):239-240.

[6] 王明松.基于云计算的离岸船舶信息管理系统优化设计[J].舰船科学技术,2018,40(2):172-174.

[7] 林寒.基于多语言交互的英语翻译在线辅助系统设计[J].现代电子技术,2019,42(6):22-25.

【通联编辑:代影】

收稿日期:2022-08-02

作者简介:李春凤(1979—) ,女,陕西彬州人,硕士,主要研究方向为翻译系统构建。

上一篇 点击页面呼出菜单 下一篇