基于Python的日语农业科技术语构词特征研究
作者: 李东坡 米洁 孙雯莉摘要:准确把握日语农业科技术语的构词特征有利于吸收日本先进成果,增强中国农业科技进步贡献率。利用Python编程语言构建了包括7404词的语料库并设定判断函数划分不同构词类别,引入pandas库的卡方检验考察术语构词类型与其领域间交叉分布的显著性,调用matplotlib库直观反映新术语构词特点,并利用停用词、日语分词库、自然语言处理库分析了语素的分布频数。研究表明,日语农业科技术语中汉语比重下降、构词更加多样化,利用Python构建和开发高质量语料库具有广阔前景。
关键词:农业;科技术语;语料库;构词;Python
中图分类号:TP274;H083 文献标识码:A
文章编号:1009-3044(2024)24-0135-04
开放科学(资源服务)标识码(OSID)
0 引言
党的二十大报告强调加快建设农业科技强国,到2035年基本实现农业现代化,迫切需要翻译引进国外农业科技经验。日本长期大力支持引进欧美和研发应用先进农业科技,在农业机械、农作物培育、智慧农业等领域位居世界前列。全面准确把握这些领域动态,能够为中国推动农业现代化提供重要支持。随着技术进步,日语农业科技术语数量巨大、种类繁多,出现的新词体现农业技术前沿动态,需要多学科背景才能准确理解其内涵。这些新词很多尚未收录到工具书中,影响了国际学术交流特别是文献汉译及借鉴推广。日语农业科技用语结合使用汉字、假名、英文字母、罗马字等多种文字,存在多词同义、同词异形、部分汉字与中文语义差异较大等现象。例如,“蛋白质”在日语中有「蛋白質」「蛋白」「タンパク」「たんぱく質」「たん白質」「ポロテイン」等词形。为统一农业术语以便于农业信息系统之间的沟通交流,日本借助互联网已发布多个电子版语料库。2006年,农研机构(NARO)编集发行《农业技术事典》,合并同义异形词后共收录作物栽培、土壤肥料、信息及经营、环境及农业发展等10个专业领域的9 587个核心词汇[1];2014年,内阁府和IT综合战略本部资助设立通用农业词库(CAVOC),已收录567个基础术语[2]。
日本学界探索了构筑农业科技术语库的途径或工具,包括开发专业平台将术语统一格式,便于识别与关联或合并异形词、同义词,并通过网络应用程序接口(WebAPI)提供便捷的在线检索服务[3];构建农业生产作业和作物的知识图谱及领域知识图,讨论构造过程中的关键技术[4]。多位学者关注日语农业科技术语语料库存在的问题及对策,有的学者研究了日文版维基百科中农业农村信息化术语集的贡献和特点,提出了增强其安全性和便捷性的建议[5];有的课题组从数据共享和国际交流角度,论述了完善农业作业和农作物标准化术语体系的意义及途径[6]。中国学者从翻译学角度研究分析了适应日语农业科技术语语素、词汇系统的构成特点,对等化汉译的途径及价值[7-8]。对日语农业科技术语构词特点的研究较少,造成农业科技新术语的构词特征未被准确把握,影响及时推介到中国科研和生产中。作为一种跨平台、开源、语法简洁、功能强大的高级编程语言,Python在语料库开发、分词、停用词设定和词频统计等方面处理自然语言的功能与价值正得到学界认可[9-10]。
综合当前文献,日本学者的研究偏向于借助信息技术推进日语农业科技术语的便捷规范应用,涉及构词特征的文献较少。中国学者对日语农业科技术语库构词的理论和实践研究较为匮乏,未能从术语构词特征出发进行深入拓展。为弥补这些缺憾,本文参考日本农研机构《农业技术事典》等术语库及专业文献,借助Python语言创建日语农业科技语料库,结合作者在日本开展智慧农业等系列课题积累的研究经验,总结科技术语构词规则及趋势,助力准确把握日本农业科技动向、增强中国农业科技保障能力。
1 语料库创建及主要构成类型
1.1 日语农业科技术语语料库的创建
进入信息技术高度发达时代,建立语料库及检索系统、加快数字化已经成为各类语言研究的普遍选择。当前语言学文献一般将语料库定义为大规模电子文本数据库,主要特征包括构建大样本、引入数理统计及计算机手段量化充分描述共通性的语用趋势,即所谓“量、器、聚、用”[11],保障语料的代表性、权威性和系统性[9]。根据这些基本原则,本文将在线检索电子资源与手工收集纸质文献相结合,构筑了包括7404词的日语农业科技术语语料库。首先通过在线检索从《农业技术事典》收集6 833词、从日本通用农业词库收集400词,从多部日语农学专著[12-15]中收集171词。采用语料库处理较为通行的做法,术语首先录入和保存为xlsx格式文件,由Python读取并分析词形后将结果回传保存,实现了提取术语文件形式的最佳选择[9]。
1.2 日语农业科技术语构词类型划分
发挥Python面向对象编程的优势,封装划分术语构词类型的判断函数。遍历单个术语中各个字符,根据其Unicode编码所属范围用“a”“b”或“c”分别表示“字母”“假名”和“汉字”,然后放入设立的集合中去除重复代码。遍历单个术语后将类型代码排序并依次还原其含义,形成“假名+汉字”等整个术语的构词类型,作为函数的返回值输出。运行主程序时,首先导入处理和分析数据的pandas库,从xlsx格式文件导入语料库数据。通过运行代码遍历单个日语术语,调用判断函数确定构词类型存入相应列表。取完语料库中所有术语后,借助pandas库的数据框功能将列表转化为语料库的一列,从而实现对库内所有日语术语的词形分类(图1)。
词形分类确定后,本文语料库收录的日语农业科技术语包括表1所示的7种构词类型。表中基于pandas库的列联分析显示汉字共3 978字,占库内术语总量的53.7%,其他类型按照词数从多到少依次是假名、假名+汉字、字母、字母+汉字、字母+假名、字母+假名+汉字。在专业领域方面,参照《农业技术事典》的分类标准将术语划分为10个专业领域并对库内术语逐个归类,个别存在领域交叉的术语按照就近原则确定领域归属。各个领域中作物栽培术语最多,以2 902词占库内术语总量的39.2%;其次是畜产,以1 612词占库内术语总量的21.8%。其他领域词数从多到少依次是土壤肥料、病害杂草、信息及经营、气象、设备及作业、育种及生物技术、食品;环境及农业发展领域术语最少,以45词仅占库内术语总量的0.6%。可见,语料库内术语在构词和专业性上都具有较为广泛的代表性。按照汉字、假名、英文字母三种文字形式的组合形式,可在上述7类日语农业科技术语基础上进一步细分其构词特征。
1)汉字词汇。具体又分为两大类。一是与中文繁体、简体或异体汉字的词形词义基本相同。例如「有機農業」(有机农业)中使用了3个繁体汉字,「高圧殺菌」、「牛海綿状脳症」中出现了异体字「圧」、「脳」和繁体字「殺」、「綿」,「口蹄疫」则与中文简体汉字完全相同。另一种情况是日语与中文词汇的字序颠倒,例如「交雑」与“杂交”、「花成」与“成花”。有的词汇存在同义简略形式。例如「色彩選別機」也作「色選機」,表示利用可见光、近红外光反射光及透射光的差异识别不良谷物颗粒及异物的机器。二是与中文汉字词形或词义差异较大。例如,「生育診断」指对作物生长情况的诊断,其中「生育」与中文侧重于“孕育并分娩胎儿或繁殖后代”的词义相去甚远;「苗代」(苗床)、「篩部」(韧皮部)等与现代汉语对应用字差异很大,普通中国读者难以直接理解其含义。本文语料库中,字形或词义与中文存在较大差异的汉字词汇占7.7%。
2)假名词汇。首先是从英文转换过来的词汇,例如「アミロース」(直链淀粉)、「クローン」(克隆)、「コンバイン」(联合收购机)分别来自英文词汇“amylose”“clone”“combine”。存在同一假名词汇对应不同英文单词和含义的情况。例如,畜产领域「ルーメン」的英文是“rumen”,意为反刍动物的第一个胃(瘤胃),在表示光流量单位“流明”时则对应“lumen”。其次,有些词汇起源于欧美其他语言,例如「ゲノム」(基因组)源于德语“genom”。有些农作物新品种则使用表示日语汉字读音的“振假名”命名,例如「コシヒカリ」是日本播种面积最大的水稻品种“越光”。
3)假名+汉字词汇。有些词的顺序就是“先汉字后假名”,例如「光センサー」(光学遥感器)就是由汉字「光」和假名「センサー」(sensor)组合而成。有些词汇的构词顺序则是“先假名后汉字”,例如「セルトレイは種」(穴盘育苗)是英文“cell tray”和汉字「播種」的结合,其中「播」字使用了假名「は」。有些词汇使用了提示辨别汉字读音的“送假名”,例如「枝変わり」(枝变异,即植物体部分枝条表现出异常遗传性状)。此类词汇中还包括在汉字和假名基础上构建的简略词,例如「搾ロボ」是「搾乳ロボット」(挤奶机器人)的略称。有些词汇也有变形为其他类型的写法,例如「浮き皮」(果肉与果皮之间出现空隙的现象)也可以去掉中间的假名写成全汉字的「浮皮」,「無人ヘリコプタ」(无人直升机)可略写为「無人ヘリ」,「ロボット技術」(机器人技术)也写成平假名「ロボティクス」或英文缩写「RT」。
4)字母词汇。多以缩写表示农业信息、新型生产养殖技术。例如,「IPM」的全拼是“Integrated pest management”(有害生物综合治理);「TMR」是“Total mixed ration”(全混合日粮)的缩写,指一种混合矿物质、维生素等提供均衡营养的饲料。有些字母缩写可以根据其读音写成假名,如「FOAES」(地下水位控制系统)也作「フォアス」。
5)字母+汉字词汇。多是“先字母后汉字”,如「MA貯蔵」(自发气调储藏)中使用了“Modified atmosphere”的缩写,「F1品種」表示不同亲本生物杂交产生的第1个子代。少量词汇是“先汉字后字母”(如「内生GA」,内源性赤霉素)或字母嵌在汉字中间(如「不耕起V溝直播機」,免耕V沟直播机)。有些字母表示汉字的罗马字读音。例如,「WAGRI」是农林水产省牵头建造、2019年投入运行的农业数据协作平台,其中「WA」是「和」「輪」或「環」对应假名「わ」的读音,「AGRI」是“agriculture”的略写,寓意该平台闭环连接各类数据和服务、是驱动推动农业和谐发展的车轮。
6)字母+假名词汇。主要以“先字母后假名”的形式表示畜产、信息及经营等领域技术,例如「DNAマーカー」(DNA标记)、「ICチップ」(集成电路)、「Webマーケティング」(网络营销)。也有个别词汇是“先假名后字母”,如「イネWCS」(稻谷发酵粗饲料)。
7)字母+假名+汉字词汇。本文语料库中此类术语最少,主要涉及畜产、育种及生物技术、农业经营管理等领域,例如「BSEサーベイランス事業」(疯牛病筛查工程)、「キラーT細胞」(杀伤T细胞)、「e-むらづくり計画」(e-乡村计划)等。
2 日语农业科技术语的构词特点及动向
2.1 日语农业科技术语构词的主要特点
1)不同领域与构词类型间术语交叉分布的显著性检验。从Scipy库中调用chi2_contingency函数,结果显示P值小于0.01说明应当舍弃原假设,即表1中专业领域与类型间术语的交叉分布具有统计学上的显著意义。利用pandas库的列联分析模块,从纵横两个维度分别考查各类型术语在专业领域间的分布、各专业领域内部不同构词类型的构成。整体来看,技术内生性强、具有地域特色的领域较多使用汉字和假名,而新型技术密集的领域则多用字母。作物栽培领域汉字、假名词汇的比重最大,字母术语在信息及经营领域的比重仅次于畜产;字母术语占比最高的是信息及经营,病害杂草等,汉字、假名术语占比最高的分别是气象、病虫杂草。
2)汉字和假名是农业科技术语的基本构成要素。在本语料库收录的7类术语中,汉字词汇占53.7%,加上其与假名、字母的多种组合,包含汉字的词汇占比达75.4%,即完全不包含汉字的词汇低于25%。假名词汇占20.9%,再加上其与汉字、字母的多种组合,包含假名的词汇共占41.7%;包括与汉字、假名的组合,包含字母的词汇合计仅占5.1%。这样的构词结构为中文母语者了解日本农业科技动向提供了便利。
3)新型科技词汇中同一词义的假名、英文字母与汉字多词形并存现象值得关注。例如「ドローン」、「AUV」(Unmanned aerial vehicle)和「無人航空機」都表示用于农田勘测、喷洒农药、导航等的无人机;「WCS」是“Whole crop silage”的缩写,与「ホールクロップサイレージ」、「発酵粗飼料」都表示作物全株饲料。需要开发功能完备的语料库,以减少给检索引擎和推广应用带来的困扰。