基于对比损失的低资源语言情感分类
作者: 杜广进 拥措
摘要:随着自然语言处理技术的快速发展,跨语言预训练模型为低资源语言处理提供了新的研究途径。然而,现有模型在马来语、豪萨语等低资源语言上的性能仍有待提升,主要受限于训练数据的匮乏和质量不均。特别是在情感分类任务中,传统的全参数微调方法难以充分利用有限训练集中标签之间的关系,导致模型在不同类别上的性能差异显著。针对这一挑战,该文提出了一种基于对比损失的低资源语言情感分类方法(CL-LRSC),通过在多语言预训练模型的微调过程中引入对比损失,优化文本在向量空间的表示。该方法在保持传统交叉熵损失的基础上,通过对比学习使相同情感类别的文本表示相互靠近,不同情感类别的文本表示相互远离。在阿姆哈拉语、印尼语和豪萨语三种低资源语言的情感分类实验中,该方法显著提升了分类性能。实验结果表明,在XLM-R 模型上,印尼语和豪萨语的F1 分数分别从89.19% 提升至91.96% 和从66.00% 提升至71.48%。研究成果为解决低资源语言的情感分类问题提供了新的思路。
关键词:情感分类;低资源语言;对比损失;多语言预训练模型
中图分类号:TP3 文献标识码:A
文章编号:1009-3044(2025)06-0009-03开放科学(资源服务)标识码(OSID):
0 引言
自然语言处理(Natural Language Processing, NLP)技术在近年来发展迅速,但在低资源语言(Low-Re⁃source Languages)领域的应用仍然存在显著困难。随着多语言预训练语言模型的应用逐渐普及,为低资源语言提供了新的研究路径和技术支持。例如,mBERT 和XLM-R等多语言模型在低资源语言上的表现较为优异,通过利用跨语言迁移学习可以实现多语言间的知识共享。然而,现有的模型仍然难以直接应用于马来语、豪萨语等低资源语言,因为这些模型在训练过程中往往缺乏足够的语言数据支持,导致语言理解的准确性不足。与高资源语言相比,大多数低资源语言的语料库规模明显较小且质量较低。这种训练数据的不平衡通常会导致模型性能不均衡,即模型在多数类别上表现良好,但在少数类别上表现不佳。传统的全参数微调方法通常无法解决这个问题,因为它们无法充分利用有限的训练集标签之间的关系。然而,优化所有可用数据,特别是标签之间的关系,对于极低资源语言情感分类(Low-Resource Sentiment Classifi⁃cation,LRSC)来说,对提高模型性能至关重要。为应对上述挑战,本文提出了一种基于对比损失的低资源语言情感分类方法(Contrastive Loss-based Low-Re⁃source Sentiment Classification,CL-LRSC)。通过引入对比损失,确保模型在微调过程中将相同标签的文本向量空间拉近,同时将不同标签的文本向量空间推远。大量针对各种低资源语言的实验表明了该方法在微调多语言预训练模型方面的可靠性。
1 相关工作
在低资源语言的情感分类任务中,研究者面临数据稀缺和模型性能不足的双重挑战。随着深度学习技术的迅速发展,越来越多的研究者提出了多种有效的解决方案。情感分类作为自然语言处理中的核心任务,已在多种语言环境下得到广泛应用。然而,对于低资源语言,特别是在缺乏大规模标注数据的情况下,传统情感分类方法往往难以取得理想效果。为克服数据稀缺所带来的挑战,研究者们探索了多种技术途径,以提升低资源语言情感分类的性能。
迁移学习和跨语言学习是解决低资源问题的常见方法之一。通过借助高资源语言的预训练模型,研究者能够有效提升低资源语言在情感分类任务中的表现[1-2]。特别是多语言预训练模型,如BERT、mBERT和XLM-R,在多个跨语言任务中展现了强大的能力。此外,基于Transformer架构的多语言模型通过共享词汇表和语料库,进一步提升了低资源语言的情感分类能力。例如,mBART模型在跨语言情感分类任务中的显著效果验证了其在低资源语言上的有效性。杨秀璋等人[3]提出了一种融合BERT预训练和BiLSTM的场景迁移情感分析方法。
除了迁移学习,近年来自监督学习和无监督学习方法也被广泛应用于低资源情感分类任务。自监督学习方法通过从大量未标注数据中学习潜在的语言结构,从而提升模型的表现。Sazzed[4]提出的自标签预训练任务显著提高了低资源语言的情感分类能力。该方法通过有效利用少量标注数据,缓解了数据不足带来的性能瓶颈。此外,Sazzed进一步探讨了自监督学习与跨语言知识迁移的结合,以进一步优化情感分类的效果。
在数据稀缺的背景下,数据增强技术也被广泛采用[5]。特别是基于生成模型的增强方法,通过生成与目标任务相关的文本,弥补了训练数据的不足[6]。例如,BART和T5等生成式模型在数据增强中的应用显著增加了训练样本的多样性,从而提升了模型的泛化能力。近年来,生成式技术在低资源语言情感分类任务中展现出巨大潜力,例如引入更为复杂的文本生成方法进一步增强了生成文本与目标任务之间的相关性。
2基于对比损失的低资源语言情感分类
为了将相似的手写数字图像映射到特征空间中的相邻区域,Hadsell等人[7]提出了通过学习不变映射(Dimensionality Reduction by Learning an InvariantMapping,DrLIM)的方法。该方法利用对比损失训练基础卷积神经网络,并在MNIST数据集的子集上进行评估。DrLIM主要通过对比损失在图像识别任务中优化模型,使得在嵌入空间中,相似的图像被拉近,不同的图像则被推远。因此,受DrLIM启发,本文在LRSC任务中利用对比损失来进一步提高模型的判别能力。
其中,α是一个缩放因子,用于控制对比损失和交叉熵损失的相对重要性。通过调整α,可以确保在训练过程中,交叉熵损失和对比损失对模型性能的影响平衡。实验结果表明,当α=1时,模型能够获得最佳的性能。
值得注意的是,尽管在此提出的对比损失方法是为了提升情感分类任务的性能,但其理念同样适用于其他文本分析任务,尤其是在多语言或跨语言的情感分析中,能够进一步强化不同语言间的共享语义空间。
3实验
首先,介绍实验中使用的训练语料与实验所用参数。其次,运用CL-LRSC评估三种资源匮乏的语言:阿姆哈拉语(am)、印尼语(id)和豪萨语(ha)在情感三分类的性能并分析其具体表现。为了模拟所有低资源语言都会面临的现状——可获取的高质量语料匮乏,对于每种语言,本文从现有开源数据集的原始训练集中抽样1500个实例。此外,确保每个采样训练集中的标签分布不均衡,以严格评估本文方法在这些不同语言环境中的表现。
3.1 训练语料与超参数设置
本文中印尼语数据集(id)来源于SMSA数据集,而阿姆哈拉语(am)和豪萨语(ha)数据集来源于AfriS⁃enti-SemEval数据集。鉴于专注于在资源匮乏和语料库有限的情况下评估模型微调方法,我们将每种语言的训练集大小限制为1500个实例。
为了进行实验,我们使用表1中指定的超参数配置了模型,并利用Hugging Face模型中心的相应检查点初始化编码器模型XLM-R 和CINO。为了在每个时期结束时在验证集上评估模型的性能,本文利用AdamW优化器优化模型参数。
此外,对于低资源语言中情绪分析的性能评估,选择准确率(ACC)和宏平均F1 分数(F1)作为主要指标。鉴于数据集的不平衡性质,某些类别的样本比其他类别少,单凭准确率可能会忽略少数类别的性能,从而导致评估有偏差且不准确。因此,我们还报告了宏平均F1分数作为补充指标。
3.2 实验分析
本文评估了CL-LRSC在CINO和XLM-R模型上针对低资源语言的可行性和可靠性。表2总结了阿姆哈拉语、印尼语和豪萨语的性能。CL-LRSC 持续提高F1分数,尤其针对CINO。豪萨语的F1分数显著提高,从64.95%上升到69.66%。XLM-R也呈现出类似的趋势,印尼语和豪萨语的F1 分数分别从89.19%上升到91.96%和从66.00%上升到71.48%。
总体而言,实验通过策略性地限制训练集大小创建了一个现实且具有挑战性的环境,反映了许多资源不足的语言所面临的限制。这些实验结果为我们方法的稳健性和适应性提供了宝贵的见解,有助于多语言自然语言处理的进步。
4 结束语
本文提出了一种基于对比损失的低资源语言的情感分类方法。通过引入对比损失,我们确保模型在微调过程中将相同标签的文本向量空间拉近,同时将不同标签的文本向量空间拉远。值得注意的是,CLLRSC在XLM-R模型上,印尼语和豪萨语的F1分数分别从89.19% 提升至91.96% 和从66.00% 提升至71.48%。研究成果为解决低资源语言的情感分类问题提供了新的思路。未来,可从以下几个方面继续深入研究:探索更多类型的低资源语言,进一步验证方法的普适性;引入外部知识、少样本学习等技术,减少对大规模标注数据的依赖;持续优化对比学习策略,提升情感特征表示能力;拓展情感分析下游任务,实现不同任务间的相互促进。相信通过理论与实践的结合,CL-LRSC方法可以为推动多语言情感计算的发展贡献更多的力量。