基于跨模态注意力机制的多模态情感分析方法探究

基于跨模态注意力机制的多模态情感分析方法探究0

摘要：多模态情感分析旨在融合文本、视觉和听觉等模态的信息，以提升情感识别的准确性。现有工作常忽视模态数据元素间存在的长距离依赖关系，未能充分融合来自不同模态的情感信息。为此，文章提出一种基于跨模态注意力机制的情感分析模型。该模型无须对多模态序列进行预对齐处理，能够在整个时间尺度范围内寻找各模态元素间的最佳映射关系，从而充分融合多模态数据。相较于基线模型，该模型在CMU-MOSI数据集上取得了1.0%至2.2%的性能提升，优于现有模型，有效验证了该方法在情感分析任务中的优越性。

关键词：自然语言处理；多模态情感分析；多模态融合；跨模态注意力机制；长距离依赖关系

中图分类号：TP391 文献标识码：A

文章编号：1009-3044（2025）01-0001-04 开放科学（资源服务）标识码（OSID）：

0 引言

伴随着在线视频网站的兴起，包含文本、视觉及听觉模态的多模态数据呈现出爆发式增长[1]。挖掘和理解多模态数据中蕴含的情感元素[2]，即多模态情感分析（Multimodal Sentiment Analysis，MSA）已成为一个热门的研究方向[3]。多模态情感分析通过整合来自不同模态的信息，利用各个模态之间存在的协同性和互补性，提高模型在复杂场景下识别情感的鲁棒性。然而，现有方法往往忽视模态间存在的长距离依赖关系，未能充分融合来自不同模态的情感信息，从而影响模型的预测精度。此外，传统方法通常需要对多模态数据进行时间维度上的手动对齐[4]，且在设计融合方案时未考虑到多模态数据之间的互补性。

为解决上述多模态情感分析领域存在的问题，本文提出基于跨模态注意力机制的多模态情感分析模型（Multimodal Sentiment Analysis Based on CrossmodalityAttention Mechanism，MCA）。该模型利用跨模态注意力机制，使其能够有效关注到模态自身内部以及其他模态所在位置的输入信息，赋予多模态序列不同位置相应的注意力权重系数，从而更好地捕捉潜在的多模态长距离依赖关系，对多模态信息进行充分融合。由于各个模态的采样率不同，先前的工作需要手动地将各个模态的数据在时间维度上做对齐处理，以寻找各个模态元素之间的对应关系。这种手动的对齐方式不仅耗时耗力，而且也无法获取跨模态情感元素之间的最佳映射关系。利用跨模态注意力机制可以有效地建立各个模态元素之间的最佳映射，挖掘和利用模态间存在的长距离依赖关系。此外，先前的工作在设计多模态融合方案时，模态输入的数量是受限的，即一次只考虑对两个模态信息融合，当模态数量超过两个时，需要执行多次融合才能实现对多个模态信息的融合。这种融合设计方案不仅会使模型保留大量冗余参数，增加计算的复杂性，而且还将多个模态之间的交互割裂开来，未能充分挖掘利用模态之间的互补性，导致模型的效率和性能下降[5]。为此，本文在执行多模态融合的过程中，将考虑到所有输入的模态信息，充分考虑模态信息之间的互补性，理解并挖掘多模态数据背后所蕴含的情感信息。本文在公开的多模态情感分析数据集CMU-MOSI[6]上进行实验，将模型的表现与所选取具有代表性的基线在分类和回归两项任务的四个评价指标上进行对比，性能提升范围从1% 到2.2%，优于现有模型。具体的贡献总结如下：

1）提出一种新的跨模态注意力机制，用于捕获模态自身以及跨模态元素之间存在的长距离依赖关系，实现对多模态数据的有效融合。

2）在未对齐的多模态序列数据上完成情感分析任务，无须手动将各个模态在时间维度上强制对齐，从而节省人力物力和时间成本。

3）在对多模态数据进行融合时，考虑到所有输入的模态信息，使模态之间的互补性得到充分利用和挖掘。

1 模型概述

本小节首先阐述多模态情感分析任务的定义，然后详细介绍本文所提出的基于跨模态注意力机制的多模态情感分析模型，如图1所示。该模型主要包括三个部分：模态特征提取、多模态融合和情感分类器。模态特征提取用于将原始输入的数据转换为计算机可处理的数字序列向量；多模态融合旨在整合汇聚来自多个模态数据中与识别情感有关的信息，从而得到一个紧凑的多模态表示；情感分类器将获取到的多模态表示进行识别预测，从而完成情感分析任务。

1.1 任务定义

多模态情感分析任务通过分析从数据集中获得的多个模态序列数据来精确判断其背后的情感强度或者为其分配对应的情感标签。基于跨模态注意力机制多模态情感分析模型输入的是未对齐的多模态序列数据Xm ∈ RTm × dm ，其中m ∈ { t，v，a }，Tm 和dm 分别代表模态m 的序列长度（例如，文本模态中单词的数量，视觉模态视频帧的数量），以及模态特征向量维度。模型最终输出的ŷ ∈ R 作为最终预测结果，用于完成下游的多模态情感分析任务。

1.2 模态特征提取

模态特征提取的作用是将原始模态信号经过特征提取后转化成计算机可以处理的数字向量。对于文本模态，本文使用基于Transformers架构的预训练模型（Bert） [7]提取文本模态的特征，将原始文本模态中的单词转换为词向量表示。在模型输入文本模态的首部和尾部分别添加[ cls ]和[ sep ]两个标签得到预训练模型的输入，s = { w0，w1，w2，...，wn，wn + 1 }。将s 送入预训练模型，获得文本模态的词向量表示。Bert有多个不同版本，本文选取的是在多模态情感分析领域主流的版本Bert-base-uncased，该预训练模型是由12个编码器层组成。具体计算公式描述如下：

Ft = Bert（s，θBerts ） ∈ RTt × dt （1）

式中：Tt代表文本模态的序列长度，dt代表特征向量维度，θBerts 代表Bert模型的参数，s 代表模型输入原始的文本模态信息。

对于视觉和听觉模态信息，遵循前人的工作，分别使用Facet和COVAREP工具从原始的数据信号提取初级特征向量表示（无可训练的参数）。然后使用单向的长短期记忆神经网络[8]捕捉模态的时间特征。具体计算公式描述如下：

Fv = sLSTM （Xv ; θLSTMv ） ∈ RTv × dv （2）

Fa = sLSTM （Xa ; θLSTMa ） ∈ RTa × da （3）

式中：Tv 和Ta 分别代表视觉和听觉模态的时间序列长度，dv 和da 分别代表视觉和听觉模态的特征维度，θLSTM 代表长短期记忆神经网络参数，Xv 和Xa 分别代表模型输入的视觉和听觉模态。

1.3 多模态融合

多模态融合模块是由跨模态注意力机制、层标准化、残差以及平均化组成（如图2所示），其主要作用是融合来自不同模态的信息，送入下游的情感分类器模块。首先将提取到的文本、视觉以及听觉模态的特征信息拼接在一起得到一个简单的多模态联合表示Xm，送入多模态融合模块。在多模态融合模块中，利用跨模态注意力机制对每个模态元素进行计算模态自身内部以及其他模态元素之间的注意力系数，对多模态数据中存在的长距离依赖关系进行建模。跨模态注意力机制操作如下：定义查询矩阵Qm = XmWQm，键矩阵Km = XmWKm 以及值矩阵Vm = XmWVm。其中，WQm，WKm以及WVm 分别是神经网络中的权重矩阵。计算公式如下：

式中：根号下dk 代表缩放系数，T 代表转置操作，soft max函数代表归一化操作，Xf 表示跨模态注意力机制输出。

然后对跨模态注意力机制模块输出的Xf 在特征维度上进行层标准化操作，目的是加快模型收敛速度以及提升模型的泛化能力。残差网络的使用是为了避免在训练模型的过程中，出现梯度消失或爆炸问题。最后将高维度的多模态表示进行降维操作，提取全局特征，用于下个阶段对多模态情感进行预测任务。具体计算公式描述如下：

X'm= Mean（LayerNorm（X ） f + Xm ）（5）

式中：Xm 代表简单多模态表示，Xf 代表跨模态注意力机制输出，LayerNorm（⋅）代表层标准化操作，Mean（⋅）代表对多模态表示降维操作，X'm代表多模态融合模块输出。

1.4 情感分类器

情感分类器模块接收多模态融合模块输出的多模态表示，实现对情感结果的最终预测功能。该模块主要由多个前馈神经网络和激活函数组成。具体计算公式简述如下：

式中：ŷ代表输出的情感预测结果，f （⋅）代表激活函数，Wm 代表可学习的权重矩阵，X'm 代表多模态融合模块输出的多模态表示信息，bm 代表偏置。训练期间，多个批次的多模态原始数据送入模型后，经过前向传播输出对情感的预测，然后利用反向传播函数更新模型参数，使得模型预测情感标签更加贴近真实值，本文选取的损失函数是L1Loss，计算模型值和样本值之间差的平均绝对值。具体计算公式描述如下：

式中：ŷi 代表模型输出第i 个样本的预测值，yi 代表第i 个样本人工标注真实情感标签，n 代表样本总容量。

2 实验设置

本小节首先介绍多模态情感分析领域受欢迎的数据集CMU-MOSI，实验设置以及模型的评价指标，紧接着对实验结果进行详细分析，最后探索模态数量对多模态情感分析模型性能的影响。

2.1 数据集介绍

CMU-MOSI是多模态情感分析研究领域常用的数据集，包含文本、视觉及听觉模态信息。该数据集由来自YouTube平台的93个视频组成，每个视频持续时间为2至5分钟。经过拆分后得到2 199个视频片段，每个视频片段经由人工标注其情感值，情感强度范围为-3至+3，这种标注将情感划分为7种类别：强消极、消极、弱消极、中立、弱积极、积极、强积极。该数据集提供3个子集：训练集、验证集及测试集，训练集样本个数为1 284，验证集样本个数为292，测试集样本个数为686。

2.2 实验设置

实验环境：Ubuntu 22.04 64位操作系统，Python版本3.12，Pytorch版本2.2.2。

训练最优参数设置：隐藏层维度为768，批次大小为32，优化器为Adam，主模型参数学习率为1e-3，Bert-base-uncased预训练模型学习率为1e-5，情感分类器中Dropout设置为0.1，训练轮数设置为20。本文提出的模型通过使用网格搜索方法，当且仅当模型在验证集上的损失函数取得最佳结果时，确定网络模型中超参数组合为最佳超参数。具体步骤描述：确定需要调优的超参数取值范围，例如批次大小取值为[8，16，32，64]，学习率取值为[1e-5，3e-5，1e-3，3e-3，1e-2] 等；将超参数可能取值进行排列组合，模型根据选择的超参数组合进行训练，计算超参数组合在验证集上的表现，以此来确定最优的超参数组合。

2.3 实验评价指标

本文从分类及回归两个角度共4个指标评价模型的表现。分类任务评价指标包括二分类（Binary Accu⁃racy， Acc-2）和F1分数（F1-Score），回归任务评价指标包括皮尔逊相关系数（Pearson Correlation， Corr）和平均绝对误差（Mean Absolute Error， MAE）。在样本分布均衡时，二分类能够很好地反映模型的分类能力；面对样本分布不均衡时或需要综合考虑精准率和召回率时，F1分数则更具参考价值。皮尔逊相关系数在多模态情感分析任务中有助于评估模型预测的情感与真实情感之间的线性关系强度，平均绝对误差则有助于评估模型预测情感强度的准确性。对于分类任务和皮尔逊相关系数，较高的值表示模型表现更好；对于平均绝对误差（MAE），较低的误差则表示模型预测结果更接近真实标签。

基于跨模态注意力机制的多模态情感分析方法探究

经典小说推荐

杂志订阅