多维度人脸表情识别方法综述

作者: 尹欣灵 成利敏 王宁 石可 杨奕

多维度人脸表情识别方法综述0

摘要:人脸表情识别是计算机视觉领域的重要研究课题,具有广泛的应用价值。其发展经历了从传统机器学习方法到深度学习的转变,目前,大多数研究采用深度学习技术。文章综述了表情识别的四个主要方向:模型架构改进、数据处理与增强、基于注意力机制和其他特殊策略方法,具体包括神经网络优化、多模块融合、图像预处理、数据增强、注意力模块嵌入等。尽管人脸表情识别技术取得了显著成就,但仍存在一些挑战,如跨域泛化和实时识别的效率问题。未来的研究需要在提升模型准确性和鲁棒性的同时,注重算法的轻量化和应用的多样化,以便更好地服务于实际应用。

关键词:人脸表情识别;深度学习;模型架构;注意力机制;数据增强

中图分类号:TP18    文献标识码:A

文章编号:1009-3044(2025)07-0041-03

开放科学(资源服务) 标识码(OSID)

0 引言

人类表情传递的信息往往比语言更为丰富,因此,面部表情识别在计算机视觉领域中成为一个重要的研究方向。该技术的应用涵盖了人机交互、心理疾病治疗、情感计算和远程教育等多个领域。例如,左义海等学者[1]提出了一种基于改进协调注意力机制的面部表情识别模型(NCA-MobileNet) 。在模型构建过程中,针对现有模型复杂度高且准确率欠佳的问题,他们创新性地引入了改进的协调注意力机制模块(NCA Bneck) ,提升了空间和通道上的特征提取能力,增强了对感兴趣区域的关注,从而有效解决了上述问题,为面部表情识别技术的发展提供了新的思路和方法。王坤侠等研究人员[2]通过在Swin Transformer的Patch Merging层中引入混合注意力模块CBAM,同时借助迁移学习技术对模型权重进行初始化。这一举措不仅显著加快了模型的训练速度,还大幅提升了面部表情识别的精度。这一研究成果展示了在深度学习框架下,通过合理的模块引入和优化技术,可以有效提升模型性能,为后续相关研究提供了有益的参考。

随着人脸识别算法的不断演进和丰富,本文基于对当前众多算法的深入研究与分析,旨在系统全面地综述人脸表情识别领域的最新进展,呈现该领域的前沿技术、创新方法以及面临的挑战,为相关研究人员和从业者提供全面而深入的参考资料,推动人脸表情识别技术的进一步发展。

1 人脸表情识别算法发展历程

关于人脸表情识别的算法经历了众多个阶段。早期主要采用传统机器学习方法,如局部二值模式(LBP) 、支持向量机(SVM) 、主动形状模型(ASM) 等,通过手工提取特征和简单分类器进行识别。这些方法在特征提取和分类方面依赖于人工设计,工作量大且对复杂表情的分类准确性和一致性存在局限。随着深度学习的兴起,卷积神经网络(CNN) 等模型被应用于人脸表情识别领域,如AlexNet、VGGNet等经典网络在一些公开数据集上取得了一定进展。

进入模型改进与创新阶段,研究人员不断改进深度学习模型,如改进的MobileViT、ResNet等网络,通过融合多尺度卷积、注意力机制等模块增强特征提取能力,同时引入特征融合、损失函数优化、多模态融合等新方法提高性能。此外,领域泛化和自适应算法也受到重视,以解决模型在不同领域和数据集上的泛化问题。

当前,人脸表情识别已进入多模态融合与综合发展阶段,结合图像、文本、音频等多模态信息进行情感分析成为重要方向,旨在提高识别的准确率和鲁棒性。研究人员持续探索更先进的模型结构、算法和技术,推动人脸表情识别的发展和应用。大部分最新的研究采用了深度学习的方法或其相关技术,利用神经网络强大的自动特征学习能力来提取表情特征并进行分类,显著提升了识别性能。本文从模型架构改进、数据处理与增强、基于注意力机制和其他策略4个方面综述人脸表情识别的方法,并总结出传统方法和深度学习方法的比较(见表1) 。

2 基于模型架构改进的方法

2.1 神经网络优化

不同研究针对不同基础网络进行优化,如MobileNet[1]、EfficientNet[3]、ResNet、MobileViT[4]等,具体优化策略包括以下几点。

1) MNCA-MobileNet。通过调整网络层数、通道数,采用Mish激活函数和改进的协调注意力机制,降低模型复杂度,提升信息保留能力和关键特征关注度,适用于算力受限的移动设备[1]。

2) LA-EfficientNetB0。改变卷积块结构,结合ACON激活函数,浅层使用大核卷积提取全局特征,深层使用小核卷积提取局部特征,并自适应激活神经元,提升表情识别准确性和泛化能力[3]。

3) Res2Net改进方法。引入广义平均池化(GeM) 关注显著区域,选用Focal Loss解决类别不平衡问题,增强特征表达和对难分类样本的处理能力[9]。

4) 融合RAPSConv的MobileViT。结合新特征重构模块和改进损失函数,提高网络特征提取能力,在多个数据集上表现良好,适用于高精度和轻量化的自然场景应用[4]。

这些优化策略从不同角度提升了模型性能,满足了不同应用场景的需求,推动了人脸表情识别技术的发展。

2.2 模块融合策略

1) 特征融合型方法。如Chakrapani Ghadai等[5]提出的基于特征融合和注意力机制的人脸表情识别方法,采用多通道融合并行网络,结合全局和局部特征,通过CBAM注意力机制聚焦关键表情特征,提高识别能力。

2) 模态融合型方法。Jixiang Li和Jianxin Peng[6]提出的基于面部表情和远程光电容积描记信号的端对端多模态情感识别方法,融合面部表情和非接触生理信号(rPPG) ,利用Transformer的跨模态注意力机制学习两种模态的相关性,实现多模态情感识别。

3 基于数据处理与增强的方法

3.1 图像预处理

1) 几何校正型[7]。通过人眼定位进行眼距尺度归一化,将图像灰度化处理并垂直投影,定位人眼眼眶,进行旋转校正和灰度预处理。这些步骤规范了图像数据,减少了角度和光照等因素对表情识别的影响,便于后续特征提取。

2) 特征提取型[8]。利用集合播述待识别的红外人脸图像,建立局部优化保留投影目标函数,通过等效系数变换分析,确定最优投影矩阵,实现人脸图像的降维。应用主ActiveModel检测面部关键点,校正人脸姿态,抽取感兴趣区域,为后续表情识别提供基础。

3.2 数据增强

1) 关键帧选择方法。从视频图像中提取时空兴趣点构建视觉词典,统计视觉词汇的概率分布,使用离散粒子群算法选择关键帧。该方法筛选出具有代表性的表情变化关键帧,减少冗余信息,提升模型训练效率和识别准确性。

2) 类别自适应的伪标签标记。构建类别自适应的伪标签标记(CAPL) 模块与类别特征约束(CWFC) 模块,挑选高质量样本并赋予伪标签,同时对齐不同域同类样本特征,优化样本数据。该方法增加了有效标注样本数量,提升了多目标域表情识别性能。

4 基于注意力机制的方法

1) 在特定层嵌入方法。王坤侠等[2]在Swin Transformer模型的Stage 3的Patch Merging层中嵌入CBAM混合注意力模块,使模型更好地提取全局和局部特征,提升表情识别准确性。

2) 特征增强方法。通过CBAM注意力机制结合通道和空间注意力,对输入特征图进行处理,关注重要特征,抑制无关信息。该方法增强了关键表情特征的提取能力,提高了特征表达能力[13]。

5 其他特殊策略方法

1) 跨域识别型。采用领域泛化算法和表征自挑战(RSC) 方法,通过丢弃训练数据上的部分特征强制网络使用剩余特征进行训练,改善跨域泛化性能。聂倩倩等[16]的研究表明,该策略有效提升了跨域情感识别的活应性。

2) 特定应用场景型。① 疼痛表情识别方法:王乾胜等[12]引入GhostNet中的Ghost模块卷积,压缩模型参数量;使用改进的FReLu激活函数替换SiLu激活函数;引入CA注意力机制。基于改进YOLOv5s的人脸疼痛表情识别方法,提升了识别精度和检测效率,适用于移动端实时识别。② 多尺度特征提取方法:采用多尺度注意力模块,包括不同的多尺度块(如MSL和MS-R) 与注意力网络级联,学习多样特征。基于互补特征的多尺度注意力融合表情识别模型(FCMSA-AF) 通过多尺度特征提取,减少姿态和局部遮挡对类内变异的影响,提升识别性能。

6 结束语

人脸表情识别作为一项极具前沿性的技术,正以前所未有的深度和广度深刻重塑着我们的生活模式,其应用触角已广泛延伸至人机交互、心理健康监测、安防监控以及众多其他领域,展现出了巨大的社会价值和应用潜力。然而,随着人脸表情识别技术的广泛推广和深入应用,一系列严峻的伦理和法律问题也随之浮出水面。一方面,技术滥用的风险如影随形。在缺乏严格监管的情况下,人脸表情数据可能被非法收集、使用和传播,对个人隐私构成严重威胁。为了有效规避这些风险,必须建立健全完善的伦理规范和法律法规体系,明确规定人脸表情数据的收集、存储、使用和共享规则,加强对技术应用过程的监督和管理,确保个人隐私和权益得到充分尊重和保护。

展望未来,人脸表情识别技术有望在多方面取得更为显著的突破和发展。多模态融合技术将成为提升识别性能的关键驱动力之一。通过将人脸表情与语音语调、肢体语言、文本语义等其他模态的信息进行有机结合,实现全方位、多层次的情感理解和识别,从而进一步提高识别的准确率和鲁棒性。情感计算领域的持续深入发展也将为人脸表情识别技术注入新的活力。借助先进的机器学习算法和深度学习模型,研究人员致力于开发出更具智能化和情感感知能力的系统,使其不仅能够准确识别表情所代表的基本情绪类别,还能深入理解情绪的强度、细腻变化以及背后的情感动机,从而实现更精准的情感回应和交互。此外,实时性和算法轻量化也是重要的发展方向,以适应移动端和嵌入式设备的需求。

尽管人脸表情识别技术在近年来已经取得了令人瞩目的显著进展,但仍有一些棘手的问题亟待解决。跨域泛化能力是当前面临的一个重要挑战。在实际应用中,训练数据和测试数据往往来自不同的领域或具有不同的分布特征,导致模型在新领域或新数据集上的性能大幅下降。数据隐私保护问题也是制约人脸表情识别技术发展的关键因素之一。加强数据隐私保护技术的研究和应用至关重要。

通过持续不断的深入研究和创新,人脸表情识别技术必将在未来不断完善和发展,逐步克服现有挑战,实现更为广泛和深入的应用。这将有力地推动社会向智能化、人性化方向迈进,为人类创造更加便捷、安全、美好的生活。

参考文献:

[1] 左义海,白武尚,何秋生.NCA-MobileNet:一种轻量化人脸表情识别方法[J].液晶与显示,2024,39(4):522-531.

[2] 王坤侠,余万成,胡玉霞.嵌入混合注意力机制的Swin Transformer人脸表情识别[J].西北大学学报(自然科学版),2024,54(2):168-176.

[3] 丁祥,唐宏伟,石书琪,等.基于改进EfficientNet的表情识别方法[J].自动化应用,2024,65(8):203-206.

[4] 邓翔宇,裴浩媛,盛迎.基于网络融合的改进MobileViT人脸表情识别[J].计算机工程与科学,2024,46(6):1072-1080.

[5] GHADAI C,PATRA D,OKADE M.A novel facial expression recognition model based on harnessing complementary features in multi-scale network with attention fusion[J].Image and Vision Computing,2024(149):105183.

经典小说推荐

杂志订阅