基于语音驱动的说话人脸视频生成综述
作者: 韩家伟 游锦摘要:随着人工智能的快速发展,语音驱动的说话人脸生成技术因其在公共安全、医疗、电影娱乐、虚拟数字人等领域的广泛应用而受到越来越多的关注。该技术旨在根据给定的目标人脸和音频,生成自然的说话人脸视频。在过去五年中,研究人员提出了许多创新方法,以解决该领域中的不同问题,推动了这一领域的发展。本文对当前说话人脸生成领域的发展进行了系统梳理和总结,以期为学术界提供有价值的资源。此外,详细介绍了常用的数据集及多项用于评估模型性能的评价指标,为该领域的研究提供了更全面的理解和认识。最后,我们总结了该领域未来的发展趋势,并鼓励更多研究者在这一领域进行持续创新,为技术进步贡献力量。
关键词:计算机视觉;深度学习;说话人脸生成;音频驱动;数字人
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2024)24-0123-04
开放科学(资源服务)标识码(OSID)
0 引言
给定一个(或几个)人脸图像以及一段音频,语音驱动的说话人脸视频生成任务旨在生成一个保持源人脸外观的音唇同步说话头部视频,并同时展现自然的头部动作和面部属性(如表情、眨眼)。这项任务涉及将低维语音信号映射到高维视频信号,并且类似于文本驱动的视频生成,其可视为该任务的衍生。由于不同模态之间存在异质性,这项任务极具挑战性。
在初期阶段,研究者主要采用跨模态检索方法和隐马尔可夫模型(HMM)来应对这一挑战。然而,随着深度学习技术的发展,尤其是生成模型的崛起,基于深度学习的方法极大地推动了这一领域的进步。作为计算机视觉、计算机图形学等领域中的基础且具有挑战性的任务,语音驱动的说话人脸视频生成正在获得越来越多的关注。
这种跨模态人脸生成在多个实际场景中具有广泛应用。例如,在医学领域,它可以增强语音理解能力,帮助听力障碍者和声带受损者;在公共安全领域,它可用于人脸伪造和活体检测;在人机交互中,它作为一种新型交互方式,能丰富交互体验;在娱乐领域,它可用于为电影重配音,甚至为无声电影重新配音。此外,它还可应用于视频会议、远程角色扮演游戏、受带宽限制的视频转换以及虚拟主播等场景。
根据模型结构,语音驱动的说话人脸生成技术可以分为单阶段端到端方法和引入中间表征的双阶段方法。本文综合回顾了过去五年中基于深度学习的这一领域的模型。首先,对不同方法进行了分类和概述,然后总结了模型训练中常用的评价指标和数据集。最后,对当前研究状况进行总结,并对未来发展趋势进行展望。
1 说话人脸视频生成
语音驱动合成面部动画是根据语音信号生成说话人视频的过程,语音驱动人脸生成任务属于跨模态生成领域中的一个具有实用价值的子领域。早期研究利用隐马尔可夫模型(HMM)捕获视频和语音序列的动态关系。随着深度学习技术的发展,特别是生成式对抗网络(GAN)及其变体的兴起,基于深度学习的方法表现出了卓越的性能。这些方法根据网络架构的不同可以分为端到端的单阶段方法和引入中间表征的双阶段方法。
1.1 引入中间表征的双阶段人脸视频生成
为了减轻音视频之间的跨模态异质性,一些研究者使用了面部关键点或3D变形模型(3DMM)[1]来桥接不同模态之间的差异。引入中间表征的方法基本框架如图1所示。以面部关键点作为中间表征的方法,首先通过语音信息预测人脸关键点,然后以关键点驱动人脸视频合成。作为开创性的工作,Suwajanakorn等人[2]使用单层LSTM学习从音频到唇部关键点的非线性映射,通过该映射获取与音频匹配的稀疏唇部区域纹理,并将其与原始面部图像融合生成最终视频。然而,该方法只在特定人物(如美国前总统奥巴马)的数据上训练,缺乏泛化能力。
ATVGnet[3]是创新的级联GAN模型,通过从语音信号中提取高级人脸特征指导说话者人脸视频帧的生成,但未充分建模跨模态同步性,导致嘴唇运动与语音不同步的问题。Zhou等人[4]提出的MakeItTalk模型使用音频转换网络将音频分解为内容信息和身份特征信息,用于预测面部区域和头部姿态的关键点位移,以生成富有表现力的说话人脸。但使用稀疏关键点表示可能在大角度运动时导致失真。
稠密流场是另一个研究方向,Wang等人[5]借鉴视频驱动人脸动画的理念,设计了运动感知递归神经网络用于预测与输入音频节奏相匹配的自然头部运动,并提出图像运动场发生器生成基于关键点的密集运动场,确保生成视频的空间和时间一致性。三维可变形模型(3DMMs)作为一个参数化模型,将音频特征投影到3DMM的参数空间,通过语音预测3D人脸模型的系数,然后构建三维人脸图像并渲染到2D平面上。
例如,Song等人[6]设计了一个“音频身份去除网络”模块,通过将源音频映射为与音频内容相关的参数,提高嘴部动作与音频的映射精度。Wu等人[7]考虑到人在不同状态下具有不同谈话风格,提出了一种结合风格参考视频的方法,使用深度三维重建模型获取风格参考视频的风格代码,将音频特征与重建的风格代码连接,以预测程式化的3DMM系数,使生成的视频能够表达不同的谈话风格以增强多样性。另一方面,Zhang等人[8]设计了FACIAL GAN模块,整合语音、语境和个性化信息,借助3D模型与AU(Action Units)注意力图生成具逼真眨眼动作的视频。Ji等人[9]提出了情绪视频画像,采用交叉重构情感分解技术,将音频分解为内容和情感嵌入,以实现声音驱动的情绪控制。尽管这些方法能生成逼真结果,但通常需要特定人员和环境的重新训练,因此应用范围相对有限。总结来说,双阶段方法存在着处理复杂、耗时长等问题。
1.2端到端的单阶段人脸视频生成
单阶段的生成方法是指通过端到端的学习策略,无需中间表征,直接从驱动源生成视频。端到端的方法的基本流程如图2所示。Speech2Vid[10]是最早探索端到端生成的框架之一,其由四个子网络组成:音频编码器用于提取语音特征,身份编码器用于从参考图像中提取身份特征,图像解码器则将融合的语音和身份特征合成为图像。该网络仅使用L1重建损失进行训练,使用去模糊模块作为后处理以提升图像质量。然而,Speech2Vid没有考虑生成序列的平滑性。
Chen等人[11]引入视听相关损失、三流对抗学习损失、特征空间损失和重建损失等四种损失函数,以加强嘴唇与音频的相关性建模。然而,该模型只生成唇部序列,而非整个人脸区域。这两种架构都是基于自编码器的。为了提高生成性能,研究者开始采用基于生成对抗网络(GAN)的方法,Chen等人[12]考虑口腔肌肉的局部信息,提出音频到AU模块,从语音中预测与语音相关的动作单元(AU),用其驱动整个口腔区域。AU信息则关注局部肌肉,从而实现音唇一致性。
Prajwal等人[13]采用预训练的唇同步鉴别器,并结合生成器进行对抗训练,以实现精确的唇部运动同步。在此基础上,Park等人[14]引入音频嘴唇存储器以存储唇部运动特征,并在推理过程中检索以提高同步效果。Zhou等人[15]考虑音频数据的复杂性,采用解耦方法将音频分解为语音和身份特征,以获得更高质量的结果。然而,该模型主要关注图像模态内部一致性,缺乏对跨模态一致性的探索,导致生成结果有抖动问题。
近期的研究也涉足于生成带有头部动作和面部情绪的说话人脸。Zhou等人[16]提出姿态可控的视听系统PC-AVS,引入额外驱动视频以辅助信息,在潜在空间中定义一个12维姿态编码,实现头部姿态的可控生成技术。Ji等人[17]采用情绪驱动视频生成带情绪的说话人脸。Liang等人[18]同时引入情绪和头部驱动视频,通过互补的驱动信息生成具有姿态和情绪的说话人脸。这些方法虽然自然性增加,但限制了应用范围。
另外,一些研究受神经辐射场启发。Guo等人[19]提出音频驱动神经辐射场模型,将肖像场景的神经辐射场分解为两个分支,分头部和躯干变形进行建模,借助神经渲染技术捕捉微妙面部细节,如牙齿和头发,比现有GAN方法生成质量更佳。
Ye等人[20]提出一种新方法,采用带动态卷积核的全连接卷积网络,与之前的特征融合方法不同,其从音频模态中提取特征,并将这些特征重塑为动态卷积核,实现跨模态特征融合,提升真实感和质量。
最近,扩散模型被应用于音频合成。与GAN相比,扩散模型在训练中表现出更高的稳定性和样本质量。Shen等人[21]引入条件扩散模型,以半遮挡的源人脸图像和关键点为驱动条件,将生成过程建模为迭代去噪过程。虽然扩散模型的质量良好,但生成时间长,限制实时应用中的适用性。未来研究需继续探索更高效的方法加速生成,使得扩散模型能更广泛应用于实际场景中。
2 数据集与评价指标
2.1评价指标
现有的说话人脸生成评估方法可分为定性和定量两类。在定性评估方面,常使用用户研究来评估生成内容的视觉感知质量,但这种方法存在无法复制和不稳定性的问题。在定量评估方面,主要聚焦于以下特征:身份保持、视觉质量、视听语义一致性以及自然的自发运动。这些特征可总结为四大类定量指标,具体如下:
1)身份保持。身份保持在语音驱动说话人脸生成中是一个重要的指标,它关注生成的人脸图像与源人脸图像之间的相似性,确保生成结果保持源人脸的身份特征。目前的方法主要通过比较生成的帧与真实图像之间的嵌入距离来评估身份保持性能。例如,平均内容距离(ACD)使用预训练的人脸识别特征提取器(如Facenet)来计算人脸图像的特征表示,然后通过计算生成的人脸图像与源人脸图像特征之间的欧式距离或余弦相似度,来衡量两者之间的身份差异。较小的ACD值表示生成的人脸与源人脸在身份上更为一致。余弦相似度(CSIM)通常用于测量生成的人脸图像与源人脸图像之间在ArcFace等嵌入向量空间中的相似度,较高的余弦相似度值表示两者在嵌入向量空间中更为相似,即生成的人脸图像与源人脸图像在身份特征上更为保持一致。
2)视觉质量。视觉质量关注生成人脸的清晰度和真实感,有多种定量方法。结构相似性指数(SSIM)比较生成图像与真实帧在像素值、对比度、亮度和结构等方面的相似性,较高的SSIM值表示生成的图像在这些方面更接近真实图像。积累概率模糊检测(CPBD)用于评估图像的清晰度,较低的CPBD值表示图像更清晰。Inception Score(IS)从清晰度和高分辨率两个角度来评估图像,IS值越高表示生成图像更具清晰度;而弗雷谢特截取距离(FID)则利用预训练的Inception-v3网络的特定层计算两个特征的平均值和标准差,以评估视觉质量,它在鲁棒性、可区分性和计算效率方面都优于IS,较低的FID值表示生成图像与真实图像的分布更接近。此外,频域模糊度测量(FDBM)则基于图像频谱来评估频域模糊度,较低的FDBM表示图像更清晰。
3)视听语义一致性。视听一致性指生成的视频帧的唇形与音频信号之间的一致性。LMD用于估算唇形的准确度,以表示唇形的同步性,值越小表示生成的视频帧的口唇同步越一致。然而,LMD无法捕捉唇部动作的细节。另一种同步评估指标SyncNet则通过输入音频和视觉信号来计算同步误差。唇读相似度距离(LRSD)则依赖于读唇模型,通过比较生成视频片段与实际视频片段在各个方面的表现来衡量视听同步性,越小表示口唇越同步。
4)自然的自发运动。自然的眨眼运动同样具有重要意义,可以通过计算平均眨眼时间和频率来评估眨眼的自然程度。
2.2数据集
深度学习技术作为典型的数据驱动学习方法,其成功的关键在于数据集的质量与数量。近年来,大规模的视听数据集在推动说话人脸生成领域取得了突破性进展,发挥了重要作用。这些数据集涵盖了光照条件、身份特征、姿势等多样化的视觉内容,为模型提供了丰富的学习材料,使生成的说话人脸更加逼真且鲁棒。
这些数据集可以分为两大类:受控环境(实验室控制数据)和非受控环境(野外环境数据)。在2015年之前,视听数据集主要集中于受控环境。这些数据集是在严格的实验室环境下收集的,通常是志愿者朗读预定的短语或句子,用于模型训练。然而,由于这种受控环境无法涵盖真实世界的复杂场景,这导致模型在面对现实情况时表现不佳。