论文名:SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion
论文链接:https://arxiv.org/pdf/2502.11515
导读
音频驱动的唇形同步旨在根据输入音频在视频中生成同步的唇部动作,同时保留说话者的身份和外貌。这项任务在视频配音、虚拟化身和直播平台等领域具有重要应用。随着扩散模型在图像和视频生成领域取得成功,音频驱动的面部动画成为一个有前景的研究方向。近期利用扩散模型进行唇形同步的工作遇到了一个根本性挑战,即模型在生成过程中更倾向于视觉条件而非音频信号。
简介
扩散模型的最新进展推动了音频驱动唇形同步技术的显著进步。然而,现有方法通常依赖于受限的视听对齐先验或对中间表征进行多阶段学习来强制合成唇部动作。这导致训练流程复杂,且动作自然度有限。在本文中,我们提出了SayAnything,这是一个条件视频扩散框架,可在保留说话者身份的同时直接根据音频输入合成唇部动作。具体而言,我们提出了三个专门的模块,包括身份保留模块、音频引导模块和编辑控制模块。我们的新颖设计有效地平衡了潜在空间中的不同条件信号,无需额外的监督信号或中间表征即可实现对外观、动作和特定区域生成的精确控制。大量实验表明,SayAnything生成的视频具有高度的真实感,唇齿连贯性得到改善,能够让未见过的角色说出任何内容,同时有效泛化到动画角色。
方法与模型
在本节中,我们将介绍我们的方法SayAnything。首先,我们将概述该框架以及奇异值分解(SVD)的预备知识(布拉特曼等人,2023a)。然后,我们将详细介绍我们的多模态条件融合方案。

图2. (a)SayAnything唇同步架构概述。去噪UNet以噪声潜变量为输入,并与通过变分自编码器(VAE)编码从掩码视频中获得的视频潜变量拼接。参考图像由身份引导器(ID - Guider)处理以生成多尺度身份特征,这些特征作为残差信号注入去噪UNet。来自Whisper的音频特征在去噪过程中通过交叉注意力层进行融合。(b)一个典型的UNet模块,由残差网络(ResNet)模块、自注意力、音频交叉注意力和时间注意力组成。
1. 概述
稳定视频扩散模型(Stable Video Diffusion)。SVD是一种高质量且常用的图像到视频生成模型。给定参考图像 ,SVD将生成一个长度为 的视频帧序列 ,该序列以 开头。SVD的采样是通过潜在去噪扩散过程进行的。在每个去噪步骤中,使用条件3D UNet 对该序列进行迭代去噪:
其中 是 的潜在表示, 是 的预测值。参考图像 有两条条件注入路径:(1)它由CLIP(拉德福德等人,2021)图像编码器嵌入到标记中,并通过交叉注意力机制注入到扩散模型中;(2)它由潜在扩散模型(龙巴赫等人,2022)的变分自编码器(VAE,金玛,2013)编码器编码为潜在表示,并在通道维度上与每一帧的潜在表示拼接。SVD遵循EDM预条件(卡拉斯等人,2022)框架,该框架将可学习的去噪器 参数化为
其中 是噪声水平, 是待训练的网络。 和 是预条件超参数。 通过去噪得分匹配(DSM,宋和埃尔蒙,2019)目标进行训练:
SayAnything。给定参考视频 和音频 ,我们的目标是编辑 中人物的嘴唇动作,使其与 同步。为实现这一目标,涉及三个关键要素:(1)通过参考图像 保留身份特征;(2)基于音频 驱动嘴唇的空间配置;(3)通过掩码指定视频中的可编辑区域,以保持整体视觉连贯性。
为确保广泛的泛化能力,我们的方法尽可能多地继承预训练稳定视频扩散模型(stable video diffusion model)的结构和参数,充分利用其强大的视觉先验知识。我们设计了一种统一、高效的多
模态融合方案,以平衡这三种条件信号——包括一个高效的身份保留模块、一个用于区域编辑的编辑控制模块和一个基于注意力的音频引导模块。
具体而言,我们对SVD(Stable Video Diffusion)的去噪器 进行调整,以统一的方式融合 和 。以下是我们的条件去噪器,它取代了原来的单条件路径:
通过联合注入身份信号 、音频 和掩码视频先验 ,我们避免了多阶段训练或额外的中间表示的需求。此外,通过直接采用DSM(Denoising Score Matching)目标,我们消除了对抗损失或唇部专家监督的需求。对于每次训练迭代,我们采样一个干净的潜在变量 和噪声 ,然后设置 。我们的损失函数为:
图2展示了我们方法的整体流程。基于我们对每个条件相对强度的实验见解,我们首先在 中介绍编辑控制模块,然后在 中引入身份保留模块,接着在§3.4中介绍音频驱动模块。最后,我们讨论几个关键的训练细节和超参数选择。
2. 编辑控制
在我们的框架中,掩码视频序列提供了最强的引导信号,因为模型只需合成掩码区域,同时保留其余部分。先前的研究(穆克霍帕德亚伊等人,2024年;亚曼等人,2023年)表明,在没有SyncNet监督的情况下,嘴唇动作往往无法与输入音频对齐,我们在早期实验中也观察到了这个问题。即使对嘴唇区域进行了掩码处理,初步实验显示,无论输入音频如何,生成的结果与参考视频仍保持高度相似,这表明音频条件未能有效地引导嘴唇动作合成。
通过比较不同的掩码策略,我们发现这种动作泄漏效应源于掩码视频序列中的时间上下文。在低掩码率的情况下,模型学会从可见的面部肌肉模式而非音频特征中推断嘴唇动作,因为面部动作具有高度相关性——可见的面部区域可以有效地指示被掩码的嘴唇区域的动作。虽然这不是我们期望的优化方向,但它有助于模型在训练早期阶段收敛。
图3。我们的自适应掩码策略首先通过检测到的特征点确定初始掩码,然后通过扩展和平滑操作获得最终掩码,有效防止了运动泄漏。
虽然增加掩码覆盖范围可能是一种解决方案,但仅采用这种方法并非最优,因为它可能会去除重要的面部特征。为了解决这种权衡问题,我们设计了一种自适应掩码策略,该策略可以跟踪不同头部和嘴唇姿势下的头部位置。我们选择矩形掩码以避免掩码形状可能带来的引导,确保嘴唇周围的像素被掩码,并消除下脸部肌肉运动模式对嘴唇动作的影响。如图3所示,掩码是使用面部标志点生成的,并进行了额外的填充以确保覆盖潜在的运动区域。为了防止动作泄漏并保持时间稳定性,我们对掩码坐标应用了时间平滑处理:
其中 在时间一致性和局部准确性之间取得平衡。这种平滑处理增强了掩码移动的稳定性,并进一步防止模型基于标志点运动模式推断嘴唇动作。
在实现方面,我们通过变分自编码器(VAE)编码器对掩码视频进行编码,以获得其潜在表示。然后,我们将这些潜在表示与噪声潜在表示沿通道维度进行拼接,形成一个8通道的输入张量。这种设计取代了单视图扩散(SVD)中原来的第一帧拼接方式,同时保持了相同的通道维度,从而为生成过程提供了丰富的时间引导。
3. 身份特征保留
现有方法(Chang等人,2023年;Jiang等人,2024年)通常采用参考网络(ReferenceNet,Hu,2024年)对参考图像进行编码,因为它与去噪U型网络(UNet)具有相同的架构,并且可以用相同的权重进行初始化,从而实现快速的条件 - 主干网络对齐。然而,直接采用稳定视频扩散架构会引入大量的参数冗余。
通过实验,我们发现引入复杂的架构或大量参数不仅会增加计算开销,还会导致过多的视觉条件。在实验过程中,我们发现了一个空间依赖问题:强烈的身份条件会使参考图像中的嘴唇状态主导生成结果。为了解决计算效率和空间依赖问题,我们提出了ID - 引导器(ID - Guider),这是一个由卷积层组成的高效编码模块。在将参考图像输入ID - 引导器之前,我们首先将嘴唇掩码作为指示通道与参考图像拼接,然后通过一个简单的纯卷积下采样器进行处理,其通道维度为 ,以使输入与去噪U型网络对齐。此外,与参考网络相比,我们移除了计算密集型模块,如3D卷积,仅保留通道维度和层数与稳定视频扩散一致的2D残差块(ResBlock)模块,以确保能够正确地将残差集成到去噪U型网络中。我们还移除了上采样层。而且,由于我们移除了与时间步相关的模块,ID - 引导器在推理过程中无需根据去噪步骤重新计算。因此,ID - 引导器仅保留 个参数,参数数量减少了90%以上。这显著提高了计算效率,同时在保持强大的身份特征保留能力的情况下,减少了参考图像中视觉信息的影响。
4. 音频引导
与视觉条件相比,音频信号相对较弱(Chen等人,2024b;Tian等人,2025年),但它为驱动嘴唇运动提供了必要的特征。我们采用Whisper(Radford等人,2023年)作为音频特征提取器,因为它具有强大的音频表征能力。遵循音频驱动合成的常见做法,我们将每个视频帧与周围音频特征窗口 对齐,以捕捉时间上下文,其中 表示时间步 的音频特征, 确定时间上下文范围。对于边界帧,我们直接进行零填充,不进行额外处理。
为了增强音频信号的影响,我们将音频交叉注意力机制融入到去噪U型网络的下采样和上采样模块中。具体来说,噪声潜变量作为查询,而音频特征作为键和值。由于这些音频特征已经编码了一个上下文窗口,我们专注于计算空间注意力,以在生成过程中引导嘴唇区域的空间分布。
5. 训练策略
在我们的框架中,涉及多个条件,包括音频 、参考图像 和掩码视频序列 。由于音频信号与唇部动作的内在相关性较弱,在训练过程中,音频信号很容易被视觉特征所掩盖,导致音频驱动控制不足。基于这一观察,我们在训练过程中对这些条件采用不同的掩码策略。首先, 有 5% 的概率被掩码为零,而 有 15% 的概率被掩码为零,并且 的掩码操作总是会触发 的掩码操作,以确保仅音频生成场景。其次,所有掩码操作都是通过将潜在空间中的融合特征设置为零来实现的。掩码视频序列 作为固定输入条件,不进行掩码操作。
实验与结果
1. 实验设置
数据集。我们使用四个公开数据集进行训练:AVA语音数据集(AVASpeech,乔杜里等人,2018年)、高清人脸数据集(HDTF,张等人,2021年)、高保真视频人脸数据集(VFHQ,王等人,2022年)和多语言说话人数据集(MultiTalk,成彬等人,2024年)。AVA语音数据集(45小时)最初是为语音活动检测设计的,包含一部分有噪声的音频片段。高清人脸数据集包含362个高清(HD)视频,分辨率大多在720p到1080p之间。高保真视频人脸数据集包含来自不同采访场景的16000多个高保真视频片段。最后,多语言说话人数据集是一个用于 说话人头像生成的多语言数据集;它涵盖20种语言和423小时的视频内容。在过滤掉人脸分辨率低、头部区域不完整以及视听不一致的视频后,我们得到了大约600小时精心挑选的训练数据。为了进行评估,我们从高清人脸数据集和AVA语音数据集的测试集中随机抽取了30个视频。
实现细节。我们在8块英伟达H800 GPU上以16的批量大小训练我们的模型。模型使用奇异值分解(SVD)权重初始化(布拉特曼等人,2023a),并使用AdamW优化器(洛希奇洛夫,2017年)以6e - 5的固定学习率训练200k步。在训练时,视频片段以 的帧率进行处理,分辨率为 像素,每个序列由16帧组成。音频输入被重采样为 。每个序列的参考帧从对应的完整视频中随机抽取。
评估指标。我们的评估框架包括三个关键方面:(1)视觉保真度:我们采用弗雷歇 inception 距离(FID,赫塞尔等人,2017年)来评估生成帧的质量,特别关注身份保留和视觉细节。结构相似性指数(SSIM)和峰值信噪比(PSNR)提供了重建准确性的补充测量,而学习感知图像块相似度(LPIPS,张等人,2018年)捕捉了感知相似性。(2)时间连贯性:我们采用弗雷歇视频距离(FVD,昂特蒂纳等人,2018年)来评估视频级别的质量和运动一致性。(3)视听同步:同步网络(SyncNet)置信度得分(钟和齐斯曼,2017年)量化了嘴唇动作相对于音频输入的准确性。
2. 比较
定性与定量比较。我们将我们的方法与提供推理代码和预训练权重的最先进的基于扩散的方法进行比较。具体来说,我们考虑以下方法:(1) LatentSync(李等人,2024年),该方法利用优化后的SyncNet进行额外监督;(2) Diff2lip(穆克霍帕德亚伊等人,2024年),该方法直接通过对抗损失和同步损失生成帧的下半部分;(3) MuseTalk(张等人,2024年),该方法基于稳定扩散框架构建;(4) Video-Retalking(程等人,2022年),该方法采用三阶段网络架构。
如表1所示,我们的方法在两个数据集的大多数指标上都表现出持续的改进。虽然我们的方法的Sync-c分数(钟和齐斯曼,2017年)较低,但该指标是由原始的SyncNet模型计算得出的。值得注意的是,所有四种基线方法在训练期间都将Sync-Net作为额外的监督信号,其中LatentSync采用了优化版本,其产生的分数超过了真实值。我们在视觉质量、身份保留、时间一致性和有竞争力的唇形同步方面的结果证明了SayAnything方法的优越性。
如图4所示,现有方法存在各种局限性:Diff2Lip(穆克霍帕德亚伊等人,2024年)生成的面部外观存在损坏;LatentSync(李等人,2024年)产生的唇部动作不协调;MuseTalk(张等人,2024年)在身份保留方面存在困难;VideoRetalking(程等人,2022年)的时间一致性有限。受SyncNet视觉先验的影响,这些方法不仅将动画角色的唇形转变为逼真的唇形,损害了身份保留,而且往往会生成保守的唇部动作。相比之下,SayAnything在生成更具动态性但自然的唇部动作时,能保持一致的身份保留,同时具有高质量的牙齿渲染和稳定的时间连贯性。先前的研究(江等人,2024年;亚曼等人,2023年)以及图5中不同方法的比较(穆克霍帕德亚伊等人,2024年;张等人,2024年;李等人,2024年;程等人,2022年)进一步证明了这一现象:SyncNet评估不稳定,且倾向于保守的唇部动作。虽然我们的方法在视觉指标和唇部动作动态方面有显著改进,但这种更具动态性的唇部动作对唇形同步的定量评估产生了不利影响。
图4. 与最先进的基于扩散的唇形同步方法(穆克霍帕德亚伊等人,2024年;张等人,2024年;李等人,2024年;程等人,2022年)的定性比较。第一行展示的是原始输入视频,第二行是我们提取音频作为输入的视频,该视频可视为目标唇部动作。第3 - 7行展示的是唇形同步后的视频。(a) 跨性别和身份生成设置中的两个案例。(b) 动画设置中的两个案例。我们的方法可以生成更具表现力的视觉特征,就像驱动动画师一样,而其他方法则倾向于生成更逼真但虚假的特征。
图5. 唇部动作动态和牙齿渲染的定性比较。我们的方法展示出更清晰、更一致的牙齿以及更灵活的唇部动作。
用户研究。我们通过一项全面的用户研究进一步评估了SayAnything。我们提供了40个视频模板,这些模板可分为四类,适用于广泛的应用场景:由人工智能模型生成的虚拟角色、具有类似迪士尼动画电影风格的卡通角色、演播室环境中的新闻主播,以及具有动态背景和更明显头部动作的生活场景。用户可以使用自己的音频输入进行测试,同时比较所有方法的结果,并选择最喜欢的一种。如表2所示,SayAnything在所有场景中都获得了最高的偏好率,这证明了它在处理各种视觉风格方面的多功能性和优越性。
3. 消融研究
本节对SayAnything的多模态融合方案及其关键组件进行了全面的消融分析。在早期实验中,我们尝试使用ID引导器模块对掩码视频进行编码,然后用参考图像替换稳定视频扩散中的原始第一帧图像。这似乎是一种自然的方法,但我们观察到参考图像最终主导了输出结果。例如,如果参考图像中的嘴巴是张开的,那么生成的视频就无法做出闭嘴动作,而是始终保持张嘴状态,这严重影响了唇形同步的准确性。我们认为这是因为参考图像被复制以与噪声潜在维度对齐,在原始模型中,这原本有助于锁定第一帧,但在我们的方法中,由于参考图像的空间影响,它抑制了后续的任何嘴巴动作。
同样,使用变分自编码器(VAE)将参考图像压缩到潜在空间,然后将其输入到ID引导器中也产生了类似的效果,因为这使得身份信息从训练的最早阶段就与去噪U型网络对齐。此外,使用更大的固定掩码会影响生成视频中身份的一致性,并导致掩码区域和未掩码区域之间出现颜色偏差,从而降低视觉质量。这一发现表明,我们的自适应掩码策略有效地平衡了编辑区域控制和音频驱动的唇形动作。此外,我们的条件掩码策略进一步提高了输出视频的整体视觉质量,并稳定了唇形动作。图6展示了这些现象以及我们的方法是如何改善它们的。我们还在HDTF(张等人,2021年)和AVASpeech(乔杜里等人,2018年)数据集上评估了这些不同的训练配置;如表3所示,我们最终方法的关键组件在融合方案中既显示出强大的有效性,又体现了合理的设计。
图6. SayAnything中各组件的消融研究。视频融合和VAE特征显著增强了参考图像的影响,限制了唇形动作的范围。更大的固定掩码会导致掩码区域出现颜色偏差和不自然的唇形动作。去除条件掩码策略会降低视觉质量。放大查看生成的细节。
4. 泛化能力
值得注意的是,SayAnything无需任何额外的微调就能泛化到域外视频输入。我们通过用户研究验证了这一能力。如图7所示,我们的方法在保持自然唇形动作和牙齿一致性的同时,对不同的动画风格展现出零样本泛化能力。补充材料中提供了更多的视觉结果。
图7. SayAnything生成的皮克斯(Pixar)和虚拟角色视频的可视化展示。
总结
我们提出了SayAnything,这是一个用于音频驱动唇形同步的端到端视频扩散框架。我们的方法在保持身份特征的同时,实现了自然的唇部动作,牙齿渲染一致,且动作动态范围更大。通过统一的条件融合方案,SayAnything有效地平衡了视听条件,无需额外的监督信号即可生成高质量的结果。SayAnything的高效性、创新性和广泛适用性使其在唇形同步的实际应用中具有广阔前景。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

