大数跨境
0
0

贾佳亚团队新作MagicMirror:生成身份一致且高质量个性化视频,效果惊艳!

贾佳亚团队新作MagicMirror:生成身份一致且高质量个性化视频,效果惊艳! 极市平台
2025-01-14
0
↑ 点击蓝字 关注极市平台
作者丨AI生成未来
来源丨AI生成未来
编辑丨极市平台

极市导读

 

贾佳亚团队提出的新框架MagicMirror,用于生成身份一致且高质量的个性化视频。MagicMirror通过双分支面部特征提取器、轻量级跨模态适配器和两阶段训练策略,实现了在无需微调的情况下生成身份一致的视频。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

文章链接:https://arxiv.org/pdf/2501.03931

项目链接:https://julianjuaner.github.io/projects/MagicMirror/

亮点直击

  • 提出了Magic Mirror,这是一种无需微调的新型框架,用于生成身份一致性的视频;
  • 设计了一种轻量级适配器,结合条件自适应归一化,实现面部嵌入在全注意力扩散Transformer架构中的有效融合;
  • 开发了一种数据集构建方法,通过合成数据生成和渐进式训练策略相结合,解决个性化视频生成中的数据稀缺问题。

总结速览

解决的问题

  • 当前视频生成方法在身份(ID)一致性和自然动态性之间难以平衡:

    • 现有方法需要针对特定人物进行微调,或在生成动态内容时无法保持身份一致性。
    • 多数方法生成的视频动态性不足,仅实现静态的“复制粘贴”。
    • 两阶段方法(图像个性化+图像到视频生成)在长序列生成中缺乏稳定性。
  • 现有视频生成模型(如全注意力的Video DiT)在文本-视频对齐优化中牺牲了空间保真度,导致细粒度身份特征难以保留。

  • 高质量、身份一致的图像-视频训练数据稀缺。

提出的方案

  • 提出 Magic Mirror 单阶段框架,用于生成高质量、身份一致且动态自然的视频。

  • 引入三个关键组件:

    • 利用身份一致的合成数据进行初步训练。

    • 在视频数据上进行细化训练,确保时序一致性。

    • 集成到CogVideoX框架中。

    • 采用 条件自适应归一化(CAN),高效融合身份信息。

    1. 双分支面部特征提取器:同时捕捉高层次身份特征和参考特定的结构信息。
    2. 轻量级跨模态适配器
    3. 两阶段训练策略

应用的技术

  • 构建于 Video Diffusion Transformer(Video DiT) 之上,优化动态视频生成。

  • 条件自适应归一化(CAN)模块

    • 融合身份条件,提供注意力引导和特征分布引导。
  • 数据合成策略:

    • 利用身份保留模型生成高质量图像-视频对。
    • 通过渐进式学习方法,先进行图像预训练,再进行视频微调。
  • 构建人类中心的视频生成测试集,用于评价生成质量和一致性。

达到的效果

  • 在身份一致性和自然动态性之间取得良好平衡:

    • 动态视频生成效果优于现有方法。
    • 在多项指标上表现优越,包括VBench等基准测试。
  • 通过无需人物特定微调的方法,实现个性化视频生成:

    • 保持面部一致性的同时,生成丰富的动态内容。
  • 低参数开销的同时实现高质量生成:

    • 为数字化创作提供更多个性化、动态化的表达方式。

Magic Mirror

Magic Mirror 的概览如下图 3 所示。该双分支框架从一个或多个参考图像 中提取面部身份特征。这些嵌入随后通过增强了轻量级跨模态适配器的 DiT 主干进行处理,并结合条件自适应归一化。该架构使 Magic Mirror 能够生成身份一致的文本到视频输出。

面部特征解耦提取

Magic Mirror 的面部特征提取组件如上图 3 左侧所示。给定一个身份参考图像 ,我们的模型使用基于混合查询的特征感知器提取面部条件嵌入: ,这些嵌入捕捉了高层次的身份特征和面部结构信息。

其中, 表示从预训练的 CLIP ViT 特征提取器 中提取的密集特征图。两个感知器 使用标准的 Q-Former架构,并具有不同的查询条件 。其中, 是一个可学习的嵌入,用于面部结构提取,而 表示通过面部编码器 提取的高层次面部特征。每个感知器通过迭代更新的查询与密集特征之间的交叉注意力,获得压缩的特征嵌入。

这些压缩的嵌入通过一种解耦机制进行整合。参考最新的新概念定制方法,在输入提示 中与身份相关的token(例如"man","woman")处,将面部嵌入与文本嵌入融合,如公式(4)所示。一个融合 MLP 投射到文本嵌入空间中。用于 DiT 输入的最终文本嵌入计算如下:

其中, 表示一个token级的二进制mask,用于指示融合的token位置

条件自适应归一化

在获得了解耦的身份感知条件 后,需要解决将其高效整合到视频扩散Transformer中的挑战。传统的隐空间变量扩散模型,例如 Stable Diffusion,通过独立的交叉注意力机制进行条件注入,从而实现了通过解耦的交叉注意力对新条件的直接适配。这种方法得益于统一的条件输入(特别是文本条件 ),贯穿于所有交叉注意力层。

然而,本文的框架基于 CogVideoX,该框架采用跨模态全注意力范式,并使用逐层分布调制专家。这种架构选择在简单的交叉注意力增强之外,为适配新条件引入了额外的复杂性。

利用 CogVideoX 的逐层调制,提出了一种轻量级架构,该架构在保留模型时空关系建模能力的同时,引入了额外的条件。如下图4所示,面部嵌入 与文本和视频特征( )通过全自注意力进行拼接。CogVideoX 采用模态特定的调制,其中因子 分别通过自适应归一化模块 应用于各自的特征。

为了适应面部模态,本文引入了一个专用的自适应归一化模块 ,对自注意力和前馈网络(FFN)之前的面部特征进行归一化。对应的调制因子集合 计算如下:

其中, 表示时间嵌入, 表示层索引。令 表示块内操作,其中 表示注意力操作, 表示前馈网络(FFN)。操作 后的特征变换通过缩放 ,平移 和门控 计算表示为:

然后

其中,为简洁起见,省略了模态特定的下标。此外,为了增强特定参考身份(ID)的文本和视频隐空间变量的分布学习能力,引入了条件自适应归一化(CAN),其灵感来自类条件的 DiT 和 StyleGAN 的条件控制方法。CAN 为视频和文本模态预测分布偏移。

这里, 作为分布标识符,用于更好地初始化 CAN 模块,而由 Eq.(4)得到的 表示融合 MLP 之前的面部嵌入。最终的调制因子通过残差加法计算:

这种条件偏移预测 适合采用 MLP 实现。为了补充条件归一化,增强了联合全自注意力 ,通过交叉注意力机制 TCA提升身份模态特征聚合。注意力输出 的计算公式为:

其中 TSA 是全自注意力, TCA 是条件交叉注意力, 表示输入特征, 表示条件输入嵌入。

其中, 使用相同的查询投影 ,而交叉注意力中的键值投影 被重新初始化且可训练。

数据与训练

与诸如 Magic-Me 之类的微调方法相比,训练一个零样本定制适配器面临着独特的数据挑战。我们模型的全注意力架构不可分割地结合了空间和时间组件,因此需要采用两阶段训练策略。如下图 5 所示,首先在多样性和高质量数据集上训练,以培养稳健的身份保持能力。

渐进式训练pipeline利用多样化的数据集来增强模型性能,特别是在身份保持方面。对于图像预训练,首先使用 LAION-Face 数据集,该数据集包含大规模的网络真实图像,为生成自参考图像提供了丰富的资源。为了进一步增加身份的多样性,使用了 SFHQ 数据集,该数据集应用了标准文本提示的自参考技术。为了防止过拟合并促进生成多样化的脸部-头部运动,以 FFHQ 数据集为基础。从一个人像描述提示池中随机抽取文本提示,并使用 PhotoMaker-V2 生成身份条件的图像对,通过精心的筛选确保身份的相似性和多样性。

对于视频后训练,利用了高质量的 Pexels 和 Mixkit 数据集,以及从网络自采的小规模视频集合。同样地,与每个关键帧的面部参考对应的合成图像数据被生成为参考。组合数据集为模型在图像和视频上的训练提供了丰富的视觉内容。

目标函数结合了身份感知和通用去噪损失:

其中 表示去噪隐空间变量 的绝解码器, 为平衡因子。参考 PhotoMaker,在随机选择的 训练样本的面部区域内计算去噪损失。

实验

实现细节

数据集准备如上图 5 所示,训练pipeline利用了自参考和合成配对的图像数据,以在初始训练阶段实现身份保持对齐。对于合成数据对(图 5 中标记为 C 和 D),采用 ArcFace 进行面部识别和检测,提取包括年龄、边界框坐标、性别和面部嵌入在内的关键属性。使用 PhotoMakerV2 生成参考帧。质量控制通过基于面部嵌入余弦相似度过滤图像对 {a, b} 实现,保留满足 的数据对。对于文本条件,使用 MiniGemini-8B 为所有视频数据生成字幕,构建包含 29K 条提示的多样化提示池;在第二阶段训练中,CogVLM 提供视频描述。

训练细节
Magic Mirror 框架通过在交替的 DiT 层(即,所有偶数索引 的层中)集成面部特定模态适配器,扩展了 CogVideoX-5B。从预训练的 PhotoMakerV2中采用了特征提取器 和 ID 感知器

在图像预训练阶段,对适配器组件进行优化,运行 30K 次迭代,使用全局批量大小为 64。随后,为增强视频生成的时间一致性,进行了 5K 次迭代的视频微调,批量大小为 8。两个阶段均使用从 开始的衰减学习率。所有实验均在配备 8 个 NVIDIA A800 GPU 的单一计算节点上完成。

评估与比较将本文提出的方法与最先进的身份一致视频生成模型 ID-Animator 以及领先的图像到视频 (I2V) 框架(包括 DynamiCrafter、CogVideoX和 EasyAnimate)进行了对比评估。评估中使用了标准化的视频生成评测工具 VBench,以衡量运动质量和文本-运动对齐性能。对于身份保持,采用面部识别嵌入相似度 和面部运动指标进行评估。

评估数据集包括来自 VBench 的 40 个单角色提示(确保人口统计学的多样性)以及 40 个特定动作提示用于运动评估。身份参考从 PubFig 数据集中的 50 个面部身份中抽取,每个身份生成 4 个基于不同提示的个性化视频。

定量评估

定量结果总结在下表1中。使用VBench和EvalCrafter的通用指标评估生成的视频,包括:

  • 动态度:衡量生成视频中动作的程度。
  • 文本提示一致性:评估与给定文本描述的一致性。
  • Inception Score (IS) :评估生成视频内容的质量和多样性。

身份保持
对于身份保持,引入了平均相似度,它评估生成的面部与每个身份参考图像的平均相似度之间的距离。此方法避免了通过简单的复制粘贴策略获得人为的高分,如下图2所示。

面部运动指标面部运动使用两个指标进行评估:

  1. FMref:衡量生成面部与参考面部之间的相对距离。
  2. FMinter:评估连续帧之间的距离。

定性评估

除了下图1中展示的示例外,下图6中展示了比较结果。与传统的CogVideoX推理方法相比,本文的方法保持了较高的文本一致性、运动动态和视频质量。与现有的图像到视频方法相比,Magic Mirror展示了在各帧之间更好的身份一致性,同时保持了自然的运动。本文的方法还在动态范围和文本对齐方面优于ID-Animator,后者在运动变化和提示遵循方面存在一定的局限性。

为了补充定量指标,进行了全面的用户研究,评估生成结果的感知质量。该研究共涉及173名参与者,参与者评估了以下四个关键方面:运动动态、文本-运动对齐、视频质量和身份一致性。参与者按1-10分的尺度对每个方面进行评分,结果总结在下表2中。如表1所示的总体偏好评分,Magic Mirror在所有评估维度上始终优于基准方法,展示了其在人类评估中的卓越感知质量。

消融研究

与条件相关的模块
通过消融研究评估了关键架构组件,结果展示在下图7的左侧。没有参考特征嵌入分支时,模型失去了关键的高层次注意力引导,导致身份忠实度显著下降。条件自适应归一化(CAN)对于分布对齐至关重要,增强了跨帧的身份保持。下图8进一步展示了CAN在面部条件注入中的有效性,表明在图像预训练阶段,身份信息捕获的训练收敛性得到了改善。

训练策略上图7的右侧展示了不同训练策略的影响。图像预训练对于稳健的身份保持至关重要,而视频后训练确保了时间一致性。然而,仅在图像数据上训练会导致视频推理过程中出现颜色偏移伪影。这个伪影是由不同训练阶段中调制因子不一致造成的。我们的两阶段训练方法通过利用两个阶段的优势,生成具有高身份忠实度和动态面部运动的视频,达到了最佳结果。

讨论

计算开销

与基准模型相比,本文分析了生成一段49帧480P视频时的GPU内存利用、参数数量和推理延迟等计算要求。大多数附加参数集中在嵌入提取阶段,这只需要一次前向传递。因此,如下表3所示,Magic Mirror在GPU内存消耗和推理时间方面相较于基准模型引入了最小的计算开销。

特征分布分析

为了验证本文的条件自适应归一化机制,使用t-SNE可视化了预测的调制尺度因子σ,如下图9所示。分析揭示了跨Transformer层的不同分布模式,并且对时间步输入不敏感。面部模态展现了其特征性的分布。条件残差 引入了与基线不同的目标分布偏移,实验证明,这改善了模型在身份条件下的收敛性。

限制与未来工作

尽管Magic Mirror在身份一致的视频生成方面表现强劲,但仍然面临一些挑战。首先,当前框架不支持多身份定制化生成。其次,本文的方法主要聚焦于面部特征,对于服饰和配件等细粒度属性的保持仍有改进空间。将身份一致性扩展到这些更广泛的视觉元素,代表了一个有前景的方向,适用于实际的多镜头定制视频生成。

结论

Magic Mirror,一种zero-shot身份保持视频生成框架。Magic Mirror将双重面部嵌入和条件自适应归一化(CAN)集成到基于DiT的架构中。本文的方法能够实现稳健的身份保持和稳定的训练收敛。大量实验表明,Magic Mirror能够生成高质量的个性化视频,同时保持单一参考图像的身份一致性,在多个基准和人工评估中优于现有方法。

参考文献

[1] Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k