清华×字节创新成果DreamID - Omni：统一框架+精准控制，开启可控人类中心音视频生成新纪元。- 大数跨境

首页

清华×字节创新成果DreamID - Omni：统一框架+精准控制，开启可控人类中心音视频生成新纪元。

AIGC Studio

2026-03-01

导读：DreamID-Omni是一个用于可控的以人为中心的音视频生成的统一框架。通过将基于参考的生成、编辑和动画集成到单一范式中，DreamID-Omni克服了以往特定任务模型的局限性。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

在人工智能技术飞速发展的当下，音频视频生成领域不断迎来新的挑战与机遇。近期，清华大学与字节跳动智能创作实验室联合推出了一项具有开创性意义的研究成果——DreamID-Omni，为可控人类中心音频视频生成带来了全新的解决方案。 DreamID-Omni 展示。DreamID-Omni 无缝整合了基于参考的音视频生成 (R2AV)、视频编辑 (RV2AV) 和音频驱动的视频动画 (RA2V)。

主要特点

DreamID-Omni 是一个专为高保真、以人为本的生成而设计的统一框架。它将三个核心功能无缝集成到一个模型中：

R2AV（生成）：根据参考图像和语音音色生成同步的视频和音频。
RV2AV（编辑）：根据参考图像和语音音色编辑源视频的身份和声音。
RA2V（动画）：根据音频输入制作具有精确唇音同步的参考身份动画。

方法概述

统一框架设计

DreamID - Omni 基于对称条件扩散变换器（Symmetric Conditional Diffusion Transformer）构建。该架构采用双流结构，视频流和音频流通过双向交叉注意力层进行交互，实现了视觉和听觉模态之间精细的时间同步和语义对齐。这种设计使得不同任务能够在统一框架内无缝切换，无需对架构进行修改。

对称条件注入

为了整合异构条件信号，如参考图像、声音特征、源视频和驱动音频等，研究团队提出了对称条件注入方案。通过将参考特征与噪声潜在变量连接，同时将结构条件（如源视频、驱动音频）通过逐元素相加的方式注入，实现了身份保留和结构引导通道的分离。这种对称的注入方式确保了模型能够灵活处理不同类型的条件输入，为各种任务提供了统一的指导。

双层解耦策略

在多人物场景中，身份 - 音色绑定失败和说话人混淆是常见问题。DreamID - Omni 引入了双层解耦策略来解决这一挑战：

信号层面：采用同步旋转位置编码（Synchronized RoPE），为不同参考身份分配不同的时间位置段，确保视觉和音频特征在注意力空间中实现刚性绑定。
语义层面：使用结构化字幕，通过锚定标记建立明确的属性 - 主体映射关系，解决了语义层面的混淆问题。

多任务渐进训练

为了防止不同任务之间的冲突，研究团队设计了多任务渐进训练策略。前两个阶段专注于弱约束的 R2AV 任务，通过成对重建和交叉对解耦增强身份和音色保真度。最后一个阶段引入强约束任务（RV2AV 和 RA2V）进行联合训练，防止模型过拟合，保持弱约束生成任务的优越性能。

实验

图 3：与 R2AV 上最先进 (SOTA) 方法的定性比较。 R2AV 任务：DreamID - Omni 在视频、音频和音视频一致性方面均取得了优异成绩，甚至超越了领先的专有商业模型。与基线方法相比，在视觉真实性、身份一致性和身份 - 音色匹配等方面表现更为出色。

RV2AV 任务：在视频编辑任务中，DreamID - Omni 不仅在视频相关指标上达到了最优水平，还展现出了优秀的音频生成能力，各项音频指标也表现良好。RA2V 任务：在音频驱动视频动画任务中，DreamID - Omni 实现了与 Humo 相当的唇形同步精度，同时在视频相关指标上领先。在多人场景中，有效避免了说话人误判错误。

结论

DreamID-Omni是一个用于可控的以人为中心的音视频生成的统一框架。通过将基于参考的生成、编辑和动画集成到单一范式中，DreamID-Omni克服了以往特定任务模型的局限性。为了应对多人混淆这一关键挑战，引入了Syn-RoPE用于信号级身份-音色绑定，以及结构化字幕用于语义级解耦。此外，论文提出的多任务渐进式训练策略有效地协调了不同的目标。在新的基准测试IDBenchOmni上的大量实验表明，DreamID-Omni在多个任务上均达到了目前最先进的性能。