扫描下方二维码,加入AIGC Studio知识星球!可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料!学习/科研/工作/副业,强烈推荐!
OmniSync 是一种突破性的通用唇形同步框架,解决了传统方法对遮罩、参考帧的依赖问题。其核心创新包括:1)无遮罩训练范式,直接通过视频编辑实现跨视觉表现的鲁棒同步;2)流匹配渐进噪声初始化,在精确修改嘴部区域时保持头部姿态与身份一致性;3)动态时空无分类器引导,增强音频信号控制力。该框架兼容风格化角色、非人类实体及遮挡场景,支持无限时长推理,并构建了首个AIGC-LipSync基准测试。实验证明,其在多样化场景中均实现高精度唇形同步,为AI视频生成生态提供了关键技术支撑。
高身份一致性
在不同姿势和表情下展现出卓越的身份保持能力
遮挡鲁棒性
即使面部部分遮挡,也能保持准确的唇形同步
风格多样性
与风格化角色和艺术表现形式无缝协作
相关链接
-
论文 :https://arxiv.org/pdf/2505.21448 -
项目 :https://ziqiaopeng.github.io/OmniSync -
试用:https://app.klingai.com/cn/ai-human/video/new
介绍
唇形同步是指将视频中说话者的唇部动作与相应的语音音频进行对齐,这对于创建逼真、富有表现力的视频内容至关重要。然而,现有方法通常依赖于参考帧和遮罩帧修复,这限制了它们在身份一致性、姿态变化、面部遮挡和风格化内容方面的鲁棒性。此外,由于音频信号提供的条件反射弱于视觉线索,原始视频中唇形的泄露也会影响唇形同步的质量。
本文提出了一种适用于多种视觉场景的通用唇形同步框架——OmniSync。我们的方法引入了一种无掩码训练范式,利用扩散变换器模型进行直接帧编辑,无需显式掩码,从而能够在保持自然面部动态和角色身份的同时,实现无限时长的推理。在推理过程中,我们提出了一种基于流匹配的渐进式噪声初始化方法,以确保姿态和身份的一致性,同时允许精确的嘴部区域编辑。为了解决音频信号较弱的问题,我们开发了一种动态时空无分类器引导(DS-CFG)机制,该机制能够根据时间和空间自适应地调整引导强度。此外,我们还建立了AIGC-LipSync基准测试,这是首个针对各种人工智能生成视频的唇形同步评估套件。大量实验表明,OmniSync在视觉质量和唇形同步精度方面均显著优于现有方法,在真实世界视频和人工智能生成视频中均取得了优异的成果。
方法概述
OmniSync 框架概述。一种无掩码训练范式采用时间步相关的采样来预测唇部同步目标Vab。在推理过程中,渐进式噪声初始化和动态时空CFG确保一致的头部姿态和精确的唇部同步。
核心创新
-
无掩码训练范式:使用扩散变换器直接进行跨帧编辑,无需显式掩码或参考帧 -
渐进式噪声初始化:一种基于流匹配的策略,可在保持空间一致性的同时实现精确的嘴部修改 -
动态时空控制流图:一种自适应引导方式,可在时间和空间维度上平衡音频调节强度。 -
时间步长相关采样:与扩散过程的不同阶段相对应的策略性数据采样
实验结果
与以往方法在不同对象和音素上的定性比较。该方法能够实现更准确的唇形同步,并更好地保留角色身份。
用户研究结果比较了各种基于音频的唇形同步方法。
结论
本文介绍了一种名为 OmniSync 的通用唇形同步框架,该框架适用于多种内容,并解决了传统方法的关键局限性。三项关键创新——消除掩码依赖性的无掩码训练范式、确保身份保持的基于流匹配的渐进式噪声初始化策略,以及平衡同步性和视觉质量的动态时空无分类器引导——共同实现了跨越多种视觉表征的精确唇部运动。为了支持该领域的系统性评估,论文建立了 AIGC-LipSync 基准测试,这是首个用于评估各种 AIGC 环境下唇形同步的综合框架。大量实验表明,OmniSync 在各种挑战性场景下均表现出卓越的性能,为将精确唇形同步集成到更广泛的 AI 视频生成生态系统中奠定了坚实的基础。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

