大数跨境
0
0

多主体视频生成新突破!中科大&字节提出BindWeave,破解视频生成主体一致难题,性能超开源及商业模型。

多主体视频生成新突破!中科大&字节提出BindWeave,破解视频生成主体一致难题,性能超开源及商业模型。 AIGC Studio
2026-01-03
7
导读:添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

中科大联合字节针对现有视频生成模型在主体一致性上的不足,提出BindWeave统一框架。该框架引入MLLM-DiT,利用预训练多模态大语言模型做深度跨模态推理,关联实体、解耦角色等,生成主体感知隐藏状态,作为Diffusion Transformer参数,实现高保真且主体一致的视频生成。在OpenS2V基准测试中,该方法生成视频在主题一致性等方面表现优异,超越现有开源和商业模型。

下图展示了BindWeave主体到视频生成在各种场景下生成高保真、主体一致的视频的能力,从单主体输入到复杂的多主体合成。

unsetunset单人视频unsetunset

给定一张人物(面部或身体)的参考照片,BindWeave可以生成与人物身份一致、提示引导的视频,并在姿势、表情和视角方面呈现自然的变化。

unsetunset多人视频unsetunset

BindWeave 提供多个参考图像,创建提示驱动的多人视频,保留每个主体的身份,清晰地描绘他们的互动,具有流畅的时间一致性,并且不会出现身份互换。

unsetunset人形到视频unsetunset

给定多个人物和物体的参考图像,BindWeave可以保持每个主体和每个实体的身份一致性,实现快速、准确且符合物理规律的人与物体交互,并在遮挡和视角变化下提供流畅的时间连贯性。

unsetunset相关链接unsetunset

  • 论文标题: BindWeave:通过跨模态融合生成与主题一致的视频

  • 论文: https://arxiv.org/pdf/2510.00438

  • 代码: https://github.com/bytedance/BindWeave

  • 主页: https://lzy-dot.github.io/BindWeave

unsetunset介绍unsetunset

扩散变换器(Diffusion Transformer Transformer)在生成高保真视频方面展现了卓越的能力,能够在较长时间内提供视觉连贯的帧和丰富的细节。然而,由于解析指定复杂空间关系、时间逻辑以及多主体间交互的提示信息存在固有的困难,现有的视频生成模型在生成主体一致性视频方面仍然存在不足。

为了解决这个问题,论文提出了BindWeave,这是一个统一的框架,能够处理从单主体到包含异构实体的复杂多主体场景的各种主体到视频的场景。为了将复杂的提示语义绑定到具体的视觉主体,论文引入了一个MLLM-DiT框架。在该框架中,预训练的多模态大型语言模型执行深度跨模态推理,以关联实体并解耦角色、属性和交互,从而生成主体感知的隐藏状态,这些状态可以作为Diffusion Transformer的参数,以实现高保真且主体一致的视频生成。在 OpenS2V 基准测试上的实验表明该方法生成的视频在主题一致性、自然性和文本相关性方面都取得了优异的性能,优于现有的开源和商业模型。

unsetunset方法概述unsetunset

BindWeave 架构的示意图方法框架。一个多模态大型语言模型执行跨模态推理,以从提示图像和 可选参考图像中提取实体,并解耦角色、属性和交互。由此产生的感知主体的信号通过交叉注意力机制和轻量级适配器,引导扩散变换器,生成身份忠实、关系一致且时间连贯的视频。

BindWeave 旨在克服浅层融合范式在主题一致性视频生成方面的局限性。核心原则是在生成过程开始之前,用对多模态输入的深入、理性理解来取代浅层的、事后融合。为此,BindWeave 首先利用多模态大型语言模型 (MLLM) 作为智能指令解析器。

MLLM 生成一个指导模式,该模式以隐藏状态序列的形式实现,编码了复杂的跨模态语义和时空逻辑,然后,在整个合成过程中,该模式会精心引导扩散变换器 (DiT)。

unsetunset实验结果unsetunset

在视频任务中,对受试者进行定性比较,每个案例均展示四个均匀采样的帧。与其他竞争方法相比,论文的方法在受试者保真度、自然度和与字幕的语义一致性方面更胜一筹。在主体-视频任务上进行定性比较,每个案例均展示四个均匀采样的帧。 与其他方法相比,论文的方法能更好地避免不合理的现象,生成更自然的视频,同时保持主体的一致性。

unsetunset结论unsetunset

BindWeave主题一致性视频生成框架通过显式的跨模态融合,在单实体和多实体场景下生成一致、文本对齐且视觉效果引人入胜的视频。BindWeave 使用多层线性模型 (MLLM) 深度融合参考图像和文本提示信息,促进联合学习,从而有效地对实体身份、属性和关系进行建模,实现细粒度的实体定位和强大的主题保留。

实验表明 BindWeave 已充分学习了跨模态融合知识,能够生成高保真度且主题一致的视频。此外,在 OpenS2V 基准测试中,BindWeave 取得了最先进的性能,优于现有的开源方法和商业模型,充分展现了其优势。总而言之,BindWeave 为 S2V 任务提供了一种新的视角,并指明了未来在一致性、真实性和可控性方面取得进展的方向。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

【声明】内容源于网络
0
0
AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
内容 928
粉丝 0
AIGC Studio 一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
总阅读5.1k
粉丝0
内容928