大数跨境
0
0

统一建模,多人共演!字节提出 MAGREF,引领多主体视频生成新范式!

统一建模,多人共演!字节提出 MAGREF,引领多主体视频生成新范式! AIGC Studio
2025-06-18
0
导读:在生成式AI的浪潮中,视频生成正成为继图像与文本后的下一个爆发点。




在生成式AI的浪潮中,视频生成正成为继图像与文本后的下一个爆发点。然而,当前主流技术仍困于“单主体、纯人像”的简单场景,面对多主体互动、复杂物体与动态背景交织的现实任务时,往往暴露出三大顽疾:人物身份“张冠李戴”、物体细节“模糊失真”、人与环境“割裂拼贴”。这些痛点让AI视频生成始终难以跨越“实验室”到“真实世界”的鸿沟。

字节跳动智能创作团队提出的MAGREF(Masked Guidance for Any-Reference Video Generation)方案,正以“轻量化创新”打破这一僵局。通过掩码引导机制通道拼接架构的协同设计,MAGREF无需增加模型复杂度,即可实现多模态参考图像的“统一建模”。无论是单人独舞、多人协作,还是人物与物体、背景的动态交互,MAGREF均能生成身份精准锁定、结构无缝衔接、语义逻辑自洽的视频序列,为视频扩散生成技术开辟了“通用化、可控化”的新路径。

相关链接

  • 论文: https://arxiv.org/pdf/2505.23742
  • 代码: https://github.com/MAGREF-Video/MAGREF
  • 项目: https://magref-video.github.io/magref.github.io/

论文介绍

一图千面,身份不变:Single-ID 视频生成

在传统视频生成中,只提供一张人像参考图,往往会导致模型在生成过程中ID丢失,人物面貌或服饰在每一帧中“逐渐跑偏”。只需一张人像参考图,MAGREF 生成的视频即可精准保留人物身份特征,同时根据多样文本提示,演绎出跨场景、跨风格的动态内容,真正实现“一图千面”的数字表达。MAGREF 的强大之处在于:无论输入是谁、来自哪个时代、风格是否抽象,它都能精准复刻其身份特征,在生成视频中保持一致性,同时根据文本指令渲染出多变的动作、环境和光影氛围。

在视频中,我们看到 Isaac Newton 化身画家、Mona Lisa 站在海边迎风起舞......所有这些人物的生成视频,都仅基于一张参考图像完成。

多人同台不串脸:Multi-ID 视频生成

在传统视频生成任务中,一旦涉及多个人物共同出现在镜头中,模型就容易出现身份混淆、面部融合、动作不协调等问题。MAGREF 则打破了这一技术瓶颈。

图中的案例中每一位角色的面貌、发型、神态与参考图一致,表情自然,互动合理。这表明:不论是两人同框还是群体联动,或是人物置于复杂背景中,MAGREF 都能以统一结构精确建模,生成真实可信的多主体视频。

人物 + 物体 + 场景全控:ID + Object + Environment 视频生成

在图像生成迈向视频时代的过程中,想要同时控制人物身份、出现物体、背景语境三要素,是一项极具挑战的任务。而 MAGREF 展示了这一领域的崭新能力边界。MAGREF 只需输入:一张人像图、一张物体图、一张环境参考图,和一段prompt,就能生成包含三类要素的完整视频序列,人物与物体有真实交互,场景融入毫无违和感。

在图中,我们看到多种组合场景:

  • 人与宠物共处草地、肩扛小狗、逗鸟入镜;
  • 人物形象与服饰属性一体生成,如黑色 T 恤、泳装;
  • 背景从绿地到写字楼,从乡村街景到东方园林,语义清晰且风格协调。

数据处理流程:三阶段高质量视频样本构建

MAGREF 采用了一个三阶段数据处理流程,以构建高质量、结构清晰的视频训练样本:

  1. 通用筛选与字幕生成:从原始视频中切分出语义一致的片段,过滤低质量样本,并为每段生成结构化文本。
  2. 主体提取与掩码标注:通过标签提取与语义分割识别出视频中的关键物体(如动物、服饰、道具等),并进行后处理以获得精准遮罩。
  3. 人脸识别与身份建模:检测并分配视频中人物身份,筛选高质量面部图像用于参考图构建,确保训练过程中的身份一致性。

基于掩码指导的的DiT视频生成方案

MAGREF 构建在 DiT(Diffusion Transformer)架构之上,通过引入两项关键机制 —— 区域感知动态遮罩与像素级通道拼接,成功实现了一个统一模型适配 单人、多人、人物与物体+背景混合 等复杂视频生成任务的能力。

具体来说,MAGREF 首先在生成空间中构建一块空白画布,将输入的参考图(可以是人脸、宠物、服饰、背景等)随机排列其中。随后,模型为每张参考图生成一张空间区域掩码,指示该图像在画布中的语义位置。这个区域感知动态遮罩机制可自动引导模型理解“谁控制哪一块画面”,使得在视频生成中,即使参考图数量和顺序不同,系统也能保持结构一致、身份不串、关系明确。

为了进一步提升外观细节保真度,MAGREF 还采用了像素级通道拼接策略:将所有参考图在特征维度上逐像素对齐拼接,避免传统 token 拼接可能引发的图像模糊或信息混叠问题。该机制不仅增强了视觉一致性,也保持了生成结果对姿态、服饰、背景等细节的精准还原。无需为不同任务单独设计模型,MAGREF 通过最小的架构改动和统一的训练流程,全面支持多种参考图配置,实现了强泛化性与高可控性的平衡。

多场景适配,迈向通用生成:应用与未来展望

作为统一参考图驱动的视频生成框架,MAGREF以“一图多场景”的通用性颠覆传统范式。无论是个人用户用一张自拍生成趣味日常短片,还是企业级团队快速合成多人互动的广告脚本,亦或是构建虚拟人与真实场景无缝融合的数字影像,MAGREF均能以“身份锚定、结构自洽、动态连贯”的生成能力,打破“单主体局限”与“多模态割裂”的双重桎梏。

技术普惠性:从个人创作到产业级应用的“无界适配”

  • 个人创作:用户仅需上传一张照片,即可生成风格化日常Vlog、虚拟分身互动视频,甚至“复活”历史人物进行跨时空对话。
  • 企业生产:广告、影视、游戏行业可基于MAGREF快速生成多角色剧情片段、虚拟场景试拍预演,显著降低内容制作成本与周期。
  • 前沿探索:在元宇宙、数字人等场景中,MAGREF已实现虚拟角色与真实环境的动态交互,为“虚实共生”提供技术底座。

未来演进:从“视频生成”到“跨模态智能创作中枢”
团队正以三大方向推动MAGREF迈向下一代内容生成范式:

  1. 画质与动态升级:引入分层扩散模型时空注意力机制,提升视频分辨率至4K+、优化长时运动连贯性,并解决复杂场景下的细节丢失问题。
  2. 多模态融合引擎:结合多模态大语言模型(MLLM)的语义理解能力,实现“图文指令→视频生成→音频适配”的全链路联动。例如,用户输入“雨夜咖啡馆的情侣对话”,系统可自动生成匹配氛围的背景音乐、环境音效,甚至角色语音。
  3. 跨模态协同创作:通过统一表征空间,让视频、音频、文本在语义层面深度对齐,支持“边改文本边调视频”“听语音生成对应表情”等交互模式,真正实现“所思即所得”。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

【声明】内容源于网络
0
0
AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
内容 876
粉丝 0
AIGC Studio 一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
总阅读177
粉丝0
内容876