Capybara是一个统一的视觉创建模型,即一个强大的视觉生成和编辑框架,专为高质量的视觉合成和操作任务而设计。该框架利用先进的扩散模型和转换器架构,支持多样化的视觉生成和编辑功能,并能精确控制内容、运动和摄像机运动。
主要特点:
-
多任务支持:支持文本转视频 (T2V)、文本转图像 (T2I)、基于指令的视频转视频 (TV2V)、基于指令的图像转图像 (TI2I) 以及各种编辑任务 -
高性能:采用分布式推理支持,可实现高效的多GPU处理
相关链接
-
论文: https://github.com/xgen-universe/Capybara/blob/main/assets/docs/tech_report.pdf -
项目:https://lllydialee.github.io/Capybara-Project-Page/ -
模型:https://huggingface.co/xgen-universe/Capybara -
工作流:https://github.com/xgen-universe/Capybara/blob/main/comfyui/examples
论文介绍
多模态大型语言模型的快速发展加速了视觉内容的创作,但如今的生态系统在图像和视频领域,以及生成、可控合成和转换等方面仍然存在碎片化。这种碎片化使得构建一个能够始终如一地理解用户意图、保持图像特征和结构,并在各种条件信号下维持时间一致性的单一系统变得困难。我们提出了Capybara,一个统一的视觉创作基础模型,它支持从零开始的创作(T2I、T2V)、条件生成(I2V)以及在丰富的多模态上下文下的转换,所有这些都集成在一个架构和一个条件接口中。Capybara 由三个关键组件构成:(i)原生统一设计,将语义意图建模与像素合成解耦,从而增强意图理解和可靠的指令执行;(ii)内在的 3D 感知一致性机制,整合几何先验信息(例如深度和法线线索)以稳定跨空间和时间的图像特征和结构; (iii) 由多样化的数据合成流程驱动的多任务训练范式,促进了模型在各种异构创作模式下的广泛泛化。大量评估表明,Capybara 能够提供高保真输出,并具有精确的语义一致性和基于物理的时空连贯性,从而提供无缝的端到端工作流程,将图像级精度与视频级动态完美融合。
方法概述
流水线概览。 给定系统提示和指令(例如,“将参考图像中的吃豆人添加到视频中。”),冻结的语义模块将文本意图编码为视觉语义指导,同时冻结的视觉模块提取视觉参考特征。这些条件由堆叠的 MMDiT 模块 (x N)融合,以对潜在表示进行去噪并合成最终输出,从而实现统一的指令驱动的图像/视频生成和编辑。
实验
生成任务结果。展示了基于统一模型的两项生成任务。顶部部分展示了文本到图像的生成结果,说明了该模型能够实现不同风格的高保真合成。底部几行展示了文本到视频的生成结果,证明了该模型能够生成时间上连贯且运动自然的文本,无论是写实内容还是风格化内容。
图像编辑任务结果。我们展示了基于指令的图像编辑和上下文图像编辑的结果。示例涵盖局部和全局编辑(例如,时间更改和风格更改)、背景替换和表情控制。我们进一步演示了多轮编辑,其中编辑是按顺序应用的。我们还展示了由参考图像引导的上下文编辑。
基于指令的视频编辑任务结果。展示了统一创作界面下的基于指令的编辑(TV2V)功能,涵盖局部编辑、全局编辑、密集预测和动态编辑。每个示例都展示了输入帧和编辑后的输出,重点突出了在保持视频特性和整体结构的同时,时间上连贯的变换。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

