华为提出视觉创作模型Capybara，支持多样化的视觉生成和编辑，一个模型搞定T2I、T2V、TI2I、TV2V任务。- 大数跨境

首页

华为提出视觉创作模型Capybara，支持多样化的视觉生成和编辑，一个模型搞定T2I、T2V、TI2I、TV2V任务。

AIGC Studio

2026-03-21

导读：点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

Capybara是一个统一的视觉创建模型，即一个强大的视觉生成和编辑框架，专为高质量的视觉合成和操作任务而设计。该框架利用先进的扩散模型和转换器架构，支持多样化的视觉生成和编辑功能，并能精确控制内容、运动和摄像机运动。

主要特点：

多任务支持：支持文本转视频 (T2V)、文本转图像 (T2I)、基于指令的视频转视频 (TV2V)、基于指令的图像转图像 (TI2I) 以及各种编辑任务
高性能：采用分布式推理支持，可实现高效的多GPU处理

unsetunset相关链接unsetunset

论文: https://github.com/xgen-universe/Capybara/blob/main/assets/docs/tech_report.pdf
项目：https://lllydialee.github.io/Capybara-Project-Page/
模型：https://huggingface.co/xgen-universe/Capybara
工作流：https://github.com/xgen-universe/Capybara/blob/main/comfyui/examples

unsetunset论文介绍unsetunset

多模态大型语言模型的快速发展加速了视觉内容的创作，但如今的生态系统在图像和视频领域，以及生成、可控合成和转换等方面仍然存在碎片化。这种碎片化使得构建一个能够始终如一地理解用户意图、保持图像特征和结构，并在各种条件信号下维持时间一致性的单一系统变得困难。我们提出了Capybara，一个统一的视觉创作基础模型，它支持从零开始的创作（T2I、T2V）、条件生成（I2V）以及在丰富的多模态上下文下的转换，所有这些都集成在一个架构和一个条件接口中。Capybara 由三个关键组件构成：（i）原生统一设计，将语义意图建模与像素合成解耦，从而增强意图理解和可靠的指令执行；（ii）内在的 3D 感知一致性机制，整合几何先验信息（例如深度和法线线索）以稳定跨空间和时间的图像特征和结构； (iii) 由多样化的数据合成流程驱动的多任务训练范式，促进了模型在各种异构创作模式下的广泛泛化。大量评估表明，Capybara 能够提供高保真输出，并具有精确的语义一致性和基于物理的时空连贯性，从而提供无缝的端到端工作流程，将图像级精度与视频级动态完美融合。

unsetunset方法概述unsetunset

流水线概览。 给定系统提示和指令（例如，“将参考图像中的吃豆人添加到视频中。”），冻结的语义模块将文本意图编码为视觉语义指导，同时冻结的视觉模块提取视觉参考特征。这些条件由堆叠的 MMDiT 模块 (x N)融合，以对潜在表示进行去噪并合成最终输出，从而实现统一的指令驱动的图像/视频生成和编辑。

unsetunset实验unsetunset

生成任务结果。展示了基于统一模型的两项生成任务。顶部部分展示了文本到图像的生成结果，说明了该模型能够实现不同风格的高保真合成。底部几行展示了文本到视频的生成结果，证明了该模型能够生成时间上连贯且运动自然的文本，无论是写实内容还是风格化内容。

图像编辑任务结果。我们展示了基于指令的图像编辑和上下文图像编辑的结果。示例涵盖局部和全局编辑（例如，时间更改和风格更改）、背景替换和表情控制。我们进一步演示了多轮编辑，其中编辑是按顺序应用的。我们还展示了由参考图像引导的上下文编辑。

基于指令的视频编辑任务结果。展示了统一创作界面下的基于指令的编辑（TV2V）功能，涵盖局部编辑、全局编辑、密集预测和动态编辑。每个示例都展示了输入帧和编辑后的输出，重点突出了在保持视频特性和整体结构的同时，时间上连贯的变换。

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

【声明】内容源于网络

AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

内容 1064

粉丝 0

AIGC Studio 一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

总阅读11.4k

粉丝0

内容1.1k