大数跨境
0
0

「全球首个自回归视频生成大模型」,清华特奖得主团队 Sand AI 携 MAGI-1 颠覆视频生成!模型权重、代码100%开源

「全球首个自回归视频生成大模型」,清华特奖得主团队 Sand AI 携 MAGI-1 颠覆视频生成!模型权重、代码100%开源 AI前沿速递
2025-04-23
0
导读:「全球首个自回归视频生成大模型」,清华特奖得主团队 Sand AI 携 MAGI-1 颠覆视频生成!模型权重、代码100%开源

就在昨天,马尔奖、清华特奖得主曹越的创业公司Sand AI推出的MAGI-1大模型以开源之姿重磅入场,成为视频生成领域的新晋焦点!

随着短视频平台崛起与影视制作智能化转型,传统视频生成技术如基于规则的动画系统和早期GAN模型,已难以满足多样化场景需求。而基于Transformer与扩散模型的新一代技术,虽带来革新希望,却仍面临长序列计算复杂度高、生成内容时序混乱等挑战。MAGI-1正是针对这些痛点,通过自回归架构与分块扩散设计,将视频切割为24帧片段逐块生成,配合块因果注意力机制,有效降低计算成本,实现长视频的实时、流畅生成。

随着AIGC应用向影视制作、虚拟主播、游戏开发等领域渗透,对视频生成模型的实时性、可控性和内容质量提出更高要求。这既需要算法创新突破技术瓶颈,也呼唤产学研协同探索更高效的优化路径,推动视频生成大模型从实验室走向大规模产业应用。

为此,我们精心整理了12篇顶刊前沿论文,从不同角度和方法对视频生成大模型进行创新,希望对大家有所帮助!


扫码添加小助手回复“C260
免费获取全部论文+开源代码


【论文1】MAGI-1: Autoregressive Video Generation at Scale

(Left) MAGI-1 performs chunk-wise autoregressive denoising. (Right) A block-causal attention mask enforces temporal causality across chunks, enabling pipelined and parallel generation.

1.研究方法

Magi-1 整体架构基于 Diffusion Transformer,采用 Flow-Matching 作为训练目标。训练分为多阶段,第一阶段固定分辨率,第二阶段引入可变分辨率和图像 - 视频联合训练。采用自回归去噪方式预测固定长度(24 帧)的视频片段,前一片段去噪到一定程度后生成下一片段 ,通过分片段自回归设计配合多项改进,包括在注意力机制等方面的创新来生成视频。

2.论文创新点

Schematic of MagiAttention’s multi-stage overlap scheduling
  • 自回归架构创新:将视频分割为24帧的“块”,逐块生成,支持实时流式生成与长视频无缝衔接,允许用户通过分块提示词精确控制场景过渡。
  • 扩散模型优化创新:在Diffusion Transformer基础上,进行块因果注意力、并行注意力块、QK标准化与分组查询、三明治归一化等多项创新,提升训练效率与模型性能。
  • 蒸馏算法创新:开发多步长自洽蒸馏技术,使模型可在RTX 4090显卡上运行,量化版本性能损失小且速度提升 。

论文链接:https://static.magi.world/static/files/MAGI_1.pdf

【论文2】ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way

Unlock the potential of pretrained text-to-video (T2V) generation models in a training-free approach.

1.研究方法

ByTheWay Operations

该论文提出的ByTheWay 方法由两部分构成。Temporal Self-Guidance 通过将前一个上采样块的时间注意力图融入后续块,减少不同解码器块时间注意力图的差异,以此提升生成视频的结构合理性和时间一致性;Fourier-based Motion Enhancement 利用快速傅里叶变换(FFT)分解时间注意力图,对高频分量进行缩放,增加其能量,进而增强视频运动幅度和丰富度。

2.论文创新点

Quantitative results of ByTheWay on VBench [70]
Ablation on ByTheWay parameters
  • 非训练式优化:无需额外训练、添加参数、扩充内存或增加采样时间,就能提升文本到视频生成的质量,在推理阶段以极小成本优化视频生成效果。
  • 深入分析注意力模块:发现视频生成中时间注意力图的两个关键关联,即不同块时间注意力图差异与视频结构、时间不一致性的关系,以及时间注意力图能量与视频运动幅度的关系,为方法设计提供理论依据。
  • 强适用性与扩展性:能以即插即用的方式无缝集成到多种主流文本到视频生成模型(如AnimateDiff、VideoCrafter2)中,且在图像到视频任务中也展现出潜力,适用范围广。

论文链接:https://arxiv.org/pdf/2410.06241


扫码添加小助手回复“C260
免费获取全部论文+开源代码

【声明】内容源于网络
0
0
AI前沿速递
AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
内容 1825
粉丝 0
AI前沿速递 AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
总阅读124
粉丝0
内容1.8k