「全球首个自回归视频生成大模型」，清华特奖得主团队 Sand AI 携 MAGI-1 颠覆视频生成！模型权重、代码100%开源

AI前沿速递

2025-04-23

导读：「全球首个自回归视频生成大模型」，清华特奖得主团队 Sand AI 携 MAGI-1 颠覆视频生成！模型权重、代码100%开源

就在昨天，马尔奖、清华特奖得主曹越的创业公司Sand AI推出的MAGI-1大模型以开源之姿重磅入场，成为视频生成领域的新晋焦点！

随着短视频平台崛起与影视制作智能化转型，传统视频生成技术如基于规则的动画系统和早期GAN模型，已难以满足多样化场景需求。而基于Transformer与扩散模型的新一代技术，虽带来革新希望，却仍面临长序列计算复杂度高、生成内容时序混乱等挑战。MAGI-1正是针对这些痛点，通过自回归架构与分块扩散设计，将视频切割为24帧片段逐块生成，配合块因果注意力机制，有效降低计算成本，实现长视频的实时、流畅生成。

随着AIGC应用向影视制作、虚拟主播、游戏开发等领域渗透，对视频生成模型的实时性、可控性和内容质量提出更高要求。这既需要算法创新突破技术瓶颈，也呼唤产学研协同探索更高效的优化路径，推动视频生成大模型从实验室走向大规模产业应用。

为此，我们精心整理了12篇顶刊前沿论文，从不同角度和方法对视频生成大模型进行创新，希望对大家有所帮助！

扫码添加小助手回复“C260”

免费获取全部论文+开源代码

【论文1】MAGI-1: Autoregressive Video Generation at Scale

(Left) MAGI-1 performs chunk-wise autoregressive denoising. (Right) A block-causal attention mask enforces temporal causality across chunks, enabling pipelined and parallel generation.

1.研究方法

Magi-1 整体架构基于 Diffusion Transformer，采用 Flow-Matching 作为训练目标。训练分为多阶段，第一阶段固定分辨率，第二阶段引入可变分辨率和图像 - 视频联合训练。采用自回归去噪方式预测固定长度（24 帧）的视频片段，前一片段去噪到一定程度后生成下一片段，通过分片段自回归设计配合多项改进，包括在注意力机制等方面的创新来生成视频。

2.论文创新点

Schematic of MagiAttention’s multi-stage overlap scheduling

自回归架构创新：将视频分割为24帧的“块”，逐块生成，支持实时流式生成与长视频无缝衔接，允许用户通过分块提示词精确控制场景过渡。
扩散模型优化创新：在Diffusion Transformer基础上，进行块因果注意力、并行注意力块、QK标准化与分组查询、三明治归一化等多项创新，提升训练效率与模型性能。
蒸馏算法创新：开发多步长自洽蒸馏技术，使模型可在RTX 4090显卡上运行，量化版本性能损失小且速度提升。

论文链接：https://static.magi.world/static/files/MAGI_1.pdf

【论文2】ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way

Unlock the potential of pretrained text-to-video (T2V) generation models in a training-free approach.

1.研究方法

该论文提出的ByTheWay 方法由两部分构成。Temporal Self-Guidance 通过将前一个上采样块的时间注意力图融入后续块，减少不同解码器块时间注意力图的差异，以此提升生成视频的结构合理性和时间一致性；Fourier-based Motion Enhancement 利用快速傅里叶变换（FFT）分解时间注意力图，对高频分量进行缩放，增加其能量，进而增强视频运动幅度和丰富度。

2.论文创新点

Quantitative results of ByTheWay on VBench [70]

非训练式优化：无需额外训练、添加参数、扩充内存或增加采样时间，就能提升文本到视频生成的质量，在推理阶段以极小成本优化视频生成效果。
深入分析注意力模块：发现视频生成中时间注意力图的两个关键关联，即不同块时间注意力图差异与视频结构、时间不一致性的关系，以及时间注意力图能量与视频运动幅度的关系，为方法设计提供理论依据。
强适用性与扩展性：能以即插即用的方式无缝集成到多种主流文本到视频生成模型（如AnimateDiff、VideoCrafter2）中，且在图像到视频任务中也展现出潜力，适用范围广。

论文链接：https://arxiv.org/pdf/2410.06241

扫码添加小助手回复“C260”

免费获取全部论文+开源代码

【声明】内容源于网络

AI前沿速递

AI前沿速递聚焦人工智能最新科研成果与技术动态，专注前沿论文解读、行业资讯分享与高校招生信息推送，助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容，让全球优秀研究被更多人看见。关注我们，探索AI无限可能！

内容 1825

粉丝 0

AI前沿速递 AI前沿速递聚焦人工智能最新科研成果与技术动态，专注前沿论文解读、行业资讯分享与高校招生信息推送，助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容，让全球优秀研究被更多人看见。关注我们，探索AI无限可能！

总阅读124

粉丝0

内容1.8k