2025
视频生成新突破
MAGI-1 引领自回归视频时代
在人工智能蓬勃发展的当下,视频生成领域迎来了一项重大突破。Sand AI公司推出的MAGI-1模型,作为全球首个自回归视频生成大模型,一经开源便在业界引起广泛关注,为视频生成技术开辟了新的发展方向。
MAGI-1通过自回归预测视频块序列来生成视频,每个视频块由固定长度的连续帧组成。这种独特的设计使其能够对随时间单调增加的每块噪声进行去噪训练,进而实现因果时间建模,为自然流畅的视频生成奠定了基础。它在以文本指令为条件的图像到视频(I2V)任务中表现卓越,具备高度的时间一致性和可扩展性,在实际应用中展现出强大的优势。
从技术架构层面来看,MAGI-1集成了多项创新设计。其基于Transformer的变分自编码器(VAE),采用Transformer架构,实现了8倍的空间压缩和4倍的时间压缩。这一设计不仅带来了最快的平均解码时间,还在重建质量上极具竞争力,有效提升了模型处理视频数据的效率和质量。在自回归去噪算法方面,MAGI-1摒弃了整体生成视频的传统方式,而是逐块生成。每个包含24帧的片段会进行整体去噪,当当前片段达到一定去噪水平时,便立即开始下一个片段的生成。这种流水线式设计允许同时处理多达四个片段,大大提高了视频生成的效率。
扩散模型架构是MAGI-1的又一亮点。它基于DiT架构进行了多项关键创新,融入了因果注意力block、并行注意力block、QK-Norm和GQA、FFN中的三明治层归一化、SwiGLU和Softcap Modulation等技术。这些创新技术相互配合,显著提升了大规模训练的效率和稳定性,使模型能够更好地捕捉视频中的复杂信息和动态变化。在蒸馏算法上,MAGI-1采用了快捷蒸馏方法,训练基于速度的模型以适应不同推理预算。通过自一致性约束,将大步长等同于两个小步长,让模型在多个步长范围内逼近流匹配轨迹。训练时步长从{64, 32, 16, 8}循环采样,并结合无分类器引导蒸馏法,在保证高效推理的同时,将保真度损失降至最低。
MAGI-1在实际生成效果上令人眼前一亮。它生成的视频流畅度极高,能够一镜到底地生成连续的长视频场景,避免了尴尬的剪辑和奇怪的拼接,观看体验如同电影般自然流畅。在时间轴控制方面,MAGI-1表现出色,是目前唯一具备秒级时间轴控制的模型,用户可以按照自己的设想精准雕琢每一秒的视频内容。其生成的视频动作也更加自然、富有生机,有效克服了其他AI生成视频中常见的动作迟缓、僵硬死板和幅度过小等问题,场景切换也更加顺滑。
在评估环节,MAGI-1同样表现优异。在内部人工评估中,它在开源模型中达到了最先进的水平,超越了Wan-2.1等模型,在指令遵循和运动质量方面尤为突出,甚至对Kling等闭源商业模型也构成了有力挑战。在物理评估方面,凭借自回归架构的天然优势,MAGI-1在通过视频连续性预测物理行为的精度上远超现有模型,展现出对物理规律的深刻理解和准确模拟能力。
Sand AI公司能够推出如此具有创新性的模型,离不开其强大的团队背景。公司创立于2024年1月,由曹越、张拯等人联合创立。曹越是清华大学软件工程博士,在机器学习和计算机视觉领域深耕多年,其代表作Swin Transformer荣获ICCV马尔奖,他本人还是清华大学特等奖学金得主,学术成果斐然。联合创始人张拯同样实力强劲,本硕毕业于华中科技大学软件工程专业,也是Swin Transformer的作者之一,与曹越共同获得ICCV2021最佳论文奖。截至目前,Sand AI已成功融资近六千万美金,获得了众多知名投资机构的支持。
MAGI-1的发布在海外引发了热烈讨论,开源大神Simo Ryu和OpenAI研究员Lucas beyer等业内人士都对其表现出浓厚兴趣。这不仅彰显了MAGI-1的技术影响力,也表明自回归视频生成技术正逐渐成为图像、视频生成领域的重要发展方向。此前,OpenAI在GPT-4o的报告中提到其图像生成采用原生嵌入在ChatGPT中的自回归模型,这进一步印证了该技术路线的潜力。
展望未来,Sand AI计划实现视频的实时、快速生成,致力于将AI模型从单纯的创作工具升级为能够提供实时体验的平台。这一目标的实现将进一步拓展MAGI-1的应用场景,为用户带来更加便捷、高效的视频生成体验,在娱乐、教育、广告等多个领域创造更多价值。MAGI-1的出现无疑为视频生成领域注入了新的活力,其创新技术和卓越性能有望引领行业进入一个全新的发展阶段,推动自回归视频生成技术不断向前发展。
-END-

