大数跨境

国产之光 Magi-1:从技术创新到全套开源,开启视频生成新征程

国产之光 Magi-1:从技术创新到全套开源,开启视频生成新征程 元龙数字智能科技
2025-04-27
3




国产之光 Magi-1

从技术创新到全套开源

开启视频生成新征程



一夜之间,一款名为 Magi-1 的视频生成 AI 刷屏了,它是由来自中国北京五道口的 Sand.ai 团队开源的。这款全球首个高质量自回归视频模型一经出现,便在视频圈子里引起了广泛关注,不到两天就在 GitHub 上拿到了 1.7k Star,着实为中国开源领域增添了光彩。

Magi-1 在物理真实性方面表现卓越,断层领先。在物理真实性测试中,它的成绩比谷歌的 VideoPoet 还要高出 3 个 Sora 。当然,它也并非完美无缺,在画面稳定性上还有一定的提升空间,但在常见场景中,开源的 Magi-1 已经具备了与其他优秀模型竞争的实力。

Magi-1 的背后是 Sand.ai 团队,创始人曹越履历十分亮眼,他曾获得清华特等奖学金、ICCV 马尔奖(Marr Prize),还是 Swin Transformer 的共同一作。博士毕业后,他加入微软亚洲研究院,后任智源研究院视觉中心负责人。2023 年年初,他和王慧文、袁进辉共同创立了大模型公司「光年之外」,担任算法联创,在光年之外被收购后,他于 2024 年正式创立 Sand.ai ,Magi-1 便是团队推出的首个模型产品。

Sand.ai 的团队规模不大,三十人左右且几乎都是技术人员,其中不乏科研出身的算法专家。联合创始人张拯同样是 Swin Transformer 的作者之一,ACM 亚洲金牌,与曹越在微软合作了五年,Google Scholar 引用接近 5 万。团队核心算法成员背景也十分强大,来自 MSRA、智源、清华、华中科大等,工程团队则有清华、北大、南大、厦大等高校人才。

在技术选型上,Sand.ai 团队有许多独特之处。他们不做并发采样,不用标准扩散路径,而是采用自回归扩散;并且自写推理系统,从 attention 到 chunk cache 都进行了自主修改,将整个结构从头构建。

目前,Sand.ai 已经完成了三轮总计约六千万美金的融资,主领投方分别是源码资本、今日资本、经纬中国,跟投方也包括创新工场、IDG、襄禾、商汤、华业天成等以及一些业内个人投资者。

Magi-1 采用的是一种 chunk-by-chunk 的自回归生成方法,与 OpenAI 的 Sora 等 DiT 模型一口气生成几秒视频再拼接的方式不同。Magi-1 将视频划分为一个个时间片段(chunk),每段 24 帧(约 1 秒视频),每生成一段才会进入下一段,且下一段内容基于上一段生成。它使用 block-causal attention 机制,块内全连接保留短时段一致性,块与块之间单向连接,只能“看前不看后”,保证了每一段生成带着“记忆”且不被未来信息干扰。

训练时,Magi-1 逐段对每个 chunk 进行去噪,每个 chunk 注入不同程度噪声(前面噪声少,后面噪声多),模型学习根据时间顺序还原这些 noisy chunk ,这一机制被称为时间上单调递增的噪声注入。生成时,在 chunk 去噪到一定程度时提前进入下一个 chunk 的生成,实现流式生成、边播边推,同时保持时间上的逻辑闭环。

通过这些机制,Magi-1 具备了无限时长生成(可不断续写)、每秒控制粒度(对每个 chunk 加不同 prompt 精确指定何时发生何事)、推理成本固定(每个 chunk 计算开销定值,长视频不爆显存)等能力。

Magi-1 不仅支持文本生视频(T2V)和图生视频(I2V),还能做视频续写(V2V),且 V2V 效果远好于 I2V 模拟续写。在推理效率方面,它采用“并行去噪 + pipeline 式推进”,最多可同时生成 4 个 chunk ,带有历史记忆且不会因长度变长爆显存,推理峰值资源使用量与视频长度无关。

在结构上,Magi-1 对 attention、FFN、条件编码、位置编码等做了大量改进,如 3D 可学习 RoPE 位置编码、平行 attention 结构、SwiGLU 激活 + sandwich norm 稳定训练、QK-Norm + GQA 节省内存并提升收敛稳定性等。

如今,Magi-1 实现了真正意义上的全套开源,从 4.5B 到 24B 的全尺寸模型权重、推理脚本和训练代码都已开放,支持文本、图像生成视频以及视频续写,使用标准 HuggingFace 接口,也有 CLI 和 Gradio 的完整推理链路。同时还附有一份 61 页的完整技术报告,详细介绍了机制设计、训练策略、推理流程和基础设施等。

除了开源,Magi-1 还有一款可用的产品,用户在官网上传一张图、写一句话就能生成视频,可控制生成时长,还能开启“增强理解”“高质量”等选项,并且支持从任意时间点续写,是一个可不断拓展、演化的生成工具

Magi-1 没有走当下最主流的路线,而是选择了一条更难但更扎实的路径,从时间出发构建更真实的物理世界模拟器,让视频生成从“像画图一样生成结果”变成“像连续剧一样一集一集生成”,或许这将开启一个新的范式。正如曹越所说,语言模型偏向于虚拟世界,视频模型更偏向于现实世界,虽然目前视频模型还处于早期阶段,但长期来看所谓的“世界模型”或许会在这个方向上发展。 

  END  

【声明】内容源于网络
0
0
元龙数字智能科技
永做第一 使命第一 向善第一
内容 901
粉丝 0
元龙数字智能科技 永做第一 使命第一 向善第一
总阅读2.2k
粉丝0
内容901