国产之光 Magi-1：从技术创新到全套开源，开启视频生成新征程- 大数跨境

首页

国产之光 Magi-1：从技术创新到全套开源，开启视频生成新征程

元龙数字智能科技

2025-04-27

国产之光 Magi-1

从技术创新到全套开源

开启视频生成新征程

一夜之间，一款名为 Magi-1 的视频生成 AI 刷屏了，它是由来自中国北京五道口的 Sand.ai 团队开源的。这款全球首个高质量自回归视频模型一经出现，便在视频圈子里引起了广泛关注，不到两天就在 GitHub 上拿到了 1.7k Star，着实为中国开源领域增添了光彩。

Magi-1 在物理真实性方面表现卓越，断层领先。在物理真实性测试中，它的成绩比谷歌的 VideoPoet 还要高出 3 个 Sora 。当然，它也并非完美无缺，在画面稳定性上还有一定的提升空间，但在常见场景中，开源的 Magi-1 已经具备了与其他优秀模型竞争的实力。

Magi-1 的背后是 Sand.ai 团队，创始人曹越履历十分亮眼，他曾获得清华特等奖学金、ICCV 马尔奖（Marr Prize），还是 Swin Transformer 的共同一作。博士毕业后，他加入微软亚洲研究院，后任智源研究院视觉中心负责人。2023 年年初，他和王慧文、袁进辉共同创立了大模型公司「光年之外」，担任算法联创，在光年之外被收购后，他于 2024 年正式创立 Sand.ai ，Magi-1 便是团队推出的首个模型产品。

Sand.ai 的团队规模不大，三十人左右且几乎都是技术人员，其中不乏科研出身的算法专家。联合创始人张拯同样是 Swin Transformer 的作者之一，ACM 亚洲金牌，与曹越在微软合作了五年，Google Scholar 引用接近 5 万。团队核心算法成员背景也十分强大，来自 MSRA、智源、清华、华中科大等，工程团队则有清华、北大、南大、厦大等高校人才。

在技术选型上，Sand.ai 团队有许多独特之处。他们不做并发采样，不用标准扩散路径，而是采用自回归扩散；并且自写推理系统，从 attention 到 chunk cache 都进行了自主修改，将整个结构从头构建。

目前，Sand.ai 已经完成了三轮总计约六千万美金的融资，主领投方分别是源码资本、今日资本、经纬中国，跟投方也包括创新工场、IDG、襄禾、商汤、华业天成等以及一些业内个人投资者。

Magi-1 采用的是一种 chunk-by-chunk 的自回归生成方法，与 OpenAI 的 Sora 等 DiT 模型一口气生成几秒视频再拼接的方式不同。Magi-1 将视频划分为一个个时间片段（chunk），每段 24 帧（约 1 秒视频），每生成一段才会进入下一段，且下一段内容基于上一段生成。它使用 block-causal attention 机制，块内全连接保留短时段一致性，块与块之间单向连接，只能“看前不看后”，保证了每一段生成带着“记忆”且不被未来信息干扰。

训练时，Magi-1 逐段对每个 chunk 进行去噪，每个 chunk 注入不同程度噪声（前面噪声少，后面噪声多），模型学习根据时间顺序还原这些 noisy chunk ，这一机制被称为时间上单调递增的噪声注入。生成时，在 chunk 去噪到一定程度时提前进入下一个 chunk 的生成，实现流式生成、边播边推，同时保持时间上的逻辑闭环。

通过这些机制，Magi-1 具备了无限时长生成（可不断续写）、每秒控制粒度（对每个 chunk 加不同 prompt 精确指定何时发生何事）、推理成本固定（每个 chunk 计算开销定值，长视频不爆显存）等能力。

Magi-1 不仅支持文本生视频（T2V）和图生视频（I2V），还能做视频续写（V2V），且 V2V 效果远好于 I2V 模拟续写。在推理效率方面，它采用“并行去噪 + pipeline 式推进”，最多可同时生成 4 个 chunk ，带有历史记忆且不会因长度变长爆显存，推理峰值资源使用量与视频长度无关。

在结构上，Magi-1 对 attention、FFN、条件编码、位置编码等做了大量改进，如 3D 可学习 RoPE 位置编码、平行 attention 结构、SwiGLU 激活 + sandwich norm 稳定训练、QK-Norm + GQA 节省内存并提升收敛稳定性等。

如今，Magi-1 实现了真正意义上的全套开源，从 4.5B 到 24B 的全尺寸模型权重、推理脚本和训练代码都已开放，支持文本、图像生成视频以及视频续写，使用标准 HuggingFace 接口，也有 CLI 和 Gradio 的完整推理链路。同时还附有一份 61 页的完整技术报告，详细介绍了机制设计、训练策略、推理流程和基础设施等。

除了开源，Magi-1 还有一款可用的产品，用户在官网上传一张图、写一句话就能生成视频，可控制生成时长，还能开启“增强理解”“高质量”等选项，并且支持从任意时间点续写，是一个可不断拓展、演化的生成工具。

Magi-1 没有走当下最主流的路线，而是选择了一条更难但更扎实的路径，从时间出发构建更真实的物理世界模拟器，让视频生成从“像画图一样生成结果”变成“像连续剧一样一集一集生成”，或许这将开启一个新的范式。正如曹越所说，语言模型偏向于虚拟世界，视频模型更偏向于现实世界，虽然目前视频模型还处于早期阶段，但长期来看所谓的“世界模型”或许会在这个方向上发展。

END

【声明】内容源于网络

元龙数字智能科技

永做第一使命第一向善第一

内容 901

粉丝 0

元龙数字智能科技永做第一使命第一向善第一

总阅读2.2k

粉丝0

内容901