突破⻓视频⽣成瓶颈：南⼤ × TeleAI 联合推出全新 AI ⽣成范式 MMPL，让创意“⼀镜到底”



突破⻓视频⽣成瓶颈：南⼤ × TeleAI 联合推出全新 AI ⽣成范式 MMPL，让创意“⼀镜到底”

极市平台

2025-08-22

↑ 点击蓝字关注极市平台

作者丨向迅之，南京大学博士

编辑丨极市平台

极市导读

南大 & TeleAI 用「导演式」双层框架 MMPL 让 AI 一口气生成 60 秒 480P 连贯大片：先宏观定分镜，再并行拍细节，预览帧率最高可达约 32 FPS。长视频进入可实时交互的新纪元。>>加入极市CV技术交流群，走在计算机视觉的最前沿

你是否曾被 AI 生成视频的惊艳开场所吸引，却在几秒后失望于色彩漂移、画面模糊、节奏断裂？当前 AI 长视频生成普遍面临“高开低走”的困境：前几秒惊艳夺目，之后却质量骤降、细节崩坏；更别提帧间串行生成导致的低效问题——动辄数小时的等待，实时预览几乎难以企及。

这一行业难题，如今迎来突破性解法！

南京大学联合 TeleAI 推出长视频自回归生成新范式 —— Macro-from-Micro Planning（MMPL），重新定义 AI 视频创作流程。

灵感源自电影工业的“分镜脚本 + 多组并行拍摄”机制，MMPL 首创“宏观规划、微观执行”的双层生成架构：

先谋全局：在宏观层面统一规划整段视频的叙事脉络与视觉一致性，确保剧情连贯、风格统一；

再精细节：将长视频拆解为多个短片段，并通过并行化生成管线高效填充每一帧细节，大幅提升速度与稳定性。

成果令人振奋：

✅ 实现分钟级高质量长视频稳定生成，告别“虎头蛇尾”；

✅ 生成效率显著提升，结合蒸馏加速技术，预览帧率最高可达约 32 FPS，接近实时交互体验；

✅ 在色彩一致性、内容连贯性上全面超越传统串行生成方案。

MMPL 不仅是一项技术升级，更是向“AI 导演”迈进的重要一步——让机器不仅会“拍镜头”，更能“讲好一个故事”。

论文信息

论文标题：Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation
作者：Xunzhi Xiang, Yabo Chen, Guiyu Zhang, Zhongyu Wang, Zhe Gao, Quanming Xiang, Gonghu Shang, Junqi Liu, Haibin Huang, Yang Gao, Chi Zhang, Qi Fan, Xuelong Li
机构：南京大学；中国电信人工智能研究院；上海交通大学；香港中文大学（深圳）；中国科学院大学
论文地址：https://arxiv.org/abs/2508.03334
项目主页：https://nju-xunzhixiang.github.io/Anchor-Forcing-Page/

01 传统困境：逐帧生成的两大瓶颈

在长视频生成领域，随着时长从几秒扩展到数十秒甚至一分钟以上，主流自回归模型面临两个根本性挑战：

1. 时域漂移（Temporal Drift）

由于每一帧都依赖前一帧生成，微小误差会随时间不断累积，导致画面逐渐“跑偏”：人物变形、场景错乱、色彩失真等问题频发，严重影响视觉质量。

2. 串行瓶颈（Serial Bottleneck）

视频必须逐帧生成，无法并行处理。生成 60 秒视频可能需要数分钟乃至数小时，难以支持实时预览或交互式创作。

这些问题使得当前 AI 视频仍停留在“片段级表达”，难以胜任需要长时连贯性的叙事任务。

02 创新突破：导演式双层生成框架 MMPL

为解决上述问题，我们提出 Macro-from-Micro Planning（MMPL） —— 一种“先规划、后填充”的两阶段生成范式，其核心思想是：

先全局规划，再并行执行。

这一理念借鉴了电影工业中“导演制定分镜脚本 + 多摄制组并行拍摄”的协作模式，将长视频生成从“接龙式绘画”转变为“系统性制片”。

MMPL 的核心优势在于实现了三大突破：

✅ 长时一致性：通过宏观规划抑制跨片段漂移；

✅ 高效并行性：各片段可独立填充细节，支持多 GPU 并行；

✅ 灵活调度性：采用流水线机制，进一步提升资源利用率。

最终，系统可在保证高质量的前提下，实现分钟级、节奏可控的稳定生成，结合蒸馏加速方案，预览速度可达 ≥32 FPS，接近实时交互体验。

03 效果呈现：更稳、更长、更快

在统一测试集上，MMPL 显著优于现有方法（如 MAGI、SkyReels、CausVid、Self Foricng 等），在视觉质量、时间一致性和稳定性方面均取得领先。

更稳：无明显色彩漂移、闪烁或结构崩坏，长时间生成仍保持高保真；
更长：支持 20 秒、30 秒乃至 1 分钟 的连贯叙事，片段衔接自然；
更快：得益于并行填充与自适应调度，长视频生成整体吞吐量大幅提升。

04 技术解析：两阶段协同工作机制

MMPL 的成功源于其精心设计的“规划—填充”双阶段架构。整个流程分为两个层次：微观规划（Micro Planning） 和 宏观规划（Macro Planning），随后进行 并行内容填充（Content Populating）。

第一阶段：双层规划，构建稳定骨架

1. Micro Planning：片段内关键帧联合预测

我们将长视频划分为多个固定长度的片段（例如每段 81 帧）。对每个片段，模型不直接生成所有帧，而是基于首帧，联合预测一组稀疏的关键未来锚点帧，包括：

早期邻近帧

中部关键帧

末端结束帧

记锚点集合为，其生成过程建模为：

这些锚点在同一去噪过程中联合生成，彼此之间语义协调、运动连贯；且均以首帧为条件单步预测，避免了多步累积误差。它们共同构成了该片段的“视觉骨架”，为后续填充提供强约束。

2. Macro Planning：跨片段叙事一致性建模

为了确保整个视频的连贯性，我们将各片段的 Micro 计划串联成一个自回归链：第段的末端锚点作为第段的起始条件。设第段的锚点集合为，首帧为，则全局规划可表示为：

这种“分段稀疏连接”的设计，将误差累积从帧级别降低至段级别（），从根本上缓解了长程漂移问题。

第二阶段：并行填充，释放计算潜能

1. Content Populating：基于锚点的并行细节生成

在所有片段的锚点就绪后，即可并行填充各片段内的中间帧。

以第个片段为例，其内容被划分为两个子区间：

从到：补全

从到：补全

条件概率分解如下：

由于每个片段的填充仅依赖本片段的锚点，与其他片段无关，因此所有片段的内容填充可完全独立：

✅ 这意味着：多个片段可以同时在不同 GPU 上并行生成，极大提升效率。

2. Adaptive Workload Scheduling：动态调度，实现流水线加速

为进一步提升资源利用率，我们引入自适应工作负载调度机制，实现“规划”与“填充”的重叠执行：

当片段的锚点生成后，即可：

立即启动下一片段的 Micro 计划；

同时，片段自身可提前开始中间帧填充，无需等待全局规划完成。

该机制的形式化表达为：

其中，下一片段的起始帧可选择为或，由此衍生出两种运行模式：

最小内存峰值模式
选用作为，跳过当前片段末尾部分（）的填充。
👉 优势：降低峰值内存占用与单段延迟；
👉 缺点：引入帧重用，影响吞吐量。
最大吞吐量模式
选用作为，完整生成当前片段所有中间帧。
👉 优势：消除冗余，最大化流水线效率；
👉 缺点：每段计算负载更高。

这两种策略可在内存、延迟与吞吐量之间灵活权衡，适配不同部署场景。

05 结语：从“会画”到“会拍”，AI 开始有了导演思维

当 AI 不再局限于逐帧生成，而是具备了从整体出发的规划能力——理解情节的推进、协调画面的连贯性、控制运动的节奏，长视频生成便迈出了从“片段拼接”走向“统一表达”的关键一步。我们希望，MMPL 能为视频创作提供一种更稳定、更高效的技术路径。借助其近实时的生成能力，创作者可以在快速反馈中不断调整与完善自己的构想，让创意更自由地流动。

也许真正的“所见即所得”尚在远方，但至少，我们正朝着那个方向，稳步前行。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货