大数跨境
0
0

突破⻓视频⽣成瓶颈:南⼤ × TeleAI 联合推出全新 AI ⽣成范式 MMPL,让创意“⼀镜到底”

突破⻓视频⽣成瓶颈:南⼤ × TeleAI 联合推出全新 AI ⽣成范式 MMPL,让创意“⼀镜到底” 极市平台
2025-08-22
2
↑ 点击蓝字 关注极市平台
作者丨向迅之,南京大学博士
编辑丨极市平台

极市导读

 

南大 & TeleAI 用「导演式」双层框架 MMPL 让 AI 一口气生成 60 秒 480P 连贯大片:先宏观定分镜,再并行拍细节,预览帧率最高可达约 32 FPS。长视频进入可实时交互的新纪元。>>加入极市CV技术交流群,走在计算机视觉的最前沿


你是否曾被 AI 生成视频的惊艳开场所吸引,却在几秒后失望于色彩漂移、画面模糊、节奏断裂?  当前 AI 长视频生成普遍面临“高开低走”的困境:前几秒惊艳夺目,之后却质量骤降、细节崩坏;更别提帧间串行生成导致的低效问题——动辄数小时的等待,实时预览几乎难以企及。

这一行业难题,如今迎来突破性解法!

南京大学联合 TeleAI 推出长视频自回归生成新范式 —— Macro-from-Micro Planning(MMPL),重新定义 AI 视频创作流程。

灵感源自电影工业的“分镜脚本 + 多组并行拍摄”机制,MMPL 首创“宏观规划、微观执行”的双层生成架构:

  • 先谋全局:在宏观层面统一规划整段视频的叙事脉络与视觉一致性,确保剧情连贯、风格统一;
  • 再精细节:将长视频拆解为多个短片段,并通过并行化生成管线高效填充每一帧细节,大幅提升速度与稳定性。

成果令人振奋:

  • ✅ 实现分钟级高质量长视频稳定生成,告别“虎头蛇尾”;
  • ✅ 生成效率显著提升,结合蒸馏加速技术,预览帧率最高可达约 32 FPS,接近实时交互体验;
  • ✅ 在色彩一致性、内容连贯性上全面超越传统串行生成方案。

MMPL 不仅是一项技术升级,更是向“AI 导演”迈进的重要一步——让机器不仅会“拍镜头”,更能“讲好一个故事”。

论文信息

  • 论文标题Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation
  • 作者:Xunzhi Xiang, Yabo Chen, Guiyu Zhang, Zhongyu Wang, Zhe Gao, Quanming Xiang, Gonghu Shang, Junqi Liu, Haibin Huang, Yang Gao, Chi Zhang, Qi Fan, Xuelong Li
  • 机构:南京大学;中国电信人工智能研究院;上海交通大学;香港中文大学(深圳);中国科学院大学
  • 论文地址https://arxiv.org/abs/2508.03334
  • 项目主页https://nju-xunzhixiang.github.io/Anchor-Forcing-Page/

01 传统困境:逐帧生成的两大瓶颈

在长视频生成领域,随着时长从几秒扩展到数十秒甚至一分钟以上,主流自回归模型面临两个根本性挑战:

1. 时域漂移(Temporal Drift)

由于每一帧都依赖前一帧生成,微小误差会随时间不断累积,导致画面逐渐“跑偏”:人物变形、场景错乱、色彩失真等问题频发,严重影响视觉质量。

2. 串行瓶颈(Serial Bottleneck)

视频必须逐帧生成,无法并行处理。生成 60 秒视频可能需要数分钟乃至数小时,难以支持实时预览或交互式创作。


这些问题使得当前 AI 视频仍停留在“片段级表达”,难以胜任需要长时连贯性的叙事任务。

02 创新突破:导演式双层生成框架 MMPL

为解决上述问题,我们提出 Macro-from-Micro Planning(MMPL) —— 一种“先规划、后填充”的两阶段生成范式,其核心思想是:

先全局规划,再并行执行

这一理念借鉴了电影工业中“导演制定分镜脚本 + 多摄制组并行拍摄”的协作模式,将长视频生成从“接龙式绘画”转变为“系统性制片”。

MMPL 的核心优势在于实现了三大突破:

  • ✅ 长时一致性:通过宏观规划抑制跨片段漂移;
  • ✅ 高效并行性:各片段可独立填充细节,支持多 GPU 并行;
  • ✅ 灵活调度性:采用流水线机制,进一步提升资源利用率。

最终,系统可在保证高质量的前提下,实现分钟级、节奏可控的稳定生成,结合蒸馏加速方案,预览速度可达 ≥32 FPS,接近实时交互体验。

03 效果呈现:更稳、更长、更快

在统一测试集上,MMPL 显著优于现有方法(如 MAGI、SkyReels、CausVid、Self Foricng 等),在视觉质量、时间一致性和稳定性方面均取得领先。

  • 更稳:无明显色彩漂移、闪烁或结构崩坏,长时间生成仍保持高保真;
  • 更长:支持 20 秒、30 秒乃至 1 分钟 的连贯叙事,片段衔接自然;
  • 更快:得益于并行填充与自适应调度,长视频生成整体吞吐量大幅提升。

04 技术解析:两阶段协同工作机制

MMPL 的成功源于其精心设计的“规划—填充”双阶段架构。整个流程分为两个层次:微观规划(Micro Planning) 和 宏观规划(Macro Planning),随后进行 并行内容填充(Content Populating)

第一阶段:双层规划,构建稳定骨架

1. Micro Planning:片段内关键帧联合预测

我们将长视频划分为多个固定长度的片段(例如每段 81 帧)。对每个片段,模型不直接生成所有帧,而是基于首帧  联合预测一组稀疏的关键未来锚点帧,包括:

  • 早期邻近帧 
  • 中部关键帧 
  • 末端结束帧 

记锚点集合为  ,其生成过程建模为:

这些锚点在同一去噪过程中联合生成,彼此之间语义协调、运动连贯;且均以首帧为条件单步预测,避免了多步累积误差。它们共同构成了该片段的“视觉骨架”,为后续填充提供强约束。

2. Macro Planning:跨片段叙事一致性建模

为了确保整个视频的连贯性,我们将各片段的 Micro 计划串联成一个自回归链:第   段的末端锚点作为第   段的起始条件。设第   段的锚点集合为  ,首帧为  ,则全局规划可表示为:

这种“分段稀疏连接”的设计,将误差累积从   帧级别降低至   段级别( ),从根本上缓解了长程漂移问题。

第二阶段:并行填充,释放计算潜能

1. Content Populating:基于锚点的并行细节生成

在所有片段的锚点   就绪后,即可并行填充各片段内的中间帧。

以第   个片段为例,其内容被划分为两个子区间:

  • 从   到  :补全 
  • 从   到  :补全 

条件概率分解如下:

由于每个片段的填充仅依赖本片段的锚点  ,与其他片段无关,因此所有片段的内容填充可完全独立:

✅ 这意味着:多个片段可以同时在不同 GPU 上并行生成,极大提升效率

2. Adaptive Workload Scheduling:动态调度,实现流水线加速

为进一步提升资源利用率,我们引入自适应工作负载调度机制,实现“规划”与“填充”的重叠执行

当片段   的锚点生成后,即可:

  • 立即启动下一片段   的 Micro 计划;
  • 同时,片段   自身可提前开始中间帧填充,无需等待全局规划完成。

该机制的形式化表达为:

其中,下一片段的起始帧   可选择为   或  ,由此衍生出两种运行模式:

  • 最小内存峰值模式
    选用   作为  ,跳过当前片段末尾部分( )的填充。
    👉 优势:降低峰值内存占用与单段延迟;
    👉 缺点:引入帧重用,影响吞吐量。

  • 最大吞吐量模式
    选用   作为  ,完整生成当前片段所有中间帧。
    👉 优势:消除冗余,最大化流水线效率;
    👉 缺点:每段计算负载更高。

这两种策略可在内存、延迟与吞吐量之间灵活权衡,适配不同部署场景。


05 结语:从“会画”到“会拍”,AI 开始有了导演思维

当 AI 不再局限于逐帧生成,而是具备了从整体出发的规划能力——理解情节的推进、协调画面的连贯性、控制运动的节奏,长视频生成便迈出了从“片段拼接”走向“统一表达”的关键一步。我们希望,MMPL 能为视频创作提供一种更稳定、更高效的技术路径。借助其近实时的生成能力,创作者可以在快速反馈中不断调整与完善自己的构想,让创意更自由地流动。

也许真正的“所见即所得”尚在远方,但至少,我们正朝着那个方向,稳步前行。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k