大数跨境
0
0

【学术前沿】TVM:超越 Flow Matching/Mean Flow!Diffusion 少步训练的突破性新范式

【学术前沿】TVM:超越 Flow Matching/Mean Flow!Diffusion 少步训练的突破性新范式 具身智能制造
2025-12-02
0
导读:近日,Luma AI 团队提出的 Terminal Velocity Matching(TVM)框架,给出了惊艳的答案,它不仅实现了单步生成的 SOTA 性能,还兼具理论保证与工程落地性。今天我们就深

生成式 AI 的浪潮中,图像生成模型一直是研究热点。扩散模型(Diffusion Models)和流匹配(Flow Matching)虽能生成高质量图像,但动辄 50 步以上的采样过程,让高维度数据(比如高清图像、视频)的生成效率大打折扣。能否用单步 / 少步采样,就生成媲美多步模型的高质量图像?近日,Luma AI 团队提出的 Terminal Velocity Matching(TVM)框架,给出了惊艳的答案 —— 它不仅实现了单步生成的 SOTA 性能,还兼具理论保证与工程落地性。今天我们就深度拆解这篇刷新少步生成模型天花板的论文!


3297005e-a3a8-43a8-b027-f85aeb106ff6.png

Figure 1 左侧对比了 TVM 与传统方法的核心差异:TVM 通过终端速度(terminal velocity)而非初始速度引导单步模型;右侧展示了 ImageNet 256/512 分辨率下 1-NFE(单函数评估)的生成样本,直观体现 TVM 的单步生成效果。



01

研究背景:少步生成模型的核心痛点

当前主流的生成模型(扩散、流匹配)依赖 ODE 求解器完成采样,多步操作导致推理效率极低。为了实现单 / 少步生成,现有方法(如 Consistency Models、MeanFlow)要么缺乏分布匹配的理论保证,要么需要多粒子训练限制可扩展性。而 TVM 的核心创新,就是从 “终端速度匹配” 切入,既解决了理论支撑问题,又实现了单阶段训练的高效性。


(配图:论文 Figure 2)

774bc180-bd76-409b-9d31-8d554ba3b461.png


Figure 2 直观解释了 TVM 的核心逻辑:左侧是通过积分真实速度得到的真实位移映射,右侧是 TVM 模型路径直接在真实路径上实现单步跳转。TVM 的核心是让模型的终端速度(dsdf(xt,t,s))与真实速度(u(xs,s))匹配 —— 只要终端速度匹配,从xt到x0的单步生成就能与真实结果一致;而当位移为 0 时,TVM 的终端速度匹配就退化为传统流匹配,这也体现了 TVM 对经典方法的兼容与扩展。


02

理论突破:2-Wasserstein 距离的明确上界

理论层面,TVM 的关键突破是证明了:当模型满足 Lipschitz 连续时,其训练目标能为数据分布与模型分布之间的 2-Wasserstein 距离提供上界。这是首次为单步生成模型提供明确的分布匹配理论保证,且无需像 Inductive Moment Matching(IMM)那样依赖多粒子训练,大幅提升了模型的可扩展性。

03

工程落地:攻克三大核心挑战

理论落地需要解决实际问题,TVM 团队针对性攻克了三大工程挑战:


  1. Lipschitz 连续性缺失问题:现有扩散 Transformer(DiT)不满足 Lipschitz 连续,会导致训练不稳定(激活爆炸)。TVM 通过极简架构修改 —— 用 RMSNorm 替代 LayerNorm、对 QK 归一化采用 RMSNorm、对时间嵌入调制参数做归一化,实现了半 Lipschitz 控制,让激活值保持稳定。
    1bc0e496-f991-4758-b188-4d17c74551d5.png

    Figure 4 对比了有无 Lipschitz 控制的最后时间嵌入层激活归一化结果:无控制时激活值剧烈波动,而 TVM 的修改让激活值始终平滑,保障了训练稳定性。
  2. 高效 Flash Attention JVP 实现:TVM 的训练目标需要计算 Jacobian-Vector Product(JVP)的反向传播,而传统 Flash Attention 对 JVP 支持不足。团队自研的 Flash Attention 内核,融合 JVP 与前向传播,相比标准 PyTorch 操作提速 65%,还大幅降低内存占用。
  3. 优化器与参数化调优:针对 JVP 带来的损失波动,将 AdamW 的 β2 从 0.999 调整为 0.95,让梯度二阶矩更新更快,损失曲线更平滑;同时设计缩放参数化,让模型输出随 CFG 权重自然缩放,避免梯度爆炸。

    33c2f4b5-e00b-49d1-bfcc-2528d3928244.png

    Figure 5 清晰展示了 β2 调整的效果:β2=0.95 时终端速度误差波动远小于 0.999,训练过程更稳定。



04

实验结果:刷新 ImageNet 少步生成 SOTA

TVM 在 ImageNet 数据集上的实验结果堪称硬核,全面刷新单 / 少步生成模型的性能上限:



  • ImageNet-256×256:单步(1-NFE)FID 达 3.29(超越 MeanFlow 的 3.43),4 步(4-NFE)FID 仅 1.99,超过 500 步扩散基线(DiT 的 2.27);

  • ImageNet-512×512:单步 FID 4.32,4 步 FID 2.94,超越 sCT、MeanFlow 等主流方法,且匹配 500 步 DiT 基线性能。

    fac5122b-bfa0-4750-a7dc-61f72e21d7aa.png


    Table 1(ImageNet-256×256 FID 结果)和 Table 2(ImageNet-512×512 FID 结果)量化验证了 TVM 的性能优势。

    bcbabb6b-e7b8-4db4-ae3d-d32d839f02d1.png

    Figure 6 展示了 TVM 在 ImageNet-256/512 上的 1-NFE 生成样本,视觉效果媲美多步模型。


此外,TVM 的训练优势也十分显著:单样本即可完成损失计算(适配大模型训练限制)、随机 CFG 训练时梯度 / 速度范数更稳定、无需课程学习 / 损失修改等额外策略,设计简洁易扩展。


3e94bb40-7714-4813-8ab4-76654cdd7c3e.png

Figure 7 左侧显示 MeanFlow 梯度范数波动大,而 TVM 更平滑;中间验证了 MeanFlow 梯度波动与∣∣u(xt,t)∣∣相关,TVM 的∣∣u(xt,t)∣∣更稳定;右侧则体现 TVM 在随机 CFG 训练下仍能收敛,仅存在不同 CFG 的 FID 权衡。
05

总结:理论与实践兼具的少步生成新范式

TVM 以 “终端速度匹配” 为核心,首次为单 / 少步生成模型提供了 2-Wasserstein 距离的理论上界,同时通过极简的架构修改、高效的内核实现和优化策略,解决了工程落地的关键问题。它不仅在 ImageNet 上实现了 SOTA 的单 / 少步生成性能,还为高维度、高分辨率生成模型的高效推理提供了全新思路 —— 兼顾理论严谨性与实践可用性,这正是高质量学术研究的典范。

论文出处

论文标题:Terminal Velocity Matching

作者:Linqi Zhou, Mathias Parger, Ayaan Haque, Jiaming Song(均来自 Luma AI)

链接:https://arxiv.org/abs/2511.19797v2

关注【具身智能制造】,每周拆解机器人与 AI 领域顶会,带你紧跟前沿技术~

【声明】内容源于网络
0
0
具身智能制造
深耕尖端工业智能决策系统研发,涵盖高算力云化控制器与工业具身智造底座等产品,致力于实现我国高端制造与智能制造技术的自主可控!诚邀各界英才携手共进,共创行业新未来~
内容 41
粉丝 0
具身智能制造 深耕尖端工业智能决策系统研发,涵盖高算力云化控制器与工业具身智造底座等产品,致力于实现我国高端制造与智能制造技术的自主可控!诚邀各界英才携手共进,共创行业新未来~
总阅读12
粉丝0
内容41