【学术前沿】TVM：超越 Flow Matching/Mean Flow！Diffusion 少步训练的突破性新范式

具身智能制造

2025-12-02

导读：近日，Luma AI 团队提出的 Terminal Velocity Matching（TVM）框架，给出了惊艳的答案，它不仅实现了单步生成的 SOTA 性能，还兼具理论保证与工程落地性。今天我们就深

生成式 AI 的浪潮中，图像生成模型一直是研究热点。扩散模型（Diffusion Models）和流匹配（Flow Matching）虽能生成高质量图像，但动辄 50 步以上的采样过程，让高维度数据（比如高清图像、视频）的生成效率大打折扣。能否用单步 / 少步采样，就生成媲美多步模型的高质量图像？近日，Luma AI 团队提出的 Terminal Velocity Matching（TVM）框架，给出了惊艳的答案 —— 它不仅实现了单步生成的 SOTA 性能，还兼具理论保证与工程落地性。今天我们就深度拆解这篇刷新少步生成模型天花板的论文！

Figure 1 左侧对比了 TVM 与传统方法的核心差异：TVM 通过终端速度（terminal velocity）而非初始速度引导单步模型；右侧展示了 ImageNet 256/512 分辨率下 1-NFE（单函数评估）的生成样本，直观体现 TVM 的单步生成效果。

研究背景：少步生成模型的核心痛点

当前主流的生成模型（扩散、流匹配）依赖 ODE 求解器完成采样，多步操作导致推理效率极低。为了实现单 / 少步生成，现有方法（如 Consistency Models、MeanFlow）要么缺乏分布匹配的理论保证，要么需要多粒子训练限制可扩展性。而 TVM 的核心创新，就是从 “终端速度匹配” 切入，既解决了理论支撑问题，又实现了单阶段训练的高效性。

（配图：论文 Figure 2）

Figure 2 直观解释了 TVM 的核心逻辑：左侧是通过积分真实速度得到的真实位移映射，右侧是 TVM 模型路径直接在真实路径上实现单步跳转。TVM 的核心是让模型的终端速度（dsdf(xt,t,s)）与真实速度（u(xs,s)）匹配 —— 只要终端速度匹配，从xt到x0的单步生成就能与真实结果一致；而当位移为 0 时，TVM 的终端速度匹配就退化为传统流匹配，这也体现了 TVM 对经典方法的兼容与扩展。

理论突破：2-Wasserstein 距离的明确上界

理论层面，TVM 的关键突破是证明了：当模型满足 Lipschitz 连续时，其训练目标能为数据分布与模型分布之间的 2-Wasserstein 距离提供上界。这是首次为单步生成模型提供明确的分布匹配理论保证，且无需像 Inductive Moment Matching（IMM）那样依赖多粒子训练，大幅提升了模型的可扩展性。

工程落地：攻克三大核心挑战

理论落地需要解决实际问题，TVM 团队针对性攻克了三大工程挑战：

Lipschitz 连续性缺失问题：现有扩散 Transformer（DiT）不满足 Lipschitz 连续，会导致训练不稳定（激活爆炸）。TVM 通过极简架构修改 —— 用 RMSNorm 替代 LayerNorm、对 QK 归一化采用 RMSNorm、对时间嵌入调制参数做归一化，实现了半 Lipschitz 控制，让激活值保持稳定。

Figure 4 对比了有无 Lipschitz 控制的最后时间嵌入层激活归一化结果：无控制时激活值剧烈波动，而 TVM 的修改让激活值始终平滑，保障了训练稳定性。
高效 Flash Attention JVP 实现：TVM 的训练目标需要计算 Jacobian-Vector Product（JVP）的反向传播，而传统 Flash Attention 对 JVP 支持不足。团队自研的 Flash Attention 内核，融合 JVP 与前向传播，相比标准 PyTorch 操作提速 65%，还大幅降低内存占用。
优化器与参数化调优：针对 JVP 带来的损失波动，将 AdamW 的 β2 从 0.999 调整为 0.95，让梯度二阶矩更新更快，损失曲线更平滑；同时设计缩放参数化，让模型输出随 CFG 权重自然缩放，避免梯度爆炸。

Figure 5 清晰展示了 β2 调整的效果：β2=0.95 时终端速度误差波动远小于 0.999，训练过程更稳定。

实验结果：刷新 ImageNet 少步生成 SOTA

TVM 在 ImageNet 数据集上的实验结果堪称硬核，全面刷新单 / 少步生成模型的性能上限：

ImageNet-256×256：单步（1-NFE）FID 达 3.29（超越 MeanFlow 的 3.43），4 步（4-NFE）FID 仅 1.99，超过 500 步扩散基线（DiT 的 2.27）；
ImageNet-512×512：单步 FID 4.32，4 步 FID 2.94，超越 sCT、MeanFlow 等主流方法，且匹配 500 步 DiT 基线性能。

Table 1（ImageNet-256×256 FID 结果）和 Table 2（ImageNet-512×512 FID 结果）量化验证了 TVM 的性能优势。
Figure 6 展示了 TVM 在 ImageNet-256/512 上的 1-NFE 生成样本，视觉效果媲美多步模型。

此外，TVM 的训练优势也十分显著：单样本即可完成损失计算（适配大模型训练限制）、随机 CFG 训练时梯度 / 速度范数更稳定、无需课程学习 / 损失修改等额外策略，设计简洁易扩展。

Figure 7 左侧显示 MeanFlow 梯度范数波动大，而 TVM 更平滑；中间验证了 MeanFlow 梯度波动与∣∣u(xt,t)∣∣相关，TVM 的∣∣u(xt,t)∣∣更稳定；右侧则体现 TVM 在随机 CFG 训练下仍能收敛，仅存在不同 CFG 的 FID 权衡。

总结：理论与实践兼具的少步生成新范式

TVM 以 “终端速度匹配” 为核心，首次为单 / 少步生成模型提供了 2-Wasserstein 距离的理论上界，同时通过极简的架构修改、高效的内核实现和优化策略，解决了工程落地的关键问题。它不仅在 ImageNet 上实现了 SOTA 的单 / 少步生成性能，还为高维度、高分辨率生成模型的高效推理提供了全新思路 —— 兼顾理论严谨性与实践可用性，这正是高质量学术研究的典范。

论文出处

论文标题：Terminal Velocity Matching

作者：Linqi Zhou, Mathias Parger, Ayaan Haque, Jiaming Song（均来自 Luma AI）

链接：https://arxiv.org/abs/2511.19797v2

关注【具身智能制造】，每周拆解机器人与 AI 领域顶会，带你紧跟前沿技术～

【声明】内容源于网络

具身智能制造

深耕尖端工业智能决策系统研发，涵盖高算力云化控制器与工业具身智造底座等产品，致力于实现我国高端制造与智能制造技术的自主可控！诚邀各界英才携手共进，共创行业新未来～

内容 41

粉丝 0

具身智能制造深耕尖端工业智能决策系统研发，涵盖高算力云化控制器与工业具身智造底座等产品，致力于实现我国高端制造与智能制造技术的自主可控！诚邀各界英才携手共进，共创行业新未来～

总阅读12

粉丝0

内容41