解密iMF：攻克MeanFlow核心挑战，ImageNet 1.72 FID再创新高



解密iMF：攻克MeanFlow核心挑战，ImageNet 1.72 FID再创新高

我爱计算机视觉

2025-12-03

导读：在单步生成领域，iMF正以前所未有的姿态，引领着一场效率与效果并存的变革。

想象一下，你只需要“眨眼”一次，就能生成一张媲美专业摄影作品的图像，这就是“快速前向生成模型（Fastforward Generative Models）”的魅力所在。近年来，扩散模型（Diffusion Models）及其流式变体（Flow-based Models）在生成领域取得了惊人的成就，它们通常通过多步数值求解微分方程来工作。但每一步的计算都意味着时间的消耗。为了加速这一过程，研究者们提出了“快速前向”的方法，旨在用极少的步数，甚至一步（One-Step）就能完成图像生成。

在这股浪潮中，MeanFlow (MF) 框架异军突起，它不是去学习瞬时速度场，而是学习跨时间步的“平均速度场（average velocity field）”，并利用“MeanFlow恒等式（MeanFlow identity）”构建可训练的目标。然而，原版MeanFlow的“快速前向”特性也带来了一些关键挑战：一是其训练目标对网络本身存在依赖，导致训练稳定性不佳；二是其在训练阶段固定了分类器无关引导（Classifier-Free Guidance, CFG）的尺度，牺牲了灵活性。

正是在这样的背景下，卡内基梅隆大学、麻省理工学院、Adobe公司和清华大学的研究人员联手，提出了改进的MeanFlow (improved MeanFlow, iMF) 方法。iMF旨在解决MeanFlow在训练目标和引导机制上的核心难题，让单步生成模型更稳定、更灵活，并最终实现更高的生成质量。这篇论文正是对iMF方法的详细解读。

论文标题：Improved Mean Flows: On the Challenges of Fastforward Generative Models
论文作者：Zhengyang Geng, Yiyang Lu, Zongze Wu, Eli Shechtman, J. Zico Kolter, Kaiming He(何恺明)
作者机构：卡内基梅隆大学（Carnegie Mellon University）、麻省理工学院（MIT）、Adobe、清华大学（Tsinghua University）
论文地址：https://arxiv.org/abs/2512.02012

这篇论文主要围绕MeanFlow框架的改进展开，核心贡献在于提出了更稳定的训练目标和更灵活的引导机制，使得单步生成模型在ImageNet 256x256数据集上达到了1.72的FID，相较于原版MeanFlow有了50%的性能提升，且无需蒸馏，这一成果让单步生成模型与多步模型的差距显著缩小。

核心方法：重塑MeanFlow的训练与引导

iMF的核心改进集中在两个方面：一是训练目标的重新表述，二是引导机制的灵活性增强。

1. 将MeanFlow重新定义为v-loss：更标准的回归问题

原版MeanFlow的训练目标存在一个关键问题：它的目标，其中包含了网络自身的预测，这使得它不是一个标准的回归问题，且训练稳定性欠佳。

iMF首先将MeanFlow的训练目标从预测“平均速度 ”转换为预测“瞬时速度 ”。

上图展示了概念对比。 左侧 (a) 为原始MeanFlow，可以看到其用于预测的复合函数不仅需要噪声数据，还需要条件速度作为输入，这使得它不是一个标准的回归问题。右侧 (b) 为我们改进后的目标，概念上同样是通过 -pred 重参数化的 -loss，但此时只将作为合法的输入。

论文发现，通过MeanFlow恒等式，瞬时速度和平均速度之间存在如下关系：

其中，是瞬时速度，可以作为标准的回归目标。iMF利用网络对右侧的复合函数进行参数化，定义了一个复合函数：

此时，损失函数变为一个类似Flow Matching的优化目标：

重要的是，论文发现原版MeanFlow的这种参数化方式，其输入不仅包含，还意外地包含了条件速度 (如上图 (a) 所示)，这使得它不是一个完全“合法”的预测函数。

为了解决这个问题，iMF提出了改进的MeanFlow参数化 (Improved MeanFlow Parameterization)。他们不再将作为的输入，而是通过网络预测来替代，使得只依赖于：

其中的实现有两种方案：

边界条件（Boundary condition）：直接使用，即当时，瞬时速度等于平均速度。这种方式不引入额外参数。
辅助v-head（Auxiliary -head）：在网络中增加一个辅助头部来预测。这会增加训练时的参数量，但在推理时不会增加额外开销。

上图为训练损失对比。 我们可以看到，原始MeanFlow的损失具有更高的方差且非递减，而iMF的训练损失则更为稳定。这表明即使只是修改的输入，也能显著改善训练行为。这种训练稳定性的提升，对整个模型的性能至关重要。

2. 灵活的CFG引导与上下文条件化

原版MeanFlow的第二个问题在于其CFG（Classifier-Free Guidance）机制。它在训练时固定了引导尺度，导致在推理时缺乏灵活性。而研究表明，最佳的CFG尺度在不同设置下是会变化的。

上图展示了不同设置下最优CFG尺度会发生变化。 随着训练轮次（左图）和推理步数（右图）的增加，最优CFG尺度通常会减小。这强调了灵活CFG的重要性。

iMF通过将CFG引导尺度作为一个显式条件变量引入模型，解决了这一问题。这意味着网络不仅可以条件化类别，还可以条件化：

在训练时，会从一个分布中随机采样，这使得模型能够适应多种引导尺度。此外，iMF还将CFG区间（CFG interval）等其他引导相关因子也纳入条件化范围。

上图描绘了改进的上下文条件化（In-context Conditioning）机制。 每种条件（时间步、类别、引导相关因子）都被转化为多个token，并与图像潜在空间中的token沿序列轴拼接。这种方式能够灵活处理多种条件，并且重要的是，它移除了参数量大的adaLN-zero层。这使得模型尺寸显著减小，例如，在保持深度和宽度不变的情况下，iMF的基础模型参数量从133M减少到89M，实现了1/3的参数量缩减，同时性能依然出色。

实验与性能分析：单步生成的新标杆

iMF在ImageNet 256x256数据集上进行了全面的实验验证，并报告了Fréchet Inception Distance (FID) 指标。所有模型均从头开始训练，并专注于1-NFE (单步函数评估) 生成的挑战性协议。

上图展示了训练过程中的FID曲线。 我们可以清晰地看到iMF各项改进的效果：

原始MeanFlow-B/2基线的1-NFE FID为6.17。
采用改进的训练目标（v-loss）后，FID提升到5.68。
引入灵活的CFG条件化后，FID进一步降至4.57。
用上下文条件化替代adaLN-zero后，FID再次提升到4.09。

这些结果充分证明了iMF各项技术改进的有效性。

上表为1-NFE生成上的消融研究。 表格进一步细化了各项改进带来的性能提升：

在v-loss的改进中，使用“边界条件”作为的计算方式，在无CFG时将FID从32.69显著提升到29.42，这是一个3.27的巨大提升。
引入灵活引导后，从表中可以看到，在结合了辅助v-head的CFG（5.68 FID）基础上， -条件化（包含了CFG尺度和区间）将FID大幅提升到4.57。
上下文条件化带来了最大的飞跃：在模型参数量从133M减少到89M的同时，FID从4.57提升到4.09，这充分展现了其在效率和性能上的双重优势。

上表为与原始MeanFlow的系统级比较。 我们可以看到，iMF模型在FID和IS指标上都显著优于原始MF。特别是iMF-XL/2模型，以610M的参数量，在1-NFE生成上取得了1.72的FID，这比原始MeanFlow-XL/2（676M参数量，3.43 FID）的性能提升了50%。这个数据非常亮眼，证明了iMF在效率和效果上的巨大优势。

更令人振奋的是，与其他从头训练的快速前向生成模型相比，iMF表现出压倒性的优势。甚至，iMF-XL/2的1.72 FID，超越了许多从预训练多步模型中蒸馏而来的1-NFE方法（例如DMF-XL/2+的2.16 FID），这表明从头训练也能达到甚至超越蒸馏方法的性能。当放宽到2-NFE时，iMF-XL/2能达到1.54的FID，进一步缩小了与多步扩散模型的差距。

结语：快速前向生成模型的未来展望

iMF方法的提出，不仅解决了MeanFlow框架的固有挑战，更重要的是，它为单步生成模型设定了新的性能标杆。通过对训练目标和引导机制的精妙改进，iMF证明了无需预训练，快速前向生成模型也能达到极具竞争力的性能，甚至在某些方面超越了需要蒸馏或多步采样的传统方法。

这项工作无疑是快速前向生成领域的一个坚实进步，它让我们看到了这类模型作为独立范式发展的巨大潜力。虽然目前的工作主要聚焦于模型的改进，但论文也指出，随着1-NFE生成技术的不断成熟，分词器（tokenizer）在推理时带来的非可忽略开销将成为未来的研究重点。我们期待未来的研究能够探索更高效的分词器设计，甚至直接在像素空间进行生成，进一步提升快速前向生成模型的实用性和效率。

你觉得这个技术未来会用在哪些场景？一起来聊聊吧！

【声明】内容源于网络

我爱计算机视觉

探寻CV新知，发现AI价值

内容 3637

粉丝 0

我爱计算机视觉探寻CV新知，发现AI价值

总阅读660

粉丝0

内容3.6k