想象一下,你只需要“眨眼”一次,就能生成一张媲美专业摄影作品的图像,这就是“快速前向生成模型(Fastforward Generative Models)”的魅力所在。近年来,扩散模型(Diffusion Models)及其流式变体(Flow-based Models)在生成领域取得了惊人的成就,它们通常通过多步数值求解微分方程来工作。但每一步的计算都意味着时间的消耗。为了加速这一过程,研究者们提出了“快速前向”的方法,旨在用极少的步数,甚至一步(One-Step)就能完成图像生成。
在这股浪潮中,MeanFlow (MF) 框架异军突起,它不是去学习瞬时速度场,而是学习跨时间步的“平均速度场(average velocity field)”,并利用“MeanFlow恒等式(MeanFlow identity)”构建可训练的目标。然而,原版MeanFlow的“快速前向”特性也带来了一些关键挑战:一是其训练目标对网络本身存在依赖,导致训练稳定性不佳;二是其在训练阶段固定了分类器无关引导(Classifier-Free Guidance, CFG)的尺度,牺牲了灵活性。
正是在这样的背景下,卡内基梅隆大学、麻省理工学院、Adobe公司和清华大学的研究人员联手,提出了改进的MeanFlow (improved MeanFlow, iMF) 方法。iMF旨在解决MeanFlow在训练目标和引导机制上的核心难题,让单步生成模型更稳定、更灵活,并最终实现更高的生成质量。这篇论文正是对iMF方法的详细解读。
-
论文标题:Improved Mean Flows: On the Challenges of Fastforward Generative Models -
论文作者:Zhengyang Geng, Yiyang Lu, Zongze Wu, Eli Shechtman, J. Zico Kolter, Kaiming He(何恺明) -
作者机构:卡内基梅隆大学(Carnegie Mellon University)、麻省理工学院(MIT)、Adobe、清华大学(Tsinghua University) -
论文地址:https://arxiv.org/abs/2512.02012
这篇论文主要围绕MeanFlow框架的改进展开,核心贡献在于提出了更稳定的训练目标和更灵活的引导机制,使得单步生成模型在ImageNet 256x256数据集上达到了1.72的FID,相较于原版MeanFlow有了50%的性能提升,且无需蒸馏,这一成果让单步生成模型与多步模型的差距显著缩小。
核心方法:重塑MeanFlow的训练与引导
iMF的核心改进集中在两个方面:一是训练目标的重新表述,二是引导机制的灵活性增强。
1. 将MeanFlow重新定义为v-loss:更标准的回归问题
原版MeanFlow的训练目标存在一个关键问题:它的目标 ,其中包含了网络自身的预测 ,这使得它不是一个标准的回归问题,且训练稳定性欠佳。
iMF首先将MeanFlow的训练目标从预测“平均速度 ”转换为预测“瞬时速度 ”。
上图展示了概念对比。 左侧 (a) 为原始MeanFlow,可以看到其用于预测 的复合函数 不仅需要噪声数据 ,还需要条件速度 作为输入,这使得它不是一个标准的回归问题。右侧 (b) 为我们改进后的目标,概念上同样是通过 -pred 重参数化的 -loss,但此时只将 作为合法的输入。
论文发现,通过MeanFlow恒等式,瞬时速度 和平均速度 之间存在如下关系:
其中, 是瞬时速度,可以作为标准的回归目标。iMF利用网络 对右侧的复合函数进行参数化,定义了一个复合函数 :
此时,损失函数变为一个类似Flow Matching的优化目标:
重要的是,论文发现原版MeanFlow的这种 参数化方式,其输入不仅包含 ,还意外地包含了条件速度 (如上图 (a) 所示),这使得它不是一个完全“合法”的预测函数。
为了解决这个问题,iMF提出了改进的MeanFlow参数化 (Improved MeanFlow Parameterization)。他们不再将 作为 的输入,而是通过网络预测 来替代,使得 只依赖于 :
其中 的实现有两种方案:
-
边界条件(Boundary condition):直接使用 ,即当 时,瞬时速度等于平均速度。这种方式不引入额外参数。 -
辅助v-head(Auxiliary -head):在 网络中增加一个辅助头部来预测 。这会增加训练时的参数量,但在推理时不会增加额外开销。
上图为训练损失对比。 我们可以看到,原始MeanFlow的损失具有更高的方差且非递减,而iMF的训练损失则更为稳定。这表明即使只是修改 的输入,也能显著改善训练行为。这种训练稳定性的提升,对整个模型的性能至关重要。
2. 灵活的CFG引导与上下文条件化
原版MeanFlow的第二个问题在于其CFG(Classifier-Free Guidance)机制。它在训练时固定了引导尺度 ,导致在推理时缺乏灵活性。而研究表明,最佳的CFG尺度在不同设置下是会变化的。
上图展示了不同设置下最优CFG尺度会发生变化。 随着训练轮次(左图)和推理步数(右图)的增加,最优CFG尺度通常会减小。这强调了灵活CFG的重要性。
iMF通过将CFG引导尺度 作为一个显式条件变量引入模型,解决了这一问题。这意味着网络 不仅可以条件化类别 ,还可以条件化 :
在训练时, 会从一个分布中随机采样,这使得模型能够适应多种引导尺度。此外,iMF还将CFG区间(CFG interval)等其他引导相关因子 也纳入条件化范围。
上图描绘了改进的上下文条件化(In-context Conditioning)机制。 每种条件(时间步 、类别 、引导相关因子 )都被转化为多个token,并与图像潜在空间中的token沿序列轴拼接。这种方式能够灵活处理多种条件,并且重要的是,它移除了参数量大的adaLN-zero层。这使得模型尺寸显著减小,例如,在保持深度和宽度不变的情况下,iMF的基础模型参数量从133M减少到89M,实现了1/3的参数量缩减,同时性能依然出色。
实验与性能分析:单步生成的新标杆
iMF在ImageNet 256x256数据集上进行了全面的实验验证,并报告了Fréchet Inception Distance (FID) 指标。所有模型均从头开始训练,并专注于1-NFE (单步函数评估) 生成的挑战性协议。
上图展示了训练过程中的FID曲线。 我们可以清晰地看到iMF各项改进的效果:
-
原始MeanFlow-B/2基线的1-NFE FID为6.17。 -
采用改进的训练目标(v-loss)后,FID提升到5.68。 -
引入灵活的CFG条件化后,FID进一步降至4.57。 -
用上下文条件化替代adaLN-zero后,FID再次提升到4.09。
这些结果充分证明了iMF各项技术改进的有效性。
上表为1-NFE生成上的消融研究。 表格进一步细化了各项改进带来的性能提升:
-
在v-loss的改进中,使用“边界条件”作为 的计算方式,在无CFG时将FID从32.69显著提升到29.42,这是一个3.27的巨大提升。 -
引入灵活引导后,从表中可以看到,在结合了辅助v-head的CFG(5.68 FID)基础上, -条件化(包含了CFG尺度和区间)将FID大幅提升到4.57。 -
上下文条件化带来了最大的飞跃:在模型参数量从133M减少到89M的同时,FID从4.57提升到4.09,这充分展现了其在效率和性能上的双重优势。
上表为与原始MeanFlow的系统级比较。 我们可以看到,iMF模型在FID和IS指标上都显著优于原始MF。特别是iMF-XL/2模型,以610M的参数量,在1-NFE生成上取得了1.72的FID,这比原始MeanFlow-XL/2(676M参数量,3.43 FID)的性能提升了50%。这个数据非常亮眼,证明了iMF在效率和效果上的巨大优势。
更令人振奋的是,与其他从头训练的快速前向生成模型相比,iMF表现出压倒性的优势。甚至,iMF-XL/2的1.72 FID,超越了许多从预训练多步模型中蒸馏而来的1-NFE方法(例如DMF-XL/2+的2.16 FID),这表明从头训练也能达到甚至超越蒸馏方法的性能。当放宽到2-NFE时,iMF-XL/2能达到1.54的FID,进一步缩小了与多步扩散模型的差距。
结语:快速前向生成模型的未来展望
iMF方法的提出,不仅解决了MeanFlow框架的固有挑战,更重要的是,它为单步生成模型设定了新的性能标杆。通过对训练目标和引导机制的精妙改进,iMF证明了无需预训练,快速前向生成模型也能达到极具竞争力的性能,甚至在某些方面超越了需要蒸馏或多步采样的传统方法。
这项工作无疑是快速前向生成领域的一个坚实进步,它让我们看到了这类模型作为独立范式发展的巨大潜力。虽然目前的工作主要聚焦于模型的改进,但论文也指出,随着1-NFE生成技术的不断成熟,分词器(tokenizer)在推理时带来的非可忽略开销将成为未来的研究重点。我们期待未来的研究能够探索更高效的分词器设计,甚至直接在像素空间进行生成,进一步提升快速前向生成模型的实用性和效率。
你觉得这个技术未来会用在哪些场景?一起来聊聊吧!

