大数跨境
0
0

一步SOTA!何恺明团队iMF实现单步生成FID 1.72,无需蒸馏从零训练

一步SOTA!何恺明团队iMF实现单步生成FID 1.72,无需蒸馏从零训练 AI前沿速递
2025-12-04
0
导读:一步SOTA!何恺明团队iMF实现单步生成FID 1.72,无需蒸馏从零训练

 

论文下载:关注回复【C677获取领取 何恺明团队2025工作汇总

继今年5月提出MeanFlow(MF)后,何恺明团队推出改进版Improved MeanFlow(iMF),其通过重构训练目标为更稳定的瞬时速度损失、引入灵活无分类器指导(CFG)及高效上下文内条件作用,解决了原始MF在训练稳定性、指导灵活性与架构效率上的三大核心问题,在ImageNet 256x256基准测试中,iMF-XL/2模型以1-NFE(单步函数评估)1.72的FID成绩较原始MF提升50%,证实从头训练的单步生成模型可媲美多步扩散模型。

Mean Flows

本文延续入选NeurIPS 2025 Oral的前作Mean Flow核心班底,由川大本科、CMU博士耿正阳(师从J. Zico Kolter教授)与清华姚班大二学生Yiyang Lu(现于MIT跟随何恺明教授研究计算机视觉,曾在清华许华哲教授指导下深耕机器人方向)共一领衔,部分研究在MIT何恺明教授指导下完成;其他作者包括Adobe的研究科学家Zongze Wu(同济本科、希伯来大学博士)、高级首席科学家Eli Shechtman(华盛顿大学博士后,2007年加入Adobe),CMU计算机科学学院教授、机器学习系主任J. Zico Kolter(耿正阳导师),以及尾作、MIT终身副教授何恺明(ResNet核心作者、21世纪高被引学者,近期参与的FastCNN获NeurIPS时间检验奖)。

各位作者

扫码添加小助手回复“C677
免费获取何恺明团队25最新工作论文+代码

1. 【导读】


论文基本信息

论文标题:Improved Mean Flows: On the Challenges of Fastforward Generative Models
作者:Zhengyang Geng, Yiyang Lu, Zongze Wu, Eli Shechtman, J. Zico Kolter, Kaiming He
作者机构:1. 卡内基梅隆大学(CMU);2. 麻省理工学院(MIT);3. 奥多比(Adobe);4. 清华大学(THU)
论文来源:何恺明团队
论文链接:https://arxiv.org/abs/2512.02012
项目链接:https://github.com/Gsunshine/meanflow

2. 【论文速读】

MeanFlow(MF)是何恺明团队提出的单步生成建模框架,并获得了Neurips2025 Oral。 但其“快速推进”特性在训练目标引导机制上存在关键挑战:原MF的训练目标依赖底层真实场与网络本身,原MF在训练时固定无分类器引导(CFG)尺度导致灵活性不足。

Meanflow算法

为此,研究将目标重构为瞬时速度v的损失(通过预测平均速度u的网络重新参数化),转化为更标准的回归问题以提升训练稳定性;同时将引导表述为显式条件变量,保留测试时的灵活性,并通过上下文条件处理多种条件以减小模型规模、提升性能。最终提出的improved MeanFlow(iMF) 方法从零开始训练,在ImageNet 256×256数据集上仅需单次函数评估(1-NFE)便实现1.72的FID值,显著优于同类现有方法,且在不使用蒸馏的情况下缩小了与多步方法的性能差距,为快速推进生成建模成为独立范式提供了支持。

3.【生成建模的“快进”突围:背景与同行探索】

3.1 研究背景

  1. 1. 主流生成模型的核心逻辑:扩散模型与基于流的模型是高效生成建模方法,核心是通过微分方程(如ODE/SDE)将先验分布映射到数据分布,但生成需多步数值求解,依赖较多函数评估(NFEs)。
  2. 2. “快进”模型的诞生动因:为减少采样步骤,研究者提出“快速推进生成模型”,对底层微分方程做“快进”近似,实现少步甚至单步生成;这类模型通过跨大时间区间的“前瞻映射”设计训练目标,但面临诸多近似挑战。
  3. 3. 原MeanFlow(MF)的待解局限:MF作为快进模型代表,通过学习跨时间步的平均速度场( )避免训练时的复杂积分,但存在两大问题——训练目标依赖网络自身(非标准回归问题)、无分类器引导(CFG)尺度训练时固定(损失灵活性),成为研究突破口。
Conceptual comparison.

3.2 相关工作

3.2.1 扩散与基于流的基础模型

  • • 核心框架:以Flow Matching(FM)为代表,学习速度场实现先验分布到数据分布的映射,通过回归损失优化网络 ,目标是拟合条件速度 ,最终回归目标为边际速度 (对满足 的所有 求期望);
  • • 生成方式:通过数值求解ODE( )从 (先验分布)积分到 (数据分布)。

3.2.2 快速推进生成模型(核心同行方向)

  • • 设计思路:通过跨时间步的近似策略减少NFEs,核心是绕过多步积分,直接建模大时间区间的映射关系;
  • • 代表性方法:
    • • 一致性模型:从中间时间步直接“跳跃”到轨迹终点,实现少步生成;
    • • Flow Map Matching:回归流场的零阶和一阶导数,简化时间步映射;
    • • Shortcut Models:基于两个时间步与其中点的关系构建映射,减少计算依赖;
    • • 原MeanFlow(MF):首次建模跨任意时间步的平均速度场( ),但存在训练与引导局限。

3.2.3 MeanFlow的相关改进(与iMF的区别)

  1. 1. AlphaFlow:分解MF目标,通过调度策略从Flow Matching逐步过渡到MF,聚焦目标分解与调度优化;
  2. 2. Decoupled MeanFlow:微调预训练Flow Matching模型为MF,通过网络末块条件化第二时间步实现,依赖预训练模型;
  3. 3. CMT:训练快进模型前,用预训练Flow Matching模型提供固定回归目标,需依赖外部预训练结果;
  4. 4. 与iMF的差异:iMF聚焦原MF的基础局限(训练目标依赖网络、CFG灵活性不足),改进方向与上述方法正交,无需依赖预训练或目标分解。

4.【三重解锁:iMF让快进生成更稳、更灵、更轻】

4.1 目标重构:将u-loss转为网络无关的v-loss

核心是解决原MF训练目标依赖网络自身的问题,转化为标准回归任务,提升训练稳定性。
Algorithm 1 improved MeanFlow: training.
  1. 1. 等价重构逻辑:原MF的u-loss(平均速度损失)可等价转为v-loss(瞬时速度损失),通过MeanFlow恒等式重新参数化,目标v与网络无关,公式为:
  2. 2. 优化输入设计:原MF的 需同时输入 ,存在未知量依赖;iMF重新定义 ,仅以 为输入,避免额外噪声带来的高方差(如图3所示,iMF损失更平稳)。
    Training losses.
  3. 3. 高效实现方案:
    • • 边界条件复用:利用 ,直接用 表示 ,无额外参数。
    • • 辅助头增强:在 网络中添加辅助头专门建模 ,仅训练时生效,推理无额外开销,进一步提升性能。
      MeanFlow as v-loss.

4.2 引导升级:灵活CFG条件化,适配多场景

突破原MF固定CFG尺度的局限,让引导机制可动态调整,适配不同训练/推理场景。

  1. 1. 核心改进:将固定引导尺度 转为模型的条件变量,网络 通过学习 的嵌入,支持训练和推理时灵活调整。
  2. 2. 引导场扩展:原MF固定引导场为 ;iMF将其扩展为条件化形式,
  3. 3. 多条件扩展:进一步纳入CFG区间参数 ,构成 ,训练时 超出区间则关闭CFG( ),兼顾多样性与生成质量。
    Optimal CFG scales shift under different settings.

4.3 架构瘦身:多token上下文条件化,减负增效

解决多条件(时间 、类别 、引导 )适配难题,同时缩减模型尺寸。

  1. 1. 条件处理逻辑:摒弃参数繁重的adaLN-zero,采用“多token拼接”策略——每种条件转化为多个可学习token(类别8个、其他条件各4个),与图像 latent token 沿序列轴拼接,通过Transformer块统一处理。
  2. 2. 核心优势:
    • • 灵活适配多条件:避免不同条件嵌入求和导致的信息冲突,适配时间、类别、引导等异质条件。
    • • 模型大幅瘦身:移除adaLN-zero后,模型参数减少1/3(如iMF-Base从133M降至89M),计算量基本不变。
  3. 3. 额外优化:结合SwiGLU、RMSnorm、RoPE等Transformer改进组件,进一步提升生成性能。
Improved in-context conditioning.

5.【1.72 FID封神!IMF在ImageNet的「快进生成」战绩单】

5.1 实验基础设置:统一基准,公平比拼

  • • 数据集与任务:聚焦ImageNet 256×256类别条件生成,模型基于预训练VAE tokenizer的 latent 空间(32×32×4)运行。
  • • 核心评估标准:以1步函数评估(1-NFE)为核心场景,报告50K生成图像的FID值(越低越好),部分实验补充IS值(越高越好);所有模型均从零训练,不使用蒸馏或预训练对齐。
  • • 基线模型:采用原MeanFlow-B/2为起点,其1-NFE FID为6.17(带CFG),训练240个epoch,后续改进均基于此基准对比。

5.2 消融实验:拆解iMF的「提分密码」

通过控制变量验证三大核心改进的有效性(结果源自Tab.1):

  1. 1. 训练目标重构(v-loss)
    • • 用 边界条件表示 时,无CFG场景FID从32.69降至29.42,带CFG场景从6.17降至5.97;
    • • 加辅助 头后,带CFG场景FID进一步降至5.68,相对原MF提升约10%,且推理无额外开销。
      FID curves during training

      MeanFlow as v-loss
  2. 2. 灵活CFG条件化
    • • 仅条件化 (引导尺度),带CFG FID从5.68微调至5.52;
    • • 加入 (CFG区间)构成 条件,带CFG FID降至4.57,无CFG场景( )FID从30.76大幅降至20.95。
      Flexible guidance
  3. 3. 上下文条件化架构
    • • 替换adaLN-zero为多token上下文条件(类别8token、其他条件4token),模型参数从133M减至89M(降1/3),带CFG FID进一步降至4.09;
    • • 叠加SwiGLU、RMSnorm等Transformer改进,FID达3.39,长训练(640epoch)后性能更优。
      In-context conditioning and other improvements

5.3 与原MeanFlow对比:全面碾压,尺寸更优

系统级对比显示iMF在性能与效率上双重超越(结果源自Tab.2):

  • • 性能跃升:iMF-XL/2的1-NFE FID达1.72,较原MF-XL/2的3.43相对降低50%,IS值从247.5提升至282.0;即使小尺寸iMF-B/2(89M),FID(3.39)也优于原MF-L/2(3.84,459M)。
    Qualitative results of 1-NFE generation on ImageNet 256×256.
  • • 尺寸精简:相同深度/宽度下,iMF移除adaLN-zero后参数显著减少,如iMF-B/2(89M)较原MF-B/2(131M)减32%,大模型(如iMF-XL/2)较原MF-XL/2(676M)减约10%。
System-level comparison with original MeanFlow

5.4 与其他方法横向对比:1-NFE领域「无对手」

在ImageNet 256×256场景下,iMF刷新快进生成模型上限(结果源自Tab.3):

  1. 1. 1-NFE从头训练:iMF-XL/2(1.72 FID)远超同参数级别的MeanFlow-XL/2(3.43)、α-Flow-XL/2+(2.58),甚至优于更大参数的TiM-XL/2(3.26,664M)。
  2. 2. 超越蒸馏方法:iMF-XL/2的1.72 FID,优于依赖预训练蒸馏的FACM-XL/2(1.76)、DMF-XL/2+(2.16),证明「从零训练」可媲美蒸馏效果。
  3. 3. 逼近多步模型:当NFE放宽至2时,iMF-XL/2 FID达1.54,接近多步扩散模型(如SiT-XL/2+REPA的1.42),且无需数百次函数评估。
  4. 4. 碾压GAN与自回归:1-NFE场景下,iMF-B/2(3.39 FID)即优于StyleGAN-XL(2.30,166M),iMF-XL/2则远超自回归模型如LLamaGen-3B(2.18,3.1B)。
    System-levelcomparisononclass-conditionalImageNet256×256

6.【IMF破局!快进生成的高光时刻与未来新程】

本文针对原MeanFlow(MF)在快进生成建模中存在的训练目标依赖网络(非标准回归)、CFG尺度固定(损失灵活性)两大核心问题,提出改进方法iMF:通过将u-loss等价重构为网络无关的v-loss,转化为标准回归任务以提升训练稳定性;将CFG尺度及区间参数转为显式条件变量,实现训练与推理时的灵活调整;采用多token上下文条件化架构,移除参数繁重的adaLN-zero,在缩减模型尺寸(如Base模型从133M减至89M)的同时适配多类条件。实验表明,iMF从零训练,在ImageNet 256×256 1-NFE场景下实现1.72 FID,显著超越同类从头训练及蒸馏方法,大幅缩小与多步模型的性能差距,证实快进生成可作为独立范式。展望未来,随着1-NFE生成性能的提升,预训练VAE tokenizer的推理开销逐渐凸显,后续研究可聚焦高效tokenizer设计或像素空间直接生成,进一步推动快进生成模型的实用化进程。

 



扫码添加小助手回复“C677
免费获取何恺明团队25最新工作论文+代码




往期推荐
一夜醒来,Transformer和Mamba都被超越了!大模型最强架构TTT问世!

一区Top期刊 Information Sciences 惨遭除名,2025中科院最新分区揭晓!

视觉Transformer(Vision Transformer, ViT) :全面超越CNN,看懂这篇文章就没什么能难倒你了!

我愿称之无敌!特征融合最新暴力涨点方案!

超越传统:GNN和Transformer结合的创新突破!
CVPR 2024 | CRNet:一种可保留细节的图像增强与统一恢复网络
复活CNN!港大 CVPR 2025 高分论文,助力卷积神经网络效率暴涨还省显存!
深度学习可解释杀疯了!登上《Nature》正刊!屠榜双领域SOTA!
Transformer 过时了!MIT 液体神经网络 LNN 才是新趋势!
小波变换+注意力机制的结合创新,竟能实现100%分类准确率!
CVPR 2024 | 黑暗中的多目标追踪
研究因果推断最前沿,这些个创新思路不能错过



📢欢迎加入我们的学术交流群!

无论你是研究哪个方向的,都可以找到志同道合的伙伴

添加好友后将拉你进相应微信群。

📌 添加方式:

扫描下方二维码,或搜索微信号:aiqysd

📩 添加好友时请务必备注信息,格式如下:

研究方向  + 学校/公司 + 学历 + 姓名

非常重要:

发送好友验证时,必须填写备注信息,示例如下:

👉 目标检测 + 中科大 + 研一 + 陈奕迅

凡格式不对者,一律不予理睬

我们期待你的加入,一起交流、学习、进步!

部分资料展示👇




欢迎投稿

想要让高质量的内容更快地触达读者,降低他们寻找优质信息的成本吗?关键在于那些你尚未结识的人。他们可能掌握着你渴望了解的知识。【AI前沿速递】愿意成为这样的一座桥梁,连接不同领域、不同背景的学者,让他们的学术灵感相互碰撞,激发出无限可能。

【AI前沿速递】欢迎各高校实验室和个人在我们的平台上分享各类精彩内容,无论是最新的论文解读,还是对学术热点的深入分析,或是科研心得和竞赛经验的分享,我们的目标只有一个:让知识自由流动。

📝 投稿指南

  • 确保文章为个人原创,未在任何公开渠道发布。若文章已在其他平台发表或即将发表,请明确说明。

  • 建议使用Markdown格式撰写稿件,并以附件形式发送清晰、无版权争议的配图。

  • 【AI前沿速递】尊重作者的署名权,并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。

📬 投稿方式

  • 您可以通过添加我们的小助理微信(aiqysd)进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”


    长按添加AI前沿速递小助理




【声明】内容源于网络
0
0
AI前沿速递
AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
内容 1825
粉丝 0
AI前沿速递 AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
总阅读86
粉丝0
内容1.8k