何恺明团队发布新作BiFlow,聚焦归一化流生成模型的效率瓶颈问题。
与此前MeanFlow强调流匹配不同,本次工作核心在于突破传统归一化流对“可逆性”的强约束[2]。
论文提出双向归一化流(BiFlow)框架,通过解耦前向映射(数据→噪声)与逆向生成(噪声→图像)两个过程,显著提升模型灵活性与推理效率[3]。
论文三位一作均为本科在读生:两位来自清华姚班与MIT,一位为人大附中毕业生、新晋MIT本科生[4]。
BiFlow:逆向过程不必是前向过程的精确逆运算
归一化流(NFs)是生成建模的重要范式,其标准流程包含前向过程(数据映射为噪声)与逆向过程(噪声重建数据)[5]。
传统NF要求逆向过程必须是前向过程的数学精确逆,带来两大限制:
BiFlow的核心突破在于:解除逆向过程必须为前向过程精确逆的硬性约束[7]。
具体设计如下:
前向模型仍采用易于训练的流模型(如改进版TARFlow),负责将数据映射为噪声;
逆向模型则引入一个可学习的独立架构,用以近似前向过程的逆映射——无需数学可逆,支持任意高效结构(如双向Transformer),实现单次前向生成[8]。
该框架共提出三项关键技术:
隐藏层对齐(Hidden Alignment)
为提升独立逆向模型训练稳定性,BiFlow提出新型监督策略:
-
以前向过程的完整中间状态轨迹(数据→半噪声→纯噪声)作为监督信号; -
通过可学习投影头,对齐逆向模型中间表示与前向轨迹对应层[9]。
学习去噪(Learned Denoising)
传统NF(如TARFlow)需额外后处理去噪,增加推理开销;BiFlow将去噪模块直接嵌入逆向模型,实现端到端噪声到清晰图像的映射[10]。
训练时无分类器引导(Training-time CFG)
为保持推理阶段单步生成(1-NFE)的高效性,BiFlow在训练中即引入无分类器引导(CFG),使模型直接学习以CFG比例为条件的生成能力,避免推理时双重前向计算[11]。
实验结果:速度提升两个数量级
在ImageNet 256×256数据集上,BiFlow取得FID 2.39,刷新归一化流方法SOTA[12]。
在推理速度方面,相较改进版TARFlow,BiFlow在TPU上实现697倍加速,整体提速达两个数量级[13]。
凭借双向映射特性,BiFlow无需微调即可支持图像修复与类别编辑两类下游任务[14]。
本科生领衔
论文三位一作均为本科生:
陆伊炀,清华大学姚班大二学生,现于MIT CSAIL实习,师从何恺明,主攻计算机视觉与深度生成模型;高中获2022年全国中学生物理竞赛(CPhO)金牌(江苏第一、全国第九)[15]。
Qiao Sun,MIT大二本科生,何恺明课题组UROP成员,研究方向为生成模型;高中毕业于上海中学,2023年国际数学奥林匹克竞赛(IMO)金牌得主[16]。
王衔邦,2024年刚入读MIT,师从何恺明;2024年IMO金牌得主,2021–2022年连续两届全国信息学奥林匹克竞赛(NOI)银牌获得者[17]。
论文地址:
https://arxiv.org/abs/2512.10953v1
【免责声明】转载出于非商业性的教育和科研目的,只为学术新闻信息传播,版权归原作者所有,如有侵权请立即与我们联系,我们将及时删除。

