大数跨境
0
0

学术分享丨何恺明组三位本科生领衔!持续聚焦Flow模型,突破归一化流生成效率瓶颈

学术分享丨何恺明组三位本科生领衔!持续聚焦Flow模型,突破归一化流生成效率瓶颈 中国人工智能学会
2025-12-18
5
转自 量子位

何恺明团队发布新作BiFlow,聚焦归一化流生成模型的效率瓶颈问题。

与此前MeanFlow强调流匹配不同,本次工作核心在于突破传统归一化流对“可逆性”的强约束[2]

论文提出双向归一化流(BiFlow)框架,通过解耦前向映射(数据→噪声)与逆向生成(噪声→图像)两个过程,显著提升模型灵活性与推理效率[3]

论文三位一作均为本科在读生:两位来自清华姚班与MIT,一位为人大附中毕业生、新晋MIT本科生[4]

BiFlow:逆向过程不必是前向过程的精确逆运算

归一化流(NFs)是生成建模的重要范式,其标准流程包含前向过程(数据映射为噪声)与逆向过程(噪声重建数据)[5]

传统NF要求逆向过程必须是前向过程的数学精确逆,带来两大限制:

  • 模型设计受限:为保障严格可逆,难以采用ViT等通用强大架构,需定制复杂结构;
  • 推理速度慢:以TARFlow为例,逆向采样需串行逐层计算,无法并行加速[6]

BiFlow的核心突破在于:解除逆向过程必须为前向过程精确逆的硬性约束[7]

具体设计如下:

前向模型仍采用易于训练的流模型(如改进版TARFlow),负责将数据映射为噪声;

逆向模型则引入一个可学习的独立架构,用以近似前向过程的逆映射——无需数学可逆,支持任意高效结构(如双向Transformer),实现单次前向生成[8]

该框架共提出三项关键技术:

隐藏层对齐(Hidden Alignment)

为提升独立逆向模型训练稳定性,BiFlow提出新型监督策略:

  • 以前向过程的完整中间状态轨迹(数据→半噪声→纯噪声)作为监督信号;
  • 通过可学习投影头,对齐逆向模型中间表示与前向轨迹对应层[9]

学习去噪(Learned Denoising)

传统NF(如TARFlow)需额外后处理去噪,增加推理开销;BiFlow将去噪模块直接嵌入逆向模型,实现端到端噪声到清晰图像的映射[10]

训练时无分类器引导(Training-time CFG)

为保持推理阶段单步生成(1-NFE)的高效性,BiFlow在训练中即引入无分类器引导(CFG),使模型直接学习以CFG比例为条件的生成能力,避免推理时双重前向计算[11]

实验结果:速度提升两个数量级

在ImageNet 256×256数据集上,BiFlow取得FID 2.39,刷新归一化流方法SOTA[12]

在推理速度方面,相较改进版TARFlow,BiFlow在TPU上实现697倍加速,整体提速达两个数量级[13]

凭借双向映射特性,BiFlow无需微调即可支持图像修复与类别编辑两类下游任务[14]

本科生领衔

论文三位一作均为本科生:

陆伊炀,清华大学姚班大二学生,现于MIT CSAIL实习,师从何恺明,主攻计算机视觉与深度生成模型;高中获2022年全国中学生物理竞赛(CPhO)金牌(江苏第一、全国第九)[15]

Qiao Sun,MIT大二本科生,何恺明课题组UROP成员,研究方向为生成模型;高中毕业于上海中学,2023年国际数学奥林匹克竞赛(IMO)金牌得主[16]

王衔邦,2024年刚入读MIT,师从何恺明;2024年IMO金牌得主,2021–2022年连续两届全国信息学奥林匹克竞赛(NOI)银牌获得者[17]

论文地址:
https://arxiv.org/abs/2512.10953v1

【免责声明】转载出于非商业性的教育和科研目的,只为学术新闻信息传播,版权归原作者所有,如有侵权请立即与我们联系,我们将及时删除。

【声明】内容源于网络
0
0
中国人工智能学会
中国人工智能学会官方订阅号,为广大智能科技工作者提供前沿资讯,学术分享,科普信息的的多媒体平管
内容 8111
粉丝 0
中国人工智能学会 中国人工智能学会官方订阅号,为广大智能科技工作者提供前沿资讯,学术分享,科普信息的的多媒体平管
总阅读39.6k
粉丝0
内容8.1k