大数跨境
0
0

NeurIPS 2025|华科大新作MERGE:生成与感知「即插即用」,一个模型双模切换,性能与效率兼得!

NeurIPS 2025|华科大新作MERGE:生成与感知「即插即用」,一个模型双模切换,性能与效率兼得! 极市平台
2025-10-29
1
↑ 点击蓝字 关注极市平台
来源丨粉丝投稿
编辑丨极市平台

极市导读

 

MERGE为T2I模型加装“可拔插转换器”:训练时12%参数解锁深度/法线估计,推理时跳过模块即恢复原生成能力,零样本NYUv2性能超OneDiffusion,数据仅用其千分之一,代码已开源。>>加入极市CV技术交流群,走在计算机视觉的最前沿

近年来,文生图(T2I)扩散模型以前所未有的速度发展,并衍生出诸多基于全参微调的生成式感知工作,如Marigold等。然而,全参微调会破坏文图模型原本的图像生成能力,一个问题随之而来:我们能否利用这些模型强大的视觉先验知识,去执行深度估计等感知任务,同时又不损害其宝贵的图像生成能力?

近日,一项由华中科技大学团队提出的名为MERGE的全新框架,为这一难题提供了极其优雅的解决方案,该工作已被NeurIPS 2025接收。该方法创新性地提出了一种“即插即用”的范式,仅需为预训练T2I模型增加约12%的可训练参数,即可在完整保留原始生成能力的同时,解锁出顶尖的零样本(zero-shot)几何估计能力,在多个权威基准上超越了需要海量数据从零训练的统一模型,实现了性能与效率的完美统一。

论文标题: More Than Generation: Unifying Generation and Depth Estimation via Text-to-Image Diffusion Models

论文链接: https://arxiv.org/abs/2510.23574

代码链接: https://h-embodvis.github.io/MERGE

图1.和全参微调方法及其他多任务统一范式的对比

01 挑战:生成与感知的“两难困境”

预训练+微调是当前AI领域的主流范式。然而,当试图让一个强大的T2I模型“学会”深度估计等新技能时,研究者们普遍面临着“灾难性遗忘”(Catastrophic Degradation)的魔咒——模型原有的生成能力会遭到严重破坏。为了解决这个问题,研究人员探讨了多种方案:

  1. 双模型并行范式:以JointNet为代表,通过并行运行两个独立模型并进行特征交互来保留各自功能。然而,这种方法在应用层面两倍文生图模型的开销,可能被认为是一种次优解。
  2. 大规模重训练范式:以OneDiffusion为代表,在高达1亿样本量的多任务数据集上从零开始训练一个统一模型。这种超大规模数据驱动的方法尽管有效,但其惊人的数据和算力门槛,让绝大多数研究者望而却步。
图2. MERGE的训练和推理流程图

02  破局:MERGE的“即插即用”新范式

面对上述瓶颈,MERGE的作者团队另辟蹊径,其核心思想并非“替换”或“重建”,而是“释放”——他们认为,感知能力作为一种视觉先验,已经潜藏在预训练T2I模型中,只需找到正确的钥匙去解锁。

MERGE的设计极具巧思,其工作流程可以概括为:

  1. 设计可插拔转换器 (Pluggable Converter):研究者设计了一种轻量级的、可学习的“转换器”模块。在执行深度估计任务时,将这些转换器接入到预训练模型的特征流中,引导模型输出深度图。
  2. 实现无损模式切换:在执行图像生成任务时,只需将这些转换器跳过,特征流便会绕过它们,模型恢复到其原始的、未受任何影响的状态,继续高效地生成图像。这种设计彻底解决了“灾难性遗忘”问题。
  3. 引入组重用机制 (Group Reuse Mechanism, GRE):通过观察到T2I模型中相邻层特征的高度相似性,MERGE让一个组内的多个层共享同一个转换器,极大地减少了需要额外学习的参数数量,实现了极致的参数效率。 通过这一系列操作,MERGE巧妙地将一个固定的T2I模型,转变为一个高性能的生成-感知双模模型,实现了知识的高效、无损迁移。
表1. 零样本深度估计的定量评估结果
图3.零样本深度估计的定性评估结果
表2.零样本法线估计的定量评估结果

03 实验结果:性能与效率的双重胜利

MERGE的性能到底如何?实验数据给出了答案。

  • 性能表现优异:在具挑战性的NYUv2深度估计基准上,MERGE-L(基于FLUX.1模型)的性能超越了OneDiffusion,而其训练数据量不足后者的千分之一(7.4万 vs 1亿),可训练参数仅为后者的一半。
  • 极致的参数效率:在同一预训练文生图模型PixArt的设置下,与完全微调的Marigold相比,MERGE-B仅用其约18%的可训练参数,就取得了高度可比的深度估计性能,最关键的是,MERGE完整保留了模型的生成能力。
  • 卓越的泛化能力:MERGE的框架被成功应用于表面法线估计任务,再次证明了其并非针对特定任务的“特解”,而是一个具有普适性的方法论。这为构建模块化、可扩展的统一感知系统提供了新的见解。
  • 定性表现惊艳:在视觉效果上,MERGE生成的深度图在细节上更加清晰准确,尤其在处理中空区域、反光表面等传统难题上,表现出强大的鲁棒性。

04 总结与展望

本文提出的MERGE框架,通过创新的“即插即用”范式,为如何在不牺牲原有能力的前提下扩展模型功能,提供了一个简单、优雅且高效的答案。它标志着一种范式转变的潜力:从过去那种破坏性的微调或资源密集型的重训练,转向一种更可持续、更模块化、更具成本效益的模型扩展方式。

总体而言,这项工作为如何利用和释放现有大型基础模型的潜能,提供了一份新的见解,为解决大模型落地应用中的效率与性能平衡问题,探索出一条全新的路径。


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k