NeurIPS 2025|华科大新作MERGE：生成与感知「即插即用」，一个模型双模切换，性能与效率兼得！

极市平台

2025-10-29

↑ 点击蓝字关注极市平台

来源丨粉丝投稿

编辑丨极市平台

极市导读

MERGE为T2I模型加装“可拔插转换器”：训练时12%参数解锁深度/法线估计，推理时跳过模块即恢复原生成能力，零样本NYUv2性能超OneDiffusion，数据仅用其千分之一，代码已开源。>>加入极市CV技术交流群，走在计算机视觉的最前沿

近年来，文生图（T2I）扩散模型以前所未有的速度发展，并衍生出诸多基于全参微调的生成式感知工作，如Marigold等。然而，全参微调会破坏文图模型原本的图像生成能力，一个问题随之而来：我们能否利用这些模型强大的视觉先验知识，去执行深度估计等感知任务，同时又不损害其宝贵的图像生成能力？

近日，一项由华中科技大学团队提出的名为MERGE的全新框架，为这一难题提供了极其优雅的解决方案，该工作已被NeurIPS 2025接收。该方法创新性地提出了一种“即插即用”的范式，仅需为预训练T2I模型增加约12%的可训练参数，即可在完整保留原始生成能力的同时，解锁出顶尖的零样本（zero-shot）几何估计能力，在多个权威基准上超越了需要海量数据从零训练的统一模型，实现了性能与效率的完美统一。

论文标题： More Than Generation: Unifying Generation and Depth Estimation via Text-to-Image Diffusion Models

论文链接： https://arxiv.org/abs/2510.23574

代码链接： https://h-embodvis.github.io/MERGE

01 挑战：生成与感知的“两难困境”

预训练+微调是当前AI领域的主流范式。然而，当试图让一个强大的T2I模型“学会”深度估计等新技能时，研究者们普遍面临着“灾难性遗忘”（Catastrophic Degradation）的魔咒——模型原有的生成能力会遭到严重破坏。为了解决这个问题，研究人员探讨了多种方案：

双模型并行范式：以JointNet为代表，通过并行运行两个独立模型并进行特征交互来保留各自功能。然而，这种方法在应用层面两倍文生图模型的开销，可能被认为是一种次优解。
大规模重训练范式：以OneDiffusion为代表，在高达1亿样本量的多任务数据集上从零开始训练一个统一模型。这种超大规模数据驱动的方法尽管有效，但其惊人的数据和算力门槛，让绝大多数研究者望而却步。

02 破局：MERGE的“即插即用”新范式

面对上述瓶颈，MERGE的作者团队另辟蹊径，其核心思想并非“替换”或“重建”，而是“释放”——他们认为，感知能力作为一种视觉先验，已经潜藏在预训练T2I模型中，只需找到正确的钥匙去解锁。

MERGE的设计极具巧思，其工作流程可以概括为：

设计可插拔转换器 (Pluggable Converter)：研究者设计了一种轻量级的、可学习的“转换器”模块。在执行深度估计任务时，将这些转换器接入到预训练模型的特征流中，引导模型输出深度图。
实现无损模式切换：在执行图像生成任务时，只需将这些转换器跳过，特征流便会绕过它们，模型恢复到其原始的、未受任何影响的状态，继续高效地生成图像。这种设计彻底解决了“灾难性遗忘”问题。
引入组重用机制 (Group Reuse Mechanism, GRE)：通过观察到T2I模型中相邻层特征的高度相似性，MERGE让一个组内的多个层共享同一个转换器，极大地减少了需要额外学习的参数数量，实现了极致的参数效率。通过这一系列操作，MERGE巧妙地将一个固定的T2I模型，转变为一个高性能的生成-感知双模模型，实现了知识的高效、无损迁移。

03 实验结果：性能与效率的双重胜利

MERGE的性能到底如何？实验数据给出了答案。

性能表现优异：在具挑战性的NYUv2深度估计基准上，MERGE-L（基于FLUX.1模型）的性能超越了OneDiffusion，而其训练数据量不足后者的千分之一（7.4万 vs 1亿），可训练参数仅为后者的一半。
极致的参数效率：在同一预训练文生图模型PixArt的设置下，与完全微调的Marigold相比，MERGE-B仅用其约18%的可训练参数，就取得了高度可比的深度估计性能，最关键的是，MERGE完整保留了模型的生成能力。
卓越的泛化能力：MERGE的框架被成功应用于表面法线估计任务，再次证明了其并非针对特定任务的“特解”，而是一个具有普适性的方法论。这为构建模块化、可扩展的统一感知系统提供了新的见解。
定性表现惊艳：在视觉效果上，MERGE生成的深度图在细节上更加清晰准确，尤其在处理中空区域、反光表面等传统难题上，表现出强大的鲁棒性。