极市导读
MERGE为T2I模型加装“可拔插转换器”:训练时12%参数解锁深度/法线估计,推理时跳过模块即恢复原生成能力,零样本NYUv2性能超OneDiffusion,数据仅用其千分之一,代码已开源。>>加入极市CV技术交流群,走在计算机视觉的最前沿
近年来,文生图(T2I)扩散模型以前所未有的速度发展,并衍生出诸多基于全参微调的生成式感知工作,如Marigold等。然而,全参微调会破坏文图模型原本的图像生成能力,一个问题随之而来:我们能否利用这些模型强大的视觉先验知识,去执行深度估计等感知任务,同时又不损害其宝贵的图像生成能力?
近日,一项由华中科技大学团队提出的名为MERGE的全新框架,为这一难题提供了极其优雅的解决方案,该工作已被NeurIPS 2025接收。该方法创新性地提出了一种“即插即用”的范式,仅需为预训练T2I模型增加约12%的可训练参数,即可在完整保留原始生成能力的同时,解锁出顶尖的零样本(zero-shot)几何估计能力,在多个权威基准上超越了需要海量数据从零训练的统一模型,实现了性能与效率的完美统一。
论文标题: More Than Generation: Unifying Generation and Depth Estimation via Text-to-Image Diffusion Models
论文链接: https://arxiv.org/abs/2510.23574
代码链接: https://h-embodvis.github.io/MERGE
01 挑战:生成与感知的“两难困境”
预训练+微调是当前AI领域的主流范式。然而,当试图让一个强大的T2I模型“学会”深度估计等新技能时,研究者们普遍面临着“灾难性遗忘”(Catastrophic Degradation)的魔咒——模型原有的生成能力会遭到严重破坏。为了解决这个问题,研究人员探讨了多种方案:
-
双模型并行范式:以JointNet为代表,通过并行运行两个独立模型并进行特征交互来保留各自功能。然而,这种方法在应用层面两倍文生图模型的开销,可能被认为是一种次优解。 -
大规模重训练范式:以OneDiffusion为代表,在高达1亿样本量的多任务数据集上从零开始训练一个统一模型。这种超大规模数据驱动的方法尽管有效,但其惊人的数据和算力门槛,让绝大多数研究者望而却步。
02 破局:MERGE的“即插即用”新范式
面对上述瓶颈,MERGE的作者团队另辟蹊径,其核心思想并非“替换”或“重建”,而是“释放”——他们认为,感知能力作为一种视觉先验,已经潜藏在预训练T2I模型中,只需找到正确的钥匙去解锁。
MERGE的设计极具巧思,其工作流程可以概括为:
-
设计可插拔转换器 (Pluggable Converter):研究者设计了一种轻量级的、可学习的“转换器”模块。在执行深度估计任务时,将这些转换器接入到预训练模型的特征流中,引导模型输出深度图。 -
实现无损模式切换:在执行图像生成任务时,只需将这些转换器跳过,特征流便会绕过它们,模型恢复到其原始的、未受任何影响的状态,继续高效地生成图像。这种设计彻底解决了“灾难性遗忘”问题。 -
引入组重用机制 (Group Reuse Mechanism, GRE):通过观察到T2I模型中相邻层特征的高度相似性,MERGE让一个组内的多个层共享同一个转换器,极大地减少了需要额外学习的参数数量,实现了极致的参数效率。 通过这一系列操作,MERGE巧妙地将一个固定的T2I模型,转变为一个高性能的生成-感知双模模型,实现了知识的高效、无损迁移。
03 实验结果:性能与效率的双重胜利
MERGE的性能到底如何?实验数据给出了答案。
-
性能表现优异:在具挑战性的NYUv2深度估计基准上,MERGE-L(基于FLUX.1模型)的性能超越了OneDiffusion,而其训练数据量不足后者的千分之一(7.4万 vs 1亿),可训练参数仅为后者的一半。 -
极致的参数效率:在同一预训练文生图模型PixArt的设置下,与完全微调的Marigold相比,MERGE-B仅用其约18%的可训练参数,就取得了高度可比的深度估计性能,最关键的是,MERGE完整保留了模型的生成能力。 -
卓越的泛化能力:MERGE的框架被成功应用于表面法线估计任务,再次证明了其并非针对特定任务的“特解”,而是一个具有普适性的方法论。这为构建模块化、可扩展的统一感知系统提供了新的见解。 -
定性表现惊艳:在视觉效果上,MERGE生成的深度图在细节上更加清晰准确,尤其在处理中空区域、反光表面等传统难题上,表现出强大的鲁棒性。
04 总结与展望
本文提出的MERGE框架,通过创新的“即插即用”范式,为如何在不牺牲原有能力的前提下扩展模型功能,提供了一个简单、优雅且高效的答案。它标志着一种范式转变的潜力:从过去那种破坏性的微调或资源密集型的重训练,转向一种更可持续、更模块化、更具成本效益的模型扩展方式。
总体而言,这项工作为如何利用和释放现有大型基础模型的潜能,提供了一份新的见解,为解决大模型落地应用中的效率与性能平衡问题,探索出一条全新的路径。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

