大数跨境
0
0

TPAMI 2026 哈工大&清华等提出DiTFuse:迈向统一、可控的图像融合新范式

TPAMI 2026 哈工大&清华等提出DiTFuse:迈向统一、可控的图像融合新范式 极市平台
2025-12-12
2
↑ 点击蓝字 关注极市平台
作者丨我爱计算机视觉
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

DiTFuse 用一个指令微调 DiT 把红外-可见光、多焦点、多曝光融合及分割全塞进统一框架:自研 M³ 自监督策略摆脱真值依赖,文本可全局/局部精控,还能零样本输出目标掩码,在 IVIF、MFF、MEF 多项基准上取得新 SOTA。>>加入极市CV技术交流群,走在计算机视觉的最前沿

大家好,今天想和大家聊一篇新出的被顶刊TPAMI录用的工作,它来自哈尔滨工业大学、清华大学和武汉大学等机构的研究者们。这篇论文提出了一个名为 DiTFuse 的框架,致力于解决图像融合领域长期以来存在的几个核心难题:任务模型单一、适应性差,以及难以根据用户意图进行灵活控制。

简单来说,图像融合就是将来自不同传感器(比如红外和可见光相机)的图像信息整合到一张图里,以提供比任何单一来源都更丰富的信息。这项技术在手机摄影、自动驾驶和医疗影像等领域至关重要。然而,传统方法往往是“一个萝卜一个坑”,一个模型通常只能处理一种融合任务(比如多曝光融合或多焦点融合),而且整个过程就像个黑盒子,用户无法干预。

DiTFuse 基于强大的 Diffusion Transformer(DiT) 架构,首次将红外-可见光、多焦点、多曝光等多种主流融合任务,以及文本指令控制、乃至下游的分割任务,统一到了一个单一模型中。这意味着,你不仅可以用同一个模型处理不同类型的融合,还能像聊天一样,通过输入一句话来“指挥”模型如何融合,甚至直接输出你想要的目标分割结果。

  • 论文标题:Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach
  • 作者:Jiayang Li, Chengjie Jiang, Junjun Jiang, Pengwei Liang, Jiayi Ma, Liqiang Nie
  • 作者机构:哈尔滨工业大学、清华大学、武汉大学
  • 论文地址https://arxiv.org/abs/2512.07170
  • 代码仓库https://github.com/Henry-Lee-real/DiTFuse

01 现有图像融合方法的困境

在深入了解 DiTFuse 之前,我们先快速回顾一下现有方法的局限性。目前的融合模型大多可以分为“前融合”(Pre-fusion)和“后融合”(Post-fusion)两种。

如上图所示,前融合(a)是先融合特征再重建图像,后融合(b)是先从各图像提取深层特征再融合。这些方法虽然在特定任务上效果不错,但很难注入高层的语义信息,也无法实现灵活的交互控制。比如,在处理一张过曝的图片时,它们往往会直接将缺陷“继承”到最终结果中。

此外,一些“All-in-one”模型虽然尝试统一不同任务,但依旧缺乏与用户的交互能力。正如上图对比所示,DiTFuse 不仅统一了多任务,还开创性地引入了文本引导的融合与分割功能,在能力上远超前辈。

02 DiTFuse:基于 DiT 的统一融合框架

DiTFuse 的核心是一个经过指令微调的 Diffusion Transformer(DiT)模型。它巧妙地设计了一个并行输入结构,可以同时处理两张待融合的图像和一句自然语言指令。

上图展示了 DiTFuse 的整体框架。在训练和推理时,模型主要包含这几个部分:

  • 文本编码器:使用预训练的 Phi-3 将文本指令转换成语义向量。
  • 视觉编码器:采用 SDXL 的 VAE 模块将输入图像转换成视觉特征(Visual Embeddings)。
  • DiT 核心模块:将文本和视觉特征拼接在一起,作为 DiT 模型的条件输入。模型通过迭代去噪的过程,在一个共享的潜在空间中联合建模视觉和语言信息,最终生成融合后的图像。

这种设计的最大优势在于,文本指令可以在生成过程的早期就介入,从而实现对融合动态的层次化、细粒度控制,而不是像过去一样只能在特征融合后做一些亡羊补牢式的调整。

2.1 核心模型与训练目标

为了更深入地理解 DiTFuse 的工作原理,我们来看看其中几个关键的公式。

模型首先通过两个独立的编码器处理文本和图像输入。对于文本指令   ,使用一个 Transformer编码器 Transformer   将其转换为一系列 token   :

对于输入的图像   ,则通过一个变分自编码器(VAE)的编码器 VAE   将其映射到潜在空间,得到视觉 token   :

为了让预训练的DiT模型能适应新的融合任务,同时又保留其强大的通用能力,作者们采用了低秩自适应(LoRA) 技术。对于模型中的权重矩阵 W,LoRA通过引入两个低秩矩阵   和   来进行微调,更新后的权重   为:

其中秩   远小于原始维度, a 是一个缩放因子。这种方法极大地减少了需要训练的参数量,实现了高效微调。

在训练阶段,DiTFuse 采用了一种速度匹配(velocity matching)的目标。在扩散模型中,图像的加噪过程可以看作是从原始图像   向一个随机噪声   的线性插值。在任意时间步   ,带噪图像   可以表示为:

模型   的任务是接收带噪图像   、时间步   和条件信息  (即文本和图像特征),然后预测出从   指向"干净"目标   的"速度"(velocity),即(   )。训练的目标函数   就是最小化这个预测速度与真实速度之间的均方误差(MSE):

这个统一的训练目标使得模型可以在一个框架内联合优化融合、控制和分割等多种看似不同的任务,是实现"All-in-One"的关键。

2.2 独特的 M³ 训练策略:没有“标准答案”怎么办?

图像融合领域的一大难题是缺少大规模且带有“完美”融合结果(Ground-Truth)的数据集。没有标准答案,模型该如何学习呢?

为此,作者们提出了一种极具创意的自监督训练策略——M³ (Multi-degradation Masked-image Modeling) ,即多重退化掩码图像建模。

这个策略的流程如上图所示:

  1. 从大规模自然图像数据集中选择一张干净的图像。
  2. 将其复制为两份,并对这两份图像施加互补的、随机的退化,例如随机添加噪声、模糊和掩码(masking)。这样就构造出了一对信息互补但都有瑕疵的图像对。
  3. 模型的任务就是,利用这两张“坏”图,重建出原始的那张“好”图。

通过这种方式,模型被迫学习三件事:

  • 跨模态对齐:理解两张输入图像在内容上的对应关系。
  • 模态不变的修复:从退化的信息中恢复出干净的信号。
  • 任务感知的特征选择:智能地判断哪张输入图像的哪个区域信息更可靠、更丰富,并加以利用。

这个 M³ 策略巧妙地绕开了对融合真值的依赖,使得模型能够在一个庞大的、自生成的数据集上进行训练,学会了融合的核心能力——在不同源之间权衡和选择信息

2.3 指令驱动:让融合听你指挥

为了实现真正的“所见即所得”,研究者们还构建了一个大规模、多粒度的指令数据集。他们为每种任务都设计了标准化的提示(Prompt)结构。

如上图,一个典型的 Prompt 由四部分组成:任务标签 [TASK]、子任务标签 <SUBTASK>、图像占位符和自由格式的文本指令。例如,进行多模态融合时,标签可以是 [FUSION] 和 <MULTI-MODALITIES>;想要调整图像亮度时,可以使用 [CONTROL] 和 <LIGHT++>。通过在一个混合了融合、M³、分割和控制四种任务类型的数据集上进行训练(如下图数据构成所示),DiTFuse 成为了一个能够理解高级语义并进行交互式融合的强大模型。

03 实验效果:不仅融合得好,还能控制得准

DiTFuse 在多个公开的图像融合基准数据集上(包括红外-可见光 IVIF、多焦点 MFF 和多曝光 MEF)都取得了当前最佳(SOTA)的性能。

3.1 多任务融合效果

无论是定性比较还是定量指标,DiTFuse 都展现出了卓越的性能。

下方的两个表格汇总了在多个数据集上的定量比较结果,可以看到 DiTFuse 在多项指标上都名列前茅,尤其在无参考图像质量评价指标(如 MANIQA, LIQE, CLIPIQA+)上优势明显,证明其生成结果在视觉保真度和语义清晰度上都达到了很高的水准。

  • 红外-可见光融合(IVIF):如下图所示,在过曝、有雾或低光等复杂场景下,DiTFuse 能更好地保留红外图像中的显著目标(如行人)和可见光图像中的纹理细节(如路牌文字),同时有效抑制噪声和伪影。
  • 多焦点融合(MFF):如下方的对比图和残差图所示,DiTFuse 能更精确地融合近焦和远焦图像的清晰区域,生成的图像在整个景深范围内都保持了锐利的细节。
  • 多曝光融合(MEF):在处理欠曝和过曝图像时,DiTFuse 能更好地平衡曝光、还原真实的色彩和丰富的细节,避免了其他方法常见的曝光平均化或色彩失真问题。

3.2 文本指令控制能力

DiTFuse 最令人兴奋的特性之一就是其可控性。用户可以通过简单的文本指令,对融合结果进行全局或局部的调整。

  • 全局控制:如下图所示,通过 LIGHT++ (增强亮度) 或 CONTRAST+ (增加对比度) 等指令,可以轻松调整最终生成图像的整体视觉风格。
  • 局部与语义控制:更有趣的是,DiTFuse 还能理解更复杂的指令。例如,当指令为“增强‘锥形筒’的亮度”时,模型能够准确识别图像中的锥形筒并局部提升其亮度,而其他区域不受影响。这显示了模型强大的语义理解和细粒度控制能力。

3.2 零样本分割能力

作为统一框架的极致体现,DiTFuse 还能在没有任何额外分割模型的情况下,根据文本指令直接对融合场景中的物体进行分割。例如,输入指令“分割出图中的汽车”,模型就能直接输出汽车的分割掩码。

为了客观评估这种零样本分割能力,作者们甚至设计了一套基于 GPT-4o 的自动化评估流程,从精确率、召回率和轮廓准确性三个维度进行打分。

实验结果表明,DiTFuse 的分割性能显著优于强大的开源分割模型 LISA 在融合图像上的表现。

一点思考

DiTFuse 的工作无疑为图像融合领域打开了一扇新的大门。它展示了基于大型预训练模型(DiT)进行任务统一和能力扩展的巨大潜力。通过创新的 M³ 训练策略和指令微调,它不仅解决了数据稀缺的痛点,还实现了前所未有的语义理解和人机交互能力。

这项工作最核心的启发在于,未来的图像处理或许不再是孤立的、功能固定的工具链,而会演变成一个统一的、由自然语言驱动的智能生成系统。用户只需描述他们的“意图”,模型就能自动完成从感知、融合到分析的全过程。

对这个方向感兴趣的朋友,非常推荐去阅读原文并尝试作者已经开源的代码!

  • https://github.com/Henry-Lee-real/DiTFuse


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k