论文题目:MoE-DiffIR: Task-customized Diffusion Priors for Universal Compressed Image Restoration
一、核心贡献
1、提出MoE-DiffIR框架
首个基于扩散模型的通用压缩图像恢复(CIR)方法,支持21种压缩任务(7种编解码器×3压缩级别)。
混合专家(MoE)提示模块:通过动态路由机制选择专家提示,挖掘任务定制的扩散先验。
视觉到文本适配器:将低质量图像的视觉特征转换为文本嵌入,激活Stable Diffusion的跨模态生成能力。
2、 构建首个通用CIR基准数据集
包含7种编解码器(4传统+3学习型),每种3个压缩级别,共21种退化类型。
数据源:DF2K数据集扩展至72,450张图像,覆盖多样压缩场景。
二、方法
1、 MoE-Prompt 模块设计原则
将每个提示(Prompt)视为独立的退化专家,通过路由器(Router)自适应选择与调度不同失真任务所需的专家组合,实现以下目标:
专家协作:不同提示专家针对特定失真类型(如JPEG块效应、HEVC模糊)协同工作;
参数复用:相同专家可被多个相关任务共享(如颜色偏移修复专家同时用于JPEG和WebP任务)。
2、整体流程
2.1、 LQ Enhencer
使用多个 Transformer块 增强LQ图像特征,缓解压缩伪影(如块效应、模糊)。
示例:对QF=10的JPEG图像,增强后PSNR提升 0.8dB,结构相似性(SSIM)提升 5%。
2.2、CLIP视觉特征提取
通过预训练的 CLIP图像编码器 提取高层语义特征(如物体轮廓、纹理模式),避免直接处理损坏像素的噪声干扰。
2.3、visual2text
MLP适配器:将CLIP视觉特征映射到SD的文本嵌入空间,生成伪文本描述符(Pseudo-Text Embedding)。
示例:输入模糊的人脸图像,适配器生成类似“面部细节”的隐含文本向量,引导SD修复五官。
2.4、 MoE-P Gen
退化先验(Degradation Prior, DP):使用预训练的 DA-CLIP 编码器从低质量图像中提取退化先验的语义信息(如块效应强度、颜色失真模式)。
交叉注意力交互:DP通过交叉注意力(Cross-Attention)与输入特征(如扩散模型的隐变量)交互,生成任务相关的上下文向量。
动态路由选择:路由器基于上下文向量生成专家得分,并添加可控噪声(Gumbel噪声)以增强泛化性,最终选择得分最高的 Top-K(本文取 2)个提示专家。
2.5、Unet 去噪网络
2.6、 感知解码
-
解码过程中,将低质量图像的 prompt 特征(如压缩伪影模式)与扩散模型输出的潜变量 融合,增强解码器对退化特征的感知能力。
三、微调流程
第一阶段:训练 MoE-Prompt 模块:学习退化感知提示组合
固定模块:
VAE 编解码器(VAE Codec)
UNet 去噪网络
CLIP 视觉编码器
第二阶段:微调 VAE 解码器:对齐潜变量空间,提升保真度
固定模块:
MoE-Prompt 模块
UNet
CLIP 编码器
四、结果

