大数跨境
0
0

ECCV 2024|MoE混合专家模型+图像质量增强

ECCV 2024|MoE混合专家模型+图像质量增强 双深科技Attrsense
2025-03-26
0

论文题目:MoE-DiffIR: Task-customized Diffusion Priors for Universal Compressed Image Restoration

一、核心贡献

1、提出MoE-DiffIR框架

  • 首个基于扩散模型的通用压缩图像恢复(CIR)方法,支持21种压缩任务(7种编解码器×3压缩级别)。

  • 混合专家(MoE)提示模块:通过动态路由机制选择专家提示,挖掘任务定制的扩散先验。

  • 视觉到文本适配器:将低质量图像的视觉特征转换为文本嵌入,激活Stable Diffusion的跨模态生成能力。

2、 构建首个通用CIR基准数据集

  • 包含7种编解码器(4传统+3学习型),每种3个压缩级别,共21种退化类型。

  • 数据源:DF2K数据集扩展至72,450张图像,覆盖多样压缩场景。

二、方法

1、 MoE-Prompt 模块设计原则

将每个提示(Prompt)视为独立的退化专家,通过路由器(Router)自适应选择与调度不同失真任务所需的专家组合,实现以下目标:

  • 专家协作:不同提示专家针对特定失真类型(如JPEG块效应、HEVC模糊)协同工作;

  • 参数复用:相同专家可被多个相关任务共享(如颜色偏移修复专家同时用于JPEG和WebP任务)。

实现:


动态路由机制:

  • 退化感知路由器:基于输入图像的退化特征(如CLIP提取的压缩伪影描述符)计算专家得分,选择Top-K提示。

  • 稀疏激活:仅激活与任务相关的专家(如对JPEG任务选择块效应与颜色偏移专家),降低计算开销。

专家分工:

  • 每个提示专家专注特定退化类型,专家间余弦相似度降低至 0.32(Mutiple promts 为 0.78,存在严重多重共线性),多样性显著提升。

2、整体流程

2.1、 LQ Enhencer

  • 使用多个 Transformer块 增强LQ图像特征,缓解压缩伪影(如块效应、模糊)。

  • 示例:对QF=10的JPEG图像,增强后PSNR提升 0.8dB,结构相似性(SSIM)提升 5%。

2.2、CLIP视觉特征提取

  • 通过预训练的 CLIP图像编码器 提取高层语义特征(如物体轮廓、纹理模式),避免直接处理损坏像素的噪声干扰。

2.3、visual2text

  • MLP适配器:将CLIP视觉特征映射到SD的文本嵌入空间,生成伪文本描述符(Pseudo-Text Embedding)。

  • 示例:输入模糊的人脸图像,适配器生成类似“面部细节”的隐含文本向量,引导SD修复五官。

2.4、 MoE-P Gen

  • 退化先验(Degradation Prior, DP):使用预训练的 DA-CLIP 编码器从低质量图像中提取退化先验的语义信息(如块效应强度、颜色失真模式)。

  • 交叉注意力交互:DP通过交叉注意力(Cross-Attention)与输入特征(如扩散模型的隐变量)交互,生成任务相关的上下文向量。

  • 动态路由选择:路由器基于上下文向量生成专家得分,并添加可控噪声(Gumbel噪声)以增强泛化性,最终选择得分最高的 Top-K(本文取 2)个提示专家。

2.5、Unet 去噪网络

2.6、 感知解码

  • 解码过程中,将低质量图像的 prompt 特征(如压缩伪影模式)与扩散模型输出的潜变量 融合,增强解码器对退化特征的感知能力。


三、微调流程

第一阶段:训练 MoE-Prompt 模块:学习退化感知提示组合

固定模块:

  • VAE 编解码器(VAE Codec)

  • UNet 去噪网络

  • CLIP 视觉编码器

第二阶段:微调 VAE 解码器:对齐潜变量空间,提升保真度

固定模块:

  • MoE-Prompt 模块

  • UNet

  • CLIP 编码器

四、结果


【声明】内容源于网络
0
0
双深科技Attrsense
双深科技(www.attrsense.com)致力于用AI颠覆传统编解码,让AI codec芯片装进每一个终端,让图像视频更小更清晰。
内容 39
粉丝 0
双深科技Attrsense 双深科技(www.attrsense.com)致力于用AI颠覆传统编解码,让AI codec芯片装进每一个终端,让图像视频更小更清晰。
总阅读4
粉丝0
内容39