大数跨境

CVPR 2026 | 0.37M 参数,吊打千万级模型?JLU 用“频域 + Mamba”把极暗增强拆成两件事(附可插代码)

CVPR 2026 | 0.37M 参数,吊打千万级模型?JLU 用“频域 + Mamba”把极暗增强拆成两件事(附可插代码) AI前沿速递
2026-04-09
7
导读:CVPR 2026 | 0.37M 参数,吊打千万级模型?JLU 用“频域 + Mamba”把极暗增强拆成两件事(附可插代码)

 

一、不是“看不见”,而是“看不清”

低光增强这件事,其实早就被做“烂”了。

今天的问题不是:

❌ 能不能把图变亮

而是:

✅ 变亮之后,信息还在不在

现实很残酷:

  • • 字变亮了 → 但糊成一团
  • • 边缘出来了 → 但像水彩画
  • • 降噪做了 → 但细节一起没了

👉 这不是增强问题,这是信息重建问题。

低光增强不是让你“看见”,而是让机器“读懂”

二、这篇中稿 CVPR 2026 的论文,干了一件非常“反直觉”的事

论文《Beyond Illumination: Fine-Grained Detail Preservation in Extreme Dark Image Restoration》做对了一件大多数人没意识到的事:

把“亮度”和“结构”彻底拆开处理。

而不是:

把图像丢进一个更大的网络

结果很离谱:

  • • 参数量:0.37M
  • • 对比对象:千万级恢复模型
  • • 表现:细节恢复 + 下游任务(文本检测)显著提升

👉 小模型赢的不是算力,是“问题拆解方式”。


三、核心思想只有一句话(建议直接记住)

先在频域把“光”校准,再在空间域把“结构”补回来。

可以把整套方法理解为一个两阶段系统:

① 在频域把光校准
② 在空间域把细节补回来


后面所有模块,其实都在服务这两个目标


Stage 1:Frequency First —— 先把黑夜“定调”

作者没有在像素空间硬拉亮度,而是直接切到频域。

原因很简单:

光照问题,本质是低频问题。

他们做了什么?

👉 用一个 RFGM(残差傅里叶引导模块)

  • • 在 幅度谱(magnitude) 上做残差学习
  • • 相位(phase)保持不动(避免结构扭曲)

你可以把它理解为:

👉 一个“全局调光器”,先把画面从“不可用”拉回“可分析”


(即插即用代码)


   
   
   
    
   
   
   

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

import torch
import torch.nn as nn
import torch.fft

class RFGM(nn.Module):
    """
    即插即用频域调光模块
    """
    def __init__(self, dim):
        super().__init__()
        self.conv = nn.Sequential(
            nn.Conv2d(dim, dim, 1),
            nn.LeakyReLU(0.2, inplace=True),
            nn.Conv2d(dim, dim, 1)
        )

    def forward(self, x):
        fft_x = torch.fft.rfft2(x, norm='ortho')
        mag, pha = torch.abs(fft_x), torch.angle(fft_x)

        # 只修幅度,不动相位(关键点)
        mag = mag + self.conv(mag)

        real = mag * torch.cos(pha)
        imag = mag * torch.sin(pha)

        return torch.fft.irfft2(torch.complex(real, imag), s=x.shape[-2:])



👉 这段代码可以直接挂在任何低光模型前面当“光照预处理器”。


Stage 2:Structure Refinement —— 再开始“绣花”

亮了之后,真正的问题才开始:

细节在哪?

这里作者用了一个非常聪明的组合:


1️⃣ Patch Mamba:做“全局关系”

  • • 不降分辨率
  • • 建模长距离依赖
  • • 复杂度远低于 Transformer

👉 用一句话概括:

比 CNN 看得远,比 Transformer 更轻。


2️⃣ Grad Mamba:专门盯“边缘”

这是整篇论文最值钱的点。

他们意识到:

Mamba 有一个隐性问题:会让边缘变软

于是单独搞了一个分支:

👉 专门在 梯度域(edge / contour) 上建模

结果就是:

  • • 该锐的地方更锐
  • • 该断的边不会糊掉

👉 这一步,本质是:

把“结构恢复”变成一个显式任务,而不是隐式学习。

(多数据集对比)
可以重点看:

边缘是否糊
文字是否断裂
噪声是否被误当细节

亮度不是问题,结构才是胜负手


四、这篇论文真正厉害的,不是结构,而是范式

很多人看完会记住:

  • • Mamba
  • • 频域
  • • 轻量模型

但真正该记住的是这个👇:


🧠 一种新范式:

Illumination Normalization(频域)
→ Structure Reconstruction(空间域)


换句话说:

❌ 不要再用一个模型解决所有问题
✅ 把问题拆开,让每一部分在“最适合的域”里解决


五、可以直接拿去写论文/做项目的方向

思维导图:可直接拿来写论文做项目的方向

这套思路其实已经不局限于低光了:

1️⃣ 低光 + 下游任务融合

  • • 夜间目标检测
  • • 夜间 OCR
  • • 自动驾驶感知

👉 先增强 → 再检测,不如一体化设计


2️⃣ 轻量化部署(非常现实的方向)

  • • 0.3M 参数意味着:
    • • 手机端 ✔️
    • • 摄像头端 ✔️
    • • 实时处理 ✔️

👉 这是可以直接进产品的结构


六、资源(我帮你们整理好了)

为了不让你们卡在“找数据 / 找代码”,我整理了一份完整复现包:

🎁 包含:

  • • LOL v1 / v2
  • • SID(极暗)
  • • LSRW(华为)
  • • 论文官方代码
  • • Patch Mamba Demo

👉 获取方式:
扫码回复:LLIE



低光增强的上限,从来不取决于模型大小,

而取决于你有没有把“光”和“结构”当成两件事。


 


【声明】内容源于网络
0
0
AI前沿速递
AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
内容 1913
粉丝 0
AI前沿速递 AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
总阅读4.6k
粉丝0
内容1.9k