大数跨境
0
0

ISP For ML

ISP For ML 双深科技Attrsense
2025-08-06
2


 背景:故事从相机说起 

现实世界中的光线 →相机传感器感应到光线,记录为 RAW 数据(原始图像)  RAW 数据进入 ISP(图像信号处理)流程,被处理成我门看到的“照片”  照片被送去做人脸识别、车辆检测等 AI 应用。


 什么是 ISP Pipeline?

我们可以把 ISP 想成

      “相机里的照片加工厂”   

它的任务是:把灰灰的、没调色、可能还有噪声的 RAW 数据,变成颜色正常、噪声少、对比清晰、我们看起来很舒服的“照片”。

这个过程包含很多步骤,比如:

  • 自动白平衡(AWB)

  • 自动曝光(AE)

  • 降噪(Denoise)

  • 色彩增强(Color Correction)

  • 压缩成 8bit 图(从原来的 10/12/14bit)

  • Gamma 校正、锐化 等等 

所以 ISP 的核心目标是:让图像更好看、适合给人看。


 那 AI 模型需要“好看”的图像吗?

接下来我们说说 AI 模型:

比如你在做一个人脸识别模型,这时模型吃进去的图片,往往已经是经过 ISP 处理后的“好看照片”。

表面上看,AI 模型和 ISP 的目标一致:都使用高质量图像。

这也导致很多人认为:ISP 是必要的,AI模型也离不开它。


但真的是这样吗?

现在我们先提出一个根本性的问题:AI 模型真的需要 ISP 吗?还是我们只是“习惯了”用 ISP 处理过的图像?

因为 ISP 做的那些处理,比如降噪、压缩位深,其实会带来 信息损失。

举个例子:


  •  降噪可能把图像细节也一起抹掉;

  • 压缩位宽(从 12bit → 8bit)会让灰度信息变粗糙;

  • 白平衡是人为偏色,对某些 AI 任务反而是“干扰”。

那么我们可以提出一个大胆地猜想:我们能不能跳过isp直接用 RAW 图像训练 AI 模型?

1、如果直接用 RAW 图像训练 AI 模型,效果也很好甚至更好,说明:ISP 对 AI 是多余的! 我们可以为 AI 定制“纯粹为机器优化”的图像处理流程,完全不用照顾人眼喜好。

2、但如果发现跳过 ISP 后 AI 模型效果变差了,那就说明:ISP 虽然为人眼设计,但“意外地”也在帮助 AI 理解图像。

经查阅研究我们得出了以下相同结论:

  1. 如果直接使用未经处理的 RAW 数据进行下游 AI 模型的训练与推理,准确率会显著下降。

  2. 随着模型容量的增大,RAW 与 RGB 输入之间的性能差距会逐渐缩小。

  3. 这一现象可以理解为:ISP pipeline 蕴含了大量人类设计的强先验知识,提前完成了对图像的“理解”,从而减轻了模型的学习负担。

  4. 在算力受限的情况下,直接基于 RAW 图像进行检测或分类任务的效果,远不如使用经过 ISP 处理后的 RGB 图像。

  5. 其中,ISP Pipline中的Tone Mapping模块对下游检测或分类任务的准确的起到绝对性的作用。

下面我们将简要介绍多篇为了提高下游检测和分类任务而优化ISP Pipeline的论文。

1

Raw or Cooked? Object Detection on RAW Images [2023]

介绍了三种不同的可学习Tone mapping 模块,可以改变RAW图片的亮度分布,可学习Tone mapping会与下游任务一起进行训练。

Learnable gamma correction

Learnable error function

Learnable yeo-johnson

2

Beyond RGB: Adaptive Parallel Processing for RAW Object Detection  [2025 ,SONY]

idea:保留gamma,ccm,wb和亮度增益模块,并使其可学习。同时这四个模块对raw数据并行处理,减小传统ISP串行处理造成的累计信息损失。

RPE:raw parameter encoder

特征提取, 后续模块共享提取的feature vector

RPD:raw parameter decoder

输入feature vector, 输出对应模块的参数值

3

Toward RAW Object Detection: A New Benchmark and A New Model 【2023 中科大&Huaiwei Noah】

idea:

1. 提出了两种可学习的亮度调整模块,融合后再与下游任务共同训练。

2. 贡献了一个新的高位宽 HDR RAW数据

两种亮度调整:

         •   全局gamma

         •   pixel-level adjustment






在ISP for ML领域,除了探索对可学习ISP Pipeline研究,还有一部分是对数据集的生成,因为大量的RAW数据是难以获得的,特别是还具有语义信息的RAW数据,因此如何从RGB退化到RAW数据是一个有着大量研究的课题。

4;

ReRAW: RGB-to-RAW Image Reconstruction via Stratified Sampling for Efficient Object Detection on the Edge 【2025 Sony】

idea:因为在不同照度的Tone mapping是不一样的,因此同样一个亮度的RGB,有可能对应不同亮度的RAW数据。因此这篇论文在退化时生成了多个不同gamma域的退化图,反gamma后再进行线性融合,最后得到目标RAW图。

它的实验步骤如下:

  1.  先根据raw-rgb的数据集训练得到退化网络(退化网络为其核心创新点)

  2. 用退化网络取退化RGB的目标检测数据集获得raw数据

  3. 用生成的raw数据训练detector

  4. 用真实的raw目标检测finetune detector

特点:

  1. 生成多个(10)gamma域的图,不同gamma域的图 再进行反gamma后线性组合。

  2. 不同gamma代表不同照度的情况(白天和晚上) ,因此需要不同的gamma

  3. Stratified Sampling:

        采样不同的亮度

退化效果的图像质量

检测效果

5

AdaptiveISP: Learning an Adaptive Image Signal Processor for Object Detection【2024 北大+上海AILab+港中文】

idea:因为ISP Pipeline是一个串行过程,因此也可将其视为马尔可夫链,那么便可以用强化学习的方法来对其进行优化。




比如,在一个白天光线充足的简单场景,可能只需要一些简单的模块(如CFA,Gamma)就可以达到非常好的效果,那么强化学习可以帮助我们判断省去其他模块,节省功耗。

而在一个夜晚场景,需要更复杂的模块组合,强化学习也可以自适应动态优化ISP Pipeline使得下游任务达到最优。


马尔科夫链

a)状态s:当前图像

b)策略:(M,θ),M代表ISP模块,θ表示对应参数

c)奖励函数:

       • 下游任务的检测误差

       • 惩罚项:鼓励探索以及选择耗时更短的模块

             •  策略的熵

             •  模块耗时

细节与效果



总  结

1、对于下游检测任务而言,ToneMapping是最重要的模块

a)Raw or Cooked? Object Detection on RAW Images[2023]

         三种可学习的ToneMapping

b)Beyond RGB: Adaptive Parallel Processing for RAW Object Detection [2025,SONY]

         可学习的并行CCM,AWB,GAMMA,Brightness Adjustment

c)Toward RAW Object Detection: A New Benchmark and A New Model 【2023 中科大&Huaiwei Noah】

  【全局TM + Perpixel TM】 + 【高bit HDR】

2、 Raw 数据生成

ReRAW: RGB-to-RAW Image Reconstruction via Stratified Sampling for Efficient Object Detection on the Edge 【2025 Sony】

         生成多个gamma域的结果并线性组合再一起

2、强化学习

AdaptiveISP: Learning an Adaptive Image Signal Processor for Object Detection【2024 北大+上海AILab+港中文】

         构建马尔可夫链:state为当前图像+reward为下游detector的检测误差变化+action为选择ISP模块和对应参数。

 End 

【声明】内容源于网络
0
0
双深科技Attrsense
双深科技(www.attrsense.com)致力于用AI颠覆传统编解码,让AI codec芯片装进每一个终端,让图像视频更小更清晰。
内容 39
粉丝 0
双深科技Attrsense 双深科技(www.attrsense.com)致力于用AI颠覆传统编解码,让AI codec芯片装进每一个终端,让图像视频更小更清晰。
总阅读8
粉丝0
内容39