

ISP For ML

双深科技Attrsense

2025-08-06

背景：故事从相机说起

现实世界中的光线 →相机传感器感应到光线，记录为 RAW 数据（原始图像） → RAW 数据进入 ISP（图像信号处理）流程，被处理成我门看到的“照片” → 照片被送去做人脸识别、车辆检测等 AI 应用。

什么是 ISP Pipeline？

我们可以把 ISP 想成

“相机里的照片加工厂”

它的任务是：把灰灰的、没调色、可能还有噪声的 RAW 数据，变成颜色正常、噪声少、对比清晰、我们看起来很舒服的“照片”。

这个过程包含很多步骤，比如：

自动白平衡（AWB）
自动曝光（AE）
降噪（Denoise）
色彩增强（Color Correction）
压缩成 8bit 图（从原来的 10/12/14bit）
Gamma 校正、锐化等等

所以 ISP 的核心目标是：让图像更好看、适合给人看。

那 AI 模型需要“好看”的图像吗？

接下来我们说说 AI 模型：

比如你在做一个人脸识别模型，这时模型吃进去的图片，往往已经是经过 ISP 处理后的“好看照片”。

表面上看，AI 模型和 ISP 的目标一致：都使用高质量图像。

这也导致很多人认为：ISP 是必要的，AI模型也离不开它。

但真的是这样吗？

现在我们先提出一个根本性的问题：AI 模型真的需要 ISP 吗？还是我们只是“习惯了”用 ISP 处理过的图像？

因为 ISP 做的那些处理，比如降噪、压缩位深，其实会带来信息损失。

举个例子：

降噪可能把图像细节也一起抹掉；
压缩位宽（从 12bit → 8bit）会让灰度信息变粗糙；
白平衡是人为偏色，对某些 AI 任务反而是“干扰”。

那么我们可以提出一个大胆地猜想：我们能不能跳过isp直接用 RAW 图像训练 AI 模型？

1、如果直接用 RAW 图像训练 AI 模型，效果也很好甚至更好，说明：ISP 对 AI 是多余的！我们可以为 AI 定制“纯粹为机器优化”的图像处理流程，完全不用照顾人眼喜好。

2、但如果发现跳过 ISP 后 AI 模型效果变差了，那就说明：ISP 虽然为人眼设计，但“意外地”也在帮助 AI 理解图像。

经查阅研究我们得出了以下相同结论：

如果直接使用未经处理的 RAW 数据进行下游 AI 模型的训练与推理，准确率会显著下降。
随着模型容量的增大，RAW 与 RGB 输入之间的性能差距会逐渐缩小。
这一现象可以理解为：ISP pipeline 蕴含了大量人类设计的强先验知识，提前完成了对图像的“理解”，从而减轻了模型的学习负担。
在算力受限的情况下，直接基于 RAW 图像进行检测或分类任务的效果，远不如使用经过 ISP 处理后的 RGB 图像。
其中，ISP Pipline中的Tone Mapping模块对下游检测或分类任务的准确的起到绝对性的作用。

下面我们将简要介绍多篇为了提高下游检测和分类任务而优化ISP Pipeline的论文。

Raw or Cooked? Object Detection on RAW Images [2023]

介绍了三种不同的可学习Tone mapping 模块，可以改变RAW图片的亮度分布，可学习Tone mapping会与下游任务一起进行训练。

Learnable gamma correction

Learnable error function

Learnable yeo-johnson

Beyond RGB: Adaptive Parallel Processing for RAW Object Detection [2025 ，SONY]

idea：保留gamma，ccm，wb和亮度增益模块，并使其可学习。同时这四个模块对raw数据并行处理，减小传统ISP串行处理造成的累计信息损失。

RPE：raw parameter encoder

特征提取，后续模块共享提取的feature vector

RPD：raw parameter decoder

输入feature vector，输出对应模块的参数值

Toward RAW Object Detection: A New Benchmark and A New Model 【2023 中科大&Huaiwei Noah】

idea：

1. 提出了两种可学习的亮度调整模块，融合后再与下游任务共同训练。

2. 贡献了一个新的高位宽 HDR RAW数据

两种亮度调整：

• 全局gamma

• pixel-level adjustment

在ISP for ML领域，除了探索对可学习ISP Pipeline研究，还有一部分是对数据集的生成，因为大量的RAW数据是难以获得的，特别是还具有语义信息的RAW数据，因此如何从RGB退化到RAW数据是一个有着大量研究的课题。

4；

ReRAW: RGB-to-RAW Image Reconstruction via Stratified Sampling for Efficient Object Detection on the Edge 【2025 Sony】

idea：因为在不同照度的Tone mapping是不一样的，因此同样一个亮度的RGB，有可能对应不同亮度的RAW数据。因此这篇论文在退化时生成了多个不同gamma域的退化图，反gamma后再进行线性融合，最后得到目标RAW图。

它的实验步骤如下：

先根据raw-rgb的数据集训练得到退化网络（退化网络为其核心创新点）
用退化网络取退化RGB的目标检测数据集获得raw数据
用生成的raw数据训练detector
用真实的raw目标检测finetune detector

特点：

生成多个（10）gamma域的图，不同gamma域的图再进行反gamma后线性组合。
不同gamma代表不同照度的情况（白天和晚上），因此需要不同的gamma
Stratified Sampling：

采样不同的亮度

退化效果的图像质量

检测效果

AdaptiveISP: Learning an Adaptive Image Signal Processor for Object Detection【2024 北大+上海AILab+港中文】

idea：因为ISP Pipeline是一个串行过程，因此也可将其视为马尔可夫链，那么便可以用强化学习的方法来对其进行优化。

比如，在一个白天光线充足的简单场景，可能只需要一些简单的模块（如CFA，Gamma）就可以达到非常好的效果，那么强化学习可以帮助我们判断省去其他模块，节省功耗。

而在一个夜晚场景，需要更复杂的模块组合，强化学习也可以自适应动态优化ISP Pipeline使得下游任务达到最优。

马尔科夫链

a）状态s：当前图像

b）策略:（M，θ），M代表ISP模块，θ表示对应参数

c）奖励函数：

• 下游任务的检测误差

• 惩罚项：鼓励探索以及选择耗时更短的模块

• 策略的熵

• 模块耗时

细节与效果

总结

1、对于下游检测任务而言，ToneMapping是最重要的模块

a）Raw or Cooked? Object Detection on RAW Images[2023]

• 三种可学习的ToneMapping

b）Beyond RGB: Adaptive Parallel Processing for RAW Object Detection [2025，SONY]

• 可学习的并行CCM，AWB，GAMMA，Brightness Adjustment

c）Toward RAW Object Detection: A New Benchmark and A New Model 【2023 中科大&Huaiwei Noah】

• 【全局TM + Perpixel TM】 + 【高bit HDR】

2、 Raw 数据生成

ReRAW: RGB-to-RAW Image Reconstruction via Stratified Sampling for Efficient Object Detection on the Edge 【2025 Sony】

• 生成多个gamma域的结果并线性组合再一起

2、强化学习

AdaptiveISP: Learning an Adaptive Image Signal Processor for Object Detection【2024 北大+上海AILab+港中文】

• 构建马尔可夫链：state为当前图像+reward为下游detector的检测误差变化+action为选择ISP模块和对应参数。

End

【声明】内容源于网络

双深科技Attrsense

双深科技(www.attrsense.com)致力于用AI颠覆传统编解码，让AI codec芯片装进每一个终端，让图像视频更小更清晰。

内容 39

粉丝 0

双深科技Attrsense 双深科技(www.attrsense.com)致力于用AI颠覆传统编解码，让AI codec芯片装进每一个终端，让图像视频更小更清晰。

总阅读8

粉丝0

内容39