背景:故事从相机说起
现实世界中的光线 →相机传感器感应到光线,记录为 RAW 数据(原始图像) → RAW 数据进入 ISP(图像信号处理)流程,被处理成我门看到的“照片” → 照片被送去做人脸识别、车辆检测等 AI 应用。
什么是 ISP Pipeline?
它的任务是:把灰灰的、没调色、可能还有噪声的 RAW 数据,变成颜色正常、噪声少、对比清晰、我们看起来很舒服的“照片”。
这个过程包含很多步骤,比如:
自动白平衡(AWB)
自动曝光(AE)
降噪(Denoise)
色彩增强(Color Correction)
压缩成 8bit 图(从原来的 10/12/14bit)
Gamma 校正、锐化 等等
所以 ISP 的核心目标是:让图像更好看、适合给人看。
那 AI 模型需要“好看”的图像吗?
接下来我们说说 AI 模型:
比如你在做一个人脸识别模型,这时模型吃进去的图片,往往已经是经过 ISP 处理后的“好看照片”。
表面上看,AI 模型和 ISP 的目标一致:都使用高质量图像。
这也导致很多人认为:ISP 是必要的,AI模型也离不开它。
但真的是这样吗?
现在我们先提出一个根本性的问题:AI 模型真的需要 ISP 吗?还是我们只是“习惯了”用 ISP 处理过的图像?
因为 ISP 做的那些处理,比如降噪、压缩位深,其实会带来 信息损失。
举个例子:
降噪可能把图像细节也一起抹掉;
压缩位宽(从 12bit → 8bit)会让灰度信息变粗糙;
白平衡是人为偏色,对某些 AI 任务反而是“干扰”。
那么我们可以提出一个大胆地猜想:我们能不能跳过isp直接用 RAW 图像训练 AI 模型?
1、如果直接用 RAW 图像训练 AI 模型,效果也很好甚至更好,说明:ISP 对 AI 是多余的! 我们可以为 AI 定制“纯粹为机器优化”的图像处理流程,完全不用照顾人眼喜好。
2、但如果发现跳过 ISP 后 AI 模型效果变差了,那就说明:ISP 虽然为人眼设计,但“意外地”也在帮助 AI 理解图像。
经查阅研究我们得出了以下相同结论:
下面我们将简要介绍多篇为了提高下游检测和分类任务而优化ISP Pipeline的论文。
Raw or Cooked? Object Detection on RAW Images [2023]
介绍了三种不同的可学习Tone mapping 模块,可以改变RAW图片的亮度分布,可学习Tone mapping会与下游任务一起进行训练。
Learnable gamma correction
Learnable error function
Learnable yeo-johnson
Beyond RGB: Adaptive Parallel Processing for RAW Object Detection [2025 ,SONY]
idea:保留gamma,ccm,wb和亮度增益模块,并使其可学习。同时这四个模块对raw数据并行处理,减小传统ISP串行处理造成的累计信息损失。
RPE:raw parameter encoder
特征提取, 后续模块共享提取的feature vector
RPD:raw parameter decoder
输入feature vector, 输出对应模块的参数值
Toward RAW Object Detection: A New Benchmark and A New Model 【2023 中科大&Huaiwei Noah】
idea:
1. 提出了两种可学习的亮度调整模块,融合后再与下游任务共同训练。
2. 贡献了一个新的高位宽 HDR RAW数据
两种亮度调整:
• 全局gamma
• pixel-level adjustment
在ISP for ML领域,除了探索对可学习ISP Pipeline研究,还有一部分是对数据集的生成,因为大量的RAW数据是难以获得的,特别是还具有语义信息的RAW数据,因此如何从RGB退化到RAW数据是一个有着大量研究的课题。
ReRAW: RGB-to-RAW Image Reconstruction via Stratified Sampling for Efficient Object Detection on the Edge 【2025 Sony】
idea:因为在不同照度的Tone mapping是不一样的,因此同样一个亮度的RGB,有可能对应不同亮度的RAW数据。因此这篇论文在退化时生成了多个不同gamma域的退化图,反gamma后再进行线性融合,最后得到目标RAW图。
它的实验步骤如下:
先根据raw-rgb的数据集训练得到退化网络(退化网络为其核心创新点)
用退化网络取退化RGB的目标检测数据集获得raw数据
用生成的raw数据训练detector
用真实的raw目标检测finetune detector
特点:
生成多个(10)gamma域的图,不同gamma域的图 再进行反gamma后线性组合。
不同gamma代表不同照度的情况(白天和晚上) ,因此需要不同的gamma
Stratified Sampling:
采样不同的亮度
退化效果的图像质量
检测效果
AdaptiveISP: Learning an Adaptive Image Signal Processor for Object Detection【2024 北大+上海AILab+港中文】
idea:因为ISP Pipeline是一个串行过程,因此也可将其视为马尔可夫链,那么便可以用强化学习的方法来对其进行优化。
比如,在一个白天光线充足的简单场景,可能只需要一些简单的模块(如CFA,Gamma)就可以达到非常好的效果,那么强化学习可以帮助我们判断省去其他模块,节省功耗。
而在一个夜晚场景,需要更复杂的模块组合,强化学习也可以自适应动态优化ISP Pipeline使得下游任务达到最优。
马尔科夫链
a)状态s:当前图像
b)策略:(M,θ),M代表ISP模块,θ表示对应参数
c)奖励函数:
• 下游任务的检测误差
• 惩罚项:鼓励探索以及选择耗时更短的模块
• 策略的熵
• 模块耗时
细节与效果
总 结
1、对于下游检测任务而言,ToneMapping是最重要的模块
a)Raw or Cooked? Object Detection on RAW Images[2023]
• 三种可学习的ToneMapping
b)Beyond RGB: Adaptive Parallel Processing for RAW Object Detection [2025,SONY]
• 可学习的并行CCM,AWB,GAMMA,Brightness Adjustment
c)Toward RAW Object Detection: A New Benchmark and A New Model 【2023 中科大&Huaiwei Noah】
• 【全局TM + Perpixel TM】 + 【高bit HDR】
2、 Raw 数据生成
ReRAW: RGB-to-RAW Image Reconstruction via Stratified Sampling for Efficient Object Detection on the Edge 【2025 Sony】
• 生成多个gamma域的结果并线性组合再一起
2、强化学习
AdaptiveISP: Learning an Adaptive Image Signal Processor for Object Detection【2024 北大+上海AILab+港中文】
• 构建马尔可夫链:state为当前图像+reward为下游detector的检测误差变化+action为选择ISP模块和对应参数。
End

