大数跨境
0
0

ICCV 2023|CSNorm:通道选择归一化提升模型光照泛化能力

ICCV 2023|CSNorm:通道选择归一化提升模型光照泛化能力 极市平台
2023-09-19
2
↑ 点击蓝字 关注极市平台
作者丨岳廷@知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/653732046
编辑丨极市平台

极市导读

 

如何在只有有限光照数据的情况下,仍能很好地泛化到各种未知光照场景下?针对这个问题,本文提出了CSNorm,根据通道对光照变化的敏感程度选择性地归一化与光照相关的通道。配备CSNorm的模型可以在保持已知光照条件下的重建能力的同时泛化到未知的光照条件。>>加入极市CV技术交流群,走在计算机视觉的最前沿

paper:https://arxiv.org/pdf/2308.13783.pdf

code:https://github.com/mdyao/CSNorm

问题:

众所周知,图像光照对于深度学习模型来说影响巨大,比如:

  1. 光照变化导致的图像外观差异很大,不利于模型提取真正关注的语义内容信息,从而影响识别、分类等任务。
  2. 光照变化会干扰基于视觉的下游任务,例如目标检测、分割等会由于光照变化产生更多错误。
  3. 光照变化极大增加了图像匹配、注册等任务的难度,降低了泛化能力。
  4. 光照变化也会对人眼产生视觉疲劳,不利于习惯特定光照条件的模型应用与人机交互等任务。

因此,存在大量图像增强方法增强光照不佳条件下的图像成像,但这些方法都需要大量各种光照条件下的数据,用于模拟真实环境中的光照条件,但对于许多复杂情况,在实践中是不可能的,并且从不同领域进行麻烦的不同光照数据采集也非常耗时。

文章要解决的核心问题是:

针对图像增强任务(如低光图像增强、图像修饰、逆色调映射)如何提高模型对未知光照条件的泛化能力,使其可以在只有有限光照数据的情况下,仍能很好地泛化到各种未知光照场景下。如图1所示。

额外思考:目标检测、分类任务在实际中应用非常广泛,但模型对光照敏感,通常需要收集大量各种光照下的图片,结合本文方法可尝试将CSNorm作为一个光照补充模块用于目标检测、分类任务,提升模型在不同光照条件下的鲁棒性。

主要贡献如下:

  • 这是第一项提高光照适应方法在更广范围光照场景中的泛化能力的工作。
  • 提出CSNorm,根据通道对光照变化的敏感程度选择性地归一化与光照相关的通道。配备CSNorm的模型可以在保持已知光照条件下的重建能力的同时泛化到未知的光照条件。
  • 精心设计一个交替训练策略来有效优化CSNorm以识别与光照相关的通道。
  • 进行大量实验来验证CSNorm相对于现有光照适应方法在改善它们在广范围光照场景中的泛化能力方面的优势和通用性。

1. 方法

1.1 概述

将不同光照图像进行归一化,以实现去除光照的影响,是一个自然而然的想法,但是实际使用反而有害(打开方式不对),如图3:

因此,本文设计了CSNorm(图4a)来提高网络的泛化能力,它可以用作现有光照适应网络的即插即用模块。在CSNorm中,引入一个可微分门控模块(图4b)来高效地沿通道维度选择原始特征和归一化特征,然后将它们组合传递到下一层。这样的门控模块起着通道选择函数的作用。

此外,提出了一种交替训练策略,以迫使门控模块选择与光照相关的通道,该策略由光照扰动下的性能稳定性驱动(图4c)。在训练阶段,只访问具有有限光照条件的数据集,并训练配备了CSNorm的模型。一旦训练完成,该模型可以直接用于其他未知的光照条件。

1.2 通道选择归一化

如图4a所示,CSNorm由两个部分组成:用于消除与光照相关信息的实例级光照归一化模块和用于自适应选择与光照相关通道的可微分门控模块。

1.2.1 实例级光照归一化

为方便后续的通道选择,本文对通道进行归一化,并采用IN(Instance Normalization)作为实现,以精确操作每个实例和通道。给定形状为H×W×C的特征x,IN通过减去均值μ(x)然后除以标准差σ(x)来归一化x,表达式为:

其中 是针对每个通道和实例在空间维度上独立计算的, 是归一化中可学习 的affine参数。由于IN可以减少实例之间的光照差异, 归一化特征 具有与光照条件无关的稳健表 示, 使网络能够适应各种光照场景并提高其泛化能力。

1.2.2 可微分门控模块

为了以最小的网络修改成本实现自适应通道选择,引入了一个可微分门控模块进行通道选择。如图4a所示,可微分门控模块输出一系列二值指示符,以沿通道维度组合归一化和原始通道,可表示为:

以选择性地归一化通道。因此, 生成的特征 通过消除光照效应获得了一个不变的表示以进行泛化,并通过保持未更改的通道保留了精确重建所需的关键信息。

具体而言, 门控操作应当是可微分的, 并且能够将输出偏置为零或一, 以进行通道选择。受到对滤波器进行采样的剪枝方法的启发构建了门控模块如下所示:

1.3 交替训练策略

1.3.1 训练策略

交替训练策略如图4c所示,定位CSNorm中的与光照相关的通道。策略背后的理念是,通过略微扰动输入图像的光照条件,迫使CSNorm定位和过滤与光照相关的通道,以在原始图像和扰动图像上都达到最佳性能。具体来说,该策略交替地在原始数据集上优化网络以学习光照适应的基本能力,并在略微扰动的输入图像上优化CSNorm以识别与光照相关的通道。这可以确保CSNorm可以有效地归一化与光照相关的通道,在泛化能力和鉴别能力方面都展现出优异的性能。

为了优化网络,根据参数是否属于CSNorm将其分为两组,并使用不同的损失函数对其进行更新,如图4c所示。在第一步中,本文输入原始图像并通过最小化损失函数更新CSNorm外的参数:

其中 是网络的输出图像, 是真值图像。通过这种方式。

第二步, 扰动输入图像的光照(第1.3.2节), 并固定CSNorm外的参数。换句话说, 仅通过最小化损 失函数更新CSNorm中的参数:

其中 是输出, 代表频域中的幅值信息。这使得CSNorm 可以自适应地选择与光照相关的通 道, 以在扰动图像上保持性能。特别是, 由于光照与频域中的幅值相关, 本文在等式5中添加了幅值 损失 , 以使网络更关注光照信息并有效地选择与光照相关的通道。

两个步骤由上述两个目标函数交替优化, 总体优化函数为:

其中 是平衡因子。

1.3.2 光照扰动

如前所述,为了在训练过程中自动识别与光照相关的通道,需要扰动输入图像的光照分量。这些扰动应该捕获光照适应的本质,同时避免干扰图像的其他组成部分,如结构信息。为实现这一点,提出了一种基于频域的扰动方案,它线性插值两个图像的幅值,因为频域中的幅值信息包含更多的光照信息,可以防止增强伪影(图5)。

以低光增强任务为例, 本文将低光图像和普通光图像定义为 , 以及它们的Fourier表示为 。本文线性组合 的幅值分量, 如下所示:

其中 表示幅值信息, 随机采样。然后通过反傅立叶变换重建扰动图像 ,其中P是相位信息。

如图5所示,基于频域的扰动减轻了图像中其他因素的影响,如结构和噪声,并更关注光照本身。扰动图像和原始图像用作不同训练步骤的输入,以优化CSNorm,使CSNorm可以有目的地选择与光照变化相关的通道,从而增强网络的泛化能力。

2. 实验

在低光图像增强、逆色调映射和图像调色方面进行全面评估,以证明CSNorm的效果。

2.1 低光图像增强

设置 在Huawei(R2rnet)和LOL 数据集上进行了实验。代表性方法如CLANE、LIME、RetinexNet、LLFlow和ZeroDCE用于比较。选择SID、DRBN和NAFNet作为基础网络,并将CSNorm集成到其中。使用峰值信噪比(PSNR)和结构相似性(SSIM)作为评估指标。

在合成和真实场景下进行实验。对于合成设置,模拟两个输入光照条件,即interp:输入图像通过原始低光图像和ground truth图像(权重为0.5)进行插值,和scale:输入图像x经过如下操作: 。对于真实场景,使用LOL和Huawei进行交叉验证。模型在一个数据集上训练,在另一个数据集上测试。

结果 表1比较了CSNorm方法(名称带有-CSNorm)和基线方法在Huawei和LOL数据集上的性能。虽然以前的方法在原始低光条件下取得了良好的结果,但它们在未知光照条件下具有较差的泛化能力。相反,CSNorm方法展示了在两个数据集上超过0.6dB的优异泛化能力,优于对应的基础网络。CSNorm也保持了原始低光图像上的性能。注意,本文目标是改进初始网络,而不是实现最先进的性能。

表2显示了跨不同数据集的泛化性能。很明显,以前的方法倾向于过度拟合训练集,并且泛化能力较差。本文的CSNorm改进了所有基础网络的性能,大大增强了它们在未知光照条件下的泛化能力。本文还在图6中展示了定性结果。尽管训练集和测试集图像之间存在很大的差异(两个数据集分别在不同的光照条件下捕获),但配备了CSNorm的基础网络在未知光照条件下产生了视觉上令人满意的结果。

2.2 逆色调映射

设置 使用CSRNet和AGCM作为基础网络执行逆色调映射,其中加深了AGCM。使用HDRTVNet数据集进行训练和测试。在第2.1节中的原始、插值和缩放光照条件下进行实验。

结果 表3显示了合成光照条件下的定量结果。CSRNet和AGCM在原始SDR帧上表现良好,但在光照条件改变时表现较差。相比之下,CSRNet-CSNorm和AGCM-CSNorm只是在基础网络中添加本文的CSNorm,就可以在未知光照条件下取得良好的性能。在表4和图7中展示了真实世界的结果。结果表明,CSNorm在不同光照条件下具有强大的泛化能力。值得注意的是,CSNorm不会影响原始SDR帧的性能,这确认了所选通道仅影响与光照相关的信息,而不改变整体数据分布。

2.3 图像调色

设置 采用MIT-Adobe FiveK进行训练和测试。实验在第2.1节中的光照条件下进行。选择CSRNet、DRBN和NAFNet作为基础网络来插入CSNorm。

结果 在表5中显示定量结果。可以看出,基础网络(CSRNet)在原始图像上具有良好的性能,但当光照条件从原始状态改变为插值时,其性能下降约5dB。基于CSRNet网络,本文方法(CSRNet-CSNorm)显着提高了原始模型的平均能力超过1 dB,这证明了CSNorm强大的泛化能力。图8中展示了视觉结果。

3. 分析

特征可视化 可视化选择的通道,以证明CSNorm可以有效增强模型适应不同光照的能力。图10中展示了所选通道(即与光照相关的通道)。可以看出,从不同光照条件提取的通道具有不同的特征,这可能导致泛化能力差。本文的CSNorm选择这个通道并对其进行归一化,从而实质上产生与光照无关的信息以进行泛化。

与其他归一化技术的比较 将CSNorm与传统归一化技术进行比较,包括批归一化(BN)、实例归一化(IN)和批实例归一化(BIN),方法是将它们插入DRBN中。由于交替策略是专门为CSNorm设计的,对于传统归一化技术可能有害,仅使用数据扰动训练BN、IN和BIN。在表6和图9中分别显示定量和定性结果。与传统归一化技术相比,CSNorm有效地保持了已知光照条件下的性能,并具有良好的泛化能力到未知光照条件,避免了不满意的伪影。

训练策略和数据扰动 对训练策略和数据扰动进行了 ablation 研究。对于训练策略,用混合训练策略替换交替训练策略,其中网络通过混合原始数据和扰动数据进行训练。对于数据扰动,用线性混合输入图像和ground truth图像替换基于频域的扰动。这些上述 ablation 实验在LOL数据集上进行训练,并在华为数据集上测试。如表7所示,交替训练策略优于混合训练,而本文的基于频域的数据扰动改进了模型的泛化能力,这证明了本文设计的有效性。仅使用具有各种光照条件的图像训练CSNorm无法有效识别与光照相关的通道,因为内容的影响,这对光照泛化是有害的。本文在ME数据集111上进行实验(表8)。可以看出,没有交替训练策略(ATS),网络无法很好地泛化到未知的光照条件(Exp0和Exp6是未知的较低和较高的光照)。

参数量 CSNorm非常轻量,可以插入现有网络中几乎不增加参数,避免了巨大的存储成本。例如,对于一个具有64个通道的特征,CSNorm只需要16.5k个参数来识别和归一化与光照相关的通道,这得益于门控模块和归一化中的仿射变换。CSNorm的参数量与通道数呈线性增长。

仅光照数据集上的评估 为进一步证明CSNorm的有效性,仅在光照数据集上进行实验。将彩色图像转换为Ycbcr颜色空间,并使用Y通道,因为它表示亮度或光照信息。实验结果在表9中显示,本文方法可以有效增强泛化能力,而不会牺牲特征的鉴别力。

与幅值相关的信息 幅值相关信息在之前的工作中被证明与光照分量相关。在交替训练策略中隐式地利用幅值相关信息作为详细的光照扰动方式,使CSNorm能够识别与光照相关的通道。因此,这种基于幅值的光照扰动与CSNorm正交,其格式没有引入CSNorm。注意,其他光照扰动方式也可以驱动CSNorm的训练,例如表7中的线性插值,而本文采用的基于幅值的光照扰动在实验上达到了更高的性能。

4. 结论与讨论

在本工作中提出了CSNorm,一种新颖的归一化技术,专门用于提升模型光照适应性。CSNorm与体系结构无关,即插即用。额外引申:目标检测、分类任务模型对光照敏感,且在实际中应用广泛,可尝试将CSNorm用于目标检测、分类任务,用于提升模型在不同光照条件下的鲁棒性。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读17.7k
粉丝0
内容8.2k