极市导读
DMAT框架:通过结合3D Mamba结构和Transformer架构,实现了低层恢复特征与高层语义特征的相互增强,显著提升了在湍流环境下的目标检测精度和图像质量。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
精简阅读版本
本文主要解决了什么问题
1. 大气湍流导致图像质量下降:大气湍流(AT)会引起视频序列的空间位移、模糊和波纹效应,严重影响图像的可视化质量和自动目标检测与识别的准确性。
2. 现有缓解方法与检测系统脱节:大多数方法将AT缓解和目标检测作为独立任务处理,导致恢复后的图像可能丢失对目标检测至关重要的语义信息。
3. 时空失真与小目标检测困难:传统方法难以有效缓解时空失真,尤其在小目标的检测中表现不佳,限制了其在监控等实际应用中的性能。
本文的核心创新是什么
-
首个端到端联合框架DMAT:提出了一种将大气湍流缓解与目标检测集成的统一架构,实现了恢复特征与检测特征的相互增强。 -
基于3D Mamba的AT缓解模块:引入3D Mamba结构,结合可变形卷积和状态空间模型(S4),有效处理由湍流引起的时空位移和模糊。 -
3. 模块间特征交换机制:在AT缓解器与目标检测器之间进行低层特征与高层语义特征的交互,提升整体性能。 -
交替训练策略优化:采用交替训练策略,分别优化缓解模块与检测模块,避免联合损失函数训练带来的性能下降。
结果相较于以前的方法有哪些提升
-
目标检测精度显著提升:在合成AT数据集上,DMAT相比现有最先进的AT缓解+目标检测流程,mAP[0.50-0.95]提升了高达15%。 -
小目标检测性能优于现有方法:在小目标(小于3×3像素)上,DMAT仍保持性能优势,说明其对湍流引起的模糊具有更强的鲁棒性。 -
视觉质量与检测性能兼顾:主观评估显示,DMAT在提升前景目标清晰度的同时,也保持了检测所需的语义特征完整性。 -
在多种检测器与湍流条件下泛化性强:DMAT在YOLO11、DETR、LW-DETR等多种检测器架构下均表现出优异性能,适用于不同湍流强度场景。
局限性总结
-
依赖合成数据集训练:由于真实大气湍流数据缺乏标注信息,模型主要在合成AT数据集上训练和评估,可能与真实场景存在偏差。 -
内存需求较高:由于联合训练两个模块,DMAT的内存消耗显著高于独立训练的模型,限制了其在资源受限设备上的部署。 -
仅适用于视频序列:该方法依赖多帧输入进行时空建模,无法直接应用于单帧图像的大气湍流恢复任务。 -
对极端湍流条件适应性待验证:目前实验主要集中在中等强度湍流条件下,极端湍流下的鲁棒性仍需进一步测试。
深入阅读版本
大气湍流(AT)会降低监控图像的清晰度和准确性,这不仅对可视化质量构成挑战,也对目标分类和场景跟踪带来困难。基于深度学习的方法已被提出以提升视觉质量,但时空失真仍然是一个重要问题。尽管基于深度学习的目标检测在正常条件下表现良好,但它难以在受大气湍流失真的序列上有效运行。在本文中,作者提出了一种新颖的框架,该框架学习补偿失真特征,同时提升可视化效果和目标检测。这个端到端框架利用并交换大气湍流缓解器中低层失真特征与目标检测器中提取的语义特征的知识。
具体而言,在大气湍流缓解器中,采用基于3D Mamba的结构来处理由湍流引起的时空位移和模糊。在缓解阶段以金字塔方式提取特征,并将其传递给检测器。通过在大气湍流缓解器和目标检测器中的反向传播实现优化。作者提出的DMAT在受生成湍流污染的数据集上,比最先进的大气湍流缓解和目标检测系统提高了高达15%。
01 引言
当地面与空气之间的温差增加时,每一层空气的厚度会减小,并迅速上升。这导致空气的折射率发生快速微尺度变化,从而降低视频信号的质量,进而影响自动识别和跟踪算法的有效性。在扭曲层后面的物体几乎无法使用设计用于非扭曲环境的方法进行识别。为了应对大气湍流在视频处理中带来的挑战,当前基于学习的方法通常采用一系列策略。一些方法专注于在将目标检测应用于恢复后的输出之前提升视频的视觉质量[15, 25]。另一些方法则在大气湍流的合成数据集上重新训练现有的目标检测器[37]。另一种策略包括将运动图集成到目标检测器的网络输入中,这些运动图表示由空间扭曲引起的位移[29]。或者,有些人修改检测器的网络架构以更好地处理湍流引起的扭曲[16, 20]。与这些方法不同,作者提出了一种新的方法,该方法聚合信息以提升特征质量,有效地在一个连贯的混合框架内实现视频恢复和目标检测的同步。
现有方法在减轻大气湍流方面取得了显著成效;然而,它们往往无法确保恢复或增强的图像能够为自动目标检测进行最优配置。一个关键挑战在于,有效减少波浪状或涟漪效应的技术可能会无意中移除视频序列中目标识别所需的关键特征。为解决这一问题,本文提出了一种名为DMAT(大气湍流检测与缓解)的解决方案,该方案不仅提升了视觉质量,还提高了目标检测精度,如图1所示,其中作者的联合架构在性能上优于单独的大气湍流缓解和目标检测方法。DMAT旨在平衡视频增强与监控系统的实际应用性,确保在两个领域均取得改进。
本文介绍了一种名为Mamba的新型方法,该方法利用了3D可变形卷积和结构化状态空间序列(S4)模型。该方法解决了时间域上的空间位移问题,减轻了模糊等失真,并增强了对比度。它专门设计用于恢复受大气湍流影响的图像,并随后将其输入到目标检测器中,目标检测器输出目标位置和分类。作者的联合框架使用精心设计的损失函数进行端到端训练,使得目标检测器的High-Level特征和湍流减轻器的High-Level特征相互增强,从而在视觉质量和目标检测精度方面均取得了显著改进。
本文的主要贡献总结如下:
-
一种用于联合大气湍流缓解和目标检测的首个端到端架构。作者将这种组合架构称为DMAT(大气湍流检测与缓解)。 -
基于COCO数据集子集生成的新优化合成湍流视频集 -
将端到端系统(DMAT)与一系列单独应用的缓解和检测系统进行基准测试。
02 相关工作
2.1. 大气湍流去除
大气湍流是远程物体成像的限制因素,会降低视觉质量并损害自动目标识别和跟踪系统的性能。在湍流环境中捕获的图像序列通常表现出模糊和波纹效应,同时场景中光强度发生波动。这种现象在高温环境下尤为明显,例如沙漠、加热的路面以及人造热源周边区域。此外,大气湍流加剧了远程成像应用中的挑战,例如监控,尤其是在雾或霾等附加因素进一步降低图像清晰度和质量的情况下。其他环境参数,包括风速、海拔和湿度,也加剧了这些畸变。
鉴于大气湍流的时空变化性,恢复由大气湍流扭曲的场景是一个具有挑战性的问题。传统方法涉及帧选择、图像配准、图像融合、相位对齐和图像去模糊[2, 40, 45]。从包含运动目标的视频中去除湍流扭曲非常具有挑战性,因为通常需要使用多个帧并对其进行对齐。Anantrasirichai等人[1]采用基于光流确定的局部权重进行时间滤波来解决这一问题。然而,在前景和背景区域之间的过渡区域可能会残留伪影。高恩等人[9]提出使用机器学习进行单图像处理来去除大气湍流。用于解决此问题的深度学习技术仍处于早期阶段。然而,一种报道的方法采用CNN支持去模糊[28],另一种方法使用GAN架构处理多个帧[7]。但这似乎仅适用于静态场景。
与去雾类似,受物理启发模型已被广泛开发用于去除湍流畸变[17, 18],同时复值卷积神经网络被提出以利用相位信息[3]。也曾尝试使用隐式神经表示(INR)来解决这个问题,提供Tile和模糊校正[18]。然而,扩散模型在单张图像上表现更优[27],基于transformer的方法仍然是视频恢复领域的最先进技术[44, 47]。近期综述可参考[14]。
2.2. 目标检测
目标检测涉及分类和定位,旨在确定视觉输入中目标的是否存在及其精确位置。目标检测的复杂性源于诸如目标尺度变化、遮挡和背景多样性等挑战。当前最先进的目标检测方法通常基于三个核心组件:i) Backbone 网络:一个深度卷积神经网络(CNN),通常在大型数据集上进行预训练,作为特征提取器。常用的架构包括ResNet [13] 和 MobileNetV4 [30];ii) Neck : Neck 组件中的中间层处理 Backbone 网络的特征,以增强不同尺度上的语义信息。例如特征金字塔网络(FPN)[21] 和路径聚合网络(PANet)[23];iii) Head /子头:最终层预测边界框和类别概率。根据模型的不同,这可能涉及基于 Anchor 点或 Anchor-Free 点的机制。
这些模型大致分为两阶段检测器和单阶段检测器。
对于两阶段检测器,传统检测器,以基于区域的卷积神经网络(R-CNN)系列为例,首先生成区域 Proposal ,然后对每个 Proposal 进行分类。原始R-CNN[11]采用选择性搜索提取区域 Proposal ,随后使用卷积神经网络(CNN)进行特征提取和分类。对RCNN的改进,如Fast R-CNN[10]和Faster R-CNN[34],通过将 Proposal 生成和分类集成到一个统一框架中,提高了效率。
对于单阶段检测器,检测器在单次前向传递中处理数据,使其比两阶段检测器显著更快。它们直接预测边界框和类别概率,无需区域 Proposal 网络(RPN)。这些模型广泛应用于实时应用,如自动驾驶车辆和监控系统。YOLO(你只看一次)[31]是最受欢迎的检测器之一,它将检测问题表述为回归问题。该模型将图像划分为网格,并在单次前向传递中预测边界框和类别概率。YOLO的变体包括引入 Anchor 框的YOLOv2 [32]、添加多尺度检测的YOLOv3 [33]、引入数据增强和CIoU损失的YOLOv4 [4],以及最近结合先进技术以进一步提升性能的YOLOv11 [19]。由于YOLO的速度和效率,它被广泛应用于实时应用,尽管它在处理小目标和遮挡时可能存在困难。
基于Transformer的方法也受到了关注。DETR(DEtection TRansformer)[6]通过使用二分图匹配消除了对 Anchor 框和非极大值抑制的需求。该架构由一个处理来自卷积主干提取的图像特征的Transformer编码器-解码器组成。随后,Deformable DETR [46]通过引入多尺度可变形注意力机制改进了原始模型,使其更加高效,更适合检测小目标和DINO [41],并通过引入改进的训练策略提升了收敛速度和准确性。
03 方法论
传统上,用于大气湍流(AT)缓解和目标检测的模型是分别优化的。由于缺乏真实标签信息,AT缓解器通常在合成数据集上进行训练,其中干净视频被像素级配准到失真视频上。训练完成后,AT缓解器被部署以生成修复帧,然后用于微调目标检测器,如图2(a)所示。相比之下,作者提出了一种联合优化策略,如图2(b)所示,其中目标检测器的High-Level特征指导AT缓解器在识别具有语义意义的High-Level特征时进行Low-Level特征辨别。同时,目标检测器受益于从AT缓解器接收更精确的特征,从而提高了整体性能。这种协同方法有望显著提升大气条件下视频修复和目标检测的有效性。
3.1. 概述
作者提出的框架架构如图3所示。该框架接收一系列AT失真视频帧,并输出恢复后的视频帧,以及在这些帧中识别出的物体的位置和类别。DMAT由两个主要模块组成:(1)AT缓解模块:该模块使用3D Mamba结构处理失真帧,以缓解大气效应;(2)改进的目标检测器:该模块基于Transformer模型设计,旨在实现轻量级和鲁棒的目标检测。请注意,该实现可以根据需要适配其他检测模型。这两个模块的集成通过(1)直接拼接和(2)将AT缓解模块提取的特征输入检测Head来实现,从而减少了传统目标检测器特征提取过程中的冗余。
3.2. 抗干扰措施
作者的AT缓解模块为AT失真问题,特别是波浪效应(特征随时间变化的偏移),提供了一种稳健的解决方案。与其他视频处理框架类似,作者输入一组帧,并将它们视为3D数据块。由于连续帧在时间上高度相关,但在湍流作用下发生空间偏移,DMAT的第一步(配准模块)是将相邻帧配准到当前帧。这一过程是必要的,并且在基于传统模型的方法[2, 45]以及基于深度学习的方法[44, 47]中均以微小变化的形式被采用。
注册模块。作者采用了一种类似UNet的架构,在编码器和解码器中所有尺度都实现了可变形3D卷积,在图3中 Token 为“可变形卷积3D模块”。这种配置专门设计用于有效地估计跨帧不同尺度的像素偏移。可变形3D卷积使得与当前卷积核相关的像素映射能够超出传统网格搜索区域,从而适应时空变化。这种适应性确保了在不同帧中即使受到不同湍流扭曲的相同目标也能对齐,以展示一致的特征,如图4所示。
注册模块具有4层深度尺度(L0-L3),其卷积核尺寸分别为3×7×7、3×7×7、3×5×5和3×3×3。在初始层使用较大的卷积核以提供更宽广的视野。特征空间分别扩展至32、128、128和256,编码器下采样器采用3D批量归一化和最大池化,解码器上采样器则使用三线性插值。每个尺度的输出是一个运动场,随后用于帧间注册。注册后的帧被输入到增强模块。
增强模块。第一步使用大小的3D卷积进行特征提取。然后,这些特征在基于3D Mamba的UNet样网络中进行处理,并同时输入到目标检测器中,如图3中的红线所示。作者还采用了UNet样架构,但在编码器部分集成了3D Mamba,作者的研究表明其性能优于3D Swin Transformer [24],与文献[14]中的发现一致。Mamba框架基于结构化状态空间序列(S4)模型。它能够根据输入的变化动态调整状态空间模型(SSM)参数,有效解决了传统SSM实现中常见的内存和梯度问题。
作者的基于3D Mamba的UNet类似网络基于在[12]中提出的nnMamba,其中编码器由三层残差Mamba模块(Res-Mamba)构成,而解码器则采用一系列三层双卷积模块。为了提高效率,作者在Mamba模块之前集成了一个初始3D卷积,该卷积扩展了时间维度,使得基于3D Mamba的UNet类似结构能够有效地将时空张量视为3D张量。
Res-Mamba模块集成了双层卷积层、 Shortcut 以及一个在卷积之间嵌入SSM功能的Mamba-卷积模块,具体如下式所示:
在3D卷积上下文中, 和 分别表示Res-Mamba模块的输入和输出特征图。 使用 的卷积核执行,随后进行批量归一化和ReLU激活。SSM()是一个选择性SSM层,使用四个经过不同翻转和旋转增强的特征输入进行训练[12]。这种复杂的配置最终应用了两个Transformer模块,用于优化通道调整并在传递给目标检测器之前对最终输出进行精细化。
3.3. 目标检测
DMAT中的目标检测器基于Transformer架构。通过增强模块输出的缓解帧提取特征,使用ResNet50主干网络。这些特征与配准过程输出的特征一起被展平,并在输入Transformer编码器之前补充位置编码。配准输出特征的集成确保目标检测器中的语义信息能够为AT缓解器中的两个模块提供信息,从而增强整个框架的学习能力。
与许多基于transformer的计算机视觉任务方法类似,作者的编码器 ConCat 了六个transformer模块。每个模块包含一个多头自注意力模块、批量归一化和一个 FFN (FFN)。受LW-DETR [8] 和 YOLOv7 [38] 的启发,作者采用跨阶段特征融合来改善编码器与解码器之间的梯度流。作者的解码器由三个transformer解码器模块组成,每个模块包含一个自注意力模块、一个交叉注意力模块、批量归一化和一个FFN。最后,FFN用于输出目标类别、框大小和框位置。
作者提供了三种目标检测模型尺寸。尺寸的增加体现在注意力头数的增加、Transformer层数的增加、嵌入维度和 Backbone 网络深度的增加上。
3.4. 损失函数
损失函数由两个来源计算得出:大气湍流缓解器和目标检测器,分别定义为 Loss 和 Loss 。对于 Loss turb,作者采用Charbonnier损失函数,该函数融合了 和 损失的优势,有效管理由于大气湍流的空间变化导致的像素级误差中的异常值。其定义为:
其中 和 分别为预测值和真实值, 是一个小的常数(例如 ),以确保数值稳定性。
Charbonnier损失为小误差提供平滑梯度,使其非常适合处理受湍流影响的图像中的细微差异。
对于 Loss detert,结合了三种损失函数: 和 。其中 是用于框大小和位置的 回归损失,而 叉嫡(BCE)损失来计算类别准确性的概率 ,并使用IoU(IoU)分数。
其中 和 分别为正例框和负例框的数量, 控制权重,设置为 2 ,而 是正例目标和负例目标之间的平滑过渡参数,设置为以 的指数衰减。
3.5. 交替训练策略
考虑了多种策略将这些损失融入训练过程。一种方法是将损失合并为一个加权目标函数,从而在每个训练迭代中通过两个网络进行联合反向传播。然而,评估测试表明交替优化方案能获得更好的性能。具体而言,将单独的训练迭代用于优化缓解输出的质量产生了更理想的结果。相比之下,使用加权组合损失始终导致缓解性能下降,无论选择何种加权参数。因此,作者采用交替训练策略对缓解和检测模块进行联合优化。
具体来说,在奇数迭代中,整个缓解模型进行训练,而目标检测器保持冻结。在偶数迭代中,作者冻结缓解模型(除最后10层外),并训练目标检测器以及这些未冻结的缓解层。
04 数据集和实现
4.1. 合成数据集
作者采用COCO2017数据集[22],从中提取多种处理后的子集来训练和评估组合的DMAT系统。COCO2017数据集包含超过330000张图像,其中超过200000张图像标注了物体实例,80个物体类别使用边界框和分割 Mask 进行了标注,并且存在超过500万个物体实例标注。
4.1.1. 训练集、验证集和测试集:
COCO被划分为三个数据集:
i) 训练集:包含118,000张图像和超过250万个目标实例;
ii) 验证集:包含5,000张图像和80个目标类别;
iii) 测试集:包含41,000张图像。测试集的标注数据未公开提供,但用于评估。由于COCO测试集标注数据不可用,作者在实验中使用了验证数据集进行测试。
4.1.2. COCO数据集的已处理子集:
为了评估所开发的系统在不同应用场景下的表现,作者将类别数量子采样为三个不同的应用子集:
-
所有:原始COCO数据集的所有80个类别。 -
Top10:COCO训练数据集中最频繁出现的10个类别:Person、Car、Chair、Book、Bottle、Cup、Dining 表e、Bowl、Skis和Handbag。 -
CarPerson:仅包含Car和Person类(适用于监控应用)。
4.1.3. 降低图像分辨率:
结合湍流和目标检测模型由于以下原因使用大量GPU内存:(i)在多个层次 Level 上处理时空块,(ii)视觉Transformer结构中处理图像所需的大量内存。因此,作者降低了所有COCO输入图像的分辨率,以便将数据处理适配到可用的GPU内存中。
为了确保在图像裁剪时目标边界框不被裁剪,作者对所有训练和验证子集进行过滤,仅包含完整包含图像中所有目标的裁剪后的 区域。这显著减少了训练和验证COCO子集中的图像数量。然而,由于在训练过程中处理视频的计算复杂度较高,最终得到的图像数量仍然很大,但仍然适用于训练。此外,裁剪数据集子集的优点是所有图像(因此也包括视频)都具有一致的分辨率( )。
4.1.4. 合成AT失真:
作者采用了Purdue大学开发的Phase-to-Space(P2S)变换[26],一种湍流生成系统,以高效模拟大气湍流成像。作者将该方法评估为目前性能最佳的合成湍流生成方法。P2S方法基于三个关键步骤:i) 重新表述空间变化卷积:将这些卷积转换为具有学习基函数的一组不变卷积。ii) 学习基函数:利用已知的湍流统计模型推导出优化的基函数。iii) 实现P2S变换:将相位表示转换为空间湍流效应。P2S变换的输出在结果中 Token 为AT(大气变换)。
4.1.5. 最终训练和验证视频数据集:
从COCO数据集中提取子集,将分辨率降低至 ,并生成50帧的湍流视频,这些视频具有相同的空间维度。作者创建了训练和验证视频数据集,如表1所示(在下面的图中,创建了一个类似的真值视频集, Token 为noAT,其中包含50帧相同的帧)。
4.2. 评估指标
4.2.1. 目标检测任务:
遵循COCO数据集推荐的评估方法,作者采用基于多尺度IoU(IoU)阈值下的平均精度(AP)的标准指标。该指标衡量检测模型的精确率和召回率。AP的计算方式为Precision-Recall曲线下的面积。它聚合了不同IoU阈值(通常从0.50到0.95,步长为0.05,称为AP[0.50-0.95])的精确率-召回率值。由此得到一个评估模型在不同定位精度水平下性能的指标。作者报告的是平均精度均值(mAP)。这是一个综合指标,结合了多个目标类别的平均精度(AP)。
4.2.2. AT缓解任务:
作者使用合成数据集评估了AT缓解的性能;因此,可以使用客观指标。这些指标包括峰值信噪比(PSNR)、结构相似性指数(SSIM)[39]以及感知相似性指标,如LPIPS [42]。
4.3. 实验设置
作者将所DMATDMAT与三种最先进的对抗性训练缓解方法TMT [44]、DATUM [43]和MAMBA [12],以及三种目标检测器YOLO11 [36]、DETR [6]和LWDETR [8](不同模型尺寸)进行比较。
DATUM和TMT AT缓解模型使用了预训练权重。Mamba模型使用上述的(256×256)训练COCO数据集进行预训练。优化过程采用Adam优化器,初始学习率设置为0.0001。模型总共训练了100个epoch,未使用提前停止标准。这些条件也用于训练组合系统DMAT。视频处理采用了滑动窗口方法,其中以当前帧为中心的一组时间上相邻的帧作为输入来预测目标帧。该策略在训练和推理阶段都得到统一应用。根据文献[3]的报道,采用了一个包含十个相邻帧的窗口(四个向前帧和五个向后帧),因为它取得了良好的效果,同时也能有效表示时间相关性。
目标检测器通过使用网络的预训练权重并在新数据上进行训练进行微调,其中上述方法已缓解了固有的AT失真。通常情况下,上层模型会被冻结以保留Low-Level视觉内容的表示。然而,在作者的训练系统中,作者会更新目标检测器中的所有层(如下文所述)。
该实现采用Python语言,利用PyTorch框架并配合CUDA加速以确保计算效率。所有实验均在配备NVIDIA 4090和A100 GPU的高性能计算环境中进行。
05 结果与讨论
5.1. 目标检测性能
表2所示的结果表明,在AT条件下,作者提出的DMAT框架在目标检测方面优于现有方法。在采用相同目标检测器的两阶段方法中,MAMBA的性能高于TMT和DATUM。然而,当使用相似规模的模型时,其性能与作者的DMAT相比可低至25%。这突显了作者联合框架的有效性,其中AT缓解器生成的具有语义丰富特征的恢复帧更有利于精确的目标检测。
图5a、5b和5c展示了作者的DMAT在多种独立和顺序应用 Baseline 模型对比下的目标检测性能。这些图表包含了针对未缓解的真实数据(noAT)和湍流(AT)输入的检测结果,分别作为性能上限和下限的基准。各个模型的结果揭示了以下趋势:(i)检测性能通常随着模型规模的增加而提升;(ii)基于Mamba的AT缓解模型在所有情况下均表现出优于DATUM和TMT的性能。
图5a、5b和5c的右侧展示了在特定的小物体(定义为小于 像素的物体)上评估的一组相同的方法,使用mAP[0.50-0.95]作为性能指标。这些图表进一步说明:(i) 对于所有方法,当仅限于小物体时,mAP[0.50-0.95]显著下降,这是由于湍流对较小目标产生的模糊效应增强所致,即使应用了AT缓解措施;(ii) DMAT模型在单个方法上保持性能优势,这与所有目标尺寸观察到的趋势一致。
图6展示了部分示例检测结果。除DMAT方法外,所有展示的方法均使用中等规模的LW-DETR方法(2820万参数),而DMAT方法则采用中等规模架构。这表明,对于失真输入(AT),目标检测显然存在困难,随着缓解措施的实施而得到改善,并证实DMAT实现了更优性能。
5.2. AT缓解性能
图7展示了DMAT方法与TMT、DATUM和MAMBA方法结果的对比。主观上,DATUM在纹理保留方面表现最佳,但物体边缘仍存在湍流效应。TMT产生更清晰的边缘,但代价是纹理的损失。MAMBA方法在两者之间取得了平衡,在纹理保留和边缘定义之间提供了折中方案。当结合目标检测器时,作者的DMAT方法增强了前景物体周围的清晰度,但与MAMBA方法相比,在背景中牺牲了纹理细节。
06 结论
本文介绍首个端到端框架,该框架联合处理大气湍流缓解和目标检测。通过紧密耦合基于3D Mamba的湍流缓解模块与基于Transformer的目标检测器,所提出的架构实现了Low-Level恢复特征与High-Level语义表示之间的相互增强。这种集成不仅保留了在恢复过程中常丢失的关键目标级细节,还显著提高了在严重大气畸变下的检测精度。在基于COCO基准生成的合成湍流数据集上的大量实验表明,作者的联合系统优于单独训练的湍流缓解和目标检测流程。 值得注意的是,统一架构在各种检测器和湍流条件下,mAP[0.50-0.95]提升了高达15%,并在小目标类别和监控导向的目标类别等挑战性子集上保持了优异性能。这些结果突出了双向特征流在恢复时空一致性及增强检测鲁棒性方面的优势。
该框架进一步表明,交替损失函数优化(而非加权联合损失)实现了更好的收敛和输出质量,缓解了在平衡恢复与检测目标时常见的视觉退化问题。尽管所提出的联合架构与非联合模型和方法相比性能更优,但由于训练时需要将模型同时加载到内存中,其内存需求更大。
参考
[1]. DMAT: An End-to-End Framework for Joint Atmospheric Turbulence Mitigation and Object Detection
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

