大数跨境
0
0

CVPR 2025 | 北理牵头提出 FDConv:傅里叶域分解 + 动态调制,多任务性能碾压传统动态卷积

CVPR 2025 | 北理牵头提出 FDConv:傅里叶域分解 + 动态调制,多任务性能碾压传统动态卷积 Coco跨境电商
2025-07-15
1

点击上方小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

在计算机视觉领域,卷积神经网络(ConvNets)一直是推动技术发展的核心力量。然而,传统的动态卷积方法在面对复杂图像任务时,逐渐暴露出一些局限性。今天要给大家介绍的这篇发表于CVPR 2025的论文——《Frequency Dynamic Convolution for Dense Image Prediction》(用于密集图像预测的频率动态卷积),提出了一种全新的卷积方法,为解决这些问题带来了新的思路。

一、论文基本信息

题目: Frequency Dynamic Convolution for Dense Image Prediction

作者:Linwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu

源码:https://github.com/Linwei-Chen/FDConv

二、传统动态卷积的困境

卷积作为ConvNets的核心操作,在计算机视觉领域发挥着至关重要的作用。基于标准卷积的成功,动态卷积(DY - Conv)通过注意力机制将多个并行权重组合起来,实现了自适应权重选择,展现出了不错的性能。然而,传统的动态卷积在其并行权重中缺乏频率响应的多样性。

传统动态卷积权重频率响应
传统动态卷积权重频率响应

如上图所示,这些权重的频率响应高度相似,尽管参数显著增加,但这种有限的频率多样性降低了模型自适应捕捉频率信息的能力。例如,提取低频分量有助于抑制噪声,而高频分量可以捕捉细节和边界,这对于前景 - 背景区分至关重要。

三、频率动态卷积(FDConv)的创新之处

1. 全新卷积方法:FDConv

为了解决传统动态卷积的问题,论文提出了频率动态卷积(FDConv)方法。FDConv从频率角度出发,在不增加过多参数开销的情况下,增强了并行权重的频率适应性。

2. 核心模块策略

FDConv主要基于三个核心模块:傅里叶不相交权重(FDW)、核空间调制(KSM)和频带调制(FBM)。

傅里叶不相交权重(FDW)

FDW的核心概念是在傅里叶域中学习具有不相交傅里叶索引集的谱系数,而不是在传统的空间域中。它通过三个步骤构建多个并行权重:

  • 傅里叶不相交分组:将固定数量的参数划分为具有不相交傅里叶索引的多个组。
  • 傅里叶到空间变换:使用逆离散傅里叶变换(iDFT)将每组参数从傅里叶域转换到空间域。
  • 重新组装:将空间域中的变换结果裁剪成标准的权重形状。
FDW示意图
FDW示意图

这种方法确保了所构建权重的频率响应是多样化的,从而使模型能够自适应地调整组合权重的频率响应。

核空间调制(KSM)

虽然FDW可以调整组合权重的频率响应,但这种按权重的混合过于粗糙,无法独立调整权重中每个滤波器的频率响应。KSM通过预测一个密集的调制矩阵,对权重中每个滤波器进行更精确和上下文感知的调制。

KSM示意图
KSM示意图

KSM由一个局部通道分支和一个全局通道分支组成,能够利用局部和全局信息,实现对权重的精细调整。

频带调制(FBM)

传统的FDW和KSM模块仍然是空间不变的,限制了卷积层动态适应频率响应以适应空间变化内容的能力。FBM在频域中将卷积核分解为多个频带,并应用特定于空间的调制,在不同的空间位置自适应地调整每个频率分量。

FBM示意图
FBM示意图

FBM的主要步骤包括核频率分解、频域卷积和空间可变调制,能够增强模型有效捕获图像中特定上下文特征的能力。

四、实验验证

论文在目标检测、实例分割、语义分割和图像分类等多个任务上进行了广泛实验,验证了FDConv的有效性。

1. 目标检测

在目标检测任务中,FDConv模块仅增加了360万个参数和1.8G的浮点运算次数(FLOPs),就实现了39.4的APbox,比基线提高了2.2%,并且优于需要大幅增加参数预算的其他方法。

目标检测结果

2. 实例分割

在实例分割任务中,FDConv实现了42.4的APbox和38.6的APmask,超过或与近期高性能方法相匹配,且参数成本远低于其他方法。

3. 语义分割

在语义分割任务中,FDConv实现了最高的mIoU分数,单尺度(SS)mIoU为43.8,且以较少的额外参数实现了这一性能。

语义分割结果
语义分割结果

4. 与先进架构的结合

FDConv还可以轻松集成到各种架构中,包括ConvNeXt、Swin - Transformer等,在不同架构上都表现出了一致的泛化能力。

五、分析与结论

通过对FDConv的权重相似性和频率响应进行分析,发现FDConv的核表现出零余弦相似度,捕获了独特的、互补的特征,并且展示了更多样化的频率响应,能够建模更丰富的特征集。

总之,FDConv在不增加参数开销的情况下增强了并行权重的频率适应性,解决了现有动态卷积方法的局限性,为广泛的计算机视觉任务提供了一种通用且高效的解决方案。相信这一创新方法将为计算机视觉领域的发展带来新的突破。

以上就是对这篇论文的详细介绍,希望能让大家对频率动态卷积有更深入的了解。如果你对论文中的内容有任何疑问,欢迎在评论区留言讨论。

下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲
小白学视觉公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:人工智能0基础学习攻略手册
小白学视觉公众号后台回复:攻略手册即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


【声明】内容源于网络
0
0
Coco跨境电商
跨境分享所 | 持续提供优质干货
内容 192965
粉丝 3
Coco跨境电商 跨境分享所 | 持续提供优质干货
总阅读463.5k
粉丝3
内容193.0k