CVPR 2025 | 北理牵头提出 FDConv：傅里叶域分解 + 动态调制，多任务性能碾压传统动态卷积



CVPR 2025 | 北理牵头提出 FDConv：傅里叶域分解 + 动态调制，多任务性能碾压传统动态卷积

Coco跨境电商

2025-07-15

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

在计算机视觉领域，卷积神经网络（ConvNets）一直是推动技术发展的核心力量。然而，传统的动态卷积方法在面对复杂图像任务时，逐渐暴露出一些局限性。今天要给大家介绍的这篇发表于CVPR 2025的论文——《Frequency Dynamic Convolution for Dense Image Prediction》（用于密集图像预测的频率动态卷积），提出了一种全新的卷积方法，为解决这些问题带来了新的思路。

一、论文基本信息

题目： Frequency Dynamic Convolution for Dense Image Prediction

作者：Linwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu

源码：https://github.com/Linwei-Chen/FDConv

二、传统动态卷积的困境

卷积作为ConvNets的核心操作，在计算机视觉领域发挥着至关重要的作用。基于标准卷积的成功，动态卷积（DY - Conv）通过注意力机制将多个并行权重组合起来，实现了自适应权重选择，展现出了不错的性能。然而，传统的动态卷积在其并行权重中缺乏频率响应的多样性。

如上图所示，这些权重的频率响应高度相似，尽管参数显著增加，但这种有限的频率多样性降低了模型自适应捕捉频率信息的能力。例如，提取低频分量有助于抑制噪声，而高频分量可以捕捉细节和边界，这对于前景 - 背景区分至关重要。

三、频率动态卷积（FDConv）的创新之处

1. 全新卷积方法：FDConv

为了解决传统动态卷积的问题，论文提出了频率动态卷积（FDConv）方法。FDConv从频率角度出发，在不增加过多参数开销的情况下，增强了并行权重的频率适应性。

2. 核心模块策略

FDConv主要基于三个核心模块：傅里叶不相交权重（FDW）、核空间调制（KSM）和频带调制（FBM）。

傅里叶不相交权重（FDW）

FDW的核心概念是在傅里叶域中学习具有不相交傅里叶索引集的谱系数，而不是在传统的空间域中。它通过三个步骤构建多个并行权重：

傅里叶不相交分组：将固定数量的参数划分为具有不相交傅里叶索引的多个组。
傅里叶到空间变换：使用逆离散傅里叶变换（iDFT）将每组参数从傅里叶域转换到空间域。
重新组装：将空间域中的变换结果裁剪成标准的权重形状。

这种方法确保了所构建权重的频率响应是多样化的，从而使模型能够自适应地调整组合权重的频率响应。

核空间调制（KSM）

虽然FDW可以调整组合权重的频率响应，但这种按权重的混合过于粗糙，无法独立调整权重中每个滤波器的频率响应。KSM通过预测一个密集的调制矩阵，对权重中每个滤波器进行更精确和上下文感知的调制。

KSM由一个局部通道分支和一个全局通道分支组成，能够利用局部和全局信息，实现对权重的精细调整。

频带调制（FBM）

传统的FDW和KSM模块仍然是空间不变的，限制了卷积层动态适应频率响应以适应空间变化内容的能力。FBM在频域中将卷积核分解为多个频带，并应用特定于空间的调制，在不同的空间位置自适应地调整每个频率分量。

FBM的主要步骤包括核频率分解、频域卷积和空间可变调制，能够增强模型有效捕获图像中特定上下文特征的能力。

四、实验验证

论文在目标检测、实例分割、语义分割和图像分类等多个任务上进行了广泛实验，验证了FDConv的有效性。

1. 目标检测

在目标检测任务中，FDConv模块仅增加了360万个参数和1.8G的浮点运算次数（FLOPs），就实现了39.4的APbox，比基线提高了2.2%，并且优于需要大幅增加参数预算的其他方法。

2. 实例分割

在实例分割任务中，FDConv实现了42.4的APbox和38.6的APmask，超过或与近期高性能方法相匹配，且参数成本远低于其他方法。

3. 语义分割

在语义分割任务中，FDConv实现了最高的mIoU分数，单尺度（SS）mIoU为43.8，且以较少的额外参数实现了这一性能。

4. 与先进架构的结合

FDConv还可以轻松集成到各种架构中，包括ConvNeXt、Swin - Transformer等，在不同架构上都表现出了一致的泛化能力。

五、分析与结论

通过对FDConv的权重相似性和频率响应进行分析，发现FDConv的核表现出零余弦相似度，捕获了独特的、互补的特征，并且展示了更多样化的频率响应，能够建模更丰富的特征集。

总之，FDConv在不增加参数开销的情况下增强了并行权重的频率适应性，解决了现有动态卷积方法的局限性，为广泛的计算机视觉任务提供了一种通用且高效的解决方案。相信这一创新方法将为计算机视觉领域的发展带来新的突破。

以上就是对这篇论文的详细介绍，希望能让大家对频率动态卷积有更深入的了解。如果你对论文中的内容有任何疑问，欢迎在评论区留言讨论。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：人工智能0基础学习攻略手册

在「小白学视觉」公众号后台回复：攻略手册，即可获取《从 0 入门人工智能学习攻略手册》文档，包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源，可以下载离线学习。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

【声明】内容源于网络

Coco跨境电商

跨境分享所 | 持续提供优质干货

内容 192965

粉丝 3

Coco跨境电商跨境分享所 | 持续提供优质干货

总阅读463.5k

粉丝3

内容193.0k