1.【引言】
在计算机视觉领域,卷积神经网络(CNN)的核心操作——卷积,通过捕捉局部模式和构建层次化表示,推动了数十年的发展。然而,传统的卷积操作因其固定的权重限制了模型的适应性。动态卷积(Dynamic Convolution, DY-Conv)通过引入多并行权重和注意力机制,提升了模型的自适应能力,但其权重频率响应的高度相似性导致了高参数成本和有限的适应性。本文提出了一种新的频率动态卷积(Frequency Dynamic Convolution, FDConv),旨在通过傅里叶域学习频谱系数,构建具有多样化频率响应的权重,从而在不增加参数成本的情况下增强频率适应性。FDConv通过傅里叶离散权重、核空间调制和频带调制三个核心模块,有效解决了传统动态卷积方法的局限性,为现代视觉任务提供了灵活高效的解决方案。
论文基本信息
论文题目:Frequency Dynamic Convolution for Dense Image Prediction
作者信息:Linwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu
论文链接:https://arxiv.org/abs/2503.18783
代码链接:https://github.com/linwei-chen/fdconv
击下方卡片,关注“AI模块工坊”公众号
各种即插即用模块,第一时间送达
2.【摘要】
在计算机视觉领域,卷积神经网络(CNN)的核心操作——卷积,通过捕捉局部模式和构建层次化表示,推动了数十年的发展。然而,传统的卷积操作因其固定的权重限制了模型的适应性。动态卷积(Dynamic Convolution, DY-Conv)通过引入多并行权重和注意力机制,提升了模型的自适应能力,但其权重频率响应的高度相似性导致了高参数成本和有限的适应性。
本文提出了一种新的频率动态卷积(Frequency Dynamic Convolution, FDConv),旨在通过傅里叶域学习频谱系数,构建具有多样化频率响应的权重,从而在不增加参数成本的情况下增强频率适应性。FDConv通过傅里叶离散权重、核空间调制和频带调制三个核心模块,有效解决了传统动态卷积方法的局限性,为现代视觉任务提供了灵活高效的解决方案。
3.【创新点】
-
提出了频率动态卷积(FDConv),通过在傅里叶域学习固定参数预算,解决传统动态卷积中并行权重频率响应高度相似、参数成本高但适应性有限的问题,能构建频率多样化的权重且不增加参数成本。 -
设计了傅里叶不相交权重(FDW)策略,在傅里叶域将参数划分为具有不相交傅里叶指数的频率组,经逆离散傅里叶变换(iDFT)转换到空间域,生成频率响应差异显著的权重,支持生成更多样化的权重(n>10)而不增加参数成本。 -
提出核空间调制(KSM),通过局部通道分支(轻量级1D卷积)和全局通道分支(全连接层)生成密集调制矩阵,动态调整每个滤波器在空间层面的频率响应,解决权重混合过粗的问题,增强表示能力。 -
提出频带调制(FBM),在频率域将权重分解为不同频段,基于局部内容动态调制这些频段,实现空间变化的频率调制,提升模型对图像中不同空间位置特征的捕捉能力。 -
从频率分析角度全面探索动态卷积,发现传统动态卷积方法的参数在学习到的并行权重中表现出高频响应同质性,导致参数冗余和适应性有限,为FDConv的设计提供了理论依据。 -
FDConv能无缝集成到多种架构(如ConvNeXt、Swin-Transformer)中,仅需适度增加参数(如ResNet-50上+3.6M)即可实现优于现有方法的性能,为现代视觉任务提供灵活高效的解决方案。
4.【研究方法】
4.1整体框架与频率多样性问题
文献首先通过图 1 揭示传统动态卷积的局限:ODConv 的并行权重频率响应高度相似(图 1 (a)),t-SNE 聚类显示滤波器聚集(图 1 (c)),导致频率多样性不足。而 FDConv 通过傅里叶域设计,使权重频率响应覆盖不同频段(图 1 (b)),t-SNE 分布更离散(图 1 (d)),验证了频率多样性的提升。
4.2傅里叶不相交权重(FDW)
FDW 通过傅里叶域参数分组生成多样化权重:将参数按频率划分为不相交组(如图 3 左,低频位于中心,高频位于边缘),经 iDFT 转换为空间权重(图 3 右)。这一设计使每组权重对应特定频段,确保频率响应差异。
4.3核空间调制(KSM)
KSM 通过双分支生成密集调制矩阵:局部通道分支用 1D 卷积捕获局部信息,全局通道分支用 FC 层提取全局特征,融合后实现权重元素级调制(图 4)。该机制解决了传统权重混合过粗的问题,使 FDConv 权重余弦相似性降至 0,显著优于 ODConv 的高相似性。
4.4频带调制(FBM)
FBM 实现空间自适应频带调整:将权重分解为多个频段,生成调制图对不同空间位置的频段进行动态选择(图 6 (b)-(d))。例如,高频调制集中于物体边界,低频调制强化物体内部,有效抑制背景噪声。
5.【实验结果】
5.1目标检测与实例分割(COCO 数据集)
-
表 1 显示,在 Faster R-CNN 中,FDConv 仅增加 3.6M 参数,APbox 达 39.4,超越 CondConv(+90M,38.1)和 ODConv(+65.1M,39.2)。 -
在 Mask R-CNN 中,FDConv(+3.6M)的 APbox(42.4)与 KW(+76.5M)持平,APmask(38.6)接近最优,参数效率显著提升。
5.2语义分割(ADE20K 与 Cityscapes)
-
表 2 显示,FDConv 在 UPerNet-ResNet50 上的 mIoU 达 43.8(SS),优于 ODConv(43.3)和 KW(43.5),且参数仅 70M(ODConv 需 131M)。
-
表 4 显示,FDConv 在 Cityscapes 的 Mask2Former 中使 mIoU 从 79.4 提升至 80.4,验证了对复杂场景的适应性。
5.3跨架构兼容性
表 3 证明 FDConv 可适配 ConvNeXt 和 Swin-Transformer:在 ConvNeXt-T 中 APbox 达 45.2,在 Swin-T 中达 44.5,均优于基线和 KW 方法。其模块化设计支持与 Transformer 的线性层替换,体现灵活性。
5.4机制有效性验证
图 5 对比显示,FDConv 权重的频率响应在各阶段均更分散,而 ODConv 权重同质化严重;图 6 的特征可视化进一步证实 FBM 能增强前景高频特征、抑制背景噪声,直接提升预测精度。
6. 【总结】
该文献提出频率动态卷积(FDConv),以解决传统动态卷积权重频率响应相似、参数成本高的问题。FDConv在傅里叶域学习固定参数,分为不相交频率组,经逆傅里叶变换生成多样化权重,还设计了核空间调制(KSM)和频带调制(FBM)增强适应性。实验显示,FDConv应用于ResNet-50仅增3.6M参数,性能优于需大幅增参的方法,且能融入多种架构,在检测、分割等任务中有效,为视觉任务提供灵活高效方案。

