题目:Frequency Dynamic Convolution for Dense Image Prediction
论文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Chen_Frequency_Dynamic_Convolution_for_Dense_Image_Prediction_CVPR_2025_paper.pdf
创新点
-
FDW 在傅里叶域学习频谱系数,并将其划分为不相交的频率组,通过逆离散傅里叶变换(iDFT)生成具有不同频率响应的空间权重,提升权重多样性。
-
KSM 融合局部与全局通道信息,动态调整过滤器在空间层面的频率响应,生成密集调制矩阵以实现对权重元素的精细控制。
-
FBM 将权重在频率域分解为多个频率带,并依据局部内容动态调制各频带,实现空间自适应的频率响应调节。
方法
本文提出 Frequency Dynamic Convolution(FDConv),一种面向密集图像预测任务(如目标检测、语义分割等)的新型动态卷积方法。FDConv 通过在傅里叶域建模频谱系数,构建具备差异化频率响应的卷积核,在不显著增加参数量的前提下增强模型对频率特征的感知能力。该方法由三个核心模块构成:傅里叶不相交权重(FDW)、核空间调制(KSM)和频率带调制(FBM),协同实现高效且灵活的频率感知卷积操作。
权重频率响应和 t-SNE 分析
对比 ODConv 与 FDConv 的权重频率响应及 t-SNE 可视化结果可见:ODConv 的多个并行权重频率响应高度相似,滤波器聚类紧密,表明其频率多样性有限;而 FDConv 的权重覆盖更广的频率范围,响应模式差异明显,t-SNE 显示其滤波器分布更为分散,体现出更强的特征表达能力和频率适应性。
Frequency Dynamic Convolution 框架示意图
FDConv 框架集成 FDW、KSM 和 FBM 三大模块。FDW 在频域划分频谱系数并生成多样化空间权重;KSM 基于通道上下文动态调制核的空间响应;FBM 进一步在频率维度分解并按局部内容调节各频带强度。三者协同实现对图像频率结构的精细化建模与自适应响应。
傅里叶不相交权重(FDW)示意图
FDW 将频域参数按频率从低到高划分为互不重叠的组别,每组经 iDFT 转换为空间域卷积核。由于不同组对应不同频率成分,所生成的权重天然具备差异化的频率响应特性,有效提升了卷积核的表达多样性。
实验
实验结果显示,FDConv 在目标检测与实例分割任务中显著优于 CondConv、DY-Conv、ODConv 等主流动态卷积方法。在参数增量可控的情况下,FDConv 实现了 39.4 的 APbox 与 38.6 的 APmask,性能优于或持平现有方法的同时保持更低的模型复杂度。结果验证了其通过频率域建模有效捕捉图像多尺度特征的能力,尤其在密集预测场景下展现出更强的适应性与泛化能力。

