点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
在计算机视觉领域,卷积神经网络(ConvNets)一直是推动技术发展的核心力量。然而,传统的动态卷积方法在面对复杂图像任务时,逐渐暴露出一些局限性。今天要给大家介绍的这篇发表于CVPR 2025的论文——《Frequency Dynamic Convolution for Dense Image Prediction》(用于密集图像预测的频率动态卷积),提出了一种全新的卷积方法,为解决这些问题带来了新的思路。
一、论文基本信息
题目: Frequency Dynamic Convolution for Dense Image Prediction
作者:Linwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu
源码:https://github.com/Linwei-Chen/FDConv
二、传统动态卷积的困境
卷积作为ConvNets的核心操作,在计算机视觉领域发挥着至关重要的作用。基于标准卷积的成功,动态卷积(DY - Conv)通过注意力机制将多个并行权重组合起来,实现了自适应权重选择,展现出了不错的性能。然而,传统的动态卷积在其并行权重中缺乏频率响应的多样性。
如上图所示,这些权重的频率响应高度相似,尽管参数显著增加,但这种有限的频率多样性降低了模型自适应捕捉频率信息的能力。例如,提取低频分量有助于抑制噪声,而高频分量可以捕捉细节和边界,这对于前景 - 背景区分至关重要。
三、频率动态卷积(FDConv)的创新之处
1. 全新卷积方法:FDConv
为了解决传统动态卷积的问题,论文提出了频率动态卷积(FDConv)方法。FDConv从频率角度出发,在不增加过多参数开销的情况下,增强了并行权重的频率适应性。
2. 核心模块策略
FDConv主要基于三个核心模块:傅里叶不相交权重(FDW)、核空间调制(KSM)和频带调制(FBM)。
傅里叶不相交权重(FDW)
FDW的核心概念是在傅里叶域中学习具有不相交傅里叶索引集的谱系数,而不是在传统的空间域中。它通过三个步骤构建多个并行权重:
-
傅里叶不相交分组:将固定数量的参数划分为具有不相交傅里叶索引的多个组。 -
傅里叶到空间变换:使用逆离散傅里叶变换(iDFT)将每组参数从傅里叶域转换到空间域。 -
重新组装:将空间域中的变换结果裁剪成标准的权重形状。
这种方法确保了所构建权重的频率响应是多样化的,从而使模型能够自适应地调整组合权重的频率响应。
核空间调制(KSM)
虽然FDW可以调整组合权重的频率响应,但这种按权重的混合过于粗糙,无法独立调整权重中每个滤波器的频率响应。KSM通过预测一个密集的调制矩阵,对权重中每个滤波器进行更精确和上下文感知的调制。
KSM由一个局部通道分支和一个全局通道分支组成,能够利用局部和全局信息,实现对权重的精细调整。
频带调制(FBM)
传统的FDW和KSM模块仍然是空间不变的,限制了卷积层动态适应频率响应以适应空间变化内容的能力。FBM在频域中将卷积核分解为多个频带,并应用特定于空间的调制,在不同的空间位置自适应地调整每个频率分量。
FBM的主要步骤包括核频率分解、频域卷积和空间可变调制,能够增强模型有效捕获图像中特定上下文特征的能力。
四、实验验证
论文在目标检测、实例分割、语义分割和图像分类等多个任务上进行了广泛实验,验证了FDConv的有效性。
1. 目标检测
在目标检测任务中,FDConv模块仅增加了360万个参数和1.8G的浮点运算次数(FLOPs),就实现了39.4的APbox,比基线提高了2.2%,并且优于需要大幅增加参数预算的其他方法。
2. 实例分割
在实例分割任务中,FDConv实现了42.4的APbox和38.6的APmask,超过或与近期高性能方法相匹配,且参数成本远低于其他方法。
3. 语义分割
在语义分割任务中,FDConv实现了最高的mIoU分数,单尺度(SS)mIoU为43.8,且以较少的额外参数实现了这一性能。
4. 与先进架构的结合
FDConv还可以轻松集成到各种架构中,包括ConvNeXt、Swin - Transformer等,在不同架构上都表现出了一致的泛化能力。
五、分析与结论
通过对FDConv的权重相似性和频率响应进行分析,发现FDConv的核表现出零余弦相似度,捕获了独特的、互补的特征,并且展示了更多样化的频率响应,能够建模更丰富的特征集。
总之,FDConv在不增加参数开销的情况下增强了并行权重的频率适应性,解决了现有动态卷积方法的局限性,为广泛的计算机视觉任务提供了一种通用且高效的解决方案。相信这一创新方法将为计算机视觉领域的发展带来新的突破。
以上就是对这篇论文的详细介绍,希望能让大家对频率动态卷积有更深入的了解。如果你对论文中的内容有任何疑问,欢迎在评论区留言讨论。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


