点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
重磅干货,第一时间送达
🔥🔥🔥 CVPR 2025 ⭐⭐⭐
一、论文信息
论文题目:Frequency Dynamic Convolution for Dense Image Prediction中文题目:用于密集图像预测的频率动态卷积论文链接:https://arxiv.org/pdf/2503.18783
所属单位:北京理工大学,日本理化学研究所,东京大学,中国科学院,杭州电子科技大学,清华大学
核心速览:本文提出了一种新的卷积方法——频率动态卷积(FDConv),通过在傅里叶域中学习固定参数预算,提升密集图像预测任务的性能,同时保持较低的参数开销。实验证明,FDConv在对象检测、语义分割和实例分割等任务中优于先前的最先进方法。
二、论文概要
1. 研究背景:
-
研究问题: 传统动态卷积(DY-Conv)虽然通过多组并行权重结合注意力机制实现了自适应权重选择,但其频率响应高度相似,导致参数成本高且适应性有限。这种局限性影响了模型对频率信息的捕捉能力,例如低频成分的噪声抑制和高频成分的细节提取,进而限制了其在对象检测、分割和分类等计算机视觉任务中的表现。因此,如何在不显著增加参数成本的情况下提升动态卷积的频率适应性成为亟待解决的问题。 -
研究难点: 主要挑战在于如何设计一种机制,既能生成频率响应多样化的权重,又不会显著增加参数量;其次,如何在空间维度和频率维度上实现灵活的调制,以适应不同区域的局部内容;最后,如何将新方法无缝集成到现有架构中,确保其通用性和高效性。 -
文献综述:相关研究表明,传统动态卷积方法(如CondConv、ODConv等)通过引入多个并行权重提升了模型的适应性,但这些方法在频率响应上缺乏多样性,导致参数冗余和适应性不足。此外,特征重校准技术(如SE、CBAM等)通过注意力机制强调重要特征或抑制无关特征,但并未针对卷积权重进行频率特异性调整。动态权重网络(如Dynamic Filter Networks、Kernel Prediction Networks)则专注于生成样本自适应滤波器,但在频率域上的探索仍然有限。
-
频率动态卷积:提出了一种新的频率动态卷积方法(FDConv),通过在傅里叶域中学习固定参数预算来增强频率适应性,而不会增加参数开销。该方法将预算分为基于频率的组,每组具有不相交的傅里叶指数,从而构建多样化的权重。该方法包括三个核心模块:傅里叶不相交权重(FDW)、内核空间调制(KSM)和频率带调制(FBM)。FDW通过学习傅里叶域中的谱系数来构造权重,这些系数被分为基于频率的组,然后通过逆离散傅里叶变换(iDFT)转换为空间权重。
-
内核空间调制:引入了内核空间调制(KSM),通过结合局部和全局通道信息生成密集的调制值矩阵,精细调整每个权重元素。这种方法允许FDConv 动态调整每个滤波器元素,从而在整个内核上调整频率响应。
-
频率带调制:提出了频率带调制(FBM),将权重分解为不同的频带并在频域中进行空间变化调制。这允许每个频带根据局部内容独立调整,从而自适应地捕获多样化频率信息。
三、创新方法
图2.所提出的频率动态卷积的示意图,该模块由傅里叶不相关权重(FDW)、核空间调制(KSM)和频带调制(FBM)三个模块组成。FC表示全连接层。
FDConv的实现过程主要包括以下几个步骤:
1. 傅里叶不相关权重 (FDW):首先,FDW在频域中学习一组参数,这些参数被划分为多个不相交的频率组。每个组对应不同频率范围的频域指数。然后,通过逆离散傅里叶变换(iDFT)将这些频域参数转换为空间域权重。最后,对空间域中的结果进行裁剪和重组,形成标准的卷积核形状。这种方法确保了生成的权重具有不同的频率响应,从而提高了权重的多样性。
图3.傅里叶不相关权重(FDW)示意图。左图展示了参数被划分为不相交组的情况,从低频(中心)到高频(边界)。本例中显示n = 2个组。右图演示了如何从可学习参数组0获取卷积权重。首先使用逆离散傅里叶变换(iDFT)对具有特定傅里叶索引的可学习参数进行变换(其余所有傅里叶索引均设为零)。随后通过将iDFT结果裁剪为k×k块并重塑为尺寸为k×k×Cin×Cout的权重张量来获得空间权重。
2. 核空间调制(KSM):KSM通过结合局部通道信息和全局通道信息,生成一个密集的调制矩阵。局部通道分支使用轻量级的一维卷积捕获局部通道信息,并预测出一个密集的调制矩阵。全局通道分支则通过全连接层捕获全局通道信息,并生成维度级别的稀疏调制值。两个分支的结果被融合,最终得到一个可以精细调整每个权重元素的调制矩阵。
图4.核空间调制(KSM)示意图。KSM包含两个分支:全局通道分支和局部通道分支。局部通道分支采用高度轻量级的一维卷积来获取局部通道信息,预测出一个大小为k×k×Cin×Cout的密集调制矩阵。全局分支则通过全连接层获取全局通道信息,并预测输入通道、输出通道和核空间维度上的三个维度调制值。两个分支融合后生成最终的权重调制矩阵。
3. 频带调制(FBM):FBM首先将卷积核分解为多个频率带,方法是应用二进制掩码隔离特定频率范围。接着,在频域中进行卷积操作。最后,通过空间变化调制,针对不同空间位置的每个频率带预测调制值。这种机制允许模型根据局部内容动态调整频率响应,从而实现空间特异性调制。
四、实验分析
五、结论
-
研究发现:FDConv在对象检测、实例分割和语义分割任务中表现出色,在标准基准如COCO、ADE20K和Cityscapes上均取得了最高性能。实验表明,FDConv不仅在检测和分割任务中实现了最高性能,而且在大幅减少参数开销的情况下完成了这一目标。
-
研究意义:FDConv可以轻松集成到现有的架构中,包括ConvNets和视觉变压器,使其成为广泛计算机视觉任务的多功能和高效解决方案。希望本研究的分析和发现能为构建更高效和强大的视觉模型提供新方向。
-
未来方向:需要进一步探索FDConv在其他任务和数据集上的应用,以及如何进一步优化其性能和效率,以应对更复杂的视觉任务。
六、运行结果与即插即用代码
运行结果
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

