大数跨境
0
0

TPAMI 2025 | 武大团队突破!FSD 用傅里叶级数重构目标轮廓,DOTA 数据集 AP50 超 SOTA 6.44%

TPAMI 2025 | 武大团队突破!FSD 用傅里叶级数重构目标轮廓,DOTA 数据集 AP50 超 SOTA 6.44% 极市平台
2025-11-10
2
↑ 点击蓝字 关注极市平台
作者丨小白学视觉
来源丨小白学视觉
编辑丨极市平台

极市导读

 

武大团队把目标轮廓变“连续曲线”,用傅里叶级数一键拟合任意形状,新FSD模型 DOTA AP50 狂涨 6.44%,速度还是SOTA 2.5 倍,检测正式迈入“曲线方程”时代。>>加入极市CV技术交流群,走在计算机视觉的最前沿

在计算机视觉领域,目标检测技术历经两阶段、单阶段及基于Transformer的架构演进,取得了显著进展。然而,传统方法输出的边界框(如(x,y,w,h)或旋转框参数)始终存在信息有限的固有缺陷,难以精准描述目标的真实轮廓。

近日,发表于TPAMI 2025的研究《Enhancing Object Detection With Fourier Series》提出了一种革命性的解决方案,将傅里叶级数引入目标检测,构建了傅里叶级数目标检测(FSD)模型,为该领域开辟了新的研究路径。

  • 题目:Enhancing Object Detection With Fourier Series 利用傅里叶级数增强目标检测

  • 作者:Jin Liu, Zhongyuan Lu, Yaorong Cen, Hui Hu, Zhenfeng Shao, Yong Hong, Ming Jiang, Miaozhong Xu

01 传统方法的局限性与创新动机

传统目标检测模型的核心瓶颈在于对目标形态的描述能力不足。如图1所示,矩形边界框往往只能粗略包围目标,大量背景区域被纳入检测范围;而定向边界框(OBB)虽考虑了角度因素,却因θ与θ+2π的等价性导致损失计算偏差,且无法处理任意形状目标。

现有改进方案同样存在明显短板:基于正态分布的描述仅能拟合椭圆形状,无法应对复杂轮廓;通过关键点描述目标则面临尺度变化适配难题,且难以反映整体轮廓特征。

为此,研究团队提出"Object as a Closed Curve Equation"理念,将目标检测的输出从离散参数升级为连续曲线方程,而傅里叶级数凭借其拟合任意复杂曲线的数学特性,成为实现这一理念的理想工具。

02 傅里叶级数的目标轮廓编码机制

傅里叶级数的核心优势在于能够将任意封闭曲线分解为一系列正弦波与余弦波的叠加。研究中,目标轮廓的x(t)和y(t)坐标被分别编码为两个独立的一维傅里叶级数,通过有限阶数的系数组合即可精确还原原始曲线。

如图2所示,不同阶数的傅里叶级数呈现出差异化的拟合能力:2阶级数可完美拟合椭圆,3阶级数能描述类似鸭蛋的不规则形状,随着阶数提升,曲线细节逐渐丰富,可实现对复杂轮廓的高精度逼近。这种特性使得模型能够通过固定维度的张量描述不同长度的目标轮廓,解决了传统关键点方法的维度不一致问题。

自然图像的拟合结果进一步验证了该机制的有效性(图3)。通过调节傅里叶级数的阶数,模型可在拟合精度与计算效率之间取得平衡,为不同场景下的应用提供了灵活选择。

03 傅里叶级数目标检测模型(FSM)架构设计

FSM模型在经典YOLO架构基础上进行创新性扩展,构建了六分支输出结构(图4)。其中前三个分支保持原有设计,负责输出目标存在置信度和类别信息;新增的三个扩展傅里叶分支则专门回归目标的傅里叶系数,维度为[n_a×(4n-2), H, W](n_a为锚点数,n为级数阶数)。

每个输出网格单元的傅里叶系数按特定结构组织(图5),包含质心坐标(a₀,c₀)和形状描述系数(a₁,b₁,c₁,d₁,...,aₙ₋₁,bₙ₋₁,cₙ₋₁,dₙ₋₁)。这种结构化设计既保证了目标位置信息的准确传递,又通过高阶系数实现了轮廓细节的精确刻画。

针对标注轮廓起点不一致导致的训练难题,研究团队提出滚动优化匹配(ROM)算法(图6)。该算法通过对真实标签的傅里叶系数进行周期性滚动,找到与预测结果最匹配的相位,有效消除了起点顺序对模型学习的干扰,使训练效率提升约27%。

04 实验验证与性能分析

在多个基准数据集上的实验充分证明了FSM的优越性。在DOTA 1.5数据集上,模型实现了73.3%的AP50,较现有SOTA方法提升6.44%;在UCAS船舶数据集上,AP50达到97.25%,显著超越传统方法。值得注意的是,FSM在保持高精度的同时,推理速度达到R3Det模型的2.5倍,展现出优异的工程应用潜力。

可视化结果直观展示了傅里叶级数的轮廓描述能力:四阶级数即可生成贴合目标的封闭曲线,并通过向量指示主轴方向(图7);二十阶级数则能捕捉飞机机翼、游泳池边缘等细微轮廓特征,其精度远超传统边界框(图8)。

创新性引入的傅里叶功率谱为目标形状分析提供了新维度(图9)。通过计算不同阶数系数的能量分布,可构建目标的"形状指纹",为类别区分和相似度计算提供量化依据。实验表明,二阶频谱强度与椭圆长轴/短轴尺寸正相关,高阶非零频谱则反映了目标偏离椭圆的复杂程度。

与实例分割方法的对比进一步凸显了FSM的优势:在保持目标级特征完整性的同时(避免像素级分割导致的目标破碎),数据量仅为分割结果的1/100-1/1000,大幅降低了存储和传输成本(图10)。

05 结论与未来展望

FSM模型通过傅里叶级数将目标检测从边界框时代推向曲线方程时代,实现了精度与效率的双重突破。其创新点在于:

  1. 构建傅里叶级数编码机制,实现任意形状目标的精确描述
  2. 设计ROM算法解决标注起点干扰问题,加速模型收敛
  3. 引入傅里叶频谱特征,丰富目标语义表示维度

未来研究可向三维扩展,通过多方向傅里叶级数描述立体目标表面,为三维检测、形状分析等任务提供新方法。该研究不仅推动了目标检测技术的发展,更为计算机视觉中形状建模提供了可借鉴的数学框架。


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k