TPAMI 2025 | 武大团队突破！FSD 用傅里叶级数重构目标轮廓，DOTA 数据集 AP50 超 SOTA 6.44%

极市平台

2025-11-10

↑ 点击蓝字关注极市平台

作者丨小白学视觉

来源丨小白学视觉

编辑丨极市平台

极市导读

武大团队把目标轮廓变“连续曲线”，用傅里叶级数一键拟合任意形状，新FSD模型 DOTA AP50 狂涨 6.44%，速度还是SOTA 2.5 倍，检测正式迈入“曲线方程”时代。>>加入极市CV技术交流群，走在计算机视觉的最前沿

在计算机视觉领域，目标检测技术历经两阶段、单阶段及基于Transformer的架构演进，取得了显著进展。然而，传统方法输出的边界框（如(x,y,w,h)或旋转框参数）始终存在信息有限的固有缺陷，难以精准描述目标的真实轮廓。

近日，发表于TPAMI 2025的研究《Enhancing Object Detection With Fourier Series》提出了一种革命性的解决方案，将傅里叶级数引入目标检测，构建了傅里叶级数目标检测（FSD）模型，为该领域开辟了新的研究路径。

题目：Enhancing Object Detection With Fourier Series 利用傅里叶级数增强目标检测
作者：Jin Liu, Zhongyuan Lu, Yaorong Cen, Hui Hu, Zhenfeng Shao, Yong Hong, Ming Jiang, Miaozhong Xu

01 传统方法的局限性与创新动机

传统目标检测模型的核心瓶颈在于对目标形态的描述能力不足。如图1所示，矩形边界框往往只能粗略包围目标，大量背景区域被纳入检测范围；而定向边界框（OBB）虽考虑了角度因素，却因θ与θ+2π的等价性导致损失计算偏差，且无法处理任意形状目标。

现有改进方案同样存在明显短板：基于正态分布的描述仅能拟合椭圆形状，无法应对复杂轮廓；通过关键点描述目标则面临尺度变化适配难题，且难以反映整体轮廓特征。

为此，研究团队提出"Object as a Closed Curve Equation"理念，将目标检测的输出从离散参数升级为连续曲线方程，而傅里叶级数凭借其拟合任意复杂曲线的数学特性，成为实现这一理念的理想工具。

02 傅里叶级数的目标轮廓编码机制

傅里叶级数的核心优势在于能够将任意封闭曲线分解为一系列正弦波与余弦波的叠加。研究中，目标轮廓的x(t)和y(t)坐标被分别编码为两个独立的一维傅里叶级数，通过有限阶数的系数组合即可精确还原原始曲线。

如图2所示，不同阶数的傅里叶级数呈现出差异化的拟合能力：2阶级数可完美拟合椭圆，3阶级数能描述类似鸭蛋的不规则形状，随着阶数提升，曲线细节逐渐丰富，可实现对复杂轮廓的高精度逼近。这种特性使得模型能够通过固定维度的张量描述不同长度的目标轮廓，解决了传统关键点方法的维度不一致问题。

自然图像的拟合结果进一步验证了该机制的有效性（图3）。通过调节傅里叶级数的阶数，模型可在拟合精度与计算效率之间取得平衡，为不同场景下的应用提供了灵活选择。

03 傅里叶级数目标检测模型（FSM）架构设计

FSM模型在经典YOLO架构基础上进行创新性扩展，构建了六分支输出结构（图4）。其中前三个分支保持原有设计，负责输出目标存在置信度和类别信息；新增的三个扩展傅里叶分支则专门回归目标的傅里叶系数，维度为[n_a×(4n-2), H, W]（n_a为锚点数，n为级数阶数）。

每个输出网格单元的傅里叶系数按特定结构组织（图5），包含质心坐标（a₀,c₀）和形状描述系数（a₁,b₁,c₁,d₁,...,aₙ₋₁,bₙ₋₁,cₙ₋₁,dₙ₋₁）。这种结构化设计既保证了目标位置信息的准确传递，又通过高阶系数实现了轮廓细节的精确刻画。

针对标注轮廓起点不一致导致的训练难题，研究团队提出滚动优化匹配（ROM）算法（图6）。该算法通过对真实标签的傅里叶系数进行周期性滚动，找到与预测结果最匹配的相位，有效消除了起点顺序对模型学习的干扰，使训练效率提升约27%。

04 实验验证与性能分析

在多个基准数据集上的实验充分证明了FSM的优越性。在DOTA 1.5数据集上，模型实现了73.3%的AP50，较现有SOTA方法提升6.44%；在UCAS船舶数据集上，AP50达到97.25%，显著超越传统方法。值得注意的是，FSM在保持高精度的同时，推理速度达到R3Det模型的2.5倍，展现出优异的工程应用潜力。

可视化结果直观展示了傅里叶级数的轮廓描述能力：四阶级数即可生成贴合目标的封闭曲线，并通过向量指示主轴方向（图7）；二十阶级数则能捕捉飞机机翼、游泳池边缘等细微轮廓特征，其精度远超传统边界框（图8）。