极市导读
Meta 用 280 万人工 + 6610 万合成数据“零蒸馏”训练出 PLM,在 40 项基准上与 GPT-4o 正面硬刚,并开源首个细粒度视频理解评测集,为黑盒时代划出一条可复现的透明航线。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
面部关键点检测是计算机视觉中的一项基础且重要的任务,在人脸识别、表情分析、虚拟现实等领域有着广泛应用。长期以来,基于热力图回归(Heatmap Regression)的方法是该领域的主流,并通常依赖于 Soft-argmax 这一可微调操作来优化模型。
来自普渡大学的研究者们对这一“标准操作”发起了挑战。在一篇名为《Heatmap Regression without Soft-Argmax for Facial Landmark Detection》的论文中,他们提出了一种全新的训练目标,该方法基于经典的结构化预测框架,完全摒弃了 Soft-argmax。实验结果表明,他们的方法不仅在 WFLW、COFW、300W 三大主流基准上取得了SOTA(State-of-the-Art)性能,并且实现了约 2.2倍 的训练加速,同时保持了更高或相当的精度。
-
论文标题: Heatmap Regression without Soft-Argmax for Facial Landmark Detection -
作者: Chiao-An Yang, Raymond A. Yeh -
机构: 普渡大学 (Purdue University) -
论文地址: https://arxiv.org/abs/2508.14929 -
项目地址: https://github.com/ca-joe-yang/regression-without-softarg
研究背景
在面部关键点检测任务中,模型需要精准定位人脸上的预定义点位,如眼角、鼻尖、嘴角等。基于热力图回归的方法通过为每个关键点生成一个概率热图来实现定位,热图上的最亮点(即最大值)所在的位置即为预测的关键点坐标。
然而,直接取最大值的 argmax 操作是不可微分的,这意味着它无法将梯度回传,也就不能用于神经网络的端到端训练。为了解决这个问题,Soft-argmax 作为一种可微分的近似方法被广泛采用。它通过对热力图进行 softmax 操作,将其转换为概率分布,然后计算所有坐标的期望值(加权平均)来得到最终的关键点位置。
尽管 Soft-argmax 解决了可微性问题,但它是否是最佳选择?研究者认为,这种近似可能会在优化过程中引入偏差,尤其是在热力图存在多个峰值(bimodal)的情况下,Soft-argmax 的输出可能无法准确反映真实的 argmax 结果,从而导致优化困难。
上图展示了单峰和双峰热力图的例子,尽管两种热力图的 argmax 不同,但 Soft-argmax 的结果却可能完全相同,这揭示了其潜在的歧义性问题。
核心方法
作者提出,我们不必局限于 Soft-argmax 这条路。他们回归到经典的深度结构化学习(Deep Structured Learning) 框架来构建新的训练目标。
结构化预测损失
该方法的核心思想是直接优化关键点坐标的“分数”,而不是热力图本身。对于一个真实的关键点 y,模型会为所有可能的位置 ŷ 计算一个分数 F(ŷ, X; θ)。训练的目标是让真实位置 y 的分数 F(y, X; θ) 显著高于其他任何错误位置 ŷ 的分数。
这通过一个损失函数来实现,该函数会惩罚那些分数过高的“错误”预测,尤其是那些离真实位置很近但分数却很高的预测。这种方法避免了对 argmax 进行微分,因为梯度是针对分数函数 F 计算的,而不是 argmax 的输出。
下图直观对比了 Soft-argmax 和新方法在训练过程中的梯度更新差异。可以看到,新方法(Ours)的更新方向非常直接:持续增加正确位置(y=5)的响应,同时抑制其他所有位置的响应。而 Soft-argmax 的更新则显得犹豫和不稳定,导致收敛更慢。
图像感知的标签平滑
关键点标注本身存在“语义模糊性”,即不同的人对同一个关键点的具体位置可能有细微的看法差异。为了让模型学习到这种不确定性,作者提出了一种图像感知的标签平滑(Image-aware label smoothing) 技术。
该技术利用图像的边缘信息(例如面部轮廓)来指导标签的平滑方向。它首先生成一个伪边缘热图,然后将其与以真值点为中心的高斯热图结合,最终生成一个既包含位置先验又符合图像结构的平滑标签分布。这使得模型能够更好地处理标注噪声,学习到更鲁棒的特征。
下图对比了真实世界中多人标注的模糊性与该方法生成的平滑标签,两者展现出了高度的相似性,证明了该方法的有效性。
实验与结果
研究者在三个广泛使用的面部关键点检测数据集 WFLW、COFW 和 300W 上进行了充分的实验。
性能对比
在 WFLW 数据集上,新方法在归一化平均误差(NME)、失败率(FR)和曲线下面积(AUC)等多项指标上均超越了包括 STAR、HIH 在内的先前 SOTA 方法。
在 WFLW 的六个具有挑战性的子集(如大姿态、遮挡、模糊等)上,该方法同样表现出色,在四个子集上取得了最佳性能。
在 COFW 和 300W 数据集上的结果也同样具有竞争力,证明了该方法的普适性和有效性。
收敛速度分析
新方法最显著的优势之一是训练效率。下图展示了 NME 随训练轮数的变化曲线,可以清晰地看到,新方法(Ours)的收敛速度远快于基于 Soft-argmax 的 SOTA 方法 STAR。例如,在 WFLW 数据集上,STAR 需要 44 个 epoch 才能达到的性能,新方法仅需 20 个 epoch。
下图进一步可视化了训练过程中热力图的变化。使用 Soft-argmax 的方法在第5个 epoch 时热力图仍然存在多个峰值,而新方法在第2个 epoch 时就已经非常聚焦于正确的位置。
消融实验
消融研究证实了结构化预测损失和图像感知标签平滑两个模块的有效性。实验表明,两者结合使用时能达到最佳性能。
定性结果
从可视化结果来看,新方法在处理一些具有挑战性的情况(如侧脸、遮挡)时,对面部轮廓的预测(如下颌线)比先前的方法更为精准。
总结
这篇论文通过回归经典,重新审视了面部关键点检测领域长期以来对 Soft-argmax 的依赖。作者提出的基于结构化预测的训练框架,不仅在理论上更具优势,在实践中也取得了“又快又好”的卓越成果。这项工作不仅为面部关键点检测提供了新的SOTA方案,也鼓励了研究社区去重新思考和挑战其他领域中那些被视为“理所当然”的设计选择,有望启发更多简洁、高效和直观的算法设计。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

