大数跨境
0
0

CVPR 2023|姿态估计也有左脚踩右脚上天的技术?SCAI让HRNet48怒涨5.1AP

CVPR 2023|姿态估计也有左脚踩右脚上天的技术?SCAI让HRNet48怒涨5.1AP 极市平台
2023-05-09
2
↑ 点击蓝字 关注极市平台
作者丨Tau
编辑丨极市平台

极市导读

 

本文提出了一种修正网络,能在完全没有标注的测试样本上进行训练,逐步修正预测结果,带来显著的性能提升。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

这是 CVPR 2023 的一篇姿态估计相关的工作,但是严格来说,本文提出的技术是在其他领域也通用的,作者仅仅是在姿态估计任务上验证了其有效性。

通过上图可以看到,在该技术的加持下,ResNet152、HRNet32、HRNet48 均有 5 个点以上的提升,其中 HRNet48 在 COCO test-dev 上的精度从 75.5 AP 来到了 80.6 AP,这种提升是非常恐怖的。要知道,姿态估计领域在 COCO 上的指标已经非常高了。

需要声明的是,本工作并没有开源,因而有效性有待检验,笔者在这里主要是觉得本文的思路很新颖,因此分享一下。

论文标题:Self-Correctable and Adaptable Inference for Generalizable Human Pose Estimation

论文地址:https://arxiv.org/abs/2303.11180

一边推理一边训练?

本文的核心直接体现在标题中,提出了一种称为“可以自修正和自适应的推理方法” (Self-correctable and adaptable inference, SCAI)。之前的所有工作与技术,在推理时,模型参数都是冻结的。本文的有趣之处在于,提出了一种修正网络,能在完全没有标注的测试样本上进行训练,逐步修正预测结果,带来显著的性能提升。

如果让我对这种技术进行归类,我倾向于它属于一种 Test-Time Augmentation (TTA),因为事实上,本文完全没有去训练姿态估计网络,而是在训练好的姿态模型后面增加了一组修正模型,来对预测结果进行修正,从而取得更好的结果,这与我们常见的 Flip-test、Multi-scale 等 TTA 技术是异曲同工的。

TTA 技术的好处在于,完全不依赖标注数据,是一种可以直接在测试时提升模型精度的技术,姿态估计中大家往往会默认使用 Flip-test,即,除了输入图片本身的预测结果外,还会将图片进行一次水平翻转,用翻转后的图片推理一次,再把结果水平翻转回来,两次推理的结果取平均。这样简单的两次推理,普遍能为模型带来 1-2 个点的精度提升。

而 TTA 的坏处也很明显,就是增加了额外的推理和计算量,而且往往开销都不低,因此这并不是一种应用在实时推理中的技术,更多地用在比赛、刷榜、机器标注等对实时性要求不高的场景。

三个网络

那么,在测试样本上进行训练是如何做到的呢?这里我们直接放出 SCAI 的流程图。SCAI 中一共包含了三个需要训练的网络,并且需要特别提示的是,我们通常的姿态估计网络并不在这里面,SCAI 方法的输入 直接是姿态模型预测的 Heatmap。

预测网络

预测网络的输入是一组关节点 Heatmap,输出是与之相关联的下一个关节点。更具体地讲,预测的是远端关节点,也就是手腕点、脚踝点这种位于肢体最外侧的节点,这些关节点往往具有最大的自由度,作者在误差分析中也发现大部分的预测误差来自于对这些远端关节点的预测。

为了简化问题,作者手工将人体关节点分成了 6 组,从而使得每一组的关节点都是一条直链。

经过分组后,每一组都正好只有 4 个节点,即有一个近端关节点、一个远端关节点,和两个中间节点。我们将近端关节点的 Heatmap 称为 ,远端关节点称为 ,两个中间节点分别为

预测网络的工作就是输入 ,来预测远端关节点的位置,记为

修正网络

修正网络,顾名思义,是要对预测得到的 进行修正,它的输入是 和一个 ,这里的 在文中称为 self-referential feedback error,我们姑且翻译成“自参照反馈误差”,它的来源我们在后面会进行介绍。

通过这两个输入,修正网络会预测一个修正的偏移量 ,这个偏移量可以直接加到原来的 上完成修正,修正后的远端关节点记为

误差反馈网络

修正网络的另一个输入 由误差反馈网络提供,衡量了这次预测的误差,为修正网络提供了重要的参考,那么它是怎么计算出来的呢?

这里作者团队的设计非常巧妙,依然是利用了之前的直链分组推理。既然预测网络可以通过节点 ABC 来预测 D,那么反过来通过 BCD 我们是不是也应该可以预测 A?

误差反馈网络的输入是 ,也就是两个中间节点加上修正后的远端节点,来预测近端关节点 ,而 的误差就可以反映修正结果 的靠谱程度了。

因此,这里 直接为 之差的二范数:

也可以表示成:

如此一来,三个网络各自的输入输出关系就捋清楚了:

由于本工作中用到的符号较多,大家可以多对照图片在脑中过一下流程。

如何训练?

介绍完三个网络后,让我们来看一下网络是怎么训练的。很明显,这三个网络的能力都不是与生俱来的,同样需要在标注数据上进行训练才能获得。

对于预测网络,训练损失就是预测的 与 GT 的误差二范数:

对于误差反馈网络,损失为 与 GT 之差的二范数:

这两个网络某种程度上来说推理过程是对称的,因此损失函数的设计也比较一致,最复杂的要数修正网络了损失函数了,它长这个样子:

先别着急,虽然看起来符号很多,但实际上里面有很多我们已经知道的量,仅仅是换了个符号。

这个损失函数由三个损失组成,我给它们各自起了个名字方便理解,分别是:

  • 远端修正损失: ,用于监督预测网络去预测正确的远端关节点位置
  • 近端误差损失: ,用于监督误差反馈网络去预测正确的近端关节点位置
  • 近端调节损失: 用于监督修正网络更好地进行修正

可以发现,这里又出现了一个新的符号 ,它代表的是用修正之前的旧的 预测出来的近端关节点。

我们知道, 唯一的区别在于,一个使用的是修正后的D,一个是修正前的D,如果经过修正网络后的 D 是更好的,那么自然而然 损失值就会更小,因而 为负,损失值降低,因而促进修正网络的训练。

整个训练阶段,所有网络的损失值产生关系如下:

如何推理?

推理阶段,三个网络共同组成了一个 TTA,在测试时提升预测的精度。如果整个工作到此为止的话,只能说是一个还不错的工作,相当于又训练了一套模型用于后处理时的结果 refine 。

但是本文最有意思的地方在于,这个修正网络并不仅仅在有标注的数据上可以训练,还能在无标注的测试数据上继续训练。

很自然地疑问会是,没有了标注信息,损失如何计算呢?

这里让我们回顾一下误差反馈网络的结果:

它实际上可以看成一个损失函数值,反映的是这次修正后结果的质量,所以整个 SCAI 流程中,误差反馈网络充当的是一个判别器的角色。此时我们再回过头来看看整个流程,顿时会惊呼—— 我 GAN!是你!

在生成对抗网络中,训练好的判别器可以对生成图片的质量进行评估,如果把输入输出的 Heatmap 看成是图片的话,预测网络和修正网络实际上干的是生成器的活。只不过,GAN 中我们想要的是那个生成器,判别器只是工具人,训练完就扔掉了。

在 SCAI 推理阶段,将训练好的判别器进行冻结,它就可以充当损失函数的角色来训练修正网络了,从某种意义上来说,这也算是一种自监督了。

作者在 400 个 batch,25600 个测试样本上进行了相关性分析,可以看到误差反馈网络输出的损失值与修正网络精度之间具有强相关性,相关性系数-0.84.

因此,在测试阶段继续对修正网络进行训练,降低反馈误差,就能提升修正的精度。

实验结果

这里列一些我觉得有意思的实验结果。

消融实验可以看到,即使没有自参照误差,单独的修正网络也能带来 3 个点的提升。加入误差修正网络联合训练后带来了 1.3 个点的提升,而加入推理时训练,则又能产生 0.8 AP 的收益。

一些修正结果可视化:

复杂度分析的部分就可以发现,这个方法是相当的不便宜,比起单独的 HRNet 参数量翻了接近 6 倍。

结语

本文提出了一种自适应自监督的推理方法,能在完全没有标注的测试样本上进行训练,逐步修正预测结果,带来显著的性能提升。

其背后的思想透露出了 GAN 的影子,对人体结构进行分组成直链,然后推理远端节点也隐隐约约让我有种时序建模的感觉,让我一瞬间联想到曾爱玲博士的几篇相关工作,比如我介绍过的 SmoothNet 和用简单 Linear Layer 超越 Transformer 的工作 Are Transformers Effective for Time Series Forecasting?

说到底,这种修正和误差判别,真的需要用 Heatmap 这种高计算复杂度的位置表征作为输入输出么?用一条直链上高置信度的点的结构,去预测下一个点位置,这跟 Masked Modeling 的思想也是相似的,甚至简单得多。上一篇我介绍过的 PCT 只使用坐标值同样可以学习姿态结构特征空间,或许 SCAI 方法也可以简化到使用两层 MLP 完成修正,那在实时推理场景就大有可为了,有兴趣做这个 research 探索的小伙伴也许可以联系我一起讨论交流。

也欢迎关注 MMPose 和我的个人公众号镜子的掌纹,我会坚持更新最前沿的学术论文笔记。

公众号后台回复“CVPR2023”获取最新论文分类整理资源
极市干货
极视角动态推进智能矿山建设,极视角「皮带传输系列算法」保障皮带安全稳定运行!
CVPR2023CVPR 2023|21 篇数据集工作汇总(附打包下载链接)
数据集:垃圾分类、水下垃圾/口罩垃圾/烟头垃圾检测等相关开源数据集汇总异常检测开源数据集汇总语义分割方向开源数据集资源汇总

极市平台签约作者#

Tau

知乎:镜子

计算机视觉算法工程师

研究领域:姿态估计、轻量化模型、图像检索

持续学习,乐于实验总结,分享学术前沿,注重AI技术实用性和产品化


作品精选



投稿方式:
添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿
△长按添加极市平台小编


觉得有用麻烦给个在看啦~  

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读197
粉丝0
内容8.2k