极市导读
以人为中心的感知(Human-Centric Perception, HCP),例如检测、分割、2D/3D姿态估计和属性分类是计算机视觉领域的一个长期存在的问题。本文提出了一种单阶段、多人、多任务的HCP统一框架HQNet,该方法以学习统一的人体查询表示(称为 Human Query)为中心,可抽取单人的实例特征并应用到复杂的多人场景,在多任务HCP模型中具有最佳性能,并且与特定的单任务HCP模型相比也具有竞争力。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
论文链接:
https://arxiv.org/abs/2312.05525
数据&代码地址:
https://github.com/lishuhuai527/COCO-UniHuman
动机
HCP包括以人为目标的检测、分割、姿态估计、属性分类、3D网格估计等多种任务(图1),对于体育分析、虚拟现实、增强现实等多种工业应用至关重要。
此前的大多数方法采用了多阶段的范式——使用人体检测器来获得每个人的框,然后将框内区域裁剪出来,再使用特定的模型来完成每个单独的感知任务(如姿态估计、实例分割)。
这些方法存在三个显著缺点:
1,流程的总体表现高度依赖于检测,若检测结果不佳则下游任务将受到严重影响。
2,流程耗时与图像中人的数量正相关,在实时应用中计算昂贵。
3,任务间相互独立,忽视了潜在的任务协同作用。
与之相比,单阶段方法在一次推理中估计所有人的所有属性,效率远高于多阶段;单阶段方法可以让多任务共享对人体结构的共同理解,利用任务间的相关性来提升表现。因此,单阶段多任务的HCP框架有很高的研究价值和应用价值。
然而,现有数据集之间的各种问题阻碍了将所有HCP任务统一到一个通用的框架的研究进展。例如,检测数据集通常是多人场景,而属性数据集通常是裁剪后的单人,二者很难结合使用;再例如,一些单任务数据集是在特定环境下收集的,例如实验室环境、监控视角获取,这与通用场景存在偏差。
为了解决这个问题,我们为MSCOCO数据集增加了丰富的HCP标注,包括人的检测框、分割图、2D肢体关键点、年龄属性、性别属性、3D Mesh等标注,覆盖了大部分HCP任务,拥有丰富的场景多样性,可用来训练单阶段多任务感知模型,也适合对多任务模型进行全面评估。进一步地,我们提出了一个统一、高效、可拓展、效果好的单阶段多任务HCP模型HQNet(Human Query Net)。
方法
本文旨在开发一个单阶段框架来支持各种HCP任务,关键是学习一个可以在各种HCP任务中普遍应用的人体表示。为实现这一目标,我们以query based检测为基础,设计了HQNet的架构(如图2所示),研究将每个人的实例表示为单个HumanQuery的可行性。
我们希望最大限度地共享各种HCP任务之间的知识,所以多任务共享了大部分的网络结构,仅各自的任务头(task-specific heads)是非共享的,经HumanQuery抽取后的共享特征送往不同的任务头来实现各任务的预测。
Task-specific heads的具体设计如下:用一个二分类头来预测人体分类的置信度;对检测任务,使用Deformable DETR[3]的bbox回归头,同为坐标预测任务的2D关键点与检测共享坐标参考点,并对每个关键点额外预测一组偏移量。对于像素级的分割任务,参考MaskDINO[4],引入backbone的浅层特征来恢复特征的空间尺寸并生成降采样segmentation mask;对属性分类任务,使用对应类别数量的分类器来实现不同数量的多分类任务;对于3D Mesh估计,使用pose head和shape head分别回归10-d的shape和72-d的pose参数,再经过SMPL模型获得3D Mesh。
在训练阶段,为了将GT和Query进行匹配以计算loss,我们设计了HumanQuery-Instance Matching机制,让一个HumanQuery表示一个人的实例,用每个HumanQuery的多任务输出和每个GT实例的多任务标签计算代价矩阵,为每个GT人实例匹配到其对应的Query。最终在推理阶段可以实现一次推理获得所有人的所有HCP任务结果。
实验结果
我们在COCO-UniHuman上训练和测试了模型。与其他多任务或单任务模型进行指标对比,如图3所示,HQNet在多任务模型中支持的任务种类最多且指标最好!并且和单任务模型相比也具有竞争力:请勿忽视单阶段模型在推理阶段的巨大经济性优势。
我们用预训练的HQNet在人脸检测任务上进行finetune,结果见图4,我们取得了巨大的优势!这表明HumanQuery学习到了丰富的人体结构特征,具备迁移到其他HCP任务的能力。
此外,我们还验证了HQNet在OCHuman、PoseTrack、HumanART等不同数据集、不同任务上的表现,更多实验可以阅读论文,下面展示一些COCO-UniHuman上的结果可视化:
总结
本篇论文提出了首个大规模HCP数据集COCO-UniHuman和单阶段多任务HCP模型HQNet,以较少的参数量增加支持了当前主流的各种HCP任务,探索了用一个Query表示人体实例的可行性,通过HumanQuery来抽取所有感知任务的通用特征,在各项任务上均取得较好效果,超越现有的单阶段多任务算法。
相关工作:
[1]. Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., Zitnick, C.L.: Microsoft coco: Common objects in context. In: Eur. Conf. Comput. Vis. (2014)
[2]. Joo, H., Neverova, N., Vedaldi, A.: Exemplar fine-tuning for 3d human model fitting towards in-the-wild 3d human pose estimation. In: Int. Conf. 3D Vis. pp. 42–52. IEEE (2021)
[3].Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.: Deformable detr: Deformable transformers for end-to-end object detection. Int. Conf. Learn. Represent. (2021)
[4]. Li, F., Zhang, H., Xu, H., Liu, S., Zhang, L., Ni, L.M., Shum, H.Y.: Mask dino: Towards a unified transformer-based framework for object detection and segmentation. In: IEEE Conf. Comput. Vis. Pattern Recog. pp. 3041–3050 (2023)

公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

