

ACM MM 2024｜基于二维先验学习的三维人物交互重建

极市平台

2024-09-09

↑ 点击蓝字关注极市平台

作者丨ViHuman Lab@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/718197160

编辑丨极市平台

极市导读

本文提出了一种二维监督方法，从野外的二维图像中学习三维人体-物体空间关系的先验知识。加入极市CV技术交流群，走在计算机视觉的最前沿

本文介绍我们组近期发表在ACM MM 2024的关于三维人-物交互重建的工作《Monocular Human-Object Reconstruction in the Wild》。本工作旨在从大规模的二维图片中学习三维环境中人和物体交互先验。本工作由汪婧‍雅教授指导完成。

论文地址：https://huochf.github.io/WildHOI/

代码链接：https://github.com/huochf/WildHOI

摘要

人体与物体之间的交互以及理解人类如何在三维空间中与物体交互是计算机视觉中的一个重要课题。之前的研究从实验室环境中收集的数据集中学习这种先验知识，但由于领域的多样性，这些方法在实际场景中普遍存在泛化困难。

为克服这一限制，我们提出了一种二维监督方法，从野外的二维图像中学习三维人体-物体空间关系的先验知识。我们的方法利用基于归一化流模型的神经网络学习数据集中每张图像的人体-物体关键点布局和摄像机视角的先验分布。通过在后优化阶段应用该先验来微调人体和物体之间的相对姿态，我们在人体-物体重建任务上说明了从二维图像中学习到的先验的有效性。

为了在自然场景下的图片中验证我们的方法，我们从YouTube网站收集了WildHOI数据集，该数据集包含在现实场景中与8种物体的各种交互。我们在室内BEHAVE数据集和室外WildHOI数据集上进行了实验。结果表明，尽管我们只利用了二维布局信息，但我们的方法在BEHAVE数据集上几乎能与完全的三维监督方法相媲美，并且在自然场景图像的泛化性和交互多样性方面超越了之前的方法。

问题定义

单目人-物联合重建的目的在于从输入图片中恢复出人体和物体的三维信息 , 考虑到单目重建赛道中人和物体相互遮挡而引发的不确定性和歧义性, 将这个问题建模为概率密度预测而不是单峰估计更为合适, 因此该问题目标在于给出概率密度分布 , 为了从数据集中学习该分布, 基于学习的方法需要每一幅图片中的三维标注, 然而, 由于获取三维标注的成本非常昂贵,难以大规模收集三维人-物交互数据集, 尤其是在自然场景中。因此先前基于学习的方法受到训练数据集分布的限制, 难以推广到多样性较高的自然场景中。

自然场景中人体-物体交互信息大多以2D图片或者视频的形式呈现，这些信息更容易从互联网获取。基于这一观察，我们提出了一种从大规模二维图片中学习三维人-物空间关系先验知识的方法。定义图片中的评分函数为

式中, 是摄像机位姿, 是在相机姿态下的透视投影函数为相机姿态的分布。在上述定义中, 三维信息被投射到不同的图像平面上, 得到。的得分是通过综合不同视角下的二维信息分布得到的, 它被视为原始概率密度分布的近似值。

该定义背后的动机在于, 人与物体之间合理的 3D 空间排列从任何角度观察时都必须看起来相容,反之，人与物体之间 2D 投影布局的相容性意味着相应 3D 空间排列的合理性。在这样的定义下, 目标变成学习的分布以近似原始概率密度。

基于归一化流的先验学习算法

使用归一化流模型来对建模，归一化流模型由归一化层（actnorm layer）、可逆线性层（invertible 1x1 convolution layer）和解耦层（affine coupling layer）堆叠形成，其训练的目标函数为最小化对应的负对数似然。如下图所示，本文所提出的方法利用归一化流模型从大量自然场景图片中学习每个图像平面中人体和物体的二维学习的分布，该归一化流模型将来自高斯分布的样本转换成一种介于三维和二维的中间表示的概率密度分布，该中间表示结合了相机姿态和二维人体和物体在图片中的二维排布信息。为了训练该归一化流模型，收集大量来自互联网的图片，并根据每个视角下人和物体的二维排布信息来对这些图片聚类，使用聚类的结果最优化最大似然来训练该归一化模型。

基于二维先验的重建算法

考虑在给定物体形状模板的前提下, 从单视角图片中重建人体和物体的任务, 在该任务中, 人体由SMPL模型中的形状参数和姿态参数表示, 物体由形状模板的旋转矩阵、平移向量和尺度标量表示。和大多数方法类似, 本文的重建方法采用了预测-优化两阶段的算法框架来从给定的图片中重构出参数。在第一阶段中使用预训练好的模型来预测并初始化人体和物体的位姿, 之后使用迭代式的优化算法来微调人体和物体的位姿, 优化的总目标损失函数为

上式中是SMPL的重投影损失, 是物体的重投影损失, 是人体和物体的正则损失, 为人体和物体之间的接触面损失, 为本文引入的二维先验损失其具体定义为

自然场景人-物交互数据集

为了能够在自然场景中验证本章所提出的算法，本文构建了WildHOI数据集。该数据集包含从YouTube网站上收集的包含各种自然场景中人-物交互的视频数据，该数据集的标注流程如下图所示。

WildHOI数据集包含了在现实世界场景中与8个物体类别的多种交互，每张图片都标注有边界框、蒙版、SMPL参数和人-物关键点。数据集按照4:1的比例划分成训练集和测试集，每个物体类别的训练集中大约包含30k-100k帧，数据集的具体统计数据见下表。

实验结果及分析

在室内BEHAVE数据集和三维监督的方法相比，如下表所示，即使在没有直接访问三维标注的前提下，本文所提出的方法达到了和三维监督的方法近乎相同的重建精度，这说明本文所提出的算法是一种有效的更加监督轻量化的算法。

在自然场景WildHOI数据集中，和无需三维标注的基于优化的算法PHOSA相对比，结果如下所示，本文所提出的方法在各项指标均由于PHOSA，特别是在物体的偏移误差上明显由于PHOSA，由于实验中，PHOSA和本文所提出算法均使用了相同的人体初始化和物体重投影损失，所以在SMPL的重建误差和物体的旋转误差上仅有轻微差异。本文所提出的方法的性能提升在于二维先验损失的引入，通过从大量二维图片中学习强先验知识，在物体的偏移误差上比PHOSA有着更好的表现。

定性分析

在下图中，将本文所提出的方法和PHOSA进行了定性对比。从定性结果可以看出，本文所提出的方法能够精确重建出人体和物体之间的空间关系，在不同场景中，尽管PHOSA的重建结果能够和图片很好的对齐，但是从侧面观察时，重建结果并不正确。而且我们的方法可以处理非接触交互类型，相反,依赖于接触面来约束人体和物体的相对位姿的PHOSA在非接触式交互的情况表现不佳。

但本文所提出的方法在一些例子表现不好，在下图中，展示了本文方法的一些失败样例。

总结

在本文中，探讨了如何从自然场景的二维图像中学习人和物体之间的空间关系的强先验。通过大量实验，展示了即使在不使用任何三维标注或者人体和物体之间三维空间关系的常识的前提下，本文所提出的方法可以在室内实验室场景下构建BEHAVE数据集和室外场景的WildHOI数据集上取得很好的结果。然而，本文所提出的工作仍然存在一些局限性。首先，该方法假设物体的形状是已知的，只聚焦于学习人体和物体的三维空间关系先验。这在物体形状变化很大的真实场景中并不太实用。此外，该方法严重依赖于大量的二维标注数据，而大规模的二维图片数据集并不是容易获得或者这种监督方式并不适用于所有任务。最后，该方法学习的是实例级别的先验而不是类别级先验，这可能对影响到对未见或稀有物体的泛化能力。