极市导读
本文瞄准图像中物体显著程度预测问题,提出了一种新颖的上下文感知超图神经网络框架。通过深入分析大规模的显著物体数据集,揭示了场景上下文对于物体显著程度预测的重要性,并据此构建了一个能够捕捉场景语义关系并预测物体显著程度的深度模型HyperSOR。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
1.论文简介
本文介绍发表于IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI 2024)上的工作“HyperSOR: Context-aware Graph Hypernetwork for Salient Object Ranking”。该工作瞄准图像中物体显著程度预测问题,提出了一种新颖的上下文感知超图神经网络框架。通过深入分析大规模的显著物体数据集,揭示了场景上下文对于物体显著程度预测的重要性,并据此构建了一个能够捕捉场景语义关系并预测物体显著程度的深度模型HyperSOR。该模型在显著性程度预测和场景图生成等任务上均展现出了SOTA性能。本文的主要贡献如下:
1.建立了一个大规模的显著物体排序(Salient Object Ranking,SOR)数据集,并提供了物体分割掩模、显著值和场景图的标注。
2.深入挖掘了显著物体排序的任务特点,并获得了关于场景上下文与物体显著程度之间相关性的一些发现。
3.提出了一个新颖的基于上下文感知的超图网络框架HyperSOR,通过显式学习场景图来利用场景上下文引导显著物体排序。
论文地址:https://ieeexplore.ieee.org/document/10443257
数据集地址:https://github.com/MinglangQiao/SalSOD
2. 数据库构建与分析
本文构建了一个新的数据库SalSOD,包含24,373张图像,以及图像内显著物体的多重标注:1) 语义分割掩膜和物体框,2) 物体显著值和显著程度排序,3) 场景图。下图展示了数据集的构建过程:(I)通过结合SALICON中的眼动标注数据和COCO的分割掩膜进行物体显著程度标注,(II)通过手动筛除不良样本进行标注细化,(III)通过清洗和对齐Visual Genome中的场景图获取场景图标注。图2展示了构建数据集的部分样例。
基于构建的数据集,我们分析发现,图像中物体的显著值与场景上下文信息密切相关。比如,当图像的场景图标注中,物体与其他对象具有较多的语义关联时,物体越容易具有较高的显著值,如图3所示。其原因可能在于,场景图标注人员在标注过程中,倾向于对显著/主体的物体进行更多的标注[1]。这个现象在场景图数据库和部分图像描述数据库中均有所体现。受此启发,我们提出利用场景图中的物体语义关联引导物体显著程度的预测。
3. 方法
① HyperSOR的总体框架
图4是本文所提HyperSOR方法的框架图,HyperSOR方法由初始图(Initial Graph,IG)模块、场景感知图(scene perception graph,SPG)模块和排序预测图模块(ranking prediction graph,RPG)模块三个部分组成。其中,IG模块主要用于检测和分割物体,提取物体特征并构建融合物体语义与几何特征的初始图表征,供后续的SPG模块和RPG模块使用。SPG模块包含多层图注意力网络,用于学习物体间的语义关联并生成场景图。与SPG模块并行,IG模块的初始图表征也被输入到RPG模块以预测物体的显著性分数。RPG模块包含多层图注意力网络和超图引导网络(Graph hypernetwork),后者可将SPG模块捕获的场景上下文转移到RPG模块以指导物体显著分数的推理。最后,预测的显著分数与相应的分割掩模结合生成显著图。
接下来我们将详细介绍IG、SPG和RPG模块。
② 初始图(IG)模块
在HyperSOR方法中,初始图(IG)模块被用于物体分割和图初始化。
物体分割。 本文应用 Mask R-CNN 进行物体分割, 得到物体区域以及相应的特征图 , 其中 n 是物体的数量。最终, 这些特征图被送入边界框、类别和掩膜头, 以推断出边界框图 、对象类别 和分割掩膜图 。
图初始化。 根据分割结果,构建包含物体表征和物体间关系的初始图。初始图中除了物体节点外,还包含关联节点,以更好地学习场景上下文信息。每个节点由一个初始特征向量表示, 设 表示第 i 个对象节点的初始向量, 而 是第 i 个和第 j 个对象节点之间谓词节点的初始向量,则物体节点和关联节点表示为
在上述方程中, 和 是第 i 个和第 j 个对象的特征图, 而 和 是它们的边界框。此外, 是卷积块, 用于将特征图投影到高维特征向量中, 而 是联合函数, 用于获得两个边界框的联合区域。
与物体检测中的对象提议类似, IG 模块为输入图像中的物体提供关联提议。为此, IG 模块估计物体间存在关联的置信度分数, 然后过滤掉不必要的关联, 并保留重要的关联。具体地, 设 表示三元组 的两条边的置信度分数, 则可通过考虑对象的语义和几何分数来计算, 如下所示:
其中 和 分别为物体 i 和 j 的类别概率。 表示映射函数, 将边界框 和 映射为高维向量。在获得所有关联的置信度分数 后, 保留得分最高的 条边作为初始关联。最后, 使用初始节点特征和保留的关联构建初始图, 然后将其输入到 SPG 模块和 RPG 模块进行场景图生成和显著分数预测。
③ 场景感知图(SPG)模块
基于前文的数据分析, 物体的显著值与场景上下文高度相关, 因此本节设计了一个场景感知图模块来生成输入图像的场景图, 并捕捉场景上下文信息用于引导显著分数预测。SPG 模块包括 N 层多路径图注意力 (multi-path graph attention, MGA) 模块, 这些模块被用于更新初始图中每个节点的特征。SPG 模块的最后一层生成场景图, 包括每个对象的预测类别 和谓词 。
MGA模块。 初始图中包括了物体节点和谓词节点,前者包含三种连接方式,即物体→谓词、谓词→物体和物体→物体;而后者包含两种连接方式,即物体→谓词,谓词→物体。
对应地,我们在MGA块中为更新物体和谓词节点的特征设计了两条独立的路径。如下图所示,两种类型的节点通过两条路径分别进行节点特征的聚合与更新。
在物体节点更新路径中,三种类型的邻居节点分别被聚合以更新每个物体节点的特征。
具体来说,以第i个对象节点作为目标节点,邻居节点包括:
(1)在三元组⟨主语→谓词→宾语⟩中,目标节点为主语时的邻居谓词节点。对于这些节点,我们将特征集记为 ,目标节点是主语}。
(2)在三元组⟨主语→谓词→宾语⟩中,目标节点作为宾语的邻近谓词节点。对于这些节点,我们将特征集记为 ,目标节点是宾语}。
(3)其他物体节点。对于这些节点,我们将特征集记为 。这里我们参照[3]在聚合时连接所有物体节点的方式,以捕捉物体节点之间的潜在关系。
于是,第i个物体节点的特征 可以按照以下方式进行更新:
其中, 和 表示三个不同参数的图注意力网络[3](graph attention network,GAT)。这里选择GAT作为聚合函数主要基于以下两点考虑:1) GAT可以学习不同邻居节点的重要性并以注意力的方式进行聚合,因此对于场景图生成和物体显著分数预测的任务十分有效。(2) GAT在特征聚合方面具有较好的计算效率,因为它可以通过自注意力和参数共享的方式在不同的节点上并行计算。
在谓词节点的更新路径中, 按照类似的方式进行谓词节点特征的聚合与更新。在节点的关系三元组 $
其中, 和 是两个不同的 GAT 网络, 而 表述 更新后的特征。
④ 排序预测图(RPG)模块
本节设计了RPG模块预测每个物体的显著值,进而得到物体的显著程度排名。与SPG模块类似,RPG模块也是建立在N层网络结构上,其中每层包含一个MGA块和一个超网络引导(hypernetwork guidance, HG)模块。其中,MGA模块用于更新图中的节点特征,而HG模块用于传递SPG模块学到的场景上下文信息。如下图所示,RPG模块的最后一层输出 个物体的显著值 ,它们与相应物体的分割掩模结合,生成SOR的最终显著性图。下面介绍HG模块的详细结构。
HG模块。 即使对于同一类型的物体,其显著值也会随着场景上下文的变化而变化。因此,在RPG模块中,推断物体显著值的方式应根据场景上下文动态变化。对此,我们设计了HG模块,将SPG模块中的特征所包含的场景上下文信息转化为RGP模块中的模型参数,从而动态引导RGP中的特征更新过程。如图6(b)所示,HG模块结合了多头和超网络机制。以输入初始图中的第 个物体节点为例, 和 分别表示第 个物体节点的输入和输出的特征, 表示 SPG 模块中更新后的物体特征, 则 HG 模块的输出特征 可以在 条件下通过一个动态全连接层 获得:
在上述方程中, 是一个可学习的矩阵, 用于降低输入特征的维度, 以减少计算复杂度。此外, 和 是全连接层 的可学习权重和偏置, 由两个多层感知机 (MLP) 生成, 即 ) 和 。如图 所示, MLP 的输入由 和 组成, 其中 为二者相加时的超参数。
为提高模型的学习能力,我们进一步设计了多头结构的HG模块,通过多个并行的超网络头来共同引导特征更新过程。假设HG块中有M个头,则M头HG块的结构图6 (b)右侧的子图所示,该结构可以表述如下:
其中, 是一个可学习的矩阵, 它通过线性变换恢复输出特征的维度。在 HG 块中, 每个谓词节点的特征 也更新为 , 其更新方式与物体节点 相同。
4. 实验与结果
① 评价指标
为了评估显著物体排序的性能,本文采用了3个现有的评价指标,即 siris显著物体排序指标(siris’ salient object ranking,SSOR)、分割感知显著物体排序指标(segmentation-aware SOR,SA-SOR)和平均绝对误差(mean absolute error,MAE)。此外,本文还提出了一个新的评价指标 — 对称显著物体排序指标(symmetrical salient object ranking,SYSOR),其综合考虑了模型输出中物体过度预测和预测不足的情形。如图7所示,当预测显著图中存在冗余物体时,SSOR和SA-SOR可能无法准确地评估结果。
为了解决该问题,本文提出了一种新的指标SYSOR, 通过正向和反向两次匹配分别计算预测结果和标注结果的相关系数,然后取二者的平均值作为评估结果。因此,SYSOR既能够处罚预测结果中缺失物体的情况,也能处罚存在冗余物体的情况。具体而言,给定标注的显著物体,首先计算标注的分割掩膜与预测的分割掩膜之间的IoU,并根据计算结果匹配标注物体在预测物体中对应的对象。对于没有匹配上的物体, 将其对应的预测物体的显著等级设置为 0 作为处罚。设 表示标注物体的显著性等级, 表示经过匹配后的预测物体的显著等级。另一方面, 基于预测物体在标注物体中进行匹配, 并获得 和 。通过这种方式, 当预测物体中存在缺失物体或者冗余物体时, 都会导致 SYSOR 的结果下降。最终, SYSOR 的计算过程可以表述为
其中, 为计算相关系数的操作。数学上,上式的第一项能够处罚预测结果中的缺失物体,第二项能够处罚预测结果中的冗余物体。如图7所示,SYSOR指标给出的结果更加合理。
② 显著物体排序任务评估
针对显著物体排序任务,我们在SalSOD、Siris和PASCAL-S数据库上均进行了实验。
从表格1可以看出,在SalSOD数据库上,本文的HyperSOR方法在4个指标上都显著超过了11个对比方法。特别地,相比于第二好的方法,HyperSOR在SYSOR和SA-SOR指标上分别获得了0.028和0.061的提升,提升幅度分别为4%和9.3%。此外,相比于RSDNet[120]、Liu[124]和Fang[127], 本文方法将SYSOR指标分别提升了0.188、0.047和0.028。在其他数据库上,本文方法在大部分指标上依然超过了对比方法。此外,从图8可以看出,本文HyperSOR方法的显著图结果更加接标注结果。上述结果表明,HyperSOR能够在各种场景下更准确地分割物体,并对物体显著程度进行更准确地排序。
③ 消融实验
IG模块作用分析。 为了分析IG模块的作用,将初始图的关联提议作为二分类任务。
具体地,对比了IG模块与三种同期领先的方法在VG150[219]测试集上的性能,包括IMP[219]方法(Iterative Message Passing IMP)、 MSDN[227]方法(Multi-level Scene Description Network)和Graph RCNN[217]方法。图9画出了本文方法的SPG模块和三种基准方法的ROC曲线。
从实验结果可以看出,IG模块的效果要好于基准方法,这验证了IG模块的有效性。
HG模块作用分析。 首先,将RPG模块中的HG模块移除掉,记为“w/o HG”。然后,将HG模块中的超网络分别替换为经典的特征操作,包括特征拼接、特征求和、特征相乘。在表格2中,这几种模型分别记为“HG-CONCAT”、“HG-SUM”、“HG-MULTI”。从表2中可以看出移除HG模块后模型性能显著下降。此外,可以看出与“w/o HG”相比,特征拼接、特征求和、特征相乘等操作可以提高显著物体排序的性能,但仍旧低于使用超网络的HG模块。上述结果表明:在HG模块中使用超网络能够更有效地利用与显著物体排序相关的上下文信息,适用于不同的视觉场景。
④ 场景图生成任务评估
为了验证了HyperSOR方法生成场景图的效果,对SPG模块在VG150上进行场景图生成评估,并与IMP[219]、 Unbiased[230]、 MSDN[227]和Graph RCNN[217]方法进行比较。生成的场景图在两个子任务上进行评估:场景图检测(scene graph detection, SGDet)和场景图分类(scene graph classification, SGCls)。如表3所示 ,SPG模块的SGDet和SGCls指标均高于基准方法。这表明SPG模块能够有效捕捉图像中的上下文信息并生成场景图。
总结与展望
本文提出了一种场景上下文感知的显著物体排序方法。具体地,本文构建了一个包含24,373张图像的显著物体排序数据库,并在显著物体及其显著程度标注的基础上,引入了场景图标注数据。基于该数据库进行分析,发现物体的显著值与场景上下文信息密切相关。受此启发,设计了一种场景上下文感知的超图网络模型用于显著物体排序。在本文方法中,构建了一个初始图模块检测物体并构建基于语义和几何特征的初始图表征。此外,设计了一个基于图神经网络的多层场景图感知模块捕捉上下文信息并生成场景图。同时,设计了一个基于超网络的排序预测图模块,动态地传递场景上下文信息并引导显著物体排序。充分的实验表明:本文所提的HyperSOR方法在三个显著物体排序数据库上均超过了十一种领先的对比方法。
在未来的工作中,探索HyperSOR方法的实际应用将是一个有趣的研究方向。比如,模型预测的显著图可以被用在多种计算机视觉和多媒体任务中,包括定位感兴趣区域、图像压缩、物体追踪和图像质量评价等。此外,将本文方法扩展到视频领域也是一个有意义的方向,比如设计动态的图神经网络学习物体在不同帧上的时序关联。
参考文献
1.Visual genome: Connecting language and vision using crowdsourced dense image annotations, IJCV, 2017
2.Graph r-cnn for scene graph generation, ECCV, 2018.
3.Graph Attention Networks,ICLR, 2018

公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

