大数跨境
0
0

素描重识别的主观性研究

素描重识别的主观性研究 极市平台
2023-09-22
1
↑ 点击蓝字 关注极市平台
作者丨王正
编辑丨极市平台

极市导读

 

文提出了一个多目击者描述的新数据集,包含超过 4,763 个草图和 32,668 张照片,并且对每个身份提供了多个草图。为了推动素描重识别技术的发展,本工作还设定了三个基准(大规模、多风格、跨风格)。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

摘要:

在行人重识别领域,我们通常依赖于密集分布的摄像头来匹配照片中的人物。然而,在实际情况下,有时我们可能只拥有目击者提供的主观线索,比如一张素描。这种情况被称为“素描重识别”(Sketch re-ID)。以往的研究只关注了模态差异,事实上,主观性是另一个重大挑战。

我们提出一个多目击者描述的新数据集,它有两个方面的特点。

  1. 规模大。它包含超过 4,763 幅素描和 32,668 张照片,是最大的素描重识别数据集。

  2. 多视角、多风格。我们的数据集为每个身份提供多个素描。目击者的主观认知为同一个人提供了多个视角,而不同画师的绘画风格则为素描风格提供了变化。为了推动素描重识别技术的发展,我们还设定了三个基准(大规模、多风格、跨风格)。

关键词:素描重识别;多查询检索;主观认知;风格差异

简介

行人重识别用于匹配摄像头系统中的人物。但在实际应用中,摄像头并不总是能够捕捉到所需的照片。有时,我们只能依赖目击者的线索,比如手绘素描或自然语言描述。本研究关注了使用素描作为查询的情况,即素描重识别。与传统的法医面部素描匹配不同,我们使用全身素描来匹配照片数据库。素描重识别面临模态差异、主观性、风格差异等挑战,而以往的研究主要关注模态差异。我们的工作将注意力转向了素描中的主观性问题。

主观性导致的差异化描述

目前该研究已发布在ACM Multimedia 2023会议上,题目为“Beyond Domain Gap: Exploiting Subjectivity in Sketch-Based Person Retrieval”

论文地址:https://arxiv.org/abs/2309.08372

数据集和代码地址:https://github.com/Lin-Kayla/subjectivity-sketch-reid

数据集

为了解决目击者的主观认知和画师的绘画风格所带来的主观性问题,我们收集了一个更加实际的数据集,名为“Market-Sketch-1K”。

数据集示例

建模过程

Market-Sketch-1K数据集是基于Market-1501数据集构建的。Market-1501是一个大规模的行人重识别数据集,包含1501个行人的32668张图片,这些组成了Market-Sketch-1K的图片部分。

素描部分的构造过程为:1)从Market-1501 数据库中随机抽取498个身份作为参考子集。2)对于每位画师,我们向他/她展示随机选择的每种身份的照片。这些照片在视角、光线、姿势等方面都有所不同。这种变化迫使艺术家形成对目标人物的总体感知、而不是简单地记住照片。

为每位画家展示不同视角的图片

3)收集到所有素描后,我们将其扫描成电子版,并进行人工核对,裁剪纸张的白边,将素描图像缩小到相同的比例,增强草图线条,最后将创建的草图存档。

数据集特点

Market-Sketch-1K具有以下独特特点:1)大规模。我们的数据集比之前的“PKU-Sketch”数据集大得多(4.7K张素描 vs 200张)。2)多角度和多风格。我们的数据集为每个身份提供多个素描,每个素描都反映了不同目击者的主观认知,因此为同一人物提供了多个视角。每张素描由不同的画师绘制,提供了多种不同的素描风格。

数据集划分

利用感知度量指标SSIM和SCOOT,我们计算了每两张素描间的相似度。下图可见,绝大多数情况下,同风格间的素描相似度比同行人间的高。也就是说,比起识别图中的行人,画家的风格更容易辨别。这样的差距,正说明视角差异、画家认知差异和风格差异带来的主观性问题更为显著。

通过丰富和多样化数据集,我们能够实现两个主要目标:1)探讨多种视角和素描风格对行人重识别的影响,2)整合主观性数据,构建更具普适性和稳健性的算法。这一研究为素描重识别的发展提供了重要的贡献。

模型

为了解决主观性引起的难题,我们设计了一个可扩展的素描重识别系统,适用于单一查询和多查询情境,并且能够灵活处理不同数量的输入素描。这个系统包含两个有效的设计:

1.融合多位目击者提供的主观查询:我们引入了一个非局部(NL)融合模块,将来自不同目击者的多个主观素描进行融合。这个模块能够过滤掉多个素描中的噪音,同时保留了长距离的相关性信息。

2.引入客观信息作为指导:在训练阶段,我们引入了一个AttrAlign模块,将属性用作隐式蒙版,用于对齐主观素描和相应的照片。我们发现,这个融合模块不仅有助于处理主观性,还有助于处理风格的变化,使我们的模型能够在未见过的素描风格或不同的数据集上表现良好。

模型概览。训练和测试时均可使用单/多查询检索。模型包括两个特征提取器。在多查询检索时,采用非局部融合模块,将多张素描的特征融合。此外,提出了AttrAlign模块,将行人属性转换为隐性遮罩,来引导不同域的特征对齐。

实验结果

实验证明,在Market-Sketch-1K数据集上,实验效果大幅超过现有跨模态重识别模型。利用Market-Sketch-1K数据集进行预训练,能在PKU-Sketch上提高22%平均精度,说明研究提出的数据集能作为宝贵的预训练资源。

在Market-Sketch-1K上的结果
在PKU-Sketch上的结果

(更多实验结果,特别是多风格、跨风格实验结果,请看原文。)

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k