大数跨境
0
0

ICLR 2025|首次实现从特征向量生成图片!Vec2Face:简单高效、无限ID生成新范式!

ICLR 2025|首次实现从特征向量生成图片!Vec2Face:简单高效、无限ID生成新范式! 极市平台
2025-04-18
0
↑ 点击蓝字 关注极市平台
作者丨Haiyu Wu
编辑丨极市平台

极市导读

 

本文介绍了ICLR 2025上的一项创新性工作—Vec2Face模型。该模型能够从特征向量生成人脸图像,支持无限生成不同身份的图像,并且生成的图像在人脸识别任务中表现出色,超越了传统真实数据集的性能,为合成数据集的生成提供了新的高效范式。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

1. 亮点

  1. 此工作提出的Vec2Face模型首次实现了从特征向量生成图片的功能,并且向量之间的关系,如相似度,和向量包含的信息,如ID和人脸属性,在生成的图片上也会得到继承。

  2. Vec2Face可以无限生成不同的身份 (synthetic ID) 的图像! 之前的生成式模型 (GAN, Diffusion model, Stablediffusion model) 最多只能生成8万个不同身份的图像[1]。本文中, 利用Vec2Face生成了来自于300K个人的15M张图片。

  3. 用Vec2Face生成的HSFace10k训练的模型,首次在上实现了性能超越同尺度的真实数据集 (CASIA-WebFace[1])。另外,当持续增大合成ID的数量后,精度能够平稳地提高。为合成数据集生成方法提供了新的范式。

论文链接: https://arxiv.org/abs/2409.02979

代码链接: https://github.com/HaiyuWu/Vec2Face

Demo链接: https://huggingface.co/spaces/BooBooWu/Vec2Face

1. 研究动机

现有的人脸合成数据集生成方法是基于与训练模型或者风格迁移模型,然而这些方法普遍存在两个缺点:1)无法有效的生成大量不同的合成ID,2)需要用额外的模型来提高每个ID图片的多样性。这两点要么使得在合成的人脸数据集训练的模型性能表现不佳,要么难以合成大型数据集。因此,我们通过让提出的Vec2Face模型学习如何将特征向量转化为对应的图片,并且在生成时对随机采样的向量加以约束,来实现高质量训练集的生成。这一方法可以轻松解决上述两点问题,而且无需额外的模型进行辅助。此外我们还提出了Attribute Operation algorithm来定向的生成人脸属性,这一优势也可以被用来补足各类人脸任务的数据缺陷。

在性能上,我们生成的0.5M图片规模的训练集在5个测试集(LFW, AgeDB-30, CFP-FP, CALFW和CPLFW)上实现了state-of-the-art的平均精度(92%),并且在CALFW上超越了真实数据集(CASIA-WebFace)的精度,见Table 1。当我们将数据集规模提升到15M的时候,精度达到了93.52%(见Table 2)。

2. Vec2Face训练和生成方法

Vec2Face训练

数据集:从WebFace4M[2]中随机抽取的5万个人的图片。

statistical_information

为了让模型充分理解特征向量里的信息,我们的输入仅有用预训练的人脸识别模型提取出来的特征向量(IM feature)。随后将由特征向量扩展后的特征图(Feature map)输入到feature masked autoencoder(fMAE)里来获取能够解码成图片的特征图。最后用一个图片解码器(Image decoder)来生成图片。整个训练目标由4个损失函数组成。

 用于缩小合成图( )和原图( )之间的差异:

 用于缩小合成图和原图对于人脸识别模型的相似度:

感知损失 [3]和GAN损失  用于提高合成图的图片质量。我们使用patch-based discriminator[4/5]来组成GAN范式训练.

生成

因为Vec2Face仅需输入特征向量(512-dim)来生成人脸图片并且能够保持ID和部分人脸属性的一致,所以仅需采样ID vector并确保   即可保证生成的数据集的inter-class separability。至于intra-class variation,我们仅需在ID vector加上轻微的扰动   就能够在ID一致的情况下实现图片的多样性。

然而,由于在训练集里的大部分图像的头部姿态都是朝前的(frontal),这使得增加随机扰动很难生成大幅度的头部姿态(profile)。因此,我们提出了Attribute Operation(AttrOP)算法。它通过梯度下降的方法调整ID vector里的数值来使得生成的人脸拥有特定的属性。

Eq. 5:

attr_loss

3. 实验

性能对比

我们在5个常用的人脸识别测试集,LFW[6],CFP-FP[7],AgeDB[8],CALFW[9],CPLFW[10],上和现有的合成数据集进行对比。使用的损失函数是ArcFace[11],网络是SE-IResNet50[12]。

Table 1: Comparison of existing synthetic datasets on five real-world test sets. †, *, and ◊ represent diffusion, 3D rendering, and GAN approaches, respectively, for constructing these datasets. We also list the results of training on a real-world dataset CASIA-WebFace.

结果总结如下:1)Vec2Face生成的HSFace10K数据集达到了state-of-the-art的平均精度;2)HSFace10K首次实现了,在同等数据规模下,在CALFW上的精度超越了真实数据集;3)HSFace10K首次实现了GAN范式训练超越其他范式。

扩大数据集规模的有效性

我们将HSFace数据集的规模从0.5M扩大到了15M,达到了现有最大人脸合成训练集的12.5倍。这也使平均精度提高了1.52%。同时,添加了HSFace10K的数据后,CASIA-WebFace数据集在最终的平均识别精度上提高了0.71%。

Table 2: Impact of scaling the proposed HSFace dataset to 1M images (20K IDs), 5M images (100K IDs), 10M images (200K IDs), 15M images (300K IDs). Continued improvement is observed. We also list the performance obtained by training on the real-world dataset CASIA-WebFace and its combination with HSFace10K. The latter combination yields even higher accuracy.

计算资源对比

我们与Arc2Face,state-of-the-art模型,进行了计算资源上的对比。首先Arc2Face的模型是Vec2Face的5倍。其次,Arc2Face在使用LCM-LoRA(https://arxiv.org/abs/2311.05556)的前提下,Vec2Face在一个Titan-Xp GPU上速度达到了Arc2Face的311倍。最后,Vec2Face在重建LFW (in-the-wild)和Hadrian(indoor)图片上也实现了更好的FID。

Table 3: Computing cost and FID measurement of Arc2Face and Vec2Face.

其他实验

AttrOP的影响

此实验表明AttrOP可以有效控制生成图片的质量和人脸属性从而提高特殊人脸属性在数据集中的表达。

衡量现有合成数据集的ID分离度
扰动采样中   对于精度的影响
ID分离度对于精度的影响 (Avg. ID sim越大,分离度越小)

从上表可以看出,虽然ID的分离度会提高模型的性能,但是这个提升随着分离度的增大在逐渐降低。

身份泄露实验

在人脸识别领域中,有效生成新的ID是考量生成模型性能的重要指标之一。我们对比了合成数据集和训练集里ID的相似度从而检测是否合成数据集里包含了真实ID。我们使用0.7作为阈值。从上表可以看出,即使生成5M个ID,也未检测到有身份泄露问题。

References

[1] Learning face representation from scratch

[2] Webface260m: A benchmark for million-scale deep face recognition

[3] The unreasonable effectiveness of deep features as a perceptual metric

[4] Image-to-image translation with conditional adversarial networks

[6] Labeled faces in the wild: A database for studying face recognition in unconstrained environments

[7] Frontal to profile face verification in the wild

[8] AgeDB: The First Manually Collected, In-the-Wild Age Database

[9] Cross-age lfw: A database for studying cross-age face recognition in unconstrained environments

[10] Cross-pose lfw: A database for studying cross-pose face recognition in unconstrained environments

[11] ArcFace: Additive Angular Margin Loss for Deep Face Recognition

[12] Deep residual learning for image recognition

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k