大数跨境
0
0

Tunnel Try-on: 阿里最新视频试衣生成算法

Tunnel Try-on: 阿里最新视频试衣生成算法 极市平台
2024-05-09
0
↑ 点击蓝字 关注极市平台
编辑丨极市平台

极市导读

 

Tunnel Try-on 是第一个基于Diffusion 的视频虚拟试衣模型,通过使用焦点隧道、隧道增强、环境编码等技术,Tunnel Try-on能够适应真实场景中多样的人物和相机相对运动关系。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

项目主页地址:https://mengtingchen.github.io/tunnel-try-on-page/

Arxiv地址:https://arxiv.org/abs/2404.17571

机构单位:华中科技大学 人工智能与自动化学院 里巴巴 拍立淘团队

视频试衣作为一项极具挑战性的任务,在先前的研究中尚未得到很好的解决。该任务的主要难点在于同时保留服装的细节和保持视频时序的连贯性。面对这些困难,我们提出一种基于扩散模型的框架,名为Tunnel Try-on。

首先我们发现,由于人物运动和相机运镜,需要重点关注的服饰区域往往占比较小,且大小和位置都在不断变化,因此Tunnel Try-on在输入视频中提取一个焦点隧道Focus Tunnel,作为服装相关区域的特写镜头,以更好地保留服装的细节。同时我们发现,简单的逐帧独立截取会带来Tunnel区域的不连续性,同时丢失了大部分的上下文信息。于是我们进一步利用卡尔曼滤波使Focus Tunnel平滑过渡,并将Tunnel的位置等信息注入注意力层,以提高生成视频的连续性。此外,我们还设计了一个环境编码器,以提取隧道之外的视频上下文信息作为辅助信息。借助这些技术,Tunnel Try-on能够保持服装的细节,同时保证稳定流畅的视频生成结果。Tunnel Try-on作为首个基于扩散模型的视频试衣工作,为视频试衣的规模化商业应用奠定了坚实的基础。

效果展示

之前的视频试衣方法只聚焦于贴身上衣(如T恤、卫衣等)的试衣,这并不能满足多类目服装的真实应用需求。Tunnel Try-on通过高效的模型设计和大规模的数据从而在不同的类目下都展现出惊艳的效果。

1.多类型的上装试衣

从夏款挂脖背心到春秋卫衣外套再到冬季大衣羽绒服,Tunnel Try-on都能在视频中完美呈现服饰状态,广泛的适用类目使得Tunnel Try-on呈现出巨大的应用潜力。

2.多类型的下装试衣

同样的,Tunnel Try-on能轻松实现长款和短款的下装(包括裙子和裤子)的换装,甚至将裙子在行走过程中的摆动都精准展现。

背景

视频虚拟试衣旨在将给定的服装穿在视频序列中的目标人物身上。它需要同时保留服装的外观和人物的动作。它不仅为消费者提供了更真实的交互式体验,使他们能够在不需要进行实际试衣的情况下探索服装选择,还能为商家极大降低展示视频的拍摄成本,提高视频质量,是服饰乃至时尚行业至关重要的算法技术之一。

尽管对视频试衣的研究并不多见,但图像试衣已经得到了广泛的研究,并随着扩散模型的发展取得了非常显著的进展。与图像试衣相比,视频试衣提供了服装在运动状态下更全面的展现形式。一个直接的方法是将图像试衣方法用来逐帧处理视频。然而,这必然会导致帧间显著的不一致,从而产生不可接受的生成结果。一些方法已经探索了视频虚拟试衣,它们通常利用光流预测模块来对试衣生成器生成的帧进行变形,以增强时间一致性。ClothFormer还对变形模块的输入进行了时间平滑操作。尽管这些视频试衣的探索取得了稳步的进展,但大多数只解决了简单的场景、单一的衣服类型、固定的视角和重复单调的人体动作情况下的视频虚拟试衣,如VVT数据集。这明显落后于图像虚拟试衣的标准,也未能满足实际应用的需求。我们分析认为,与基于图像的设置不同,视频试衣的主要挑战在于同时保留服装的细节和生成连贯的动作。

为了解决复杂自然场景中视频试衣所面临的挑战,我们提出了一个称为Tunnel Try-on的新型框架。我们从基于图像的虚拟试衣的强大基线开始,利用一个Denoising U-Net作为主要分支(Main U-Net),并利用一个Reference U-Net来提取和注入给定服装的精细细节(Ref U-Net)。通过在Main U-Net的每个阶段后插入时间注意力,我们将这个模型扩展到视频中进行虚拟试衣。

然而,这个基本解决方案并不足以处理真实世界视频中的常见难例。我们观察到,在视频中,人物通常会出现只占一个小区域的情况,并且随着相机的移动,人物所处区域的位置和大小可能会发生剧烈变化。因此,我们提出在给定的视频中挖掘一个“隧道(Tunnel)”,以提供人物试衣区域的稳定特写镜头。

具体来说,我们对每个帧进行区域裁剪,并放大裁剪区域,以确保人物试衣区域居中且大小适中。这一策略最大限度地发挥了模型保持参考服装细节的能力。同时,我们利用卡尔曼滤波技术来重计算裁剪框的坐标,并将焦点隧道的位置信息注入时间注意力中。这样,我们可以保持裁剪视频区域的平滑度和连续性,从而显著提升视频生成结果的时序一致性。此外,虽然隧道内的区域值得更多关注,但外部区域可以为服装周围的背景提供全局上下文。因此,我们设计了一个环境编码器。它提取隧道外的全局特征,并将它们整合到Main U-Net中,以增强背景的生成。

大量实验证明, Tunnel Try-on显著优于其他视频虚拟试衣方法。总的来说,我们的贡献可以概括为以下三个方面:

1.我们提出了Tunnel Try-on,这是第一个基于Diffusion的视频虚拟试衣模型,在复杂场景中展现出最先进的性能。

2.我们设计了一种新颖实用的技术,构建Focus Tunnel增强关注服装区域以实现更强的服饰细节表达能力。

3.我们设计并开发了几种增强策略,如将卡尔曼滤波器对Focus Tunnel进行平滑处理,以及利用隧道信息和环境上下文优化注意力,从而进一步提高生成质量。

方法

图1

1.视频试衣整体流程

如图1所示,给定一个输入视频和一张服装图像,Tunnel Try-on首先提取一个焦点隧道,放大人物试衣区域,以更好地保留细节。经过放大后的一系列特征,包括背景特征、噪声和服装掩码,通过通道拼接后被输入到Main U-Net中。同时,Tunnel Try-on使用Ref U-Net和CLIP编码器来提取服装图像的特征表示,并通过Ref-Attention和Env-Attention将其注入到Main U-Net中。此外,人体姿态信息被加入到隐空间特征中以辅助生成过程,隧道信息也被整合到Temporal-Attention中以生成更一致的运动。另外,一个环境编码器被用来提取全局上下文作为额外的指导。

1.1图像试衣基线

Tunnel Try-on的基线(灰色模块)主要由两个 U-Net 组成:Main U-Net 和Ref U-Net。Main U-Net 初始状态为inpainting模型。Ref U-Net对参考服装的细粒度特征进行编码。此外,该基线还采用 CLIP 图像编码器来捕获目标服装图像的高级语义信息,例如整体颜色信息。具体来说,Main U-Net 接受形状为B×9×HxW的9通道张量作为输入,其中B、H和W分别表示batch大小、图像高度和宽度。这9个通道包括服饰区域被掩码的视频帧(4个通道)、噪声(4个通道)和遮挡服装的掩码(1 个通道)。为了增强对生成视频中人物运动的指导,进一步提高视频保真度,我们将姿态图作为额外的控制信息,通过多个卷积层组成的姿态编码器对其进行编码,再将其添加到隐空间特征中。

1.2适应视频试衣

为了使图像试衣模型适应视频处理,我们在Main U-Net的每个阶段之后插入了时间注意力。具体来说,时间注意力对相同空间位置上的不同帧之间的特征进行Self-Attention,以确保帧之间的平滑过渡。在视频输入下,Main U-Net的输入特征在时间维度得到扩展,即新增帧数f维度。因此,输入形状变为B×9×f×H×W。同时,在Ref-Attention中,来自Ref U-Net的特征被重复f次,并和Main U-Net中的去噪特征沿图像宽度方向拼接。随后,将拼接后的特征沿空间维度拉平后,输入Self-Attention模块,Self-Attention输出特征只保留去噪特征部分。

在进行视频试衣时,我们在输入视频中提取一个焦点隧道,并放大焦点隧道内的区域以强调服装细节信息。为了增强视频的一致性,我们利用卡尔曼滤波器来平滑隧道,并将隧道信息注入到时间注意力中。同时,我们设计了一个环境编码器,以捕获每个视频帧中的全局上下文信息作为辅助线索。总体来说,如图1底部彩色框所示,在进行视频试衣时,Main U-Net主要利用三种类型的注意力模块,利用多种控制条件,增强生成视频的时空一致性。

2.焦点隧道设计

在图像虚拟试衣任务中,目标人物通常处于图像中心位置,并且占据了图像的很大一部分。然而,在视频虚拟试衣中,由于人物的运动和摄像机的相对运动,视频帧中的人物可能出现在边缘或占据整个图像较小的部分。这种输入会降低模型保持服装细节信息的能力,导致视频生成结果的质量下降。为了增强模型保留细节的能力,更好地利用从图像试衣任务中学习到的服装细节保持能力,我们提出了“焦点隧道”策略。具体来说,根据试衣服装的类型,我们利用人体姿态图来确定上半身或下半身的最小包围框。然后根据预定义的规则来外扩边界框的坐标,以确保该包围框覆盖所有衣服。

通过上述方法得到的边界框序列类似于聚焦在人体需要试衣部位的信息通道,因此我们将其称为输入视频的“焦点隧道”。接着,利用得到的焦点隧道来放大模型的输入序列。具体来说,焦点通道内的视频帧被裁剪、填充和调整尺寸以统一输入分辨率,形成新的输入视频。在输出时, Main U-Net的输出和原始输入视频通过高斯滤波进行混合,从而得到自然过渡的输出视频。

3.焦点隧道增强

由于焦点隧道提取过程中的包围框仅在单帧内计算,没有考虑帧间关系,因此由于人物和摄像机的运动,可能导致焦点隧道的轻微抖动或跳变。与自然捕获的视频相比,这些抖动和跳变可能导致焦点隧道看起来不自然,增加了时间注意力收敛的难度,并导致生成视频的时序一致性降低。针对这一挑战,我们提出了隧道平滑策略和隧道信息感知的注意层。

3.1隧道平滑策略

为了使焦点通道平滑, 达到类似于相机自然运动的变化效果, 我们提出了焦点通道平滑策略。具体来说, 我们首先使用卡尔曼滤波对焦点隧道进行校正, 可以表示为 Algorithm 1。 表示在时间 使用卡尔曼滤波器的预测方程计算得出的焦点隧道的平滑坐标。 表示在时间 观察到的隧道位置, 即平滑之前的隧道坐标。在卡尔曼滤波器之后, 我们使用低通滤波器进一步过滤由异常情况引起的高频抖动。

3.2隧道信息嵌入

焦点隧道的输入形式相当于增加了相机运动的幅度。为了缓解时间注意力模块在平滑该形式输入时面临的挑战,我们引入了隧道信息嵌入。隧道信息嵌入接受一个三元组输入,包括原始图像尺寸、隧道中心坐标和隧道尺寸。隧道信息嵌入首先将这个三元组编码为1D绝对位置编码,然后通过线性映射和激活函数获得相应的嵌入。随后,将焦点隧道嵌入作为位置编码添加到时间注意力中。通过隧道信息嵌入,时间注意力集成了关于焦点隧道尺寸和位置的信息,防止焦点隧道跨度过大时造成的对齐错误,有助于提高焦点隧道内视频生成的时序一致性。

4.环境特征编码

焦点隧道策略会导致环境上下文的部分丢失,增加了在mask区域内生成合理的背景的难度。为了解决这个问题,我们提出了环境编码器。环境编码器由一个冻结的CLIP图像编码器和一个可学习的线性映射层组成。首先,mask后的输入图像通过CLIP图像编码器进行编码,以捕捉有关环境的整体信息。随后,通过可学习的线性映射层对输出的CLIP特征进行微调。最终,环境编码器的输出特征作为键和值,通过Env-Attention中的交叉注意力被注入到去噪过程的特征中。

5.训练和测试流程

训练阶段可以分为两个阶段。在第一阶段中,模型不包括时间注意力、环境编码器和隧道嵌入。此外,我们冻结了VAE编码器和解码器的权重,以及CLIP图像编码器的权重,只更新Main U-Net、Ref U-Net和姿态编码器的参数。在这个阶段,模型使用成对的图像试衣数据进行训练。此阶段的目标是使模型学习对服装特征的提取和保持能力,旨在实现高保真度的图像级试衣结果。在第二阶段,所有策略和模块被整合进来,模型在视频试衣数据上进行训练。在这个阶段,只更新时间注意力和环境编码器的参数。此阶段的目标是使模型学习视频帧间信息,同时利用第一阶段学到的图像级试衣能力,从而生成具有高时空一致性的试衣视频。

在测试阶段,输入视频经过隧道提取以获取焦点隧道。然后,输入视频与条件视频在焦点隧道内放大并拼接后,输入Main U-Net。Main U-Net在Ref U-Net、CLIP编码器、环境编码器和隧道嵌入的输出的引导下,逐步从噪声中恢复出试衣视频。最后,生成的试衣视频经过隧道混合的后处理步骤和焦点隧道外的原视频融合,得到所需的完整试衣视频。

实验

1.真实场景视频试衣能力测评


如视频5所示,在各种实拍场景下,Tunnel Try-on对各种款式的服饰都能呈现自然的试衣效果。

2.不同运动场景视频试衣能力测评

2.1人物相对相机远近运动


如视频6所示,人物相对相机远近运动时,任务在图像中的大小在不断变化。Tunnel Try-on能适应这种人物大小的变化,即使人物占比很小时仍然能产生高保真的视频生成结果。

2.2 人物相对相机平行运动


如视频7所示,人物相对相机平行运动时,人物在图像中的位置发生显著变化。Tunnel Try-on能适应人物在图像中的位置的变化,当人物从视频外逐渐走到视频中间时,Tunnel Try-on依然能生成真实且连贯的试衣效果。

2.3 相机视角变化


如视频8所示,当相机相对人物进行环绕运镜时,人物在视频中所处的背景在不断变化。Tunnel Try-on能适应人物所处背景的显著变化,生成与背景自然融合的试衣结果。

展望

Tunnel Try-on 作为第一个基于Diffusion 的视频虚拟试衣模型,在学术场景和现实场景下的视频试衣效果都远超以前的各种方案。通过使用焦点隧道、隧道增强、环境编码等技术,Tunnel Try-on能够适应真实场景中多样的人物和相机相对运动关系。此外,Tunnel Try-on还能适应复杂的背景和多样的服饰类目款式,产生高保真度的试衣结果。作为服饰行业的一个实用型工具,Tunnel Try-on为未来虚拟试衣应用的研究提供了新的思路。未来,我们会进一步提高生成结果稳定性,从分辨率、时长、细节等多个维度进一步提升视频质量,为用户提供更好的穿搭体验。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k