大数跨境
0
0

ACM MM 2021|BIGO联合北大提出建模时尚设计师的创作流程,用于非对齐时尚编辑任务

ACM MM 2021|BIGO联合北大提出建模时尚设计师的创作流程,用于非对齐时尚编辑任务 BIGO技术
2021-08-23
2
导读:第一个解决手绘图驱动的非对齐时尚编辑问题的模型。

BIGO CV团队联合北京大学STRUCT实验室,在ACM MM 2021发表了一篇关于时尚编辑的论文Edit Like A Designer: Modeling Design Workflows for Unaligned Fashion Editing。该工作试图建模时尚设计师的创作流程,提出了非对齐时尚编辑的新任务,允许设计师通过编辑手绘设计图来修改服装实物图。为了解决实物图与手绘图之间巨大的结构差异导致建立映射关系困难的问题,该工作提出新的框架UFE-Net,引入联合训练策略促使对齐和生成任务协同提升,渐进式地优化图像编辑的效果。实验表明,UFE-Net能够生成高质量的编辑实物图,所需编辑区域具备合理形状和逼真纹理,并与手绘图语义对应。在非编辑区域,则能够确保与原图保持一致。UFE-Net在非对齐时尚编辑任务上相比其他方法具有显著优势。



1 引言

随着现代社会对时尚和审美的需求日益增长,越来越多的人开始尝试时装饰品的个性化定制,时尚编辑也因此受到广泛关注。时尚编辑(Fashion Editing)是指用户对时尚相关的图像视频进行交互式操作的任务,例如虚拟化妆、人体姿态及服饰迁移、虚拟试穿等等。本文的工作重点在于服装实物图(Fashion Item)的编辑。

此前,服装实物图的编辑依靠用户设定的属性标签、绘制的简笔画等,直接在服装实物图上做编辑。然而,在现实的时尚设计流程中,设计师倾向于借助手绘设计图(Design Draft)来表达他们的灵感,并通过手绘图灵活选择编辑的粒度,从而便捷地修改服装设计方案,而并非直接修改实物图。举个例子,设计师可以即粗粒度地改变整件上衣的颜色,也可细粒度地调整衣领。尤其对于没有设计经验的普通用户来说,遵循这样的设计流程去做时尚编辑是更自然、更可行的。换言之,就是先在手绘图上做编辑,之后再渲染得到修改后的实物图,如图1所示。

图1 设计师的时尚编辑工作流程


本文所提的工作建模了这一设计工作流程,即手绘图驱动的时尚编辑。该任务旨在通过对手绘图的灵活编辑,实现对服装实物图的自由操纵。我们的目标是,编辑后的实物图在编辑区域应准确反映手绘图的修改,且具有良好的生成效果——轮廓清晰,纹理丰富,没有伪影,同时,能够在非编辑区域与原实物图保持一致。

然而,这一任务的主要挑战在于实物图和手绘图之间存在着巨大的视觉差异,很难找到它们之间像素级的对应关系。图2展示了实物图和手绘图的示例。现有的基于机器学习有监督模型的图像转换方法,例如Pix2pix[1]、Pix2pixHD[2]、SPADE[3],都要求在像素层面上严格对齐;无监督方法如CycleGAN[4],面向的是不成对的跨域图像转换。而在本任务中,实物图和手绘图成对,但视觉上不对齐。因此,这些方法均不适用。D2RNet[5]首次解决非对齐实物图与手绘图转换的问题,但它是为图像转换而并非图像编辑设计的,因此其 “实物-手绘-实物”循环转换的生成结果在编辑区域和非编辑区域都存在着严重的形状扭曲和纹理失真,远未达到时尚编辑的要求。

图2 UFE-Net的非对齐时尚编辑结果


对此,我们提出了一个新的手绘图驱动的时尚编辑框架,以建模真实的设计工作流程,即非对齐时尚编辑网络UFE-Net(Unaligned Fashion Editing Network)。UFE-Net主要由三个关键模块组成,包括实物图与手绘图转换(Fashion Item and Design Draft Translation)模块、对齐驱动的时尚编辑(Alignment-Driven Fashion Editing)模块、范例引导的优化(Reference-Guided Refinement)模块。其核心思想是,在使用模型学习准确的视觉对齐,并允许强视觉鲁棒性的编辑操作,这两个任务之间进行联合学习,并通过这两个任务的协同作用来提升彼此的性能。

具体来说,首先将实物图映射到对应的手绘图,以便用户做编辑。之后,我们不再寻找完美的循环一致性转换,转而从编辑过的手绘图转换得到粗糙的编辑实物图,并仅将其作为范例(Reference)。接着,在范例的指导下,对齐驱动的时尚编辑模块对原始实物图做对齐和编辑。最后,由范例引导的优化模块进一步优化其形状和外观,最终得到高质量的、逼真的编辑结果。实验结果表明,在手绘图驱动的时尚编辑任务中,我们提出的UFE-Net相比其他方法具有显著的优势。

总的来说,我们的工作主要包含3个创新点:

1)为了建模现实世界的时尚设计工作流程,提出一个新的手绘图驱动的时尚编辑框架,使用户能够像专业设计师一样,通过修改手绘图来方便自然地编辑服装实物图。

2)提出一个新的非对齐时装编辑网络UFE-Net,融合了实物图到手绘图的转换、从粗到细的对齐、基于特征的编辑、形状和外观优化等关键步骤,渐进式地渲染以得到逼真的编辑实物图结果。UFE-Net是第一个解决手绘图驱动的非对齐时尚编辑问题的模型。

3)提出一个对齐驱动的编辑模块,该模块利用对齐和编辑任务之间的协同作用,来提高彼此的性能,使编辑的实物图与原图准确对齐,并在编辑区域内生成高质量的编辑结果。



2 方法

受时装设计师的创作流程启发,我们提出了新颖的非对齐时尚编辑网络UFE-Net。图3展示了UFE-Net的测试阶段流程。

图3 UFE-Net的测试阶段流程


给定一张服装实物图   ,首先通过一个R2DNet转换网络生成对应的手绘图   。用户编辑手绘图得到   ,并提供指示编辑区域的掩膜   。 之后,    经网络生成编辑后的实物图   ,具体来说,首先通过一个D2RNet转换网络生成粗糙的编辑实物图   ,然后对齐驱动的时尚编辑模块   联合执行   和   的对齐和编辑,得到对齐的编辑实物图   。 最后,经范例引导的优化模块   对   的结构和纹理做优化提升,得到高质量的最终生成结果    



2.1 实物图与手绘图转换模块

UFE-Net的第一阶段是要构建实物图和手绘图之间的循环转换,使得用户能够在实物图转换得到的手绘图上做编辑,而不是直接编辑实物图,并转换得到粗糙的编辑实物图。

在现有的图像转换算法中,我们采用了实物-手绘双向转换框架D2RNet[5]。它由子模块R2DNet和D2RNet组成,前者实现实物图到手绘图的转换,后者则用于反向过程。给定一个目标实物图   ,可以得到其手绘图   。然后用户对   进行编辑,获得编辑后的手绘图   。最后,D2RNet生成编辑后的实物图   。

虽然D2RNet在一定程度上实现了时尚编辑,但其生成结果远未令人满意。首先,D2RNet不能保证   和   在非编辑区域的一致性。其次,由于实物图和手绘图之间存在巨大的结构差异,D2RNet在循环转换过程中难以保持合理的形状和外观,使得在编辑区域的生成效果不理想。因此,我们必须在后续阶段进一步提高   的质量。



2.2 对齐驱动的时尚编辑模块

上一阶段得到了粗糙的编辑实物图   ,第二阶段我们提出对齐驱动的时尚编辑模块   ,目标是对齐   和   ,并以   作为范例来编辑   ,这两个步骤联合进行,进而得到质量显著提升的编辑结果   。为了保持非编辑区域的不变,还需要用户提供掩膜   指示   中的编辑区域。因此,该模块可以表述为   。

首先分析第二阶段面临的主要挑战:

1)原实物图   不一定是图像对齐问题中的“有效对齐目标”。例如,如果要增加裙子的长度,   的整件衣服就会缩小,以便为新增的裙子部分腾出“扩展空间”。这样,   与原实物图   在非编辑区域就无法直接对齐了。为此,我们提出了一个由粗到细的对齐方案,即先通过全局对齐   调整   的衣服尺寸,之后再通过局部对齐   将   对齐到调整后的   。

2)原图   和编辑后的   在编辑区域存在较大差异,导致难以预测掩膜区域内图像之间的准确对应关系。直接使用传统的图像对齐算法,在编辑区域内会产生严重的失真。

3)在时尚编辑任务中,图像编辑往往是在较大的区域内进行的,例如修改袖子,甚至是修改整件下衣。仅由图像对齐驱动,要在如此大的编辑区域内鲁棒地预测准确的光流是非常困难的。

对此,我们设计了对齐驱动的时尚编辑框架。其中,基于光流的局部图像对齐   和基于特征的图像编辑   需要联合训练,以提升这两个任务的性能。直观来说,来自   的梯度反馈可以促使   更好地感知全局语义信息,进而实现更准确的光流预测。

总的来说,对齐驱动的时尚编辑模块   由全局对齐(Global Alignment)子模块𝑔𝑔,局部对齐(Local Alignment)子模块   ,以及基于特征的编辑(Feature-based Editing)子模块   组成。


2.2.1 全局对齐

粗糙的编辑实物图   和原实物图   在衣服布局上存在明显差异,对此,我们希望仅通过缩放和平移   来对齐   ,以避免结构和纹理的变形。

首先,使用预训练的衣服关键点检测器[6],检测   和   中衣服的四个关键点:衣领处的最高两点   ,以及上下装交界处的中间两点   。

对于缩放变换,依照宽度缩放比例   和高度缩放比例   ,对   进行变换:   

      其中   是点   的坐标,   和   分别表示   和   的衣服关键点。

对于平移变换,平移   使其衣服的中间两点能够与   中对应的两点重合。

至此,全局对齐子模块变换   得到   。需要注意的是,全局对齐模块无需训练,仅在测试阶段使用。


2.2.2 局部对齐

给定   、   以及经全局对齐的   ,局部对齐子模块   的目标是基于其非编辑区域信息,进一步在编辑区域做局部校准,使   对齐   。我们采用了基于光流的图像对齐模型RAFT[7],以准确估计图像对之间的局部位移。

具体来说,为了避免编辑区域内不相关信息的影响,我们将编辑区域遮挡掉   ,其中   表示逐元素矩阵乘法。之后,我们使用改进的RAFT来预测光流   ,与原始RAFT不同的是,   模块以四通道张量作为输入:   ,其中   是RGB图像对,   是沿通道拼接操作,O是全零的掩膜。掩膜能够帮助   定位编辑区域,并鼓励网络关注周边信息,以进行准确的光流估计。最后,   被变形到   上,得到局部对齐的结果:   ,其中   。


2.2.3 基于特征的编辑

在编辑过的图像和原始图像之间学习图像对齐是一个巨大的挑战,因为在编辑区域与原图是没有对应关系的。我们的思路是同时学习对齐和编辑,这两个任务可以相互受益:只有准确的对齐才能提升编辑子模块的编辑质量,反之,又鼓励对齐子模块找到更好的对应关系。因此,我们提出要联合训练   以及基于特征的编辑子模块   。

基于特征的编辑子模块   采用编码器-残差层-解码器架构,其关键思想是在特征域中做编辑,以提升鲁棒性。对于待编辑的全局对齐结果   ,以及作为范例的局部对齐结果   ,通过共享编码器分别提取特征   和   。   被下采样到   的大小,得到   。我们采用基于特征的编辑,将   的掩膜区域的信息复制到   的对应区域:   。得到的融合特征   被送入残差层和解码器,重建编辑后的结果   。

综上所述,对齐驱动的时尚编辑可以表述为:

 
  

2.2.4 网络训练与损失函数

图4展示了UFE-Net的训练阶段流程。

图4 UFE-Net的训练阶段流程


我们以对抗的方式联合训练对齐和编辑,鼓励两个任务相互促进。为了稳定训练,我们提出了一个渐进的训练策略,包括以下三个主要步骤:

1)使用伪标签预训练局部对齐子模块   。伪标签的构造方式是用随机光流   对实物图   形变得到   。同时,随机生成一个掩膜   。这样,   以   和   作为输入。我们计算预测光流与真实光流   之间的   损失。令   为   预测的光流序列,   为迭代次数,损失函数为: 

2)为了加速网络收敛,我们固定   ,以   和   为输入,预训练基于特征的编辑子模块   。

3)使用真实数据   和随机掩膜   ,联合训练对齐和编辑任务。

在最后两个步骤中,我们采用了SN-PatchGAN[8]作为判别器   ,通过对抗学习实现更好的训练效果。损失函数包括图像层面的   损失和特征层面的感知损失   。在损失函数中我们为编辑区域增加了更高的权重,鼓励网络专注于在该区域。损失函数为:


  其中   ,   是VGG中第𝑖层的特征,   是第𝑖层的权重,   是编辑区域的权重。

关于对抗损失,我们采用Hinge损失: 
      联合训练的总的损失函数为:   



2.3 范例引导的优化模块

对齐驱动的编辑模块可以实现服装实物图的由粗到细校准,并以   为范例在特征域实现一定程度的鲁棒编辑,但是由于   本身的质量不高,最终生成的编辑结果难免还是会带有伪影。

为此,我们设计了范例引导的优化模块   进行后处理,目标是去除编辑结果的伪影,并优化其整体形状和外观。   同样采用编码器-解码器架构,其中使用了DeepFillv2[8]的门控卷积,可依据范例来动态选择特征。不同于   中直接复制粘贴的操作,   以   、   、   为输入,学习基于   的非编辑区域的信息来提升   的编辑区域的效果,能够生成逼真的编辑结果,保持编辑区域与其他区域的像素间的协调。最终,得到优化后的编辑实物图   ,这也是UFE-Net整个网络的输出。

关于训练过程,首先在大型时尚数据集DeepFashion[9]预训练   ,为了构建伪范例图像,对原始实物图   做了随机扭曲、高斯模糊等操作。然后,在真实数据上对模型进行微调。为了让网络专注于优化特定区域,在训练过程中还添加了上衣、下衣、袖子等特定形状的掩膜。

关于损失函数,使用   损失和感知损失   来监督最终编辑结果的质量,并使用Hinge loss进行对抗训练。    

𝐺𝑟的总的损失是:

 


3 实验及结果分析

UFE-Net主要在D2R数据集[5]上进行了实验。D2R数据集由成对的256×256实物图与手绘图组成。在非对齐时尚编辑任务上,UFE-Net与D2Rnet[5]、Poisson Blending[10]、Pix2pix[1]、DeepFillv2[8]等方法做对比。实验的定性结果如图5所示。UFE-Net在视觉效果上显著优于其他方法,能够依据编辑后的手绘图,生成对应的高质量的实物图,并能保持非编辑区域的不变。

图5 UFE-Net与各方法的定性结果对比


定量评估方面,使用Fréchet Inception Distance(FID)分值衡量真实图像和合成图像之间的距离。FID分值越低则图像总体质量越高。如表1所示,UFE-Net取得了最低的FID分值,表明了其生成的结果在视觉质量上最佳。


表1 非对齐时尚编辑的定量结果对比


此外还进行了主观评价研究,随机选取10组,每组包含5种方法的结果图。15位志愿者对5张结果图的综合质量打分(1-5分)。分数越高说明图像质量越高。如表2所示,UFE-Net获得了最高分,再次表明其具有最好的视觉质量。


表2 非对齐时尚编辑的主观评价结果对比


由于大多数普通用户没有时装设计的经验,难以像专业设计师那样绘制精美的手绘图。因此,使用现有的素材,例如网络上的卡通服装图片来修改手绘图会更可行。图6展示了使用网络卡通素材编辑手绘图的例子,我们把卡通图中的红色裙子直接粘贴到手绘图上,UFE-Net也能生成具有清晰结构和细节的实物图。


图6 使用卡通图像对实物图做编辑的结果


为了验证UFE-Net各模块的有效性,我们做了消融实验:

1)分析对齐驱动编辑模块中各组件的效果。由于原始   和编辑后   在编辑区域并不匹配,因此难以直接找到它们之间的准确对应关系。我们引入掩膜来处理编辑区域的不匹配问题。如图7所示,在局部对齐子模块   中,如果直接预测   和   之间的光流,得到的   的形状和纹理就会发生严重形变,进一步会影响最终的输出   。

图7 掩模引导的局部对齐在处理不匹配问题中的效果对比


如图8所示,如果在测试阶段去除   模块,当下衣长度改变时,UFE-Net将无法对齐编辑区域的衣服部分。如果在训练阶段舍弃   或   ,编辑区域的衣服形状将严重扭曲,细节也会严重丢失,验证了只有通过联合学习对齐和编辑任务,才能产生高质量的编辑结果。

2)从框架整体进一步分析模型设计。如图8所示,如果   被移除,范例引导的优化模块   就直接依据粗糙的编辑结果   来推断输入实物图的掩膜区域,未做任何的对齐。可以看到,在编辑区域内的衣服轮廓没有得到合理调整,纹理也没有丰富。这是由于   在编辑区域内存在严重的形状和纹理失真,因此   难以在低质量的范例的引导下学习到更好的优化。

而如果舍弃   ,编辑结果中衣服的轮廓会变得模糊不清,外观也不理想,这意味着   更关注编辑结果的结构,对于外观的优化能力有限,因此   在网络中是必须的。

图8 UFE-Net消融实验的结果对比



4 结论

我们的工作建模了现实的设计工作流程,提出手绘设计图驱动的时尚编辑任务,允许普通用户像设计师一样,通过编辑对应的手绘稿来便捷和自然地修改服装的实物图。我们据此提出一个新的非对齐时尚编辑网络UFE-Net,渐进地实现从粗到细的对齐,基于特征的编辑,以及进一步的结构和外观优化,以获得高质量的编辑结果,在编辑区域内与手绘图语义对应,同时保持了非编辑区域的不变。此外,我们还提出了一种对齐驱动的编辑方法,该方法通过联合学习对齐和编辑任务,使之相互促进,进而获得更准确的对齐效果和更鲁棒的编辑结果。未来我们将会把这一框架推广到更普遍的非对齐图像到图像转换任务中。


参考文献<上下滑动>

[1] Phillip Isola, Jun Yan Zhu, Tinghui Zhou, and Alexei A. Efros. 2017. Image-to-Image Translation with Conditional Adversarial Networks. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition. 5967–5976.

[2] Ting Chun Wang, Ming Yu Liu, Jun Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. 2018. High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition.

[3] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, and Jun-Yan Zhu. 2019. Semantic image synthesis with spatially-adaptive normalization. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition. 2337–2346.

[4] Jun Yan Zhu, Taesung Park, Phillip Isola, and Alexei A. Efros. 2017. Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks. In Proc. Int’l Conf. Computer Vision. 2242–2251.

[5] Yu Han, Shuai Yang, Wenjing Wang, and Jiaying Liu. 2020. From Design Draft to Real Attire: Unaligned Fashion Image Translation. In Proc. ACM Int’l Conf. Multimedia. 1533–1541.

[6] https://github.com/svip-lab/HRNet-for-Fashion-Landmark-Estimation.PyTorch.

[7] Zachary Teed and Jia Deng. 2020. Raft: Recurrent all-pairs field transforms for optical flow. In Proc. European Conf. Computer Vision. Springer, 402–419.

[8] Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen, Xin Lu, and Thomas S Huang. 2019. Free-form image inpainting with gated convolution. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition. 4471–4480.

[9] Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, and Xiaoou Tang. 2016. DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition.

[10] Patrick Pérez, Michel Gangnet, and Andrew Blake. 2003. Poisson image editing. In Proc. ACM SIGGPRAH. 313–318.


      ▼版权声明

转载本网站原创文章需要注明来源出处。因互联网客观情况,原创文章中可能会存在不当使用的情况,如文章部分图片或者部分引用内容未能及时与相关权利人取得联系,非恶意侵犯相关权利人的权益,敬请相关权利人谅解并联系我们及时处理。

【声明】内容源于网络
0
0
BIGO技术
BIGO技术官方沟通平台
内容 39
粉丝 0
BIGO技术 BIGO技术官方沟通平台
总阅读6
粉丝0
内容39