BIGO CV团队联合北京大学STRUCT实验室,在ACM MM 2021发表了一篇关于时尚编辑的论文Edit Like A Designer: Modeling Design Workflows for Unaligned Fashion Editing。该工作试图建模时尚设计师的创作流程,提出了非对齐时尚编辑的新任务,允许设计师通过编辑手绘设计图来修改服装实物图。为了解决实物图与手绘图之间巨大的结构差异导致建立映射关系困难的问题,该工作提出新的框架UFE-Net,引入联合训练策略促使对齐和生成任务协同提升,渐进式地优化图像编辑的效果。实验表明,UFE-Net能够生成高质量的编辑实物图,所需编辑区域具备合理形状和逼真纹理,并与手绘图语义对应。在非编辑区域,则能够确保与原图保持一致。UFE-Net在非对齐时尚编辑任务上相比其他方法具有显著优势。
1 引言
随着现代社会对时尚和审美的需求日益增长,越来越多的人开始尝试时装饰品的个性化定制,时尚编辑也因此受到广泛关注。时尚编辑(Fashion Editing)是指用户对时尚相关的图像视频进行交互式操作的任务,例如虚拟化妆、人体姿态及服饰迁移、虚拟试穿等等。本文的工作重点在于服装实物图(Fashion Item)的编辑。
此前,服装实物图的编辑依靠用户设定的属性标签、绘制的简笔画等,直接在服装实物图上做编辑。然而,在现实的时尚设计流程中,设计师倾向于借助手绘设计图(Design Draft)来表达他们的灵感,并通过手绘图灵活选择编辑的粒度,从而便捷地修改服装设计方案,而并非直接修改实物图。举个例子,设计师可以即粗粒度地改变整件上衣的颜色,也可细粒度地调整衣领。尤其对于没有设计经验的普通用户来说,遵循这样的设计流程去做时尚编辑是更自然、更可行的。换言之,就是先在手绘图上做编辑,之后再渲染得到修改后的实物图,如图1所示。
图1 设计师的时尚编辑工作流程
本文所提的工作建模了这一设计工作流程,即手绘图驱动的时尚编辑。该任务旨在通过对手绘图的灵活编辑,实现对服装实物图的自由操纵。我们的目标是,编辑后的实物图在编辑区域应准确反映手绘图的修改,且具有良好的生成效果——轮廓清晰,纹理丰富,没有伪影,同时,能够在非编辑区域与原实物图保持一致。
然而,这一任务的主要挑战在于实物图和手绘图之间存在着巨大的视觉差异,很难找到它们之间像素级的对应关系。图2展示了实物图和手绘图的示例。现有的基于机器学习有监督模型的图像转换方法,例如Pix2pix[1]、Pix2pixHD[2]、SPADE[3],都要求在像素层面上严格对齐;无监督方法如CycleGAN[4],面向的是不成对的跨域图像转换。而在本任务中,实物图和手绘图成对,但视觉上不对齐。因此,这些方法均不适用。D2RNet[5]首次解决非对齐实物图与手绘图转换的问题,但它是为图像转换而并非图像编辑设计的,因此其 “实物-手绘-实物”循环转换的生成结果在编辑区域和非编辑区域都存在着严重的形状扭曲和纹理失真,远未达到时尚编辑的要求。
图2 UFE-Net的非对齐时尚编辑结果
对此,我们提出了一个新的手绘图驱动的时尚编辑框架,以建模真实的设计工作流程,即非对齐时尚编辑网络UFE-Net(Unaligned Fashion Editing Network)。UFE-Net主要由三个关键模块组成,包括实物图与手绘图转换(Fashion Item and Design Draft Translation)模块、对齐驱动的时尚编辑(Alignment-Driven Fashion Editing)模块、范例引导的优化(Reference-Guided Refinement)模块。其核心思想是,在使用模型学习准确的视觉对齐,并允许强视觉鲁棒性的编辑操作,这两个任务之间进行联合学习,并通过这两个任务的协同作用来提升彼此的性能。
具体来说,首先将实物图映射到对应的手绘图,以便用户做编辑。之后,我们不再寻找完美的循环一致性转换,转而从编辑过的手绘图转换得到粗糙的编辑实物图,并仅将其作为范例(Reference)。接着,在范例的指导下,对齐驱动的时尚编辑模块对原始实物图做对齐和编辑。最后,由范例引导的优化模块进一步优化其形状和外观,最终得到高质量的、逼真的编辑结果。实验结果表明,在手绘图驱动的时尚编辑任务中,我们提出的UFE-Net相比其他方法具有显著的优势。
总的来说,我们的工作主要包含3个创新点:
1)为了建模现实世界的时尚设计工作流程,提出一个新的手绘图驱动的时尚编辑框架,使用户能够像专业设计师一样,通过修改手绘图来方便自然地编辑服装实物图。
2)提出一个新的非对齐时装编辑网络UFE-Net,融合了实物图到手绘图的转换、从粗到细的对齐、基于特征的编辑、形状和外观优化等关键步骤,渐进式地渲染以得到逼真的编辑实物图结果。UFE-Net是第一个解决手绘图驱动的非对齐时尚编辑问题的模型。
3)提出一个对齐驱动的编辑模块,该模块利用对齐和编辑任务之间的协同作用,来提高彼此的性能,使编辑的实物图与原图准确对齐,并在编辑区域内生成高质量的编辑结果。
2 方法
受时装设计师的创作流程启发,我们提出了新颖的非对齐时尚编辑网络UFE-Net。图3展示了UFE-Net的测试阶段流程。
图3 UFE-Net的测试阶段流程
给定一张服装实物图
2.1 实物图与手绘图转换模块
UFE-Net的第一阶段是要构建实物图和手绘图之间的循环转换,使得用户能够在实物图转换得到的手绘图上做编辑,而不是直接编辑实物图,并转换得到粗糙的编辑实物图。
在现有的图像转换算法中,我们采用了实物-手绘双向转换框架D2RNet[5]。它由子模块R2DNet和D2RNet组成,前者实现实物图到手绘图的转换,后者则用于反向过程。给定一个目标实物图
虽然D2RNet在一定程度上实现了时尚编辑,但其生成结果远未令人满意。首先,D2RNet不能保证
2.2 对齐驱动的时尚编辑模块
上一阶段得到了粗糙的编辑实物图
首先分析第二阶段面临的主要挑战:
1)原实物图
2)原图
3)在时尚编辑任务中,图像编辑往往是在较大的区域内进行的,例如修改袖子,甚至是修改整件下衣。仅由图像对齐驱动,要在如此大的编辑区域内鲁棒地预测准确的光流是非常困难的。
对此,我们设计了对齐驱动的时尚编辑框架。其中,基于光流的局部图像对齐
总的来说,对齐驱动的时尚编辑模块
2.2.1 全局对齐
粗糙的编辑实物图
首先,使用预训练的衣服关键点检测器[6],检测
对于缩放变换,依照宽度缩放比例
对于平移变换,平移
至此,全局对齐子模块变换
2.2.2 局部对齐
给定
具体来说,为了避免编辑区域内不相关信息的影响,我们将编辑区域遮挡掉
2.2.3 基于特征的编辑
在编辑过的图像和原始图像之间学习图像对齐是一个巨大的挑战,因为在编辑区域与原图是没有对应关系的。我们的思路是同时学习对齐和编辑,这两个任务可以相互受益:只有准确的对齐才能提升编辑子模块的编辑质量,反之,又鼓励对齐子模块找到更好的对应关系。因此,我们提出要联合训练
基于特征的编辑子模块
综上所述,对齐驱动的时尚编辑可以表述为:
2.2.4 网络训练与损失函数
图4展示了UFE-Net的训练阶段流程。
图4 UFE-Net的训练阶段流程
我们以对抗的方式联合训练对齐和编辑,鼓励两个任务相互促进。为了稳定训练,我们提出了一个渐进的训练策略,包括以下三个主要步骤:
1)使用伪标签预训练局部对齐子模块
2)为了加速网络收敛,我们固定
3)使用真实数据
在最后两个步骤中,我们采用了SN-PatchGAN[8]作为判别器
关于对抗损失,我们采用Hinge损失:
2.3 范例引导的优化模块
对齐驱动的编辑模块可以实现服装实物图的由粗到细校准,并以
为此,我们设计了范例引导的优化模块
关于训练过程,首先在大型时尚数据集DeepFashion[9]预训练
关于损失函数,使用
𝐺𝑟的总的损失是:
3 实验及结果分析
UFE-Net主要在D2R数据集[5]上进行了实验。D2R数据集由成对的256×256实物图与手绘图组成。在非对齐时尚编辑任务上,UFE-Net与D2Rnet[5]、Poisson Blending[10]、Pix2pix[1]、DeepFillv2[8]等方法做对比。实验的定性结果如图5所示。UFE-Net在视觉效果上显著优于其他方法,能够依据编辑后的手绘图,生成对应的高质量的实物图,并能保持非编辑区域的不变。
图5 UFE-Net与各方法的定性结果对比
定量评估方面,使用Fréchet Inception Distance(FID)分值衡量真实图像和合成图像之间的距离。FID分值越低则图像总体质量越高。如表1所示,UFE-Net取得了最低的FID分值,表明了其生成的结果在视觉质量上最佳。
表1 非对齐时尚编辑的定量结果对比
此外还进行了主观评价研究,随机选取10组,每组包含5种方法的结果图。15位志愿者对5张结果图的综合质量打分(1-5分)。分数越高说明图像质量越高。如表2所示,UFE-Net获得了最高分,再次表明其具有最好的视觉质量。
表2 非对齐时尚编辑的主观评价结果对比
由于大多数普通用户没有时装设计的经验,难以像专业设计师那样绘制精美的手绘图。因此,使用现有的素材,例如网络上的卡通服装图片来修改手绘图会更可行。图6展示了使用网络卡通素材编辑手绘图的例子,我们把卡通图中的红色裙子直接粘贴到手绘图上,UFE-Net也能生成具有清晰结构和细节的实物图。
图6 使用卡通图像对实物图做编辑的结果
为了验证UFE-Net各模块的有效性,我们做了消融实验:
1)分析对齐驱动编辑模块中各组件的效果。由于原始
图7 掩模引导的局部对齐在处理不匹配问题中的效果对比
如图8所示,如果在测试阶段去除
2)从框架整体进一步分析模型设计。如图8所示,如果
而如果舍弃
图8 UFE-Net消融实验的结果对比
4 结论
我们的工作建模了现实的设计工作流程,提出手绘设计图驱动的时尚编辑任务,允许普通用户像设计师一样,通过编辑对应的手绘稿来便捷和自然地修改服装的实物图。我们据此提出一个新的非对齐时尚编辑网络UFE-Net,渐进地实现从粗到细的对齐,基于特征的编辑,以及进一步的结构和外观优化,以获得高质量的编辑结果,在编辑区域内与手绘图语义对应,同时保持了非编辑区域的不变。此外,我们还提出了一种对齐驱动的编辑方法,该方法通过联合学习对齐和编辑任务,使之相互促进,进而获得更准确的对齐效果和更鲁棒的编辑结果。未来我们将会把这一框架推广到更普遍的非对齐图像到图像转换任务中。
参考文献<上下滑动>
▼版权声明
转载本网站原创文章需要注明来源出处。因互联网客观情况,原创文章中可能会存在不当使用的情况,如文章部分图片或者部分引用内容未能及时与相关权利人取得联系,非恶意侵犯相关权利人的权益,敬请相关权利人谅解并联系我们及时处理。

