大数跨境
0
0

中山大学 & LavieAI 提出 FastFit:可实现3.5倍加速,生成质量SOTA!让虚拟试衣实现“多、快、好、省”!

中山大学 & LavieAI 提出 FastFit:可实现3.5倍加速,生成质量SOTA!让虚拟试衣实现“多、快、好、省”! AIGC Studio
2025-09-10
1
导读:你是否也曾幻想过这样的场景:像玩“换装游戏”一样,将心仪的上衣、裤子、鞋子、背包一键“穿”在自己身上,随心搭配

你是否也曾幻想过这样的场景:像玩“换装游戏”一样,将心仪的上衣、裤子、鞋子、背包一键“穿”在自己身上,随心搭配,即时看到效果?

理想很丰满,但现实是,当前的虚拟试衣技术往往面临两大瓶颈:

  1. “慢”:生成一张高质量试穿图,需要几十秒甚至数分钟,交互体验差。

  2. “少”:大多数方法一次只能换一件单品,无法实现全身Look的自由搭配。

为了打破这一僵局,来自中山大学 & LavieAI的研究团队提出了一种全新的虚拟试衣框架—FastFit。它基于一种可缓存的Diffusion架构,首次在虚拟试衣领域实现了“多、快、好、省”的完美统一,将虚拟试衣的速度平均提升了3.5倍,同时在生成质量上达到了SOTA水平!

FastFit支持单参考、用户间、以及核心的多参考虚拟试衣,统一且高效
FastFit支持单参考、用户间、以及核心的多参考虚拟试衣,统一且高效

相关链接

  • 论文链接:https://arxiv.org/abs/2508.20586

  • 代码链接: https://github.com/Zheng-Chong/FastFit

  • 模型链接:https://huggingface.co/zhengchong/FastFit-MR-1024

  • Demo链接:https://fastfit.lavieai.com

  • 数据集链接:https://huggingface.co/datasets/zhengchong/DressCode-MR

一、多:从单品到全身Look,一次搞定!

以往的虚拟试衣模型,大多局限于服装单品替换。而FastFit 能够同时处理上衣、下装、连衣裙、鞋子、背包等多达5个品类的多参考虚拟试衣框架。

这意味着用户可以真正实现“全身Look”的自由组合,大大提升了实用性和可玩性。

为了支撑这项研究,团队还构建并开源了业界首个大规模多参考虚拟试衣数据集—DressCode-MR。该数据集包含28,179套高质量的图像对 ,为复杂的全身虚拟试衣研究提供了坚实的基础。

DressCode-MR数据集示例
DressCode-MR数据集示例

二、快 & 省:性能飙升的秘密—可缓存U-Net

FastFit 实现高效加速的核心,在于其设计的可缓存U-Net(Cacheable U-Net) 架构。

主流的Diffusion模型在生成图像时,需要经历数十个去噪步骤。传统方法(如In-Context Learning)在

每一步都需要重复处理和计算参考服装的特征,造成了巨大的计算冗余 。

这就像一位厨师,每次炒菜(去噪步骤)都要把配菜(参考服装)重新洗一遍、切一遍,效率极低。

FastFit则像一位聪明的厨师,他选择提前把所有配菜都准备好,做成“料理包”(Reference KV Cache)。在后续的每一个炒菜步骤中,直接取用这个“料理包”即可,无需任何重复处理。

这一“一次计算,全程复用”的理念,通过两大核心改进实现:

  1. 参考类别嵌入 (Reference Class Embedding):用静态的、可学习的类别嵌入(如'上衣'、'鞋子')取代动态的时间步嵌入(timestep embedding)来处理参考服装,使得服装特征的计算与去噪过程完全解耦 。

  2. 半注意力机制 (Semi-Attention):设计了一种特殊的注意力掩码,确保在信息融合时,去噪特征可以“读取”参考服装的特征,但不会反过来“污染”或修改这些已缓存的服装特征,从而保证了其在整个去噪过程中的静态性和可复用性 。

FastFit通过类别嵌入和半注意力机制,将参考服装的特征(右侧的KV Cache)提前计算并缓存,在N个去噪步骤中重复使用,从而极大提升效率。

正是这种创新的缓存机制,让FastFit从根本上打破了效率瓶颈,在几乎不增加参数量的情况下,实现了平均3.5倍的推理加速

三、好:细节、质感、风格,全面SOTA!

速度快了,效果会打折扣吗?FastFit用实力证明:不仅没有,而且更好!

无论是单件试穿还是多件组合,FastFit都展现出了顶级的生成质量。

在复杂的多参考任务上,FastFit 能够无缝、逼真地组合多个参考单品,效果远超其他方法

在单参考虚拟试衣任务中,FastFit能够精准保留服装的精细纹理和图案,例如T恤上的字母,其他方法常常会模糊不清,而FastFit则能清晰还原 。在更具挑战性的多参考虚拟试衣任务中,FastFit的优势更加明显。它能够和谐地融合多个单品的风格、光影和遮挡关系,生成自然、协调的整体造型,而不会出现穿模、混淆等问题 。

大量的定量实验也表明,FastFit不仅在FID、KID、SSIM、LPIPS等关键图像质量指标实现了SOTA,而且在显存占用、推理时间和参数量等高效性指标上更是具有显著优势。

VITONHD 与 DressCode 数据集上的单参考虚拟试衣的量化对比
VITONHD 与 DressCode 数据集上的单参考虚拟试衣的量化对比
与虚拟试衣方法在模型高效性上的比较
与虚拟试衣方法在模型高效性上的比较
DressCode-MR(多参考)数据集上的量化对比,FastFit在速度和质量上全面领先
DressCode-MR(多参考)数据集上的量化对比,FastFit在速度和质量上全面领先

总结

FastFit通过其创新的可缓存U-Net架构,巧妙地将参考服装特征的计算移出迭代式的去噪循环 ,成功地在虚拟试衣领域实现了“多(品类)、快(速度)、好(质量)、省(计算)”的突破。它不仅为虚拟试衣技术走向大规模应用铺平了道路,也为其他基于条件的图像生成任务(Subject-driven Generation)提供了一种全新的、高效的架构思路。目前,论文、代码、模型权重、Demo和数据集均已开源。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

【声明】内容源于网络
0
0
AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
内容 876
粉丝 0
AIGC Studio 一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
总阅读158
粉丝0
内容876