中山大学 & LavieAI 提出 FastFit：可实现3.5倍加速，生成质量SOTA！让虚拟试衣实现“多、快、好、省”！

AIGC Studio

2025-09-10

导读：你是否也曾幻想过这样的场景：像玩“换装游戏”一样，将心仪的上衣、裤子、鞋子、背包一键“穿”在自己身上，随心搭配

你是否也曾幻想过这样的场景：像玩“换装游戏”一样，将心仪的上衣、裤子、鞋子、背包一键“穿”在自己身上，随心搭配，即时看到效果？

理想很丰满，但现实是，当前的虚拟试衣技术往往面临两大瓶颈：

“慢”：生成一张高质量试穿图，需要几十秒甚至数分钟，交互体验差。
“少”：大多数方法一次只能换一件单品，无法实现全身Look的自由搭配。

为了打破这一僵局，来自中山大学 & LavieAI的研究团队提出了一种全新的虚拟试衣框架—FastFit。它基于一种可缓存的Diffusion架构，首次在虚拟试衣领域实现了“多、快、好、省”的完美统一，将虚拟试衣的速度平均提升了3.5倍，同时在生成质量上达到了SOTA水平！

一、多：从单品到全身Look，一次搞定！

以往的虚拟试衣模型，大多局限于服装单品替换。而FastFit 能够同时处理上衣、下装、连衣裙、鞋子、背包等多达5个品类的多参考虚拟试衣框架。

这意味着用户可以真正实现“全身Look”的自由组合，大大提升了实用性和可玩性。

为了支撑这项研究，团队还构建并开源了业界首个大规模多参考虚拟试衣数据集—DressCode-MR。该数据集包含28,179套高质量的图像对，为复杂的全身虚拟试衣研究提供了坚实的基础。

二、快 & 省：性能飙升的秘密—可缓存U-Net

FastFit 实现高效加速的核心，在于其设计的可缓存U-Net（Cacheable U-Net） 架构。

主流的Diffusion模型在生成图像时，需要经历数十个去噪步骤。传统方法（如In-Context Learning）在

每一步都需要重复处理和计算参考服装的特征，造成了巨大的计算冗余。

这就像一位厨师，每次炒菜（去噪步骤）都要把配菜（参考服装）重新洗一遍、切一遍，效率极低。

FastFit则像一位聪明的厨师，他选择提前把所有配菜都准备好，做成“料理包”（Reference KV Cache）。在后续的每一个炒菜步骤中，直接取用这个“料理包”即可，无需任何重复处理。

这一“一次计算，全程复用”的理念，通过两大核心改进实现：

参考类别嵌入 (Reference Class Embedding)：用静态的、可学习的类别嵌入（如'上衣'、'鞋子'）取代动态的时间步嵌入（timestep embedding）来处理参考服装，使得服装特征的计算与去噪过程完全解耦。
半注意力机制 (Semi-Attention)：设计了一种特殊的注意力掩码，确保在信息融合时，去噪特征可以“读取”参考服装的特征，但不会反过来“污染”或修改这些已缓存的服装特征，从而保证了其在整个去噪过程中的静态性和可复用性。

FastFit通过类别嵌入和半注意力机制，将参考服装的特征（右侧的KV Cache）提前计算并缓存，在N个去噪步骤中重复使用，从而极大提升效率。

正是这种创新的缓存机制，让FastFit从根本上打破了效率瓶颈，在几乎不增加参数量的情况下，实现了平均3.5倍的推理加速！

三、好：细节、质感、风格，全面SOTA！

速度快了，效果会打折扣吗？FastFit用实力证明：不仅没有，而且更好！

无论是单件试穿还是多件组合，FastFit都展现出了顶级的生成质量。

在复杂的多参考任务上，FastFit 能够无缝、逼真地组合多个参考单品，效果远超其他方法

在单参考虚拟试衣任务中，FastFit能够精准保留服装的精细纹理和图案，例如T恤上的字母，其他方法常常会模糊不清，而FastFit则能清晰还原。在更具挑战性的多参考虚拟试衣任务中，FastFit的优势更加明显。它能够和谐地融合多个单品的风格、光影和遮挡关系，生成自然、协调的整体造型，而不会出现穿模、混淆等问题。

大量的定量实验也表明，FastFit不仅在FID、KID、SSIM、LPIPS等关键图像质量指标实现了SOTA，而且在显存占用、推理时间和参数量等高效性指标上更是具有显著优势。

DressCode-MR（多参考）数据集上的量化对比，FastFit在速度和质量上全面领先

总结

FastFit通过其创新的可缓存U-Net架构，巧妙地将参考服装特征的计算移出迭代式的去噪循环，成功地在虚拟试衣领域实现了“多（品类）、快（速度）、好（质量）、省（计算）”的突破。它不仅为虚拟试衣技术走向大规模应用铺平了道路，也为其他基于条件的图像生成任务（Subject-driven Generation）提供了一种全新的、高效的架构思路。目前，论文、代码、模型权重、Demo和数据集均已开源。