添加微信号:AIGC_Tech,公众号小助手会拉你进群!
扫描下方二维码,加入AIGC Studio知识星球!可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料!学习/科研/工作/副业,强烈推荐!
字节跳动联合清华大学推出虚拟试穿新方法——DreamVVT,不仅支持整套服装虚拟试穿,还能在用户仅上传上衣时,自动生成匹配的下装与鞋子。面对复杂人体动作,如走秀、360度旋转,它都能保持高保真服装细节与时间一致性。无论是复杂环境下的视频虚拟试穿,还是挑战性相机动态下的服装渲染,DreamVVT 都游刃有余。更令人惊叹的是,它还能在服装互动中呈现逼真物理动态,甚至能为卡通人物搭配现实服装,开启虚拟试穿无限可能!
效果展示
相关链接
-
论文:https://arxiv.org/pdf/2508.02807 -
主页:https://virtu-lab.github.io -
源码:https://github.com/Virtu-Lab/DreamVVT
论文介绍
视频虚拟试穿 (VVT) 技术因其在电商广告和娱乐领域的良好应用前景而引起了学术界的广泛关注。然而,现有的大多数端到端方法严重依赖于稀缺的以服装为中心的成对数据集,无法有效利用高级视觉模型的先验知识和测试时输入,这使得在不受约束的场景中准确保留细粒度的服装细节和保持时间一致性变得十分困难。
为了应对这些挑战,论文提出了DreamVVT,这是一个精心设计的基于扩散变换器 (DiT) 的两阶段框架,它本质上能够利用各种未配对的以人为本的数据来增强在实际场景中的适应性。为了进一步利用来自预训练模型和测试时输入的先验知识,在第一阶段,从输入视频中采样代表性帧,并利用与视觉语言模型 (VLM) 集成的多帧试穿模型来合成高保真且语义一致的关键帧试穿图像。这些图像将作为后续视频生成的补充外观指导。在第二阶段,从输入内容中提取骨架图以及细粒度的运动和外观描述,并将其与关键帧试穿图像一起输入到预训练的视频生成模型中,该模型通过 LoRA 适配器进行了增强。这确保了未见区域的长期时间一致性,并实现了高度可信的动态运动。大量的定量和定性实验表明,DreamVVT 在保留服装细节内容和真实场景中的时间稳定性方面超越了现有方法。
方法概述
DreamVVT 概述。 该框架包含两个连续的阶段:第一阶段选择具有显著运动变化的帧,并为这些关键帧生成试穿图像;第二阶段使用细粒度的运动引导和互补的外观提示合成最终的虚拟试穿视频。
实验结果
结论
论文提出的 DreamVVT 是一个基于扩散变换器 (DiT) 的分阶段框架,它通过整合关键帧试穿和多模态引导的虚拟试穿视频生成,有效地利用了未配对的以人为本的数据、预训练的模型先验和测试时输入。大量实验表明,DreamVVT 在不受限制的场景下,在保留服装细节和时间一致性方面超越了最先进的方法,并且能够有效处理各种服装,凸显了其在电子商务和娱乐应用方面的潜力。
局限性:
-
为了适应任意的服装款式,目前预先计算不可知蒙版往往会覆盖大片区域,这可能会损害前景物体和复杂场景的完整性。未来的研究将通过采用无蒙版视频试穿技术来应对这些挑战,DreamVVT 将用于构建相应的数据集。 -
在处理复杂的服装交互动作时仍难以达到较高的成功率,这主要是由于预训练模型的生成能力和细粒度动作字幕的局限性。我们计划在未来的工作中解决并优化这一限制。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

