极市导读
MIGC与GLIGEN-GUI结合,实现精准位置控制+属性控制的多实例生成。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
GLIGEN虽好,但是处理布局复杂和属性丰富的多实例生成时,无法精准地控制每个实例的属性,在位置控制方面也欠佳。
CVPR2024刚被接受的MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis 论文基于分而治之的思想,在Stable Diffusion的cross-attention层(文本与图像特征交互的唯一层)将多实例生成拆解成多个简单的单实例生成子任务,在处理子任务的过程中,每个实例的信息是互不干扰的,从而也就解决了现在图像生成中令人困扰的“属性泄露”问题。在成功得到每个子任务的解,即正确的实例特征后,MIGC根据用户输入的布局信息将上述相互独立的实例特征融合得到完整特征并确保在这个融合过程中不同实例属性不会泄露。具体细节可以参考论文:https://arxiv.org/pdf/2402.05408.pdf 后续我也会单独拉一篇对MIGC论文的解读。
下面展示一下将MIGC与GLIGEN-GUI结合的一些demo视频,可以看到目前已经可以实现精准位置控制+属性控制的多实例生成。
MIGC github链接,疯狂整理代码中,预计三月初开源,欢迎大家来star⭐️⭐️⭐️:https://migcproject.github.io/

公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

