大数跨境
0
0

CVPR2024: MIGC + GLIGEN-GUI效果展示

CVPR2024: MIGC + GLIGEN-GUI效果展示 极市平台
2024-03-18
0
↑ 点击蓝字 关注极市平台
作者丨周德蔚@知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/684356955
编辑丨极市平台

极市导读

 

MIGC与GLIGEN-GUI结合,实现精准位置控制+属性控制的多实例生成。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

MIGC v.s. previous SOTA methods

GLIGEN虽好,但是处理布局复杂和属性丰富的多实例生成时,无法精准地控制每个实例的属性,在位置控制方面也欠佳。

CVPR2024刚被接受的MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis 论文基于分而治之的思想,在Stable Diffusion的cross-attention层(文本与图像特征交互的唯一层)将多实例生成拆解成多个简单的单实例生成子任务,在处理子任务的过程中,每个实例的信息是互不干扰的,从而也就解决了现在图像生成中令人困扰的“属性泄露”问题。在成功得到每个子任务的解,即正确的实例特征后,MIGC根据用户输入的布局信息将上述相互独立的实例特征融合得到完整特征并确保在这个融合过程中不同实例属性不会泄露。具体细节可以参考论文:https://arxiv.org/pdf/2402.05408.pdf 后续我也会单独拉一篇对MIGC论文的解读。

下面展示一下将MIGC与GLIGEN-GUI结合的一些demo视频,可以看到目前已经可以实现精准位置控制+属性控制的多实例生成。

MIGC github链接,疯狂整理代码中,预计三月初开源,欢迎大家来star⭐️⭐️⭐️:https://migcproject.github.io/


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读197
粉丝0
内容8.2k