大数跨境
0
0

CVPR'24|无需微调,室内室外,多模态输入全搞定!L-MAGIC:让图像扩散模型生成高质量360度场景

CVPR'24|无需微调,室内室外,多模态输入全搞定!L-MAGIC:让图像扩散模型生成高质量360度场景 极市平台
2024-06-05
1
↑ 点击蓝字 关注极市平台
作者丨蔡志鹏
编辑丨极市平台

极市导读

 

来自美国英特尔研究院的Zhipeng Cai等人提出了L-MAGIC,通过使用语言模型控制图像扩散模型有效实现高质量,多模态,零样本泛化的360度场景生成。L-MAGIC的live demo已被选为英特尔公司2024年的5个技术突破之一在ISC HPC 2024上展示。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

360度场景生成是计算机视觉的重要任务。主流方法主要可分为两类,一类利用图像扩散模型分别生成360度场景的多个视角。由于图像扩散模型缺乏场景全局结构的先验知识,这类方法无法有效生成多样的360度视角,导致场景内主要的目标被多次重复生成,如图1的床和雕塑。

图1. 缺乏场景全局结构的先验知识导致一个卧室出现多张床,一个公园出现多个雕塑。

另一类方法将360度场景用一张Equirectangular Image来表示,并用GAN或扩散模型直接生成。由于该表征的局限性,这类方法通常无法有效完成360度闭环(如图2每张图片的中间部分),导致360度的连接处出现明显的分界线。同时由于缺少大规模训练数据,这类方法有时无法生成复合输入条件的场景。最后,这类方法通常只能接受文字作为输入。

Figure 2. 现有方法的闭环问题.

为了解决这些问题,来自美国英特尔研究院的Zhipeng Cai等人提出了L-MAGIC(Language Model Assisted Generation of Images with Coherence),通过使用语言模型控制图像扩散模型有效实现高质量,多模态,零样本泛化的360度场景生成。L-MAGIC的live demo已被选为英特尔公司2024年的5个技术突破之一在ISC HPC 2024上展示。

项目主页:https://zhipengcai.github.io/MMPano

论文:https://arxiv.org/pdf/2406.01843

代码:https://github.com/IntelLabs/MMPano

Youtube视频介绍:https://youtu.be/XDMNEzH4-Ec

Intel ISC HPC 2024 live demo:https://www.intel.com/content/www/us/en/events/supercomputing.html

Intel Featured Blog:https://community.intel.com/t5/Blogs/Tech-Innovation/Artificial-Intelligence-AI/Advancing-Gen-AI-on-Intel-Gaudi-AI-Accelerators-with-Multi-Modal/post/1603746

方法

如图3所示,L-MAGIC是一个结合了语言模型及扩散模型的场景生成框架。L-MAGIC通过自然图像连接各类不同模态的输入。当输入不是一张自然图像时,L-MAGIC使用成熟的条件扩散模型如ControlNet从各种模态的输入(文字,手绘草图,深度图等等)生成一张自然图像。在获得自然图像之后,L-MAGIC通过iterative warping and inpainting来生成360度场景的多个视角。在每一个iteration中,warping step将已生成的多视角warp到一个新的视角,实例中的黑色部分代表新视角中的缺失像素。Inpainting step使用基于扩散的图像inpainting模型(Stable Diffusion v2)生成缺失像素。为了使图像扩散模型能够生成多样的全局场景结构,L-MAGIC使用语言模型控制扩散模型在每个视角需要生成的场景内容。除了生成360度场景的全景图,利用深度估计模型,L-MAGIC还能够生成包含相机旋转及平移的沉浸式视频,以及场景的三维点云。由于无需微调,L-MAGIC能够有效地保持语言及扩散模型的泛化性,实现多样化场景的高质量生成。

图3.L-MAGIC 流程图。

L-MAGIC的核心是使用语言模型全自动地控制扩散模型。如图4所示若用户未提供场景的文字描述,L-MAGIC使用视觉语言模型(如BLIP-2)基于输入图像获得场景的整体描述(line 2)。获得场景描述后,L-MAGIC使用如ChatGPT的语言模型(开源代码已支持ChatGPT-3.5,ChatGPT-4,Llama3),使其根据整体场景描述生成各个视角的描述(line 3),并决定对该场景是否需要防止重复物体的生成(line 5,如树林里各个视角都是树是合理的,但卧室有5张床就比较少见,L-MAGIC利用大语言模型的泛化性能自适应地规避不合理的重复目标)。由于扩散模型训练数据的bias,有时扩散模型的输出无法完全符合语言模型的prompt要求。为了解决该问题,L-MAGIC再次使用视觉语言模型监督扩散模型的输出(line 14-18),如果扩散模型的输出不符合语言模型的要求,L-MAGIC会重新进行当前视角的生成。

图4. L-MAGIC算法。

结果

如图5所示,L-MAGIC在图像到360度场景生成及文字到360度场景生成任务中均达到了SOTA。

图5. 定量实验。

如图6及图7所示,L-MAGIC在多样的输入及场景下均能够生成具有多样化360度场景结构的全景图,并且能够平滑地完成360度闭环。

Figure 6. 图像到360度场景生成。
Figure 6. 文字到360度场景生成

如图8所示,除了文字及自然图像之外,L-MAGIC还能够使用ControlNet接受多样化的输入,例如深度图,设计草图等。

图8. 更多不同模态的输入。

通过利用成熟的计算机视觉算法例如深度估计,L-MAGIC还能够生成场景的沉浸式视频 (见presentation video)以及三维点云(图9)。有趣的是,我们能够清晰地分辨海底场景点云中鱼以及珊瑚的几何结构。

图9.三维点云生成结果。

作者介绍:

蔡志鹏博士(https://zhipengcai.github.io/)是美国英特尔研究院的研究员,博士毕业于澳大利亚阿德莱德大学。他的研究兴趣包括鲁棒视觉感知,持续学习和生成模型等。他的工作已在领域顶级会议杂志上发表超过15篇。其中5篇文章被选为顶级会议(ECCV18*2,ICCV19,ICLR24,CVPR24)口头或特邀报告,对鲁棒估计计算复杂度的理论证明工作被选为ECCV18 12篇最佳论文之一。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读197
粉丝0
内容8.2k