大数跨境
0
0

CVPR'24|LiDAR Diffusion:当扩散模型从图像打入LiDAR场景!

CVPR'24|LiDAR Diffusion:当扩散模型从图像打入LiDAR场景! 极市平台
2024-04-24
0
↑ 点击蓝字 关注极市平台
编辑丨极市平台

极市导读

 

为了实现条件 LiDAR 真实场景生成,作者提出了一种基于曲线的生成器,称为LiDAR 扩散模型(LiDAR Diffusion Models)。LiDAR 扩散模型能够将多种条件作为输入,例如边界框、相机图像和语义图。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

Website: https://lidar-diffusion.github.io

Github: https://github.com/hancyran/LiDAR-Diffusion

背景

近年来,我们观察到可控生成模型的激增,这些模型能够生成具有视觉吸引力且高度逼真的图像。其中,扩散模型(Diffusion Models)因其无可挑剔的性能而成为最流行的方法之一。为了能够在任意条件下生成,潜在扩散模型(Latent Diffusion Models)。其后续应用(例如,Stable Diffusion、Midjourney、ControlNet)进一步增强了其条件图像合成的潜力。

从图像扩散模型到LiDAR扩散模型

这一成功让我们思考:我们是否可以将可控扩散模型(Controllable Diffusion Models)应用于自动驾驶和机器人技术的LiDAR场景生成?例如,给定一组Bounding Boxes,这些模型能否合成相应的激光雷达场景,从而转化为高质量且昂贵的标记数据?或者,是否可以仅从汽车上摄像头捕捉的图像去生成相应的 3D 场景?或者,我们能否设计一种语言驱动的 LiDAR 生成器来进行可控仿真?为了回答这些问题,我们的目标是设计包含多种条件的扩散模型,以生成逼真的LiDAR的场景。

相关工作

我们从近期自动驾驶相关的扩散模型中观察到了一些现象。基于点的扩散模型,即LiDARGen引入了无条件的LiDAR场景生成。然而,该模型往往会产生嘈杂的背景(例如道路、墙壁)和模糊的物体(例如汽车),导致无法生成 LiDAR 真实场景。此外,在没有任何压缩的情况下对点应用扩散可以在计算上减慢推理过程。此外,直接应用潜式扩散模型(Latent Diffusion Models)来生成LiDAR场景在定性和定量上都产生了无法令人满意的性能。

LiDAR扩散模型

为了实现条件 LiDAR 真实场景生成,我们提出了一种基于曲线的生成器,称为LiDAR 扩散模型(LiDAR Diffusion Models),以回答上述问题并解决先前工作的一些不足。LiDAR 扩散模型能够将多种条件作为输入,例如边界框、相机图像和语义图。

LiDAR 扩散模型利用range images作为 LiDAR 场景的表示,这在各种下游任务中都很常见,例如检测、语义分割和生成。这种选择基于距离图像和点云之间的可逆和无损转换,以及高度优化的 2D 卷积运算的实质性好处。为了在扩散过程中掌握 LiDAR 场景的语意信息,我们的方法在扩散过程之前对LiDAR 场景编码至一个潜式空间中。

为了进一步提高对现实世界中LiDAR 数据真实性的模拟,我们关注三个关键组成部分:图案真实性、几何真实性和物体真实性。首先,我们在自动编码过程中利用曲线压缩来提取LiDAR中点的曲线形态。其次,为了达到几何的真实感,我们引入了基于点的坐标监督,以使我们的自动编码器能够理解场景级几何。最后,我们通过结合Patch-based下采样策略来扩大感受野,以捕获在视觉上较大物体的完整上下文。

通过以上提出的模块,扩散模型能够有效地合成高质量的 LiDAR 场景,同时还表现出卓越的性能,与LiDARGen相比,加速了107倍,并支持任意类型的基于image和基于token的条件为输入。

实验(Experiment)

LiDAR Diffusion在无条件LiDAR生成(Unconditional Generation)中实现state-of-the-art:

LiDAR Diffusion同样可以在多种条件下生成相应的LiDAR场景:

(Semantic-Map-to-LiDAR)
(Camera-to-LiDAR)
(Text-to-LiDAR)

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k