
PhiGent Achievement:
近日,鉴智机器人3篇论文入选国际AI顶会。其中,2篇论文入选 CVPR 2025,1篇入选 AAAI 2025,在自动驾驶算法研究方面取得重大突破。
CVPR 为计算机视觉领域顶级会议,与 ICCV、ECCV 并称计算机视觉三大顶级会议。CVPR 2025 共接收论文13008篇,最终录用2878篇,录用比约为22.1%。
AAAI 为人工智能领域顶级会议,AAAI 2025 共有12957篇有效论文投稿,最终录用3032篇,录取率为23.4%。
CVPR 2025 两篇入选论文为:
GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction(《GaussianFormer-2:基于概率高斯叠加的高效三维占用网格预测》)
Rethinking Lanes and Points in Complex Scenarios for Monocular 3D Lane Detection(《面向复杂场景的单目3D车道线检测:对车道与点的重新思考》)
AAAI 2025 入选论文为:
Towards Generalizable Multi-Camera 3D Object Detection via Perspective Rendering(《基于视角隐式渲染的可泛化多相机三维目标检测》)
GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction
相对于早期的 Voxel、BEV(Bird-Eye-View)、TPV(Tri-perspective view)等场景表示方式,始于三维重建领域的 3D Gaussians 是一种更加高效的稀疏场景表示。GaussianFormer-2 致力于创造更适应视觉占用任务的 3D Gaussians 表示方式,从建模能力、建模效率等方面分析、解决了现有方案的缺陷;通过实验验证,该算法能够以更低的计算代价和内存消耗实现更好的视觉占用预测效果。
GaussianFormer-2 解决了以下问题:
尽管自动驾驶场景的空间稀疏性很强,现有算法仍然使用 3D Gaussians 建模整个三维空间;通过将 3D Gaussians 对应为空间占用的概率分布,使得 3D Gaussians 仅需关注非空区域,提升整体利用率;
现有 3D Gaussians 算法建模语义占用时存在多个高斯球交叠、数值分布差异大等问题;通过引入高斯混合模型实现语义占用网格预测,优化 3D Gaussians 的交叠问题;

基于深度估计的 3D Gaussians 通常只能关注物体表面,并不适用于视觉占用任务;通过预测射线方向上的占据概率,有效提升了 3D Gaussians 的初始化能力。

GaussianFormer-2 在 nuScenes 数据集的 3D 语义占用网格预测任务上取得当前的最好性能。

通过 GaussianFormer-2 与 GaussianFormer 在 nuScenes 数据集上的预测结果,尽管 GaussianFormer-2 只使用了10%以下的三维高斯球,但其在结构完整性、细节准确度方面都有显著提升。

GaussianFormer-2 极大地优化了 3D Gaussians 表示在视觉占用任务下的表示能力、表示效率以及整体性能,在 nuScenes 和 SemanticKITTI 数据集上取得了最优性能。
Rethinking Lanes and Points in Complex Scenarios for Monocular 3D Lane Detection
本论文针对单目 3D 车道检测中现有稀疏点方法的不足展开研究。现有方法在生成训练真值时截断车道端点,导致模型预测不完整,潜在误差达20米。本文提出端点修补策略(EP-head)和点-车道注意力(PL-attention),分别从车道表示和模型设计两方面改进检测性能。通过实验验证,该方法在多个基准模型上显著提升 F1 分数,最高提升4.4分,并降低定位误差。
本文提出了两个关键创新模块:
端点修补策略(EP-head):通过修补训练真值的端点,并设计 EP-head 预测每个预设点到原始真值端点的距离,使模型能够预测更完整的车道线。这种方法将 OpenLane 数据集上训练真值的 F1 分数从78.9%提高到98.5%,且即使使用更少的预设点也能获得完整的车道线表示。

PointLane注意力机制(PL-attention):将车道几何先验知识融入注意力机制,从单车道内点之间的关系、不同车道之间的关系、以及相同y坐标点之间的关系三个维度增强模型对复杂场景的感知能力。

实验结果表明,本文所提方法在多种先进模型上均取得显著性能提升:Persformer 的F1分数提高了4.4个点,Anchor3DLane 提高了3.2个点,LATR 提高了2.8个点。特别是在复杂场景中表现更为突出,如弯道、夜间、交叉口和合并分离场景。

Towards Generalizable Multi-Camera 3D Object Detection via Perspective Rendering
为了解决 BEV 检测中新车型适配问题(相机参数变化),本论文提出了一种基于视角隐式渲染的广义环视 BEV 检测框架,能够在跨数据集评测情况下显著提升 BEV 检测能力;此外,本论文首次探索了在虚拟引擎产生的数据上训练三维检测器,并在实际数据集上验证了一定的检测能力。

本研究实现了以下行业创新:

视觉特征泛化性提升:在已有标注的车型数据集使用隐空间渲染,动态随机渲染新视角、并用虚拟相机空间进行监督,从而学到视角不变的图像特征。
无标注数据做自监督训练:在不包含标注信息的新数据集上,通过引入 2D 检测器的伪标签可以对三维检测器做渲染视角的监督,进一步提升检测器在新数据集上的检测能力。
常规三维检测器在跨数据集评测时会遇到显著的性能劣化,而本文提出的算法能够显著提升跨数据集评测的整体性能,相对于直接泛化测试的基线可以提升一倍以上。

实验表明,针对三维检测器的跨数据集泛化问题,本文提出的基于视角隐式渲染的辅助训练策略,能够显著提升现有三维检测器在跨数据集测试情况下的性能表现。






