鉴智机器人自动驾驶算法再突破，3篇论文入选 CVPR 2025、AAAI 2025等国际顶会- 大数跨境

首页

鉴智机器人自动驾驶算法再突破，3篇论文入选 CVPR 2025、AAAI 2025等国际顶会

鉴智机器人 PhiGent Robotics

2025-03-11

导读：2篇入选 CVPR 2025，1篇入选 AAAI 2025。

PhiGent Achievement：

近日，鉴智机器人3篇论文入选国际AI顶会。其中，2篇论文入选 CVPR 2025，1篇入选 AAAI 2025，在自动驾驶算法研究方面取得重大突破。

CVPR 为计算机视觉领域顶级会议，与 ICCV、ECCV 并称计算机视觉三大顶级会议。CVPR 2025 共接收论文13008篇，最终录用2878篇，录用比约为22.1%。

AAAI 为人工智能领域顶级会议，AAAI 2025 共有12957篇有效论文投稿，最终录用3032篇，录取率为23.4%。

CVPR 2025 两篇入选论文为：

GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction（《GaussianFormer-2：基于概率高斯叠加的高效三维占用网格预测》）
Rethinking Lanes and Points in Complex Scenarios for Monocular 3D Lane Detection（《面向复杂场景的单目3D车道线检测：对车道与点的重新思考》）

AAAI 2025 入选论文为：

Towards Generalizable Multi-Camera 3D Object Detection via Perspective Rendering（《基于视角隐式渲染的可泛化多相机三维目标检测》）

GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction

相对于早期的 Voxel、BEV（Bird-Eye-View）、TPV（Tri-perspective view）等场景表示方式，始于三维重建领域的 3D Gaussians 是一种更加高效的稀疏场景表示。GaussianFormer-2 致力于创造更适应视觉占用任务的 3D Gaussians 表示方式，从建模能力、建模效率等方面分析、解决了现有方案的缺陷；通过实验验证，该算法能够以更低的计算代价和内存消耗实现更好的视觉占用预测效果。

GaussianFormer-2 解决了以下问题：

尽管自动驾驶场景的空间稀疏性很强，现有算法仍然使用 3D Gaussians 建模整个三维空间；通过将 3D Gaussians 对应为空间占用的概率分布，使得 3D Gaussians 仅需关注非空区域，提升整体利用率；
现有 3D Gaussians 算法建模语义占用时存在多个高斯球交叠、数值分布差异大等问题；通过引入高斯混合模型实现语义占用网格预测，优化 3D Gaussians 的交叠问题；

基于深度估计的 3D Gaussians 通常只能关注物体表面，并不适用于视觉占用任务；通过预测射线方向上的占据概率，有效提升了 3D Gaussians 的初始化能力。

GaussianFormer-2 在 nuScenes 数据集的 3D 语义占用网格预测任务上取得当前的最好性能。

通过 GaussianFormer-2 与 GaussianFormer 在 nuScenes 数据集上的预测结果，尽管 GaussianFormer-2 只使用了10%以下的三维高斯球，但其在结构完整性、细节准确度方面都有显著提升。

GaussianFormer-2 极大地优化了 3D Gaussians 表示在视觉占用任务下的表示能力、表示效率以及整体性能，在 nuScenes 和 SemanticKITTI 数据集上取得了最优性能。

本研究的产业意义

视觉占用网格（Occupancy）任务是自动驾驶感知中的必要一环，对于通用障碍物的识别和避让至关重要。本文提出了基于 3D Gaussians 的视觉占用预测新范式，一方面显著降低了场景表示负担和内存消耗，另一方面整体性能也有显著提升。

Rethinking Lanes and Points in Complex Scenarios for Monocular 3D Lane Detection

本论文针对单目 3D 车道检测中现有稀疏点方法的不足展开研究。现有方法在生成训练真值时截断车道端点，导致模型预测不完整，潜在误差达20米。本文提出端点修补策略（EP-head）和点-车道注意力（PL-attention），分别从车道表示和模型设计两方面改进检测性能。通过实验验证，该方法在多个基准模型上显著提升 F1 分数，最高提升4.4分，并降低定位误差。

本文提出了两个关键创新模块：

端点修补策略（EP-head）：通过修补训练真值的端点，并设计 EP-head 预测每个预设点到原始真值端点的距离，使模型能够预测更完整的车道线。这种方法将 OpenLane 数据集上训练真值的 F1 分数从78.9%提高到98.5%，且即使使用更少的预设点也能获得完整的车道线表示。

PointLane注意力机制（PL-attention）：将车道几何先验知识融入注意力机制，从单车道内点之间的关系、不同车道之间的关系、以及相同y坐标点之间的关系三个维度增强模型对复杂场景的感知能力。

实验结果表明，本文所提方法在多种先进模型上均取得显著性能提升：Persformer 的F1分数提高了4.4个点，Anchor3DLane 提高了3.2个点，LATR 提高了2.8个点。特别是在复杂场景中表现更为突出，如弯道、夜间、交叉口和合并分离场景。

本研究的产业意义

对于自动驾驶系统来说，精确的车道检测是确保自动驾驶安全性和可靠性的关键，尤其是在城镇道路、交叉口和复杂天气等挑战性环境下。本方法不仅提升了车道检测精度，还能显著减少计算成本，为自动驾驶技术在实际应用中的部署提供了技术支持。此外，EP-head 模块和 PL-attention 的引入，不仅适用于现有模型，也为未来车道检测技术的快速发展和智能化部署打下了基础。

Towards Generalizable Multi-Camera 3D Object Detection via Perspective Rendering

为了解决 BEV 检测中新车型适配问题（相机参数变化），本论文提出了一种基于视角隐式渲染的广义环视 BEV 检测框架，能够在跨数据集评测情况下显著提升 BEV 检测能力；此外，本论文首次探索了在虚拟引擎产生的数据上训练三维检测器，并在实际数据集上验证了一定的检测能力。

本研究实现了以下行业创新：

视觉特征泛化性提升：在已有标注的车型数据集使用隐空间渲染，动态随机渲染新视角、并用虚拟相机空间进行监督，从而学到视角不变的图像特征。
无标注数据做自监督训练：在不包含标注信息的新数据集上，通过引入 2D 检测器的伪标签可以对三维检测器做渲染视角的监督，进一步提升检测器在新数据集上的检测能力。

常规三维检测器在跨数据集评测时会遇到显著的性能劣化，而本文提出的算法能够显著提升跨数据集评测的整体性能，相对于直接泛化测试的基线可以提升一倍以上。