ADS智库

2025-05-10

480

CVPR 2025自动驾驶领域论文精选：50项前沿技术汇总

涵盖感知、规划、融合、检测等核心技术方向

来源:自动驾驶之心 | 首图:AI制作

本文系统梳理CVPR 2025收录的自动驾驶相关论文，精选50项代表性研究成果，涵盖AD系统、端到端规划、BEV感知、目标检测、车道线识别、目标跟踪、占用预测、地图构建、多模态融合、规控决策、多任务学习及标定等多个技术方向，为科研人员与产业开发者提供权威参考。

1. 自动驾驶系统（AD/Driving System）

SplatAD：基于3D高斯泼溅的实时激光雷达与相机渲染方法，提升自动驾驶仿真效率。单位：Zenseact、Chalmers。
OmniDrive：融合3D感知、推理与规划的LLM-Agent自动驾驶框架。单位：北理工、NVIDIA、华科。
CityWalker：基于网络规模视频学习具身城市导航策略。单位：纽约大学。
CarPlanner：面向大规模强化学习的一致性自回归轨迹规划方法。单位：浙大、菜鸟网络。
UniScene：以占用为中心的统一驾驶场景生成模型。单位：上交、东方理工、清华、旷视。
DepthCrafter：生成开放世界视频中一致的长序列深度图。单位：腾讯AILab、港科大。
LiMoE：面向车载LiDAR场景的表征学习混合模型。单位：南京大学、国立新加坡、上海AILab。
MonoTAKD：基于教学助理知识蒸馏的单目3D目标检测方法。单位：阳明交通大学、华盛顿大学。
DiffusionDrive：基于截断扩散模型的端到端自动驾驶系统。单位：华科、地平线。
LLMDet：在大语言模型监督下训练开放词汇目标检测器。单位待补充。
LSceneLLM：利用自适应视觉偏好增强大型3D场景理解。单位：华南理工、腾信RobXLab、东北大学。
CDSegNet：基于单步条件扩散模型的端到端点云语义分割网络。单位：南理工、清华、山东大学、上交。
V2X-R：协同LiDAR与4D雷达融合用于3D目标检测，结合去噪扩散机制。单位：厦门大学、纵目科技、上交。
MomAD：端到端自动驾驶中的动量感知规划方法，提升驾驶平稳性。单位：北交通、地平线、清华。
FlexDrive：支持轨迹灵活控制的驾驶场景重建与渲染框架。单位：港中文、中科院自动化所、北航。
DriveScape：高分辨率、可控的多视角驾驶视频生成模型。单位：商汤、东北大学。
SplatFlow：神经运动流场中的自监督动态高斯泼溅方法。单位：普渡大学、微软。
T2SG：用于自动驾驶拓扑推理的交通拓扑场景图构建。单位：北京邮电大学。
GoalFlow：目标驱动的多模态轨迹生成匹配方法。单位：中科院大学、地平线、南京大学、华科、上海AILab。
VisionPAD：以视觉为中心的自动驾驶预训练范式。单位：深圳智能网络院、港中文深圳、港科大、华为NoahsArkLab。
DiMA：面向自动驾驶的多模态大语言模型蒸馏方法。单位：约翰斯·霍普金斯大学、高通AI。
ReconDreamer：通过在线恢复构建驾驶场景重建的世界模型。单位：GigaAI、北大、理想、中科院自动化所。
StreetCrafter：基于可控视频扩散模型的街景合成方法。单位：浙大、理想、康奈尔大学。
DriveDreamer4D：世界模型作为4D驾驶场景表示的有效数据引擎。单位：GigaAI、中科院自动化所、理想、北大、TUM。
DrivingSphere：构建高保真4D世界用于闭环仿真。单位：澳门大学、理想汽车、北理工。
UniVAD：无需训练的小样本视觉异常检测统一模型。单位：中科院自动化所。

2. 端到端自动驾驶（E2E）

GoalFlow：目标驱动流匹配，实现多模态轨迹生成。单位信息同上。
MomAD（Don't Shake the Wheel）：动量感知规划提升驾驶稳定性。单位：北京交通、地平线。

3. BEV（鸟瞰图）感知

BEVDiffuser：基于真值引导的即插即用BEV去噪扩散模型。单位：博世北美、博世AI。
ForestLPR：关注多幅BEV密度图像的森林环境LiDAR位置识别。单位：上海交大。
CorrBEV：基于多模态原型关联学习的多视图3D检测。单位待补充。

4. 目标检测（Detection）

PO3AD：通过预测点偏移提升3D点云异常检测性能。单位待补充。
SearchDetect：无需训练的长尾目标检测方法，结合网络图像检索。单位待补充。
MonoTAKD：单目3D检测知识蒸馏方案，提升检测精度。单位信息同上。

5. 车道线检测（Lane）

GLane3D：基于3D关键点图的车道检测方法。单位待补充，CVPR 2025 Poster。

6. 目标跟踪（Tracking）

MambaVLT：时间演化的多模态状态空间模型用于视觉语言跟踪。单位：哈工大深圳、深圳鹏程Lab。
MITracker：多视图集成的视觉目标跟踪方法。单位：上海科技大学、上海交大。
GRAE-3DMOT：几何关系感知编码器用于在线3D多目标跟踪。单位待补充。

7. 占用预测（Occupancy）

OccMamba：基于状态空间模型的语义占用预测。单位：中国科学技术大学、上海AILab、斯坦福。
GaussianWorld：用于流式3D占用预测的高斯世界模型。单位：清华。
GaussianFormer-2：概率高斯叠加实现高效3D占用预测。单位：清华、鉴智机器人。
VoxelSplat：动态高斯泼溅作为占用与流预测的有效损失函数。单位待补充，CVPR 2025 Poster。

8. 高精地图（MAP）

InteractionMap：通过交互机制优化在线矢量化高精地图构建。单位待补充。
DrivingByTheRules：将交通标志规则整合至矢量化高精地图的基准研究。单位：西安交大、阿里巴巴。

9. 多模态融合（Fusion）

V2X-R：LiDAR与4D雷达协同融合用于3D检测。单位信息同上。
RICCARDO：基于雷达命中预测与卷积的雷达-相机目标检测融合方法。单位待补充。

10. 规控决策（PnC）

SceneTAP：针对视觉语言模型的场景连贯对抗规划器。单位：南洋理工、阿尔伯塔大学、天津大学。
STVR-SSMP：自监督运动规划的时空视觉表征方法。单位待补充。
DexDiffuser：交互感知扩散规划用于自适应灵巧操作。单位待补充。

11. 多任务学习（MTL）

TADFormer：任务自适应动态Transformer提升多任务学习效率。单位：首尔私立大学。

12. 标定技术（Calibration）

AutoCalib（RC-AutoCalib）：端到端雷达-相机自动标定网络。单位待补充。

联系 & 声明

声明：除文内特殊说明外，本文内容仅用于学术交流，不作商业用途。图文引用均来自公开信息或官方网站，版权归原作者所有。引用请注明来源“自动驾驶之心”。

【声明】内容源于网络

ADS智库

1234

内容 1244

粉丝 2

ADS智库 1234

总阅读11.8k

粉丝2

内容1.2k

CVPR 2025 自动驾驶论文总结