
PhiGent Achievement:
近日,鉴智机器人两篇论文入选国际计算机视觉顶会ECCV 2024,卓越视觉感知能力再获国际顶级学术会议认可!
ECCV是计算机视觉领域最顶级的会议之一,与ICCV和CVPR并称为计算机视觉领域的“三大顶会”。ECCV每两年举行一次,汇聚了全球顶尖的研究人员和专家,展示最前沿的研究成果与技术创新,有着极为严苛的录用标准,ECCV2024年论文总投稿数约12600篇,仅录用2395篇,录用率27.9%。

鉴智机器人本次入选的两篇论文分别为:
Detecting As Labeling: Rethinking LiDAR-camera Fusion in 3D Object Detection(《从模仿数据标注的角度,重新思考激光雷达和相机融合的三维目标检测》)
DAL提出一种新的多模态融合的三维目标检测算法范式,通过模仿数据标注过程,使用最经典的基础算法构建简单的预测流程,并以最简单的方式进行训练,将其依赖性降到最低并增强其可移植性。DAL构建和训练简单,不仅大幅提升了性能边界,在时效性上也已大幅度领先已有算法。
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion(《分层时序上下文学习用于基于相机的语义场景补全》)
HTCL提出一种新颖的分层时序上下文学习范式,用于动态和可靠的三维语义场景补全。实验表明,HTCL在SemanticKITTI和OpenOccupancy基准测试中均超过了所有基于相机的方法,实现了最先进的性能;同时在OpenOccupancy基准测试中取得超过基于LiDAR方法的mIoU。
Detecting As Labeling: Rethinking LiDAR-camera Fusion in 3D Object Detection
在自动驾驶场景的三维目标标注中(e.g. NuScenes),不同模态的使用需要遵循一定的规则,才能标注出高精度的真值:
Rule.a 图像和点云结合,搜索出所有潜在的目标,并进行分类
Rule.b 定位、尺寸、朝向等属性,优先参考激光雷达
Rule.b 对回归的属性标注时的模态使用提出了优先级的要求。而这源于使用相机和激光雷达这两种传感器进行距离感知特性的本质差异:使用单个相机进行单目深度估计是不适定的,有多个解,网络学习结果只能提供一个经验猜测值;与此区别的是使用激光雷达进行距离、尺寸度量时,结果是适定的,即具有唯一解。因此,在标注规则设计中,我们要求在激光雷达点云可用的条件下,需要充分信任激光雷达点云提供的信息,不再参考图像。
现有的工作在特征融合时普遍使用concat进行简单的特征拼接,并把特征选择的学习交给后续的网络进行。这种简单的融合策略为训练过拟合埋下了伏笔。为了对抗训练过拟合,现有工作往往需要多步训练、使用辅助数据集与训练等策略。这会大幅增加工程落地的成本(e.g. 辅助数据集标注)以及不确定性(e.g. 多步训练之间复杂的相互关系)。

DAL和其他公开算法的训练策略对比
作为解决该问题的一个尝试,我们遵循标注规则(i.e. Rule.a 和Rule.b)设计了DAL(Detecting As Labeling)推理框架。DAL推理框架和已有工作最大的不同在于,我们反一般性地把图像特征从回归任务中排除。我们发现这种做法对性能几乎没有影响。在此前提下,我们可以像2D分类/检测一样使用很强的图像空间增广提高算法的泛化性能。在这一过程中我们不需要调整目标的回归真值,因为此时的回归任务和图像特征无关。此外,该设计避免了使用过多的计算资源用于过拟合图像特征,有效地提高了算法在速度和精度上的权衡。

DAL的推理框架
从结果上看,首先如上表格所示,DAL算法训练是已有算法中最简单的,同时却又是性能上限最高。第二,如下图所示,DAL算法在时效性上大幅度领先已有算法。

DAL和其他算法的时效性对比
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion
基于相机的三维语义场景补全(SSC)对于从有限的二维图像观测中预测复杂的三维场景信息至关重要。现有的主流解决方案通过对历史帧信息的粗略堆叠来试图补充当前视角下的不完整观测,这种简单的时序建模方式不可避免地减少了有效的视觉线索,增加了模型学习难度。

为了解决上述问题,我们提出了HTCL,一种新颖的分层时序上下文学习范式,用于改进基于相机的语义场景补全。HTCL将时序上下文学习分解为两个层次步骤:(a)跨帧亲和度测量;(b)基于亲和度的动态细化。首先,为了从冗余信息中分离关键相关上下文,我们提出了尺度感知隔离策略,用于构建多个独立的学习模块,进而建模细粒度上下文对应关系。随后,为了动态补偿不完整的观测结果,我们基于识别出的具有高亲和度特征的空间位置及其邻近的相关区域,自适应地细化特征采样位置。

我们提出的分层时序上下文学习(HTCL)范式可以有效改进时序特征聚合的可靠性,从而实现精确的三维语义场景补全。HTCL从不同时间帧的RGB图像中分层地推断三维语义Occupancy,以实现细粒度的场景理解。如下图所示,我们提出的分层时序上下文建模包括两个顺序步骤:(1)显式地测量当前帧和历史帧之间的上下文特征亲和力,提取最相关的高亲和度特征;(2)基于高亲和力特征的空间位置及其附近的相关上下文自适应地细化采样位置,以动态补偿不完整的观测。HTCL在创新性方面主要做出了以下贡献:
提出了一种时序上下文学习范式,以用于动态和可靠的三维语义场景补全。
提出了一种具有尺度感知隔离和多个独立学习模块的亲和度测量策略,用于细粒度的上下文对应关系建模。
提出了一个基于亲和度的动态细化方案,以重新分配时序上下文信息,并自适应地补偿不完整的观测结果。
HTCL在SemanticKITTI和OpenOccupancy基准测试中超过了所有基于相机的方法,实现了最先进的性能。

实验表明,我们的方法在SemanticKITTI Benchmark上排名第一,并在OpenOccupancy BenchMark中取得了超过基于LiDAR方法的mIoU。








