极市导读
Diffusion² 串接“反向-正向”双扩散模型,用双头不确定性估计与时间自适应噪声调度,在仅两帧观测的瞬时行人轨迹预测任务中刷新 ETH/UCY 与 SDD 的 SOTA。>>加入极市CV技术交流群,走在计算机视觉的最前沿
同济大学和威斯康星大学麦迪逊分校最近的一篇工作,很有意思分享给大家。这篇工作指出一个问题:当行人突然从盲区出现时,往往无法获得足够的观测数据(即瞬时轨迹),因此交通事故的风险很高。换句话说就是鬼探头的场景,如何做好行人的轨迹预测。
针对这个问题,他们提出了Diffusion²-专为瞬时轨迹预测而设计。Diffusion²由两个串联的扩散模型组成:一个用于反向预测,生成未观测到的历史轨迹;另一个用于正向预测,预测未来轨迹。考虑到生成的未观测历史轨迹可能会引入额外的噪声,提出了一种双头参数化机制来估计其偶然不确定性 (aleatoric uncertainty),并设计了一个时间自适应噪声模块,该模块在前向扩散过程中动态调节噪声尺度。实验证明,Diffusion²在ETH/UCY和斯坦福无人机(Stanford Drone)数据集上的瞬时轨迹预测任务中树立了新的最先进水平。
-
论文标题: Diffusion²: Dual Diffusion Model with Uncertainty-Aware Adaptive Noise for Momentary Trajectory Prediction -
机构: 威斯康星大学麦迪逊分校、华盛顿大学、同济大学 -
论文链接:https://arxiv.org/abs/2510.04365
01 背景回顾与主要贡献
准确的行人轨迹预测对于自动驾驶至关重要,因为它增强了车辆的安全性,尤其是在涉及人车交互的场景中。近年来,很多算法都在尝试解决这一任务。通常这些方法侧重于基于足够长的观测期(例如 8帧,约 3.2 秒)来预测未来轨迹。然而,在许多现实场景中,例如当行人突然出现在障碍物(如建筑物或卡车)后方时,车辆没有足够的时间来收集充分的观测数据。这对传统的预测方法提出了巨大挑战,常常导致预测性能显著下降,甚至增加了交通事故的风险。在SDD数据集中,仅有瞬时观测的行人的出现频率达到 ,在ETH/UCY数据集中为 。因此,研究仅使用有限观测数据的行人轨迹预测至关重要。
尽管已有工作证明联合预测历史轨迹以丰富上下文信息、弥补瞬时观测局限性的有效性,但它同时共同预测历史和未来轨迹,忽略了这两个组成部分之间的因果关系。在本研究中,我们以顺序方式分别预测历史和未来轨迹。具体而言,我们提出了一种名为Diffusion²的模型,用于瞬时行人轨迹预测。在扩散模型优势的基础上,我们的框架采用了两个串联的组件:一个用于反向预测,另一个用于正向预测,如图1所示。
随之而来的一个问题是预测出的历史轨迹的可靠性:如果它们高度不准确或包含噪声,则可能对后续的未来轨迹预测产生不利影响。因此,量化预测历史轨迹的不确定性并选择性地利用可靠信息进行下游预测任务至关重要。然而,扩散模型仅隐式地学习数据分布,缺乏显式量化不确定性的能力。为了填补这一空白,我们设计了一种双头参数化机制,该机制通过引入两个输出头来增强标准的噪声预测网络。
第一个头预测噪声,第二个头则估计每个坐标的对数方差,从而能够直接量化偶然不确定性。
随后,为了结合估计的偶然不确定性,我们设计了一个时间自适应噪声调度器,它根据预测的不确定性水平,动态地将噪声注入到前向扩散模型中。直观上讲,当历史轨迹高度不确定时,会向正向扩散模型注入更多噪声,以鼓励生成过程中的探索;而当不确定性较低时,则减少噪声的添加。
总而言之,我们研究的主要贡献如下:
-
提出了Diffusion²,这是一个新颖的框架,由两个顺序的扩散模型组成,能够捕捉轨迹的因果依赖性:一个用于反向预测,另一个用于正向预测。 -
提出了一种双头参数化机制,使反向预测的扩散模型能够在单次采样中量化偶然不确定性,并进一步为正向预测扩散模型引入了一种自适应噪声调度策略,该策略根据估计的不确定性动态调整噪声的大小。 -
Diffusion²在瞬时行人预测中实现了SOTA,这一点在ETH/UCY和斯坦福无人机数据集上的实验得到了证实。
02 预备知识
2.1 问题定义
在本研究中,我们的目标是仅使用两帧观测数据作为输入,进行准确的瞬时行人轨迹预测。这些观测帧被定义为 ,其中 表示自车行人的二维位置, 代表周围行人的位置, 表示周围行人的数量,而 对应语义场景图。目标是预测未来轨迹 ,其中 表示预测时间范围。此外,我们将未观测到的历史轨迹定义为 ,其中 是未观测历史轨迹的长度。我们的模型通过利用基于少数观测点推断出的历史轨迹来预测未来轨迹。由于推断出的历史轨迹可能带有噪声,我们的模型也需考虑其不确定性。
2.2 去噪扩散概率模型
去噪扩散概率模型(DDPM)通常由两个马尔可夫链过程组成:一个前向扩散过程和一个反向去噪过程。为了避免冗余,我们仅展示对 的扩散公式,并指出该过程可直接应用于 。
前向扩散过程通过在多个时间步上添加高斯噪声,逐渐破坏真实数据,形成一系列扰动样本 ,其中 是原始数据, 是扩散步数。通常,我们将扩散过程定义为:
其中 表示标准差(因此协方差为 )。扩散参数 在时间步上诱导了一个噪声调度,使得信噪比(SNR) 在 上严格单调递减。
相反,反向去噪过程被训练为沿着这个马尔可夫链逐步、迭代地去除噪声,从而在上下文信息的条件下重建原始轨迹。通常,我们将反向去噪过程定义为:
其中 ,且 ; 表示用参数 近似 的神经网络, 是用作起点的标准高斯噪声。此外, 和 分别表示预测的均值和方差。
03 算法详解
3.1 整体架构
我们提出的模型 Diffusion² 是一个两阶段的扩散框架,由两个顺序连接的模块组成: DDPMpast 和 DDPMfut。如图 2 所示,DDPMpast 负责反向轨迹预测并估计偶然不确定性,而 DDPMfut 则用于预测未来轨迹。给定观测帧 ,一个共享编码器首先提取上下文表征 。在 的条件下,DDPMpast 同时预测未观测到的历史轨迹 并通过双头参数化机制估计其偶然不确定性 。随后,我们采用一个由两个 LSTM 层和一个三层 MLP 组成的轨迹编码器,从 中提取特征 。提取出的特征 与上下文表征 融合,形成一个新的条件向量 ,该向量作为 DDPMfut 的输入上下文来预测未来轨迹 。
此外,为了结合所估计的偶然不确定性,我们为 DDPMfut 引入了一种可学习的时序自适应噪声调度策略,其中伽马模块(gamma module)根据 和当前扩散时间步 动态调整噪声尺度。需要注意的是,设计一个复杂的网络来从轨迹中提取时空特征并非本工作的重点,Diffusion² 是一个对编码器不敏感的框架,可以无缝集成先前研究中提出的各种编码器。在我们的实验中,我们采用了MOE 编码器,因为它具有卓越的表征能力。
对于 DDPMpast 和 DDPMfut 的去噪骨干网络,我们采用了一个简化的 Transformer 解码器。并行的全连接层首先将被破坏的轨迹样本及其上下文特征投影到一个共同的潜在空间,然后添加当前扩散时间步的正弦编码。这个序列随后由三个堆叠的自注意力块处理,以捕捉时空依赖性。最后,一个线性层将该表征映射回二维坐标空间。
3.2 双头参数化
在这项工作中,为了高效地量化预测出的未观测历史轨迹的偶然不确定性,我们设计了一种双头参数化机制,该机制增强了标准的噪声预测网络,使其输出两个头:
其中 表示 DDPMpast 的学习参数。第一个头 预测缩放后的高斯噪声,这与标准扩散模型中的做法相同;而第二个头 则直接在每个坐标上预测对数方差。为简洁起见,在下文中我们将 简写为

