大数跨境
0
0

NIPS 2025 | 打破理论空白!PMI 分解 + 蒙特卡洛估计,VLMs 后验 OOD 检测实现质的飞跃

NIPS 2025 | 打破理论空白!PMI 分解 + 蒙特卡洛估计,VLMs 后验 OOD 检测实现质的飞跃 Hello World Model
2025-12-06
0
导读:点击下方名片,获取你的下一个灵感实例。

点击下方名片,获取你的下一个灵感实例。

在人工智能模型日益渗透到医疗、自动驾驶等关键领域的今天,如何让模型准确识别"未知的未知"——即训练中从未见过的分布外(OOD)样本,成为保障AI系统可靠性的核心挑战。近期发表于顶会的研究《An Information-theoretical Framework for Understanding Out-of-distribution Detection with Pretrained Vision-Language Models》提出了全新的信息理论框架,为这一难题提供了突破性解决方案。

论文信息

题目:An Information-theoretical Framework for Understanding Out-of-distribution Detection with Pretrained Vision-Language Models

基于预训练视觉语言模型的分布外检测的信息理论框架

作者:Bo Peng, Jie Lu, Guangquan Zhang, Zhen Fang

为何OOD检测如此重要?

想象一下,当自动驾驶系统将突然闯入的行人误判为训练过的"塑料袋",或医疗影像模型将罕见肿瘤归类为已知的"良性结节"——这些OOD样本的误判可能导致致命后果。传统模型在封闭世界中表现优异,但面对开放世界的未知样本时往往束手无策。

预训练视觉语言模型(如CLIP)的出现为OOD检测带来曙光。这类模型通过联合学习视觉和文本特征,具备强大的零样本识别能力。然而,现有方法如MCM和NegLabel虽在实践中有效,却缺乏理论支撑,如同在黑暗中摸索前行。

信息理论框架:拨开迷雾见本质

本文的核心突破在于构建了首个信息理论密度估计框架,将分布内(ID)数据建模为基于能量的模型(EBM)。通俗来说,就是通过计算输入图像与每个已知标签之间的"关联强度"(即逐点互信息PMI)来衡量样本的"熟悉度"——ID样本与已知标签的关联更强,而OOD样本则更"陌生"。

理论框架示意图

这一框架揭示了现有方法的本质:

  • MCM方法本质上是在寻找图像与最近似ID标签的最大关联强度
  • NegLabel通过引入负标签(如用"汽车"作为"猫"的负标签)扩大了比较范围,从而更准确地估计关联强度

就像判断一个人是否属于某个社群,不仅要看他与社群成员的相似度,还要看他与外部人员的差异——负标签的作用正在于此。

分治策略:化繁为简的聪明解法

受分治思想启发,研究团队提出了革命性的PMI分解策略。就像将复杂问题拆解为简单子问题,他们将原始的关联强度计算分解为两部分:

  1. 图像局部子视图(如随机裁剪的部分区域)与标签的关联
  2. 完整图像与标签在已知局部信息下的条件关联

这种分解不仅降低了计算复杂度,更巧妙地避免了引入过多负标签导致的性能下降——这正是现有方法的痛点。通过数学证明,该策略能有效提高估计上界,减少偏差。

方法架构:理论指导下的算法创新

基于上述理论,研究团队设计了新型OOD评分函数Sours(x;θ),其核心架构包含三个关键步骤:

  1. 子视图生成:对输入图像进行随机裁剪,生成保留部分语义信息的子视图
  2. 双阶段关联计算:分别计算子视图与标签的关联,以及完整图像在子视图条件下与标签的关联
  3. 融合评分:将两部分关联强度融合,得到最终的OOD评分
方法流程图

这一架构如同给模型配备了"双重视角"——既看局部特征也看整体信息,从而更精准地判断样本是否属于已知分布。

实验验证:全面超越现有方法

在ImageNet-1K数据集及多个OOD基准集(iNaturalist、SUN、Places365、Textures)上的实验表明,新方法全面超越17种现有基线方法:

  • 平均降低3.16%的FPR95(当ID样本识别准确率为95%时的OOD误判率)
  • 平均提升2.21%的AUROC(衡量整体检测性能的指标)
主要实验结果

消融实验进一步验证了关键组件的有效性:

  • 裁剪尺度λ控制子视图信息量,过强裁剪会破坏语义
  • 温度参数τ和κ需平衡特征相似度的权重,实验发现τ=0.02、κ=0.08时效果最佳
消融实验结果

特别值得注意的是,该方法在领域偏移场景(如ImageNet-S和ImageNet-A)中表现出更强的鲁棒性,显示出在真实复杂环境中的应用潜力。

总结与展望

这项研究不仅提出了性能卓越的OOD检测方法,更重要的是建立了统一的理论框架,为理解和改进基于视觉语言模型的OOD检测提供了全新视角。其分治式PMI分解策略为解决高维数据关联估计问题提供了新思路,未来有望扩展到自然语言处理、多模态融合等更多领域。

在AI系统安全性日益受到重视的今天,这样兼具理论深度和实践价值的研究,无疑为构建更可靠、更智能的开放世界AI系统迈出了关键一步。

【声明】内容源于网络
0
0
Hello World Model
欢迎关注。分享大模型相关论文,学习心得。
内容 15
粉丝 0
Hello World Model 欢迎关注。分享大模型相关论文,学习心得。
总阅读9
粉丝0
内容15