>

NIPS 2025 | 打破理论空白！PMI 分解 + 蒙特卡洛估计，VLMs 后验 OOD 检测实现质的飞跃

>

0

0



NIPS 2025 | 打破理论空白！PMI 分解 + 蒙特卡洛估计，VLMs 后验 OOD 检测实现质的飞跃

NIPS 2025 | 打破理论空白！PMI 分解 + 蒙特卡洛估计，VLMs 后验 OOD 检测实现质的飞跃

Hello World Model

2025-12-06

0

导读：点击下方名片，获取你的下一个灵感实例。

点击下方名片，获取你的下一个灵感实例。

在人工智能模型日益渗透到医疗、自动驾驶等关键领域的今天，如何让模型准确识别"未知的未知"——即训练中从未见过的分布外（OOD）样本，成为保障AI系统可靠性的核心挑战。近期发表于顶会的研究《An Information-theoretical Framework for Understanding Out-of-distribution Detection with Pretrained Vision-Language Models》提出了全新的信息理论框架，为这一难题提供了突破性解决方案。

论文信息

题目：An Information-theoretical Framework for Understanding Out-of-distribution Detection with Pretrained Vision-Language Models

基于预训练视觉语言模型的分布外检测的信息理论框架

作者：Bo Peng, Jie Lu, Guangquan Zhang, Zhen Fang

为何OOD检测如此重要？

想象一下，当自动驾驶系统将突然闯入的行人误判为训练过的"塑料袋"，或医疗影像模型将罕见肿瘤归类为已知的"良性结节"——这些OOD样本的误判可能导致致命后果。传统模型在封闭世界中表现优异，但面对开放世界的未知样本时往往束手无策。

预训练视觉语言模型（如CLIP）的出现为OOD检测带来曙光。这类模型通过联合学习视觉和文本特征，具备强大的零样本识别能力。然而，现有方法如MCM和NegLabel虽在实践中有效，却缺乏理论支撑，如同在黑暗中摸索前行。

信息理论框架：拨开迷雾见本质

本文的核心突破在于构建了首个信息理论密度估计框架，将分布内（ID）数据建模为基于能量的模型（EBM）。通俗来说，就是通过计算输入图像与每个已知标签之间的"关联强度"（即逐点互信息PMI）来衡量样本的"熟悉度"——ID样本与已知标签的关联更强，而OOD样本则更"陌生"。

理论框架示意图

这一框架揭示了现有方法的本质：

MCM方法本质上是在寻找图像与最近似ID标签的最大关联强度
NegLabel通过引入负标签（如用"汽车"作为"猫"的负标签）扩大了比较范围，从而更准确地估计关联强度

就像判断一个人是否属于某个社群，不仅要看他与社群成员的相似度，还要看他与外部人员的差异——负标签的作用正在于此。

分治策略：化繁为简的聪明解法

受分治思想启发，研究团队提出了革命性的PMI分解策略。就像将复杂问题拆解为简单子问题，他们将原始的关联强度计算分解为两部分：

图像局部子视图（如随机裁剪的部分区域）与标签的关联
完整图像与标签在已知局部信息下的条件关联

这种分解不仅降低了计算复杂度，更巧妙地避免了引入过多负标签导致的性能下降——这正是现有方法的痛点。通过数学证明，该策略能有效提高估计上界，减少偏差。

方法架构：理论指导下的算法创新

基于上述理论，研究团队设计了新型OOD评分函数Sours(x;θ)，其核心架构包含三个关键步骤：

子视图生成：对输入图像进行随机裁剪，生成保留部分语义信息的子视图
双阶段关联计算：分别计算子视图与标签的关联，以及完整图像在子视图条件下与标签的关联
融合评分：将两部分关联强度融合，得到最终的OOD评分

方法流程图

这一架构如同给模型配备了"双重视角"——既看局部特征也看整体信息，从而更精准地判断样本是否属于已知分布。

实验验证：全面超越现有方法

在ImageNet-1K数据集及多个OOD基准集（iNaturalist、SUN、Places365、Textures）上的实验表明，新方法全面超越17种现有基线方法：

平均降低3.16%的FPR95（当ID样本识别准确率为95%时的OOD误判率）
平均提升2.21%的AUROC（衡量整体检测性能的指标）

主要实验结果

消融实验进一步验证了关键组件的有效性：

裁剪尺度λ控制子视图信息量，过强裁剪会破坏语义
温度参数τ和κ需平衡特征相似度的权重，实验发现τ=0.02、κ=0.08时效果最佳

消融实验结果

特别值得注意的是，该方法在领域偏移场景（如ImageNet-S和ImageNet-A）中表现出更强的鲁棒性，显示出在真实复杂环境中的应用潜力。

总结与展望

这项研究不仅提出了性能卓越的OOD检测方法，更重要的是建立了统一的理论框架，为理解和改进基于视觉语言模型的OOD检测提供了全新视角。其分治式PMI分解策略为解决高维数据关联估计问题提供了新思路，未来有望扩展到自然语言处理、多模态融合等更多领域。

在AI系统安全性日益受到重视的今天，这样兼具理论深度和实践价值的研究，无疑为构建更可靠、更智能的开放世界AI系统迈出了关键一步。

【声明】内容源于网络

0

0

Hello World Model

欢迎关注。分享大模型相关论文，学习心得。

内容 15

粉丝 0

Hello World Model 欢迎关注。分享大模型相关论文，学习心得。

总阅读9

粉丝0

内容15