大数跨境
0
0

NeurIPS 2025 | 上下文学习新方法:RH-Partial2Global,一个面向可靠与全面视觉的提示选择框架

NeurIPS 2025 | 上下文学习新方法:RH-Partial2Global,一个面向可靠与全面视觉的提示选择框架 极市平台
2025-10-22
0
↑ 点击蓝字 关注极市平台
作者丨52CV
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

RH-Partial2Global 用 Jackknife 保形预测筛出“可靠候选集”,再用覆盖设计取代随机采样,在 Pascal-5i 分割任务上把 mIoU 再提 0.62%,无需额外训练即可通杀 VICL 提示选择。>>加入极市CV技术交流群,走在计算机视觉的最前沿

华中科技大学、上海创智学院、伦敦大学学院、腾讯优图实验室等机构联合提出RH-Partial2Global框架,旨在解决视觉上下文学习(VICL)中的两个核心局限:对“相似性优先”假设的盲目依赖以及随机采样导致的次优排序。

  • 论文标题: Towards Reliable and Holistic Visual In-Context Learning Prompt Selection
  • 作者:Wenxiao Wu, Jing-Hao Xue, Chengming Xu, Chen Liu, Xinwei Sun, Changxin Gao, Nong Sang, Yanwei Fu
  • 机构:华中科技大学、上海创智学院、伦敦大学学院、腾讯优图实验室、香港科技大学、复旦大学
  • 论文地址https://arxiv.org/abs/2509.25989
  • 代码开源https://github.com/Wu-Wenxiao/RH-Partial2Global

01 背景与问题

视觉上下文学习(Visual In-Context Learning, VICL)通过利用上下文示例(in-context examples)来指导视觉基础模型(VFM)适应新任务,已成为一个重要的研究范式。其核心挑战之一是如何从候选池中选择最优的提示(Prompt)。

现有方法(如 VPR, Partial2Global)大多基于一个核心假设——相似性优先(similarity-priority assumption):即与查询图像(query image)视觉上越相似的候选图像,作为提示时效果越好。然而,该论文指出此假设存在两大问题:

  1. 缺乏充分的统计依据:该假设虽然直观,但其有效性未经严格的统计验证。论文通过实验(见表1)发现,尽管提示质量(如分割任务的IoU)与视觉相似性之间存在显著的单调关系(Spearman相关性检验 p < 0.05),但相关强度很弱(平均相关系数 ρ 通常低于0.1),表明仅靠相似性不足以作为选择提示的可靠标准。
  2. 随机采样的局限性:Partial2Global等方法依赖随机采样构建成对偏好关系(pairwise preferences),这可能导致对候选关系的覆盖不全(incomplete coverage)冗余采样(redundant samplings),从而影响全局排序的准确性和稳定性。

02 RH-Partial2Global 方法

为解决上述问题,论文在 Partial2Global 框架基础上提出 RH-Partial2Global(Reliable and Holistic Partial2Global),包含两大核心创新:

2.1 可靠选择策略:基于 Jackknife Conformal Prediction

该策略旨在构建一个更可靠的候选示例集。

  • 动机:单纯依赖相似性会引入不可靠的低质量候选样本。

  • 方法

    1. 定义一致性分数(Conformity Score):对于训练集中的每个样本,当它被用作其他所有样本的提示时,会产生一系列的"提示质量"(如IoU)和"视觉相似性"得分。这两个得分序列的一致性(例如,通过负KL散度或Spearman相关性计算)被定义为该样本的"一致性分数"。
    2. Jackknife留一法:采用Jackknife(留一法)思想,遍历计算训练集中每个样本的一致性分数,形成一个分数分布 V。
    3. 构建可靠集:根据预设的置信水平  (如 0.85 ),从分数分布 V 中计算分位数阈值   。所有一致性分数高于此阈值的样本构成一个全局"可靠候选集"   。
    4. 精炼候选集:对于给定的查询图像,首先按相似性选出初始候选集   ,然后取   和   的交集,得到最终精炼后的可靠候选集   。
  • 优势:此方法无需额外训练模型,仅依赖统计理论即可过滤掉与相似性假设不符的低可靠性样本,提升了后续排序的输入质量。

2.2 全面采样策略:基于覆盖设计(Covering Design)

该策略旨在确保对候选关系的全面、均匀覆盖。

  • 动机:随机采样无法保证所有候选对(pairs)都被充分比较。
  • 方法:利用组合数学中的覆盖设计(Covering Design)理论(如 C(K, k, t) 设计,其中t=2表示成对比较),生成一个最优的、数量最少的子序列集合,以确保候选集中的每一对候选至少在一个子序列中被比较过。这取代了原有的随机打乱(random shuffle)和划分过程。
  • 优势:以系统化、更高效的方式保证了成对偏好关系的完备性(comprehensiveness)均匀性(uniformity),减少了冗余比较,提高了全局排序的稳定性和准确性。

03 实验结果

论文在前景分割(Pascal-5i)、单目标检测(Pascal VOC 2012)和图像着色(ILSVRC2012)三个任务上进行了验证。

3.1. 主要性能

  • 定量结果

    • 在所有任务上,RH-Partial2Global 均优于 Partial2Global 基线。在 Pascal-5i 分割任务上,平均 mIoU 提升了 0.62% 。
    • 结合投票集成策略(voting ensemble),性能进一步提升,在分割任务上达到 43.08% 的平均mIoU。
  • 定性结果

    • RH-Partial2Global 选择的提示在物体姿态、场景上下文等细粒度特征上与查询图像更匹配。例如,在检测任务中,当查询图像是侧向的狗时,RH-Partial2Global 会选择同样姿态的狗作为提示,而 Partial2Global 可能只选择同类但姿态不同的狗。

3.2. 消融实验

  • 可靠选择策略的有效性(见表3):在移除约15%被判定为不可靠的候选样本后,Oracle(理想情况)的 top-k 性能几乎没有下降。这证明该策略在剔除低质量样本的同时,成功保留了高质量的候选。
  • 各策略的独立贡献(见表4):单独使用“可靠选择策略”()或“覆盖设计策略”()都能带来性能提升。当两者结合,并辅以一个填充策略(,防止候选集过小)时,性能达到最优。

04 核心贡献

  1. 挑战并验证了“相似性优先”假设的局限性:首次通过严格的统计检验(Spearman's rank correlation test)揭示了该假设的弱相关性,为领域内更优的提示选择标准提供了理论依据。
  2. 提出基于保形预测的可靠选择策略:引入了一种无需训练、可泛化的方法来过滤不可靠的候选样本,该方法同样适用于VPR等其他VICL框架。
  3. 引入覆盖设计进行全面采样:解决了随机采样带来的覆盖不均问题,为构建稳定、准确的全局排序提供了理论保障。


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k