极市导读
RH-Partial2Global 用 Jackknife 保形预测筛出“可靠候选集”,再用覆盖设计取代随机采样,在 Pascal-5i 分割任务上把 mIoU 再提 0.62%,无需额外训练即可通杀 VICL 提示选择。>>加入极市CV技术交流群,走在计算机视觉的最前沿
华中科技大学、上海创智学院、伦敦大学学院、腾讯优图实验室等机构联合提出RH-Partial2Global框架,旨在解决视觉上下文学习(VICL)中的两个核心局限:对“相似性优先”假设的盲目依赖以及随机采样导致的次优排序。
-
论文标题: Towards Reliable and Holistic Visual In-Context Learning Prompt Selection -
作者:Wenxiao Wu, Jing-Hao Xue, Chengming Xu, Chen Liu, Xinwei Sun, Changxin Gao, Nong Sang, Yanwei Fu -
机构:华中科技大学、上海创智学院、伦敦大学学院、腾讯优图实验室、香港科技大学、复旦大学 -
论文地址:https://arxiv.org/abs/2509.25989 -
代码开源:https://github.com/Wu-Wenxiao/RH-Partial2Global
01 背景与问题
视觉上下文学习(Visual In-Context Learning, VICL)通过利用上下文示例(in-context examples)来指导视觉基础模型(VFM)适应新任务,已成为一个重要的研究范式。其核心挑战之一是如何从候选池中选择最优的提示(Prompt)。
现有方法(如 VPR, Partial2Global)大多基于一个核心假设——相似性优先(similarity-priority assumption):即与查询图像(query image)视觉上越相似的候选图像,作为提示时效果越好。然而,该论文指出此假设存在两大问题:
-
缺乏充分的统计依据:该假设虽然直观,但其有效性未经严格的统计验证。论文通过实验(见表1)发现,尽管提示质量(如分割任务的IoU)与视觉相似性之间存在显著的单调关系(Spearman相关性检验 p < 0.05),但相关强度很弱(平均相关系数 ρ 通常低于0.1),表明仅靠相似性不足以作为选择提示的可靠标准。 -
随机采样的局限性:Partial2Global等方法依赖随机采样构建成对偏好关系(pairwise preferences),这可能导致对候选关系的覆盖不全(incomplete coverage)和冗余采样(redundant samplings),从而影响全局排序的准确性和稳定性。
02 RH-Partial2Global 方法
为解决上述问题,论文在 Partial2Global 框架基础上提出 RH-Partial2Global(Reliable and Holistic Partial2Global),包含两大核心创新:
2.1 可靠选择策略:基于 Jackknife Conformal Prediction
该策略旨在构建一个更可靠的候选示例集。
-
动机:单纯依赖相似性会引入不可靠的低质量候选样本。
-
方法:
-
定义一致性分数(Conformity Score):对于训练集中的每个样本,当它被用作其他所有样本的提示时,会产生一系列的"提示质量"(如IoU)和"视觉相似性"得分。这两个得分序列的一致性(例如,通过负KL散度或Spearman相关性计算)被定义为该样本的"一致性分数"。 -
Jackknife留一法:采用Jackknife(留一法)思想,遍历计算训练集中每个样本的一致性分数,形成一个分数分布 V。 -
构建可靠集:根据预设的置信水平 (如 0.85 ),从分数分布 V 中计算分位数阈值 。所有一致性分数高于此阈值的样本构成一个全局"可靠候选集" 。 -
精炼候选集:对于给定的查询图像,首先按相似性选出初始候选集 ,然后取 和 的交集,得到最终精炼后的可靠候选集 。 -
优势:此方法无需额外训练模型,仅依赖统计理论即可过滤掉与相似性假设不符的低可靠性样本,提升了后续排序的输入质量。
2.2 全面采样策略:基于覆盖设计(Covering Design)
该策略旨在确保对候选关系的全面、均匀覆盖。
-
动机:随机采样无法保证所有候选对(pairs)都被充分比较。 -
方法:利用组合数学中的覆盖设计(Covering Design)理论(如 C(K, k, t) 设计,其中t=2表示成对比较),生成一个最优的、数量最少的子序列集合,以确保候选集中的每一对候选至少在一个子序列中被比较过。这取代了原有的随机打乱(random shuffle)和划分过程。 -
优势:以系统化、更高效的方式保证了成对偏好关系的完备性(comprehensiveness)和均匀性(uniformity),减少了冗余比较,提高了全局排序的稳定性和准确性。
03 实验结果
论文在前景分割(Pascal-5i)、单目标检测(Pascal VOC 2012)和图像着色(ILSVRC2012)三个任务上进行了验证。
3.1. 主要性能
-
定量结果:
-
在所有任务上,RH-Partial2Global 均优于 Partial2Global 基线。在 Pascal-5i 分割任务上,平均 mIoU 提升了 0.62% 。 -
结合投票集成策略(voting ensemble),性能进一步提升,在分割任务上达到 43.08% 的平均mIoU。
-
定性结果:
-
RH-Partial2Global 选择的提示在物体姿态、场景上下文等细粒度特征上与查询图像更匹配。例如,在检测任务中,当查询图像是侧向的狗时,RH-Partial2Global 会选择同样姿态的狗作为提示,而 Partial2Global 可能只选择同类但姿态不同的狗。
3.2. 消融实验
-
可靠选择策略的有效性(见表3):在移除约15%被判定为不可靠的候选样本后,Oracle(理想情况)的 top-k 性能几乎没有下降。这证明该策略在剔除低质量样本的同时,成功保留了高质量的候选。
-
各策略的独立贡献(见表4):单独使用“可靠选择策略”()或“覆盖设计策略”()都能带来性能提升。当两者结合,并辅以一个填充策略(,防止候选集过小)时,性能达到最优。
04 核心贡献
-
挑战并验证了“相似性优先”假设的局限性:首次通过严格的统计检验(Spearman's rank correlation test)揭示了该假设的弱相关性,为领域内更优的提示选择标准提供了理论依据。 -
提出基于保形预测的可靠选择策略:引入了一种无需训练、可泛化的方法来过滤不可靠的候选样本,该方法同样适用于VPR等其他VICL框架。 -
引入覆盖设计进行全面采样:解决了随机采样带来的覆盖不均问题,为构建稳定、准确的全局排序提供了理论保障。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

