大家好,今天想和大家聊一篇非常有趣的开放集目标检测新工作,来自港科大(广州)、IDEA 和华南理工大学的研究者们。他们提出的 T-Rex-Omni 框架,给目标检测领域带来了一个新颖又实用的思路:负面视觉提示 (Negative Visual Prompt) 。
简单来说,过去的检测模型在识别物体时,我们通常只会给它“正面例子”,告诉它“要找的是这个”。但这种“只认正面”的模式有个明显的短板:当遇到长得像但不是同一个东西的“干扰项”时,模型就很容易“看走眼”。比如,让模型去找吉娃娃,结果它把旁边的玛芬蛋糕也给框出来了。
而 T-Rex-Omni 的核心思想,就是不仅要告诉模型“是什么”,还要告诉它“不是什么”。通过引入负面提示,模型在识别时会变得更加“明察秋毫”。
上图非常直观地展示了这个想法。当模型只接收“吉娃娃”的正面提示时,可能会错误地将玛芬蛋糕也识别出来。但如果我们同时给它一个“玛芬蛋糕”的负面提示,告诉它“这不是我要找的”,模型就能精准地排除干扰,只锁定真正的目标。
-
论文标题: T-Rex-Omni: Integrating Negative Visual Prompt in Generic Object Detection -
作者: Jiazhou Zhou, Qing Jiang, Kanghao Chen, Lutao Jiang, Yuanhuiyi Lyu, Ying-Cong Chen, Lei Zhang -
机构: 香港科技大学(广州)、国际数字经济研究院(IDEA)、华南理工大学 -
论文地址: https://arxiv.org/pdf/2511.08997v1 -
录用信息: AAAI 2026
背景:从“封闭”到“开放”,目标检测的进化与瓶颈
目标检测技术一路从只能识别预设类别的“封闭集(Closed-Set)”范式,发展到了能够根据用户提示识别任意物体的“开放集(Open-Set)”范式。目前的开放集检测主要依赖两种提示:文本提示(比如输入“一只小狗的照片”)和视觉提示(比如给一张小狗的示例图片)。
然而,无论是哪种提示,现有的方法都局限于“正面提示”,这导致它们在面对视觉上相似但语义完全不同的“硬负例(hard negatives)”时,表现总是差强人意。尤其是在长尾数据分布(即大量类别只有很少的样本)的场景下,这个问题会更加严重,极大地限制了模型在真实世界中的应用。
正是为了解决这个痛点,T-Rex-Omni 应运而生。它向我们提出了一个关键问题:我们能否利用负面视觉提示,让模型主动地“否定”那些硬负例,同时又不影响它识别真正目标的能力?
方法:T-Rex-Omni 如何巧妙融合“正负提示”?
T-Rex-Omni 建立在 T-Rex2 架构之上,但做出了几个关键的创新。它没有使用文本提示分支,而是专注于深度整合视觉提示,特别是引入了负面提示的处理机制。
整个框架的核心可以概括为以下几个部分:
统一的正负视觉提示编码器
这是模型的第一步,负责将用户给出的正面和负面视觉提示(通常是边界框)转换成模型能够理解的特征嵌入。为了解决负面提示数据稀缺的问题,研究者们提出了一种巧妙的“合成”策略:通过对真实标注框(Ground Truth Box)进行不同程度的几何抖动(Jittering)来生成正负样本。
-
正面提示 (Positive Prompts): 对 GT 框进行轻微的变换(如小范围的缩放或平移),模拟真实场景中可能出现的微小差异。 -
负面提示 (Negative Prompts): 对 GT 框进行更剧烈的变换,生成一些“似是而非”的样本,作为模型的“反面教材”。
免训练的“负向否定计算 (NNC)”模块
这是 T-Rex-Omni 的一大亮点。NNC 是一个即插即用的模块,它可以在不需要额外训练的情况下,动态地调整检测结果的置信度。
具体来说,模型会计算检测到的物体与正面提示的相似度 和与负面提示的相似度 。最终的概率会根据一个公式进行校准:
其中, 是一个超参数,用来控制负面提示的影响力; 是一个随机指示器,在训练时会随机切换,以保证模型能兼容只有正面提示的场景。这个公式的直观理解是:如果一个物体与负面提示的相似度很高,那么它的最终得分就会被“惩罚”,从而降低被错误识别的概率。
用于微调的“负向否定铰链 (NNH)”损失
为了在微调阶段进一步提升性能,研究者们还设计了 NNH 损失函数。这个损失函数的目标是在特征空间中,将正面提示的嵌入和负面提示的嵌入明确地分离开。
这里的 是一个预设的边界(margin)。NNH 损失会“惩罚”那些负面提示与正面提示在特征空间中过于接近的情况,迫使模型学习到更具辨别力的特征表示。
通过这套组合拳,T-Rex-Omni 实现了三种灵活的推理模式:
-
用户策划模式 (User-curated): 用户手动指定正、负面提示,适用于对精度要求极高的场景。 -
自动建议模式 (Auto-suggested): 系统根据用户给出的正面提示,自动生成相关的负面提示,在效率和精度之间取得了很好的平衡。 -
仅正面提示模式 (Positive-only): 兼容传统的检测流程,方便快速部署。
上图生动地展示了这三种模式的效果。在(a)仅正面提示模式下,模型将吉娃娃误识别为玛芬蛋糕。在(b)自动建议模式下,错误减少。而在(c)用户策划模式下,模型利用用户提供的精准负面提示,完美地排除了所有干扰,实现了最准确的检测。
实验:效果显著,尤其擅长“长尾”场景
T-Rex-Omni 在 COCO、LVIS、ODinW35 和 Roboflow100 等多个主流数据集上进行了零样本(Zero-Shot)评估,结果非常亮眼。
-
超越同类方法: 在 COCO-val 数据集上,T-Rex-Omni (Swin-T) 的性能达到了 43.6 AP ,比之前的最佳视觉提示方法 T-Rex2 高出 4.8 AP。 -
大幅缩小与文本提示方法的差距: 该方法显著拉近了视觉提示与文本提示方法之间的性能鸿沟,在 LVIS-val 数据集上甚至超越了基于文本的 T-Rex2。 -
在长尾场景中表现卓越: 最令人瞩目的成果是在长尾识别任务上的巨大提升。使用Swin-T backbone时,T-Rex-Omni在LVIS-minival数据集的稀有类别上,相对基线T-Rex2将性能从29.9 提升到了37.0 ,相对涨幅高达 23.8% 。当换用更强的Swin-L backbone时,性能更是达到了惊人的 51.2 。这充分证明了负面提示对于解决数据不平衡问题的有效性。
消融实验也清晰地验证了 NNC 模块和 NNH 损失的有效性。仅加入免训练的 NNC 模块,就能在 COCO-val 上带来 +3.0 AP 的提升。而完整的模型则取得了 +4.8 AP 的飞跃,证明了各个模块设计的合理性。
研究者们还对超参数进行了详尽的分析,例如 NNC 模块中的负向抑制系数 、NNH 损失中的边界 以及正负提示的数量。实验表明,选择适度的参数(如 )和少量的负面提示(如 K=3)可以达到最佳效果,过多的负面提示反而可能引入噪声。
总结
T-Rex-Omni 通过引入“负面视觉提示”这一新维度,为开放集目标检测领域提供了一个简单而强大的新范式。它不仅有效解决了现有方法容易被视觉相似物体干扰的问题,更在充满挑战的长尾场景中展现出巨大的潜力。
这项工作让我们看到,让模型学会“否定”,和让它学会“肯定”同样重要。你觉得这个思路未来还能应用在哪些计算机视觉任务中?欢迎在评论区分享你的看法!

