AAAI 2026 | 港科大&IDEA&华南理工提出T-Rex-Omni：为开放集目标检测器引入“负面提示”，性能提升显著

我爱计算机视觉

2025-11-18

导读：排除干扰，精准识别！

大家好，今天想和大家聊一篇非常有趣的开放集目标检测新工作，来自港科大（广州）、IDEA 和华南理工大学的研究者们。他们提出的 T-Rex-Omni 框架，给目标检测领域带来了一个新颖又实用的思路：负面视觉提示 (Negative Visual Prompt) 。

简单来说，过去的检测模型在识别物体时，我们通常只会给它“正面例子”，告诉它“要找的是这个”。但这种“只认正面”的模式有个明显的短板：当遇到长得像但不是同一个东西的“干扰项”时，模型就很容易“看走眼”。比如，让模型去找吉娃娃，结果它把旁边的玛芬蛋糕也给框出来了。

而 T-Rex-Omni 的核心思想，就是不仅要告诉模型“是什么”，还要告诉它“不是什么”。通过引入负面提示，模型在识别时会变得更加“明察秋毫”。

上图非常直观地展示了这个想法。当模型只接收“吉娃娃”的正面提示时，可能会错误地将玛芬蛋糕也识别出来。但如果我们同时给它一个“玛芬蛋糕”的负面提示，告诉它“这不是我要找的”，模型就能精准地排除干扰，只锁定真正的目标。

论文标题: T-Rex-Omni: Integrating Negative Visual Prompt in Generic Object Detection
作者: Jiazhou Zhou, Qing Jiang, Kanghao Chen, Lutao Jiang, Yuanhuiyi Lyu, Ying-Cong Chen, Lei Zhang
机构: 香港科技大学（广州）、国际数字经济研究院（IDEA）、华南理工大学
论文地址: https://arxiv.org/pdf/2511.08997v1
录用信息: AAAI 2026

背景：从“封闭”到“开放”，目标检测的进化与瓶颈

目标检测技术一路从只能识别预设类别的“封闭集（Closed-Set）”范式，发展到了能够根据用户提示识别任意物体的“开放集（Open-Set）”范式。目前的开放集检测主要依赖两种提示：文本提示（比如输入“一只小狗的照片”）和视觉提示（比如给一张小狗的示例图片）。

然而，无论是哪种提示，现有的方法都局限于“正面提示”，这导致它们在面对视觉上相似但语义完全不同的“硬负例（hard negatives）”时，表现总是差强人意。尤其是在长尾数据分布（即大量类别只有很少的样本）的场景下，这个问题会更加严重，极大地限制了模型在真实世界中的应用。

正是为了解决这个痛点，T-Rex-Omni 应运而生。它向我们提出了一个关键问题：我们能否利用负面视觉提示，让模型主动地“否定”那些硬负例，同时又不影响它识别真正目标的能力？

T-Rex-Omni 建立在 T-Rex2 架构之上，但做出了几个关键的创新。它没有使用文本提示分支，而是专注于深度整合视觉提示，特别是引入了负面提示的处理机制。

整个框架的核心可以概括为以下几个部分：

这是模型的第一步，负责将用户给出的正面和负面视觉提示（通常是边界框）转换成模型能够理解的特征嵌入。为了解决负面提示数据稀缺的问题，研究者们提出了一种巧妙的“合成”策略：通过对真实标注框（Ground Truth Box）进行不同程度的几何抖动（Jittering）来生成正负样本。

这是 T-Rex-Omni 的一大亮点。NNC 是一个即插即用的模块，它可以在不需要额外训练的情况下，动态地调整检测结果的置信度。

具体来说，模型会计算检测到的物体与正面提示的相似度和与负面提示的相似度。最终的概率会根据一个公式进行校准：

其中，是一个超参数，用来控制负面提示的影响力；是一个随机指示器，在训练时会随机切换，以保证模型能兼容只有正面提示的场景。这个公式的直观理解是：如果一个物体与负面提示的相似度很高，那么它的最终得分就会被“惩罚”，从而降低被错误识别的概率。

为了在微调阶段进一步提升性能，研究者们还设计了 NNH 损失函数。这个损失函数的目标是在特征空间中，将正面提示的嵌入和负面提示的嵌入明确地分离开。

这里的是一个预设的边界（margin）。NNH 损失会“惩罚”那些负面提示与正面提示在特征空间中过于接近的情况，迫使模型学习到更具辨别力的特征表示。

通过这套组合拳，T-Rex-Omni 实现了三种灵活的推理模式：

上图生动地展示了这三种模式的效果。在（a）仅正面提示模式下，模型将吉娃娃误识别为玛芬蛋糕。在（b）自动建议模式下，错误减少。而在（c）用户策划模式下，模型利用用户提供的精准负面提示，完美地排除了所有干扰，实现了最准确的检测。

T-Rex-Omni 在 COCO、LVIS、ODinW35 和 Roboflow100 等多个主流数据集上进行了零样本（Zero-Shot）评估，结果非常亮眼。

超越同类方法: 在 COCO-val 数据集上，T-Rex-Omni (Swin-T) 的性能达到了 43.6 AP ，比之前的最佳视觉提示方法 T-Rex2 高出 4.8 AP。
大幅缩小与文本提示方法的差距: 该方法显著拉近了视觉提示与文本提示方法之间的性能鸿沟，在 LVIS-val 数据集上甚至超越了基于文本的 T-Rex2。
在长尾场景中表现卓越: 最令人瞩目的成果是在长尾识别任务上的巨大提升。使用Swin-T backbone时，T-Rex-Omni在LVIS-minival数据集的稀有类别上，相对基线T-Rex2将性能从29.9 提升到了37.0 ，相对涨幅高达 23.8% 。当换用更强的Swin-L backbone时，性能更是达到了惊人的 51.2 。这充分证明了负面提示对于解决数据不平衡问题的有效性。