大数跨境
0
0

AAAI 2026 | 港科大&IDEA&华南理工提出T-Rex-Omni:为开放集目标检测器引入“负面提示”,性能提升显著

AAAI 2026 | 港科大&IDEA&华南理工提出T-Rex-Omni:为开放集目标检测器引入“负面提示”,性能提升显著 我爱计算机视觉
2025-11-18
0
导读:排除干扰,精准识别!

大家好,今天想和大家聊一篇非常有趣的开放集目标检测新工作,来自港科大(广州)、IDEA 和华南理工大学的研究者们。他们提出的 T-Rex-Omni 框架,给目标检测领域带来了一个新颖又实用的思路:负面视觉提示 (Negative Visual Prompt) 。

简单来说,过去的检测模型在识别物体时,我们通常只会给它“正面例子”,告诉它“要找的是这个”。但这种“只认正面”的模式有个明显的短板:当遇到长得像但不是同一个东西的“干扰项”时,模型就很容易“看走眼”。比如,让模型去找吉娃娃,结果它把旁边的玛芬蛋糕也给框出来了。

而 T-Rex-Omni 的核心思想,就是不仅要告诉模型“是什么”,还要告诉它“不是什么”。通过引入负面提示,模型在识别时会变得更加“明察秋毫”。

上图非常直观地展示了这个想法。当模型只接收“吉娃娃”的正面提示时,可能会错误地将玛芬蛋糕也识别出来。但如果我们同时给它一个“玛芬蛋糕”的负面提示,告诉它“这不是我要找的”,模型就能精准地排除干扰,只锁定真正的目标。

  • 论文标题: T-Rex-Omni: Integrating Negative Visual Prompt in Generic Object Detection
  • 作者: Jiazhou Zhou, Qing Jiang, Kanghao Chen, Lutao Jiang, Yuanhuiyi Lyu, Ying-Cong Chen, Lei Zhang
  • 机构: 香港科技大学(广州)、国际数字经济研究院(IDEA)、华南理工大学
  • 论文地址: https://arxiv.org/pdf/2511.08997v1
  • 录用信息: AAAI 2026

背景:从“封闭”到“开放”,目标检测的进化与瓶颈

目标检测技术一路从只能识别预设类别的“封闭集(Closed-Set)”范式,发展到了能够根据用户提示识别任意物体的“开放集(Open-Set)”范式。目前的开放集检测主要依赖两种提示:文本提示(比如输入“一只小狗的照片”)和视觉提示(比如给一张小狗的示例图片)。

然而,无论是哪种提示,现有的方法都局限于“正面提示”,这导致它们在面对视觉上相似但语义完全不同的“硬负例(hard negatives)”时,表现总是差强人意。尤其是在长尾数据分布(即大量类别只有很少的样本)的场景下,这个问题会更加严重,极大地限制了模型在真实世界中的应用。

正是为了解决这个痛点,T-Rex-Omni 应运而生。它向我们提出了一个关键问题:我们能否利用负面视觉提示,让模型主动地“否定”那些硬负例,同时又不影响它识别真正目标的能力?

方法:T-Rex-Omni 如何巧妙融合“正负提示”?

T-Rex-Omni 建立在 T-Rex2 架构之上,但做出了几个关键的创新。它没有使用文本提示分支,而是专注于深度整合视觉提示,特别是引入了负面提示的处理机制。

整个框架的核心可以概括为以下几个部分:

统一的正负视觉提示编码器

这是模型的第一步,负责将用户给出的正面和负面视觉提示(通常是边界框)转换成模型能够理解的特征嵌入。为了解决负面提示数据稀缺的问题,研究者们提出了一种巧妙的“合成”策略:通过对真实标注框(Ground Truth Box)进行不同程度的几何抖动(Jittering)来生成正负样本。

  • 正面提示 (Positive Prompts): 对 GT 框进行轻微的变换(如小范围的缩放或平移),模拟真实场景中可能出现的微小差异。
  • 负面提示 (Negative Prompts): 对 GT 框进行更剧烈的变换,生成一些“似是而非”的样本,作为模型的“反面教材”。

免训练的“负向否定计算 (NNC)”模块

这是 T-Rex-Omni 的一大亮点。NNC 是一个即插即用的模块,它可以在不需要额外训练的情况下,动态地调整检测结果的置信度。

具体来说,模型会计算检测到的物体与正面提示的相似度   和与负面提示的相似度  。最终的概率会根据一个公式进行校准:

其中,  是一个超参数,用来控制负面提示的影响力;  是一个随机指示器,在训练时会随机切换,以保证模型能兼容只有正面提示的场景。这个公式的直观理解是:如果一个物体与负面提示的相似度很高,那么它的最终得分就会被“惩罚”,从而降低被错误识别的概率。

用于微调的“负向否定铰链 (NNH)”损失

为了在微调阶段进一步提升性能,研究者们还设计了 NNH 损失函数。这个损失函数的目标是在特征空间中,将正面提示的嵌入和负面提示的嵌入明确地分离开。

这里的   是一个预设的边界(margin)。NNH 损失会“惩罚”那些负面提示与正面提示在特征空间中过于接近的情况,迫使模型学习到更具辨别力的特征表示。

通过这套组合拳,T-Rex-Omni 实现了三种灵活的推理模式:

  • 用户策划模式 (User-curated): 用户手动指定正、负面提示,适用于对精度要求极高的场景。
  • 自动建议模式 (Auto-suggested): 系统根据用户给出的正面提示,自动生成相关的负面提示,在效率和精度之间取得了很好的平衡。
  • 仅正面提示模式 (Positive-only): 兼容传统的检测流程,方便快速部署。

上图生动地展示了这三种模式的效果。在(a)仅正面提示模式下,模型将吉娃娃误识别为玛芬蛋糕。在(b)自动建议模式下,错误减少。而在(c)用户策划模式下,模型利用用户提供的精准负面提示,完美地排除了所有干扰,实现了最准确的检测。

实验:效果显著,尤其擅长“长尾”场景

T-Rex-Omni 在 COCO、LVIS、ODinW35 和 Roboflow100 等多个主流数据集上进行了零样本(Zero-Shot)评估,结果非常亮眼。

  • 超越同类方法: 在 COCO-val 数据集上,T-Rex-Omni (Swin-T) 的性能达到了 43.6 AP ,比之前的最佳视觉提示方法 T-Rex2 高出 4.8 AP。
  • 大幅缩小与文本提示方法的差距: 该方法显著拉近了视觉提示与文本提示方法之间的性能鸿沟,在 LVIS-val 数据集上甚至超越了基于文本的 T-Rex2。
  • 在长尾场景中表现卓越: 最令人瞩目的成果是在长尾识别任务上的巨大提升。使用Swin-T backbone时,T-Rex-Omni在LVIS-minival数据集的稀有类别上,相对基线T-Rex2将性能从29.9  提升到了37.0  ,相对涨幅高达 23.8% 。当换用更强的Swin-L backbone时,性能更是达到了惊人的 51.2   。这充分证明了负面提示对于解决数据不平衡问题的有效性。

消融实验也清晰地验证了 NNC 模块和 NNH 损失的有效性。仅加入免训练的 NNC 模块,就能在 COCO-val 上带来 +3.0 AP 的提升。而完整的模型则取得了 +4.8 AP 的飞跃,证明了各个模块设计的合理性。

研究者们还对超参数进行了详尽的分析,例如 NNC 模块中的负向抑制系数  、NNH 损失中的边界   以及正负提示的数量。实验表明,选择适度的参数(如  )和少量的负面提示(如 K=3)可以达到最佳效果,过多的负面提示反而可能引入噪声。

总结

T-Rex-Omni 通过引入“负面视觉提示”这一新维度,为开放集目标检测领域提供了一个简单而强大的新范式。它不仅有效解决了现有方法容易被视觉相似物体干扰的问题,更在充满挑战的长尾场景中展现出巨大的潜力。

这项工作让我们看到,让模型学会“否定”,和让它学会“肯定”同样重要。你觉得这个思路未来还能应用在哪些计算机视觉任务中?欢迎在评论区分享你的看法!

【声明】内容源于网络
0
0
我爱计算机视觉
探寻CV新知,发现AI价值
内容 3637
粉丝 0
我爱计算机视觉 探寻CV新知,发现AI价值
总阅读792
粉丝0
内容3.6k