大数跨境
0
0

IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO

IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO 极市平台
2025-10-16
1
↑ 点击蓝字 关注极市平台
作者丨我爱计算机视觉
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

IDEA研究院提出3B参数MLLM「Rex-Omni」,把目标检测改写成“下一个点预测”,零样本即在COCO、LVIS上超越DINO;2200万数据+GRPO强化学习解决坐标不准与重复框难题,开源代码已上线。>>加入极市CV技术交流群,走在计算机视觉的最前沿

今天和大家分享一篇来自IDEA 研究院的最新研究成果。这篇名为《Detect Anything via Next Point Prediction》的论文,介绍了一个名为 Rex-Omni 的3B参数多模态大语言模型(MLLM)。它巧妙地绕开了传统目标检测方法(如YOLO、DETR)中复杂的坐标回归问题,而是将目标检测重新定义为一个更符合语言模型思路的“下一个点预测”任务。

这一转变不仅让模型的设计更加简洁,更带来了惊人的性能提升。在COCO和LVIS等权威的目标检测基准上,Rex-Omni在零样本(zero-shot)设置下,其性能媲美甚至超越了像DINO和Grounding DINO这样强大的传统模型。

一起来看看这项工作的基本信息:

  • 论文标题: Detect Anything via Next Point Prediction
  • 作者团队: Qing Jiang, Junan Huo, Xingyu Chen, Yuda Xiong, Zhaoyang Zeng, Yihao Chen, Tianhe Ren, Junzhi Yu, Lei Zhang
  • 所属机构: 粤港澳大湾区数字经济研究院(International Digital Economy Academy,简称 IDEA 研究院)
  • 论文地址https://arxiv.org/abs/2510.12798
  • 项目主页https://rex-omni.github.io/
  • 代码仓库https://github.com/idea-research/rex-omni

01 研究背景:当MLLM遇到目标检测的“老大难”

目标检测是计算机视觉领域的基石,从YOLO到DETR,再到DINO,我们见证了基于坐标回归的检测器不断刷新性能上限。然而,这些模型在理解复杂的自然语言指令方面相对受限。

近年来,研究者们尝试利用多模态大语言模型(MLLM)强大的语言理解能力来解决检测问题,但效果总是不尽如人意。这些MLLM在做检测时,常常面临召回率低、重复预测、坐标不准等一系列挑战。

究其原因,主要是两个核心困难:

  1. 优化目标不匹配:传统检测器使用L1或GIoU等几何感知损失函数,对坐标的微小偏差不敏感。而MLLM将坐标预测视为分类问题,即使像素上只差一点点,在模型看来也是完全错误的分类,导致损失巨大,优化困难。
  2. 训练与推理的鸿沟:MLLM在训练时普遍采用“教师强制”(teacher-forcing)策略,即总是基于标准答案(ground-truth)来预测下一个token。但在推理时,模型需要基于自己生成的内容进行预测,一旦出错就可能“一错再错”,导致重复检测或漏检等行为问题。

为了解决这些问题,Rex-Omni应运而生。

02 Rex-Omni的核心设计:三驾马车

Rex-Omni的成功主要归功于三大核心设计:任务范式、数据引擎和训练流程。

2.1 任务范式:化“回归”为“预测”

这是Rex-Omni最核心的创新。研究者们没有沿用传统的坐标回归思路,而是将所有视觉感知任务统一为坐标预测框架。

具体来说,他们将图像的坐标空间量化为1000个离散值(0到999),并为每个值分配一个专属的“特殊token”。这样一来,一个边界框(bounding box)只需要4个token(x0, y0, x1, y1)就能表示。这种做法有两大好处:

  • 降低学习难度:将连续的坐标回归问题,简化为在一个有限集合(1000个token)中进行选择的分类问题。
  • 提升token效率:相比于将坐标值拆成单个数字(如“192”拆成“1”、“9”、“2”三个token)的方法,用一个特殊token表示一个坐标值,极大地缩短了输出序列的长度,提升了推理速度。

模型架构上,Rex-Omni基于Qwen2.5-VL-3B构建,巧妙地复用了词汇表最后1000个token作为坐标专用token,无需对模型结构做大的改动。

2.2 数据引擎:海量高质量数据的“兵工厂”

为了让模型学会这种新的坐标语言,并能理解复杂的指令,高质量、大规模的训练数据必不可-少。为此,团队构建了多个自动化的数据引擎,用于生成海量的标注数据,涵盖了定位(grounding)、指代(referring)、指向(pointing)等多种任务。

最终,他们整合了公共数据集和自产数据,构建了一个包含 2200万 样本的庞大训练集。

2.3 训练流程:SFT预训练 + GRPO强化学习

为了驯服这个3B参数的大家伙,研究者设计了一个两阶段训练流程。

  1. 第一阶段:监督微调(SFT):在2200万的庞大数据集上进行预训练,让模型掌握基本的坐标预测能力。
  2. 第二阶段:基于GRPO的强化学习后训练:SFT阶段虽然打下了基础,但“教师强制”带来的行为缺陷依然存在。为此,团队引入了一种名为 GRPO (Group-based Reward Policy Optimization) 的强化学习方法。该方法通过精心设计的几何感知奖励函数,让模型在“自由发挥”中学习,从而弥合离散token与连续坐标之间的鸿沟,提升框体精度,并有效抑制重复预测等不良行为。

03 实验结果:零样本“掀翻”一众高手

Rex-Omni的性能表现令人印象深刻。

在最经典的目标检测基准COCO上,Rex-Omni在零样本设置下(即完全不用COCO数据集训练),在常用的比较设置IoU阈值为0.5时,不仅超越了之前最强的MLLM(SEED1.5-VL),甚至还超过了为COCO特训的传统检测器DINO-R50。

下面的可视化结果直观地展示了Rex-Omni在COCO(常见物体)和LVIS(长尾物体)上的出色表现,其检测结果非常接近真实标注(GT)。

在更具挑战性的长尾检测任务LVIS上,Rex-Omni同样表现出色,mIoU指标达到了 46.9,再次证明了其强大的泛化能力。

对于密集小目标检测这一公认的难题,大多数MLLM都表现不佳。然而,Rex-Omni在Dense200数据集上取得了 78.4 的F1@0.5分数,效果惊人,远超其他MLLM。这得益于GRPO后训练有效抑制了SFT阶段产生的重复预测和“大框”错误。

除了传统的检测任务,得益于其语言模型的底子,Rex-Omni在指代性物体检测、视觉提示、GUI定位、OCR、关键点检测等多种视觉感知任务上也展现了全面的强大实力。

04 总结

小编认为,Rex-Omni的探索非常具有启发性。它证明了,通过巧妙的任务重构和训练策略,MLLM不仅能“看懂”,更能“看准”。将目标检测统一到语言模型的生成框架下,不仅简化了问题,还释放了模型在多任务、零样本场景下的巨大潜力。这项工作为开发更通用、更智能的视觉感知系统开辟了一条令人兴奋的新道路。

作者已经开源了代码,感兴趣的朋友可以去项目主页一探究竟。

你觉得将检测任务语言模型化的思路,未来会成为主流吗?欢迎在评论区留下你的看法!


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读7.6k
粉丝0
内容8.2k