大数跨境
0
0

F1暴涨20分,推理速度恒定!新架构VGent:多目标定位又快又准

F1暴涨20分,推理速度恒定!新架构VGent:多目标定位又快又准 新智元
2026-01-01
4

新智元报道

编辑:LRST

【新智元导读】

多目标(Multi-target)与视觉参照(Visual Reference)为视觉定位(Visual Grounding)任务带来推理速度与性能的双重挑战。UIC与Adobe联合提出VGent模型——一种模块化编码器-解码器架构,通过解耦语义推理与像素预测,兼顾效率与精度。该模型参数量不足16B,在Omnimodal Referring Expression Segmentation(ORES)基准上相较Qwen3-VL-30B平均提升+18.24 F1。

视觉定位的两类主流方案

在多模态大模型(MLLM)时代,视觉定位是支撑细粒度推理、人机交互与具身智能的核心能力。

原生Token派(Native-token)

以Qwen2.5-VL、Ferret-v2为代表,采用自回归方式逐个生成边界框坐标。其缺陷显著:推理时间随目标数量线性增长;多目标场景易产生幻觉——或过早终止输出,或陷入无限生成循环。

新增Token派(New-token)

通过引入[SEG]等特殊token指代目标,需重建词表并大规模重训MLLM,严重削弱预训练获得的通用推理能力,且无法直接复用QwenVL等先进开源模型。

VGent:模块化解耦架构

VGent由MLLM编码器与检测器驱动的解码器组成,核心思想是:高层语义推理交由MLLM完成,底层像素级定位由detector执行,二者通过hidden state连接。

研究指出,语义推理与像素预测本质不同,强求单模型兼顾二者必然导致性能与效率权衡;更优路径是让专用组件各司其职——MLLM专精多模态语义对齐与推理,detector专精高效多目标检测框生成。

图一:VGent(蓝色)与Qwen2.5-VL(灰色)对比。左图显示VGent推理时间恒定,而MLLM呈线性增长;右图显示VGent在F1分数上显著领先,尤以多目标场景为甚。

方法设计

基础架构

VGent框架如图二所示,含encoder(MLLM+QuadThinker增强)与decoder(基于detector proposal的cross-attention解码器)。encoder冻结后输出hidden states供decoder调用;decoder初始化自encoder的LLM层,并新增self-attention层促进query间信息交互;最终通过yes/no二元判断筛选proposal,分割掩码由prompt SAM生成。

图二:VGent框架概览。

QuadThinker:强化多目标推理能力

针对MLLM多目标推理退化问题,提出基于GRPO的强化学习范式QuadThinker,引导模型执行“四象限计数→总数汇总→坐标预测”的分步推理流程。

图三:QuadThinker所用prompt示例。

Mask-aware Label:解决检测与分割歧义

检测任务倾向IoU一对一匹配,分割任务需召回全部前景像素。例如「鹿头装饰」与「挂绳」在检测中常被拆分为两个框,挂绳因IoU过低被标为负样本,但在分割中应属正样本。

VGent引入Mask-aware Label机制,使用IoA(Intersection-over-Area)指标分配标签:以proposal mask与真值union mask交集除以其自身面积,精准召回细小但有效的部件。模型另设独立MLP head预测该分割导向标签。

图四:Mask-aware Label示意图。IoA可召回传统IoU忽略的细粒度部件。

Global Target Recognition:增强全局感知

为提升候选框选择准确性,VGent聚合多个detector的proposal形成统一query set,并注入learnable queries以预测目标总数与正样本数。通过decoder内self-attention,全局统计信息可传播至每个proposal,增强对目标群体的整体理解与召回率。

图五:Global Target Recognition示意图。

实验结果

多目标视觉定位(Multi-target Visual Grounding)

在ORES(MaskGroups-HQ)基准上,VGent达全新SOTA:相较RAS13B,F1提升+20.58%;gIoU与cIoU均显著优化。即使对比参数量更大的Qwen3-VL-30B,VGent仍保持优势,且推理时间恒定,无目标数量依赖延迟。

图六:ORES基准性能对比。ORES涵盖多目标及带视觉参照(w/ < mask-ref >)场景。

单目标视觉定位(Single-target Visual Grounding)

在RefCOCO、RefCOCO+、RefCOCOg等标准单目标数据集上,VGent平均准确率达90.1%,超越InternVL3.5-20B/38B等更大模型;相较backbone Qwen2.5-VL-7B,平均提升+3.5%。

图七:Referring Expression Comprehension(REC)基准性能对比。

可视化效果

图八:VGent在复杂场景下的可视化结果。上图精准定位密集方形钟表;下图成功识别视觉参照(蓝色mask)并推断左侧穿裙女士,排除右侧干扰项,展现强鲁棒性。

论文地址:https://arxiv.org/abs/2512.11099

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14680
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读88.7k
粉丝0
内容14.7k