

F1暴涨20分，推理速度恒定！新架构VGent：多目标定位又快又准

新智元

2026-01-01

新智元报道

编辑：LRST

【新智元导读】

多目标（Multi-target）与视觉参照（Visual Reference）为视觉定位（Visual Grounding）任务带来推理速度与性能的双重挑战。UIC与Adobe联合提出VGent模型——一种模块化编码器-解码器架构，通过解耦语义推理与像素预测，兼顾效率与精度。该模型参数量不足16B，在Omnimodal Referring Expression Segmentation（ORES）基准上相较Qwen3-VL-30B平均提升+18.24 F1。

视觉定位的两类主流方案

在多模态大模型（MLLM）时代，视觉定位是支撑细粒度推理、人机交互与具身智能的核心能力。

原生Token派（Native-token）

以Qwen2.5-VL、Ferret-v2为代表，采用自回归方式逐个生成边界框坐标。其缺陷显著：推理时间随目标数量线性增长；多目标场景易产生幻觉——或过早终止输出，或陷入无限生成循环。

新增Token派（New-token）

通过引入[SEG]等特殊token指代目标，需重建词表并大规模重训MLLM，严重削弱预训练获得的通用推理能力，且无法直接复用QwenVL等先进开源模型。

VGent：模块化解耦架构

VGent由MLLM编码器与检测器驱动的解码器组成，核心思想是：高层语义推理交由MLLM完成，底层像素级定位由detector执行，二者通过hidden state连接。

研究指出，语义推理与像素预测本质不同，强求单模型兼顾二者必然导致性能与效率权衡；更优路径是让专用组件各司其职——MLLM专精多模态语义对齐与推理，detector专精高效多目标检测框生成。

图一：VGent（蓝色）与Qwen2.5-VL（灰色）对比。左图显示VGent推理时间恒定，而MLLM呈线性增长；右图显示VGent在F1分数上显著领先，尤以多目标场景为甚。

方法设计

基础架构

VGent框架如图二所示，含encoder（MLLM+QuadThinker增强）与decoder（基于detector proposal的cross-attention解码器）。encoder冻结后输出hidden states供decoder调用；decoder初始化自encoder的LLM层，并新增self-attention层促进query间信息交互；最终通过yes/no二元判断筛选proposal，分割掩码由prompt SAM生成。

图二：VGent框架概览。

QuadThinker：强化多目标推理能力

针对MLLM多目标推理退化问题，提出基于GRPO的强化学习范式QuadThinker，引导模型执行“四象限计数→总数汇总→坐标预测”的分步推理流程。

图三：QuadThinker所用prompt示例。

Mask-aware Label：解决检测与分割歧义

检测任务倾向IoU一对一匹配，分割任务需召回全部前景像素。例如「鹿头装饰」与「挂绳」在检测中常被拆分为两个框，挂绳因IoU过低被标为负样本，但在分割中应属正样本。

VGent引入Mask-aware Label机制，使用IoA（Intersection-over-Area）指标分配标签：以proposal mask与真值union mask交集除以其自身面积，精准召回细小但有效的部件。模型另设独立MLP head预测该分割导向标签。

图四：Mask-aware Label示意图。IoA可召回传统IoU忽略的细粒度部件。

Global Target Recognition：增强全局感知

为提升候选框选择准确性，VGent聚合多个detector的proposal形成统一query set，并注入learnable queries以预测目标总数与正样本数。通过decoder内self-attention，全局统计信息可传播至每个proposal，增强对目标群体的整体理解与召回率。

图五：Global Target Recognition示意图。

实验结果

多目标视觉定位（Multi-target Visual Grounding）

在ORES（MaskGroups-HQ）基准上，VGent达全新SOTA：相较RAS13B，F1提升+20.58%；gIoU与cIoU均显著优化。即使对比参数量更大的Qwen3-VL-30B，VGent仍保持优势，且推理时间恒定，无目标数量依赖延迟。

图六：ORES基准性能对比。ORES涵盖多目标及带视觉参照（w/ < mask-ref >）场景。

单目标视觉定位（Single-target Visual Grounding）

在RefCOCO、RefCOCO+、RefCOCOg等标准单目标数据集上，VGent平均准确率达90.1%，超越InternVL3.5-20B/38B等更大模型；相较backbone Qwen2.5-VL-7B，平均提升+3.5%。

图七：Referring Expression Comprehension（REC）基准性能对比。

可视化效果

图八：VGent在复杂场景下的可视化结果。上图精准定位密集方形钟表；下图成功识别视觉参照（蓝色mask）并推断左侧穿裙女士，排除右侧干扰项，展现强鲁棒性。

论文地址：https://arxiv.org/abs/2512.11099

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 14680

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读88.7k

粉丝0

内容14.7k