新智元报道
【新智元导读】
多目标(Multi-target)与视觉参照(Visual Reference)为视觉定位(Visual Grounding)任务带来推理速度与性能的双重挑战。UIC与Adobe联合提出VGent模型——一种模块化编码器-解码器架构,通过解耦语义推理与像素预测,兼顾效率与精度。该模型参数量不足16B,在Omnimodal Referring Expression Segmentation(ORES)基准上相较Qwen3-VL-30B平均提升+18.24 F1。
视觉定位的两类主流方案
在多模态大模型(MLLM)时代,视觉定位是支撑细粒度推理、人机交互与具身智能的核心能力。
原生Token派(Native-token)
以Qwen2.5-VL、Ferret-v2为代表,采用自回归方式逐个生成边界框坐标。其缺陷显著:推理时间随目标数量线性增长;多目标场景易产生幻觉——或过早终止输出,或陷入无限生成循环。
新增Token派(New-token)
通过引入[SEG]等特殊token指代目标,需重建词表并大规模重训MLLM,严重削弱预训练获得的通用推理能力,且无法直接复用QwenVL等先进开源模型。
VGent:模块化解耦架构
VGent由MLLM编码器与检测器驱动的解码器组成,核心思想是:高层语义推理交由MLLM完成,底层像素级定位由detector执行,二者通过hidden state连接。
研究指出,语义推理与像素预测本质不同,强求单模型兼顾二者必然导致性能与效率权衡;更优路径是让专用组件各司其职——MLLM专精多模态语义对齐与推理,detector专精高效多目标检测框生成。
方法设计
基础架构
VGent框架如图二所示,含encoder(MLLM+QuadThinker增强)与decoder(基于detector proposal的cross-attention解码器)。encoder冻结后输出hidden states供decoder调用;decoder初始化自encoder的LLM层,并新增self-attention层促进query间信息交互;最终通过yes/no二元判断筛选proposal,分割掩码由prompt SAM生成。
QuadThinker:强化多目标推理能力
针对MLLM多目标推理退化问题,提出基于GRPO的强化学习范式QuadThinker,引导模型执行“四象限计数→总数汇总→坐标预测”的分步推理流程。
Mask-aware Label:解决检测与分割歧义
检测任务倾向IoU一对一匹配,分割任务需召回全部前景像素。例如「鹿头装饰」与「挂绳」在检测中常被拆分为两个框,挂绳因IoU过低被标为负样本,但在分割中应属正样本。
VGent引入Mask-aware Label机制,使用IoA(Intersection-over-Area)指标分配标签:以proposal mask与真值union mask交集除以其自身面积,精准召回细小但有效的部件。模型另设独立MLP head预测该分割导向标签。
Global Target Recognition:增强全局感知
为提升候选框选择准确性,VGent聚合多个detector的proposal形成统一query set,并注入learnable queries以预测目标总数与正样本数。通过decoder内self-attention,全局统计信息可传播至每个proposal,增强对目标群体的整体理解与召回率。
实验结果
多目标视觉定位(Multi-target Visual Grounding)
在ORES(MaskGroups-HQ)基准上,VGent达全新SOTA:相较RAS13B,F1提升+20.58%;gIoU与cIoU均显著优化。即使对比参数量更大的Qwen3-VL-30B,VGent仍保持优势,且推理时间恒定,无目标数量依赖延迟。
单目标视觉定位(Single-target Visual Grounding)
在RefCOCO、RefCOCO+、RefCOCOg等标准单目标数据集上,VGent平均准确率达90.1%,超越InternVL3.5-20B/38B等更大模型;相较backbone Qwen2.5-VL-7B,平均提升+3.5%。
可视化效果
论文地址:https://arxiv.org/abs/2512.11099

