史上最详尽视觉定位综述发布：系统梳理十年发展，涵盖354篇文献

中国科学院团队推出27页长文，全面回顾视觉定位技术演进，规范研究范式并指明未来方向

论文题目：Towards Visual Grounding: A Survey
工作内容：视觉定位（Visual Grounding）任务十年发展系统性回顾
论文链接：https://arxiv.org/pdf/2412.20206
代码 / 仓库链接：https://github.com/linhuixiao/Awesome-Visual-Grounding.
作者：肖麟慧（中国科学院自动化研究所，中国科学院大学）

该综述长达27页，引用354篇文献，系统总结了过去十年特别是近五年来视觉定位领域的研究进展。内容涵盖从传统基于检测器的方法到基于视觉语言预训练模型（VLP）和多模态大语言模型（MLLM）的最新技术，涉及全监督、弱监督、零样本、广义视觉定位等多种任务设置，被评价为当前该领域最全面的综述文章[k]。

视觉定位（Visual Grounding），又称指代表达理解（Referring Expression Comprehension），旨在根据文本描述在图像中定位特定区域，是实现机器多模态理解的关键能力，广泛应用于人机交互、视觉问答和导航等场景[k]。

一、论文摘要

自2021年以来，视觉定位领域快速发展，涌现出定位预训练、多模态大语言模型定位、广义视觉定位等新方向，但也带来了设置混乱、基准老化、比较不公平等问题。本文首次对视觉定位的发展历史、基本概念与评估指标进行系统回顾，梳理并精确定义了全监督、弱监督、半监督、无监督、零样本及广义视觉定位等各类设置，旨在规范未来研究并促进公平比较。综述还深入探讨了关键技术路线、高级话题与应用场景，对主流数据集进行了性能分析与极限预测，并总结当前挑战，提出未来研究方向。文章通过技术脉络梳理，覆盖十年内代表性工作，为入门者与资深研究者提供权威参考[k]。

二、视觉定位任务介绍、发展历史与研究现状

视觉定位的核心是建立语言描述与图像区域之间的对应关系，依赖图像、文本和边界框构成的三元组数据。早期因缺乏高质量标注数据，研究多集中于指代表达生成（REG）。2014年ReferIt Game数据集的发布推动全监督方法发展，而2016年基于MS COCO构建的RefCOCO/+/g系列数据集因其更复杂的表达和合理划分，成为近十年主流基准[k]。

图 1. 视觉定位任务简要示意图

图 2. RefCOCO/+/g 数据集差异对比及统计信息

2021年后，随着Transformer和预训练范式（如VLP、CLIP）的兴起，视觉定位进入高速发展期。模型架构从CNN+LSTM转向基于Transformer的统一框架，预训练-微调成为主流。2023年多模态大语言模型（MLLM）的突破催生了定位MLLM（如LION、Ferret）的研究热潮，显著提升了性能[k]。