大数跨境

27页综述,354篇参考文献!最详尽的视觉定位综述来了

27页综述,354篇参考文献!最详尽的视觉定位综述来了 机器之心
2025-01-31
31
导读:视觉定位任务新入门必读!

史上最详尽视觉定位综述发布:系统梳理十年发展,涵盖354篇文献

中国科学院团队推出27页长文,全面回顾视觉定位技术演进,规范研究范式并指明未来方向

  • 论文题目:Towards Visual Grounding: A Survey

  • 工作内容:视觉定位(Visual Grounding)任务十年发展系统性回顾

  • 论文链接:https://arxiv.org/pdf/2412.20206

  • 代码 / 仓库链接:https://github.com/linhuixiao/Awesome-Visual-Grounding.

  • 作者:肖麟慧(中国科学院自动化研究所,中国科学院大学)

该综述长达27页,引用354篇文献,系统总结了过去十年特别是近五年来视觉定位领域的研究进展。内容涵盖从传统基于检测器的方法到基于视觉语言预训练模型(VLP)和多模态大语言模型(MLLM)的最新技术,涉及全监督、弱监督、零样本、广义视觉定位等多种任务设置,被评价为当前该领域最全面的综述文章[k]

视觉定位(Visual Grounding),又称指代表达理解(Referring Expression Comprehension),旨在根据文本描述在图像中定位特定区域,是实现机器多模态理解的关键能力,广泛应用于人机交互、视觉问答和导航等场景[k]

一、论文摘要

自2021年以来,视觉定位领域快速发展,涌现出定位预训练、多模态大语言模型定位、广义视觉定位等新方向,但也带来了设置混乱、基准老化、比较不公平等问题。本文首次对视觉定位的发展历史、基本概念与评估指标进行系统回顾,梳理并精确定义了全监督、弱监督、半监督、无监督、零样本及广义视觉定位等各类设置,旨在规范未来研究并促进公平比较。综述还深入探讨了关键技术路线、高级话题与应用场景,对主流数据集进行了性能分析与极限预测,并总结当前挑战,提出未来研究方向。文章通过技术脉络梳理,覆盖十年内代表性工作,为入门者与资深研究者提供权威参考[k]

二、视觉定位任务介绍、发展历史与研究现状

视觉定位的核心是建立语言描述与图像区域之间的对应关系,依赖图像、文本和边界框构成的三元组数据。早期因缺乏高质量标注数据,研究多集中于指代表达生成(REG)。2014年ReferIt Game数据集的发布推动全监督方法发展,而2016年基于MS COCO构建的RefCOCO/+/g系列数据集因其更复杂的表达和合理划分,成为近十年主流基准[k]

图 1. 视觉定位任务简要示意图

图 2. RefCOCO/+/g 数据集差异对比及统计信息

2021年后,随着Transformer和预训练范式(如VLP、CLIP)的兴起,视觉定位进入高速发展期。模型架构从CNN+LSTM转向基于Transformer的统一框架,预训练-微调成为主流。2023年多模态大语言模型(MLLM)的突破催生了定位MLLM(如LION、Ferret)的研究热潮,显著提升了性能[k]

图 3. 视觉定位的五种技术路线及近十年发展中的几个主要阶段

图 4. 视觉定位任务近十年发展趋势

当前领域面临三大挑战:一是任务设置定义模糊,导致不公平比较;二是RefCOCO系列等主流数据集性能趋近饱和,难以评估新模型潜力;三是缺乏对近年来大量工作的系统性总结。已有综述多止步于2019年,无法反映多模态大模型带来的范式变革[k]

图 5. 广义视觉定位示意图

三、综述框架与核心内容

综述共分六章:第一章回顾发展历史与现存问题;第二章介绍任务定义、评估标准及广义视觉定位等核心概念;第三章从任务设置角度系统梳理全监督、弱监督、半监督、无监督、零样本及广义视觉定位六类方法,并比较其基准性能[k]

图 6. 视觉定位综述论文结构

在全监督设置中,作者归纳出五类主流模型架构:双编码器+融合编码器、双编码器+融合编码器+解码器、双编码器结构、单塔编码器及定位MLLM,并提出四种实验设置分类以实现公平比较[k]

图 7. 当前主流视觉定位设置差异对比示意图

图 8. 传统视觉定位中一阶段和二阶段处理流程对比

图 9. 全监督视觉定位的五种代表性模型框架

论文表 2. 全监督视觉定位按三种实验设置进行划分的 SoTA 结果对比

针对零样本设置,作者将其细分为四种子类型:新类/新短语定位、开放词汇定位、免微调学习、免Proposal免微调直接定位,以厘清概念边界[k]

论文表 5 零样本视觉定位设置的 4 种子设置

图 10. 全监督视觉定位、传统零样本视觉定位和开放词汇零样本视觉定位对比

第四章探讨NLP结构解析、场景图与图神经网络、模块化定位等跨设置的进阶技术[k]

图 11. NLP 自然语言解析在视觉定位中的应用

第五章介绍视觉定位在物体检测、计数、遥感、医疗、3D、视频及机器人等领域的应用。第六章总结经典与新型数据集,分析挑战并展望未来方向[k]

四、主要贡献

  • (i) 近五年首个系统性综述,全面覆盖过去十年视觉定位研究,提炼各子领域代表性工作[k]

  • (ii) 系统梳理并严格定义各类任务设置,规范研究范式,促进公平比较[k]

  • (iii) 整理近年数据集,对五大经典数据集进行性能极限预测,推动新基准建立[k]

本文系统总结了视觉定位领域的研究难点,并指出现有技术面临的挑战,为后续研究提供了具有启发性的方向[iv]。据作者称,该综述是目前视觉定位领域最为全面的综述之一,既可为初学者提供入门指导,也能帮助有研究基础的学者梳理技术脉络,及时把握最新研究进展[v]

鉴于视觉定位领域发展迅速,本文难以涵盖所有最新成果。作者欢迎研究人员通过项目仓库分享新发现,以促进内容持续更新和完善。项目仓库地址:https://github.com/linhuixiao/Awesome-Grounding[iv]

转载请联系本公众号获得授权[v]

【声明】内容源于网络
0
0
机器之心
专业的人工智能媒体和产业服务平台
内容 17239
粉丝 0
机器之心 专业的人工智能媒体和产业服务平台
总阅读200.1k
粉丝0
内容17.2k