点击“计算机视觉life”,选择“星标”
机器人AI干货第一时间送达
以下文章来源于【深蓝具身智能】,作者深蓝学院—具身君
“前面好像有微波炉,找到它!”
——10年前,这句话能让所有机器人当场死机
-
从2018年澳大利亚国立大学团队用R2R数据集撕开“数据孤岛”的黑暗; -
到2022年CLIP模型引爆“零样本导航”的革命; -
再到2024年VLFM让波士顿动力机器人在真实办公楼中进行自主搜寻……

VLN的核心基石
在深入探讨 VLN 之前,我们有必要先了解一下该领域的两个标志性数据集——R2R 和 RxR。这两个数据集堪称 VLN 领域的“ImageNet”,自发布以来便成为衡量算法和模型性能的黄金标准。
无论是传统的Learning-based方法,还是基于CLIP及大模型的新兴技术,都必须在这两个数据集上经受考验,以验证其实际效果。
可以说,它们是VLN领域不可或缺的“试金石”,一直沿用至今,持续推动着该领域的发展与创新。
R2R(Room-to-Room):导航任务的“标准答案库”
在R2R数据集诞生前,视觉语言导航研究深陷「数据孤岛」困境——各实验室自建仿真环境与私有指令集,导致跨研究对比如同「鸡同鸭讲」。
为解决这一问题,澳大利亚国立大学团队以ImageNet为蓝本,历时18个月打造了VLN领域的首个黄金标准:R2R。
其核心在于真实家庭场景的毫米级复刻(涵盖90个多样户型,27类语义标注)与人类导航思维的数据化翻译——标注员通过路径视频撰写自然语言指令,包含地标参照、方位指示与动作描述,并经过第三方验证确保指令与路径偏差小于3米。
这一标准化平台为VLN研究提供了统一基准,包含三大核心指标:
导航成功率(Success Rate):
定义:智能体最终是否成功到达目标位置(通常以一定半径范围内判定)。
计算:成功轨迹的比例,二值衡量(成功/失败)。
变体:部分研究使用加权成功率(Success weighted by Path Length, SPL),结合路径效率(路径长度与最优路径的比值)调整成功率。
路径长度(Path Length,PL):
-
定义:智能体实际行走的路径总长度。 作用:与最优路径(最短路径)对比,衡量效率。通常用于计算SPL或其他效率指标。
导航误差(Navigation Error, NE):
-
定义:终点位置与目标位置的欧氏距离(单位:米)
-
作用:量化最终位置的精确度,数值越小越好。
“R2R之于VLN,如同MNIST之于手写识别”——CVPR 2019论文评审意见。

▲图2|R2R数据集示例(俯视图),蓝色的连线为导航的轨迹
RxR(Room-Across-Room):跨越语言与环境的“高阶考场”
视觉语言导航领域的数据集难度在2020年迎来跃升:谷歌推出的RxR将任务复杂度从R2R的「四六级」标准推向「雅思托福」级别。
其核心突破在于跨楼层长路径任务(平均30米)与多语言指令适配——不仅要求模型理解「从地下室经楼梯进二楼第三卧室」的复杂逻辑,还需同步解析语言指令的多样表达(例如同一转向动作在不同语种中的语法重构),迫使模型摆脱单语言依赖,直面全球化场景的多元挑战。
▲图3|RxR数据集示例,用于Matterport3D环境的视觉和 VLN 的多语言数据集
了解完VLN领域大名鼎鼎的两个数据集和评价指标,接下来我们就来一起看看在“前CLIP时代”,大家是如何解决VLN问题的吧!
前CLIP时代,三大核心技术
核心方法:从强化学习到跨模态预训练
在数据驱动的框架下,VLN领域涌现出三大核心技术路线:强化学习、模仿学习与跨模态对齐,三者共同构筑了AI“看-听-走”的认知闭环。
强化学习将导航建模为局部观测下的序列决策问题,如同蒙眼探索迷宫的玩家。AI通过EnvDrop模型的视觉特征随机丢弃策略适应「沙发移位」等场景差异,跨环境泛化能力提升40%,而Recurrent VLN-BERT凭借长短期记忆模块破解了「穿越五个房间后迷失方向」的路径回溯难题,显著减少了机器人进入“死循环”的可能。
▲图4|机器狗陷入导航“死循环”,不断在原地踱步停滞不前
模仿学习将导航建模为“行为模仿”的跟班任务,如同机械跟班盲目复制人类轨迹。早期行为克隆因机械复制人类轨迹导致「遇门必左转」的复合错误,改进版DAgger算法通过错误路径迭代修正注入动态纠偏能力,却在跨楼层任务中陷入百万级标注数据的瓶颈。

▲图5|“逢门必进”的模仿学习导致机器人一头撞上关闭的大门
技术突破最终来自跨模态对齐将不同模态(如视觉、文本等)的数据映射到同一语义空间。Faster R-CNN的物体检测框与Bi-LSTM文本关键词经动态注意力耦合,实现「锁定沙发区域」的精准映射,而预训练模型融合视觉与语义特征后,甚至能解构「绕过左侧第三个门」的复杂指令,让机器初步拥有人类空间推理的思维雏形。

▲图6|VLN-Bert方法框架
“从强化学习到跨模态对齐,AI学会用人类的语言思考导航。” 这一阶段的技术积淀,为后续大模型登场埋下伏笔。
技术落地:早期尝试与行业启示
在2019年发布的Habitat论文,VLN任务类似“从卧室拿杯子到厨房”已经获得了超过一半的成功率,而超过一半的成功率,也让市场嗅到了成功的机会。
当实验室中的导航成功率继续突破,达到80%,90%大关时,资本与产业的想法随之而来——“能否让机器人走出仿真环境,真正进入家庭和仓库?” ,然而当产业界开始尝试将这项「虚拟学霸」推向现实场景,却遭遇三重暴击:
硬件算力限制:2019年搭载NVIDIA Jetson TX2的移动机器人,处理单帧图像需500ms以上,导致“看到障碍物→急停”的延迟足以撞翻花瓶;
动态环境问题:实验室中静止的沙发,在真实场景可能被推动,导致基于预存地图的导航失败率飙升;
人性化交互缺失:当机器人因指令模糊(如“清洁沙发下方”)卡顿时,无法像人类一样主动询问:“您指的是左侧单人沙发吗?”
因此第一批VLN的产业界产品早期试水则充满“妥协艺术”:
亚马逊为Kiva仓储机器人加载VLN模块后,因成本与可靠性考量最终回归二维码方案;iRobot语音导航试验版因误识别率较高被紧急叫停。
这场挫败揭示真相——「仿真学霸可能是现实差生」,倒逼研究者直面不完美现实:只有当技术跨越成本、鲁棒性、人机协同的鸿沟,VLN才能真正点亮物理世界的智能。
后CLIP时代,视觉与语言的统一
当学术界在仿真与现实间反复挣扎、工业界在成本与性能中艰难权衡时,2022年的一声惊雷划破长夜——OpenAI发布CLIP模型,以“无需人工标注”的跨模态理解能力,撕开了VLN技术进化的新维度。
这场风暴的核心,是让机器第一次真正听懂“人话”与“物境”的关联:无需预定义“厨房=冰箱+水槽”。
CLIP从4亿互联网图文对中自悟“厨房”应有烤箱、餐盘与烟火气;
不必标注“沙发”的坐标,它从海量照片里学会辨认不同款式、材质与摆放方位。
当视觉与语言在统一空间自由对话,VLN的“开挂时代”就此启幕。
而在CLIP之后,VLN领域更是佳作不断,每年都有新花样,而每个新花样都是VLN的大进步。
因此在后面的介绍中,小编选取每年最具代表性的方法进行介绍,并与之前的方法进行对比,让各位读者既能了解 VLN 领域的代表性作品,也看明白VLN的逐步进步的内容。
2022:CLIP on Wheels

▲图7|CLIP on Wheels方法框架
传统视觉语言导航系统高度依赖预训练物体标注数据。
2022年《CLIP on Wheels》突破这一局限,将CLIP模型的跨模态理解能力与主动探索策略结合:通过语义热力图扫描环境锁定目标区域(如识别红色物体群),当目标隐匿时启动类人搜索逻辑(推门/检查角落/路径回溯)。
该技术使机器人在AI2-THOR仿真环境中的零样本导航成功率从8%跃升至55%,首次实现无需预存数据的「直觉型导航」——即便面对「复古台灯」等未知物体,也能通过「灯具」「发光」等语义关联完成任务。
▲图8|CLIP on Wheels零样本定位
这一突破不仅推动家庭服务机器人、智能仓储等场景落地,更开启了VLN领域「CLIP+主动推理」的技术浪潮,成为行业发展的关键转折点。
2022:CLIP-NAV

▲图9|CLIP-NAV方法框架
2022年与CLIP on Wheels同期提出的CLIP-NAV,开创了CLIP在导航中的另一条技术路径。相较于前者依赖全局热力图的暴力搜索策略,CLIP-NAV采用局部增量规划框架,将导航过程分解为单步决策序列:通过CLIP实时计算视觉场景与子指令(如「找厨房门」)的匹配度,直接预测最优动作(左转/直行)。
这种动态指令分解机制不仅省去了全局热力图生成和物体检测的算力消耗(推理速度从500ms/帧提升至80ms/帧),更通过子目标状态验证和路径回溯机制,解决了长指令执行中的目标迷失问题。
▲图10|CLIP Grounding
实验显示其在多个VLN数据集的零样本成功率较CLIP on Wheels提升12%达67%,且推理效率与人类决策相似度均显著提升,为后续多任务导航研究(如2024年的VLFM)提供了轻量化架构新范式。
2023:ESC
▲图11|ESC方法框架
2022年CLIP on Wheels首次将CLIP模型的视觉-语义匹配能力应用于导航,实现零样本环境适应,但其核心仍是基于实时视觉相似度的暴力搜索策略,在复杂场景中易受语义歧义干扰(如混淆马桶与洗手池),导致路径效率低下。
2023年提出的ESC系统突破性引入常识推理机制,通过动态知识图谱将人类经验编码为概率化规则(如物品位置偏好),并设计软约束损失函数与CLIP语义热力图融合。这种混合策略使机器人既能优先探索高概率区域,又能在目标偏离常识时切换全局搜索模式,最终实现71%的零样本成功率(较前代提升16%),路径效率提升40%,对模糊指令的抗干扰能力增强60%,标志着VLN从「视觉匹配」向「认知推理」的关键跨越。
▲图12|常识推理帮助代理选择更好的边界
ESC 与CLIP on Wheels之间的技术跃迁
CLIP on Wheels的局限性在于“视觉-语义”的割裂:它依赖对象检测器将像素转换为文本标签,再通过CLIP进行语义匹配,导致信息链冗长且易受相似物体干扰。
而ESC通过常识知识图谱实现了三重升级:
1. 逻辑升级:从“机械匹配”到“经验推理”——CLIP on Wheels的搜索逻辑类似无头苍蝇,仅靠视觉相似度盲目探索;ESC则像经验丰富的管家,结合“水杯常出现在餐桌”的常识缩小范围;
2. 效率跃迁:CLIP on Wheels的暴力搜索需遍历大量无关区域,而ESC通过常识权重优先探索高概率区域,路径效率提升40%;
3. 动态适应性:CLIP on Wheels的搜索策略固定,而ESC能根据环境反馈动态调整约束强度(如目标不在常识区域时切换全局搜索),避免因预设规则僵化导致的失败。
运用常识推理,不仅改写了零样本导航的技术范式,更揭示了具身智能的未来方向:当机器能够融合感知与经验,其决策将无限逼近人类的直觉与效率。
后续研究(比如接下来介绍的VLFM)进一步融合视觉语言联合推理,导航技术从“感知智能”走向“认知智能”。
2024:VLFM

▲图13|VLFM 方法框架
在2022年CLIP on Wheels与2023年ESC分别从“语义暴力匹配”和“常识经验引导”两个方向突破零样本导航后,2024年ICRA最佳论文VLFM突破性实现视觉-语言端到端联合推理,终结了传统方法「视觉→文本→语义」的冗余链条。其核心通过 BLIP-2 模型直接将图像与指令映射至统一语义空间,生成融合语义关联度与物理可达性的动态价值地图。
相比 CLIP on Wheels 依赖目标检测的暴力匹配、ESC受限于常识规则库,VLFM不同的是,能在无需预设规则或中间特征转换的前提下,实时规划最优路径,将开放场景的导航效率与泛化能力提升至新维度。
VLFM 与 CLIP on Wheels 之间的技术跃迁
VLFM 则是 CLIP on Whleels 后的又一个里程碑,真正展示了VLN的可部署性:
1. 从“两步走”到“一步到位”:CLIP on Wheels 与 ESC 均需将视觉信号转换为文本(如目标检测标签或常识描述)再匹配语义,而 VLFM 通过 BLIP-2 实现像素级语义嵌入,消除信息损耗;
2. 从“静态经验”到“动态推理”:ESC 依赖预定义常识图谱,难以应对目标位置异常,而VLFM的语义价值地图可实时更新,自适应环境变化;
3. 从“仿真成功”到“真机落地”:VLFM 在波士顿动力 Spot 机器人上实现办公楼导航(如定位会议室投影仪),而 CLIP on Wheels 与 ESC 仅停留在仿真环境,其成功的关键在于轻量化设计与深度估计。
这项研究标志着零样本导航从“感知-语言割裂”迈向“多模态共生”——正如人类不再需要先将所见内容,翻译成文字再思考,而是“看到即理解”。
2025:未来展望
在 2025 年及未来,预计 VLN 技术将进一步摆脱对预定义地图和固定指令的依赖,逐步发展出具有因果推理能力、可适应动态环境变化的智能导航系统。
借助更强大的多模态大模型和更高效的感知融合技术,具身智能将向真正的人机协作迈进,使机器人不仅能“听懂”指令,还能像人类一样“思考”导航路径,为 AI 在现实世界的自主决策奠定更坚实的基础!
总结
近年来,视觉语言导航(VLN)领域经历了从数据孤岛到标准化数据集构建、从强化学习到跨模态对齐、从仿真测试到现实部署的飞跃式发展。
R2R 和 RxR 的推出奠定了 VLN 研究的基石,使导航任务具备了统一的评测标准,并推动了早期强化学习和模仿学习方法的蓬勃发展。
然而,这些方法依赖大量标注数据,并受限于单一语言环境,难以应对复杂的现实世界挑战。随着跨模态对齐技术的兴起,研究者们通过视觉与语言的联合建模,使模型具备了更强的语义理解能力,提升了导航的泛化性和鲁棒性。
直到 CLIP 的出现,VLN 领域才迎来了真正的范式变革——零样本学习的能力使得机器人无需依赖人工标注,即可理解自然语言指令并执行高效导航。
CLIP on Wheels、CLIP-NAV、ESC 等方法依次突破了导航模型在全局语义匹配、局部增量规划、常识推理等方面的瓶颈,使机器人能够在未知环境中更智能地决策。
2024年的 VLFM 更是进一步打破了视觉-语言割裂的局限性,通过构建语义价值地图,实现了从“静态经验导航”到“动态语义推理”的跨越,并在真实机器人平台上实现了具身智能的落地部署。
展望未来,VLN 领域的研究正朝着更高效的空间推理、更强大的多模态融合、以及更具可解释性的导航决策方向迈进。随着新一代视觉-语言大模型(如GPT-4o)的加入,机器将逐步具备真正的因果推理能力,进一步缩小人类智能与机器智能的差距。
编辑|阿豹
审编|具身君
参考资料:

