基于基础模型与场景图的长时域机器人操作：从语言到动作的精准映射框架- 大数跨境

首页

基于基础模型与场景图的长时域机器人操作：从语言到动作的精准映射框架

AirkingRobots艾科伯特科技

2025-11-14

导读：本研究提出一种无需领域特定训练、融合预训练基础模型的机器人操作框架，通过结构化分层架构与动态场景图，实现自然语言指令到机器人动作序列的精准转化。

本研究框架概述：该框架分为多个层级，每个层级都有独特的功能，其设计目的是将用户的高级自然语言指令转换为可执行的机器人动作序列。

摘要

本研究提出一种无需领域特定训练、融合预训练基础模型的机器人操作框架，通过结构化分层架构与动态场景图，实现自然语言指令到机器人动作序列的精准转化。该框架整合大语言模型（LLM）的推理能力、视觉语言模型（VLM）的感知优势，构建了涵盖认知、交互、感知、执行的全流程工作链路。场景图作为核心知识底座，提供环境的空间语义表征，支撑跨阶段一致推理。通过三类共计 9 项实验（从基础操作到长时域复杂任务）的系统验证，框架在规划可行性、任务完成率和场景图处理精度上均展现出优异性能，其中基础任务完成率达 100%，复杂场景下仍保持 60% 以上的有效执行能力。研究结果表明，该框架通过基础模型与结构化环境表征的有机结合，为解决长时域机器人操作中的感知 - 推理 - 执行脱节问题提供了有效方案，兼具比数据密集型视觉 - 语言 - 动作（VLA）模型更强的泛化性，以及比纯符号化 LLM 规划器更稳健的空间接地能力。

引言

1.1 研究背景与动机

随着机器人技术向通用化、智能化发展，实现自然语言驱动的长时域精准操作已成为 robotics 领域的核心目标。传统机器人操作系统往往依赖专用数据集训练或端到端微调，导致泛化能力受限，难以适应动态变化的真实环境。近年来，预训练基础模型（包括 LLM、VLM 等）在语义理解、视觉感知等方面取得突破性进展，为构建通用型机器人操作框架提供了新的技术路径。

然而，现有基础模型在机器人领域的应用仍存在显著瓶颈：LLM 擅长符号推理但缺乏空间理解能力，VLM 能处理视觉 - 语言交互但长时域规划易出错，VLA 模型直接映射图像与动作却需海量训练数据。此外，感知与推理的 decoupling 导致系统鲁棒性不足，误差易在各模块间传播。因此，如何整合各类基础模型的优势，构建无需领域适配、能支撑长时域复杂任务的机器人操作框架，成为当前研究的关键挑战。

本研究的核心动机在于：开发一种结构化框架，通过合理的模块划分与交互机制，让 LLM、VLM 等基础模型各司其职又协同工作；同时引入动态场景图解决空间语义表征问题，实现从自然语言指令到机器人动作的端到端精准映射，最终达成无需任务特定训练的长时域机器人操作。

（a）黄色边界框展示了视觉语言模型（VLM）定位细粒度功能可供性的能力，例如盖子旋钮。（b）亮红色点说明了视觉语言模型（VLM）在为盖子分配临时放置位置时的空间感知能力。

1.2 相关研究综述

1.2.1 LLM 在规划与序列生成中的应用

早期研究通过将 LLM 输出解析为结构化动作格式（如 “[动作名] [物体名] 到 [位置名]”）实现简单机器人操作，但局限于模拟环境中的基础任务。后续研究通过提示工程和自定义函数扩展功能，但仍依赖显式提供的物体信息，缺乏自主场景理解能力。部分工作尝试构建多模型框架，如结合 YOLO 目标识别与人类演示的路径点提取，或采用示例驱动与规则系统提升指令跟随能力，但均存在推理逻辑固化、难以处理未见过场景的问题。总体而言，LLM 在符号推理上表现优异，但在物理世界的空间接地与环境交互方面存在天然短板。

1.2.2 VLM 在感知与空间推理中的应用

现有 VLM 在机器人领域的应用主要集中于通过视觉标记（如箭头、网格关键点）引导轨迹生成，或通过 3D 坐标推导实现关键点约束下的空间推理。这类方法在布料折叠等特定任务中取得一定成效，但长时域规划的泛化性较差。部分研究强调动态场景理解，如利用 LLM 生成物体提议或结合视觉问答（VQA）优化感知流程，但仍依赖任务特定数据集或微调模型，适应性有限。VLM 的核心局限在于感知与高层推理的脱节，导致系统对环境变化的鲁棒性不足。

1.2.3 场景图与可用性推理相关研究

场景图作为结构化环境表征工具，已被用于移动机器人的任务规划，通过语义搜索支撑多房间环境中的操作。部分研究实现了实时分层场景图构建，但未考虑物体可用性信息；另有工作结合 LLM 与可用性函数实现语言引导的任务规划，但依赖 68,000 条遥操作数据；VoxPoser 等方法通过 VLM 生成可用性地图用于轨迹优化，但缺乏长时域规划能力。现有研究尚未将场景图的语义表征优势与基础模型的深度推理能力有效融合，难以支撑复杂约束下的长时域任务序列生成。

1.2.4 动作生成与基于学习的方法

近年来 VLA 模型成为研究热点，PaLM-E 构建了短时域具身模型，RT-1、RT-2 通过大规模数据集训练实现闭环控制，Open-X 通过跨 22 台机器人、160,000 项任务的训练提升泛化性。此类模型在特定场景下表现出色，但存在数据依赖性强、长时域任务适应性差的共性问题。GR00T 结合推理型 VLM 与扩散运动生成器，虽提升了动作生成的灵活性，但仍未解决感知 - 推理 - 执行的协同优化问题。

1.2.5 研究定位

本研究针对现有方法的核心缺陷，提出结构化分层框架，实现 LLM 推理能力与 VLM 感知能力的平衡，通过场景图进行统一表征，并采用传统运动规划与控制实现执行层稳健性。与数据密集型 VLA 方法不同，该框架无需任务特定数据集或微调，降低了工程实现成本；同时通过 VLM 实现精准物体接地、LLM-VLM 对话支撑场景理解、动态场景图维护空间推理，形成全流程闭环。该框架定位为介于 VLA 模型与纯符号化 LLM 规划器之间的中间方案，兼具泛化性与空间稳健性。

1.3 论文结构

本文后续章节安排如下：第 2 章详细阐述框架设计与实现，包括硬件配置、场景图结构、核心能力及分层架构；第 3 章通过三类实验系统验证框架性能，分析不同场景下的表现与影响因素；第 4 章总结研究成果，指出局限并提出未来研究方向。

框架设计与实现

2.1 目标机器人系统的硬件配置

框架针对配备视觉感知系统的机器人操作臂设计，实验中采用的硬件平台具体包括：

机械臂：UR10e 协作机器人（6 自由度，工作半径 1300mm，最大负载 12.5kg），配置关节速度限制以保障操作安全；
末端执行器：OnRobot RG6 夹爪，支持多种形状物体的稳定抓取；
感知设备：Zivid 2 腕部安装 3D 相机，提供高分辨率 RGB-D 数据，为场景理解与物体定位提供基础。

硬件系统通过 Robot Operating System 2（ROS2）实现模块化集成，确保各组件间的实时通信与协同工作。

2.2 场景图设计

场景图作为框架的核心知识底座，编码环境中的空间关系、物体属性与语义信息，为基础模型与运动规划器提供统一的环境表征。其设计与实现具有以下特点：

2.2.1 结构设计

采用 NetworkX 库实现，基于分层 JSON 格式表征，兼顾可读性与计算效率。节点代表环境实体，从根节点（整个工作空间）到具体物体（如苹果、盒子）逐级细化，每个节点包含可用性（如 “可抓取”）、位置、坐标及领域知识等属性；边则编码包含关系等语义关联，支撑物理约束与语义约束的联合推理。

（a）场景图结构。（b）系统架构。各层以自下而上的层次结构组织。执行层：依靠传统的运动规划器和控制器，确保对物体进行稳健且精确的操作。交互层：利用强大的非推理模型来解读用户指令并协调任务执行。感知层：整合了一个视觉语言模型（VLM），该模型接收来自 3D 相机的 RGB-D 输入，以提供空间理解、物体定位和语义场景描述。认知层：采用推理模型进行高级的长期规划和决策制定。

2.2.2 生成与更新机制

场景图支持自动生成与手动构建两种模式：自动生成通过 GPT-4.1 与 Qwen-2.5VL 协同实现，适用于常规场景；手动构建用于需要精准真值的复杂实验设置。在任务执行过程中，场景图通过增量更新机制保持动态一致性：感知输出优化物体位置信息，操作动作（如将苹果放入盒子）更新物体坐标与关联关系，用户提供的额外信息也可无缝集成。

2.2.3 核心功能

场景图为各层模型提供统一的环境认知基础，使 LLM 在任务规划时能同时考虑物理约束（如物体可抓取性）与语义约束（如物体类别关联），为长时域多步骤规划提供关键支撑。

2.3 框架核心能力

该框架具备四大核心能力，支撑从语言到动作的全流程转化：

自然语言理解：直接解析用户高层指令，无需结构化输入；
3D 环境感知：通过 3D 相机与 VLM 协同，实现未知物体的定位与语义识别；
长时域规划：生成多步骤、约束感知的任务序列，支持隐式目标推理；
闭环执行控制：通过执行层的运动规划与反馈机制，确保动作精准执行，同时动态更新场景图。

此外，框架支持 VQA 式跨模型对话，可解答场景相关的语义问题（如 “是否存在蓝色物体”），增强人机交互的自然性与灵活性。

2.4 分层架构设计

框架采用模块化分层架构，各层以 ROS2 功能包形式实现，通过标准化接口实现协同工作，具体包括认知层、交互层、感知层与执行层四个核心模块，各层功能与设计如下：

2.4.1 执行层

执行层的核心功能是将规划任务转化为安全精准的机器人运动，具体实现：

运动规划：采用 Nvidia cuRobo GPU 加速运动规划器，生成考虑机器人运动学、抓取约束与工作空间边界的无碰撞轨迹；
控制协调：实现机械臂与夹爪的协同控制，保障抓取 - 放置操作的稳定性；
通信集成：通过 ROS2 与上层模块无缝通信，接收动作指令并反馈执行状态。

该层的设计重点是执行的稳健性与实时性，为高层规划提供可靠的动作执行支撑。

2.4.2 交互层

交互层作为系统的 “中枢枢纽”，承担任务协调与人机交互双重职责：

核心模型：采用 OpenAI GPT-4.1，负责自然语言解析、函数调用与跨模块协调；
任务执行：接收认知层生成的任务序列，通过调用工具（抓取 - 放置原语、感知查询、场景图更新）逐步执行；
动态调整：监控每个函数调用的返回结果，必要时进行重规划或序列调整；
人机交互：向用户提供状态更新、请求指令澄清、反馈任务结果，维持直观的对话式操作界面。

该层通过分离规划与执行，实现了推理灵活性与执行稳健性的平衡。

2.4.3 感知层

感知层连接视觉输入与语义几何理解，通过 LLM-VLM 对话系统实现语言驱动的感知流程，具体包括两条核心路径：

边界框定位：

存在性验证：GPT-4.1 向 Qwen-2.5VL 发送二分类查询（“目标物体是否存在”），避免虚假检测；
2D 边界框生成：对确认存在的物体，Qwen-2.5VL 输出像素级边界框；
3D 坐标转换：结合 3D 相机的深度数据与标定参数，将 2D 边界框转化为 3D 坐标；
点云融合：通过多视角重建合并不同 viewpoints 的点云数据，去除桌面平面与噪声点，通过聚类实现物体分割，最终将聚类中心作为物体精准 3D 位置。

特定点查询：

针对自由放置点等需求，Qwen-2.5VL 直接输出 2D 图像平面坐标，通过深度图投影至 3D 空间，无需多视角重建，兼顾精度与效率。

感知层选用 Qwen-2.5VL 的核心原因是其优异的空间推理与物体接地能力，无需领域特定数据集重训练即可处理未知物体与场景，大幅提升框架的泛化性。

2.4.4 认知层

认知层专注于推理与规划，核心模型采用 Google Gemini 2.5 Pro Preview，其优势在于 LiveBench 基准测试中表现出的强推理能力、语言理解能力、指令跟随能力与数据分析能力，这些特性对空间推理、多步骤规划与场景图解析至关重要。

该层的核心功能是整合场景图信息、用户目标与工具定义，生成详细的任务序列。由于推理型模型计算速度较慢，框架通过分离认知层（规划）与交互层（执行），实现了先进推理与快速控制的有机结合，既保障规划质量，又不影响执行实时性。

2.5 模型交互与工具集

2.5.1 跨模型通信机制

GPT-4.1 与 Gemini 2.5 Pro：GPT-4.1 将用户请求、场景图与工具定义转发给 Gemini，接收其生成的详细任务计划；
GPT-4.1 与 Qwen-2.5VL：GPT-4.1 向 Qwen 发送坐标查询或物体识别请求，接收感知结果用于场景图更新，VLM 不存储对话历史，仅处理单次查询；
GPT-4.1 与运动原语 / 场景图：GPT-4.1 传递动作参数，接收执行成功 / 失败反馈，用于后续调整。

2.5.2 核心工具集

框架为 GPT-4.1 提供三类核心工具，支撑全流程操作：

运动原语：包括抓取物体、放置物体，基于 Nvidia cuRobo 实现；
感知工具：包括 VQA 查询、场景图扫描更新（检测可见物体并更新 3D 位姿）、特定坐标点查询（获取满足条件的放置位置等）；
场景图操作工具：包括添加物体（指定名称与属性）、编辑物体属性（如更新包含关系）。

针对 Tower of Hanoi 实验，额外提供 AprilTag 位置查询工具，替代 VLM 实现特定场景下的精准定位。

2.5.3 故障处理机制

GPT-4.1 跟踪所有函数调用与反馈，若某步骤执行失败，立即向用户告警并启动重规划；多次失败后，可建议跳过当前物体或请求用户调整物体位置，确保系统鲁棒性。

实验评估

3.1 实验设计原则与评估指标

3.1.1 实验设计思路

由于当前缺乏长时域机器人操作框架的标准基准，本研究未追求单一基准分数，而是通过三类梯度化实验，系统验证框架在不同复杂度场景下的感知、推理与规划能力，同时测试对模糊指令或动态环境的适应性。实验覆盖基础操作、结构化任务与高级推理三类场景，逐步提升任务复杂度与约束强度。

3.1.2 评估指标

采用三项核心指标量化框架性能：

规划可行性（PF）：认知层生成的任务序列与用户目标的一致性及执行可行性；
任务完成率（TCR）：成功执行的任务占比，反映指令理解与场景处理的综合效果；
场景图处理精度（SGH）：实验结束时场景图与真实环境的一致性，评估环境表征的准确性。

3.1.3 实验假设

为聚焦框架核心能力评估，实验采用以下合理假设：

操作方式限制：仅关注抓取 - 放置操作，抓取点固定为物体质心，不涉及灵巧操作；
故障排除：排除 API 错误与网络中断等外部因素导致的失败；
碰撞建模：运动规划器考虑自碰撞与静态障碍物（如桌面），暂不建模可操作物体间的动态碰撞；
场景图初始化：部分实验手动提供初始场景图，重点评估更新机制而非生成机制。

3.2 实验 I：基础能力测试

该类实验评估框架的核心基础能力，包括语言解析、物体识别、空间定位与简单语境推理，共设计 4 项子实验：

3.2.1 实验 I-A：相对定位任务

任务描述：用户指令为 “将橙子移至苹果与毛线之间”，评估 LLM-VLM 对话稳定性与 VLM 的空间定位能力，特别是 “中间” 关系的理解与实现。

实验流程：LLM 向 VLM 查询苹果与毛线之间的空间点坐标，VLM 返回转换后的空间坐标，LLM 更新场景图并启动抓取 - 放置操作。

实验结果：10 次实验的规划可行性（PF）、任务完成率（TCR）与场景图处理精度（SGH）均达 100%，表明框架能精准理解空间关系描述，实现物体的相对定位放置。

I-A：（a）-（b）橙子从其初始位置移动到苹果和纱线之间；（c）显示了视觉语言模型（VLM）识别出的满足 “中间” 条件的点。

3.2.2 实验 I-B：语义聚类任务

设计两项子实验，评估不同语境下的语义理解能力：

实验 I-B1：用户指令 “将孤立的水果移至其他水果附近”，测试最少语境下的语义推理；
实验 I-B2：用户指令 “蔬菜与水果已分别分组，但有一个水果孤立在外，将其移至所属位置”，测试语境增强后的性能提升。

实验结果：I-B1 的 PF 达 100% 但 TCR 仅 20%，原因是 LLM 无法为 VLM 提供足够空间推理语境；I-B2 通过丰富指令语境，TCR 提升至 100%，证明框架的语义理解依赖适当的指令语境支撑。

I-B：（d）-（e）柠檬朝其正确的簇移动；（f）显示了从视觉语言模型（VLM）获得的可行点。

3.2.3 实验 I-C：异常检测任务

任务描述：用户指令 “将桌上不匹配的物品移至容器中”，评估框架的异常识别与语境推理能力。

实验流程：框架需先识别场景中的 “异常物品”（如非食用物体混于食材中），再执行转移操作。

实验结果：TCR 与 SGH 均达 100%，表明框架能有效推理物体的场景适配性，实现精准的异常检测与处理。

I-C：（a）-（b）突出显示的非食用物体被选为异类；

3.2.4 实验 I-D：食谱导向选择任务

任务描述：用户指令 “将可用的炒面食材移至食材盒中”，评估框架的领域知识整合与目标筛选能力。

实验结果：PF 与 SGH 达 100%，TCR 为 80%，部分失败源于食材类别判断的模糊性（如部分配料是否属于炒面食材的界定），表明框架在领域知识应用上仍有优化空间。

I-D：（c）-（d）机器人只挑选炒面所需的原料。

3.3 实验 II：结构化基准场景性能评估

该类实验采用结构化任务，评估框架的精准推理与规划能力，重点测试长时域序列执行与规则遵循能力：

3.3.1 实验 II-A：积木堆叠任务

任务描述：用户指令包括 “以中间积木为底座堆叠”“将其他积木堆在白色积木上” 等具体指令，以及 “用这些积木搭建高塔” 等抽象指令，评估框架对不同明确度指令的理解与适应能力。

实验流程：框架需生成迭代式的空间推理序列，逐步完成堆叠操作，同时动态更新场景图中的物体位置关系。

实验结果：所有测试案例的 PF、TCR、SGH 均达 100%，表明框架能有效解析具体与抽象指令，通过迭代推理与场景图更新，实现复杂结构的精准构建。

II-A：（a）-（b）方块从它们在桌子上的初始排列逐步形成一个完全堆叠的结构。

3.3.2 实验 II-B：汉诺塔任务

任务描述：经典长时域约束优化任务，测试框架的多步骤规划、规则遵循与长时域执行能力。实验采用多种初始 - 目标配置，通过 AprilTag 简化感知环节，聚焦认知层与执行层性能。

实验流程：框架需严格遵循汉诺塔规则（大盘不能置于小盘之上），生成多步骤转移序列，完成从初始状态到目标状态的转化。

实验结果：PF、TCR、SGH 均达 100%，证明框架具备强约束下的长时域规划能力，能生成逻辑连贯、规则合规的动作序列，且通过场景图更新维持执行一致性。

II-B：（c）-（f）机器人解决汉诺塔谜题，按照游戏规则逐步将圆盘从一个底座移动到另一个底座。

3.4 实验 III：基于场景图的高级推理测试

该类实验聚焦开放场景下的多步骤推理与语义分类，引入遮挡处理等复杂因素，评估框架的综合能力：

3.4.1 实验 III-A：自主分类任务

任务描述：用户指令 “将物体有序放入盒子中”，场景提供大小两个盒子，桌上水果数量多于蔬菜，评估框架的语义分类、数量推理与容器分配能力。

实验流程：框架需自主完成三个步骤：区分水果与蔬菜、将水果分配至大盒子、将蔬菜分配至小盒子，全程仅依赖高层指令与初始场景图。

实验结果：PF、TCR、SGH 均达 100%，表明框架能通过场景图解析隐式目标，实现语义分类与资源优化分配的自主推理。

III-A：(a)-(b) 物品根据推断的类别（水果与蔬菜）被分入两个盒子中，水果被放在较大的容器里，蔬菜被放在较小的容器里。

3.4.2 实验 III-B：自主桌面整理任务

任务描述：用户指令 “整理桌面”，场景包含工具盒与食品盒（分别位于桌面左右），初始状态下柠檬被误放入工具盒，评估框架的不一致检测、目标推理与多步骤执行能力。

实验流程：框架需自主推理完整任务序列：检测柠檬的错误放置→将柠檬移至食品盒→将剩余物体分类放入对应盒子→关闭盒盖，同时动态更新场景图。

实验结果：PF 为 95%，TCR 为 75%，SGH 为 100%，失败案例主要源于物体分类的模糊性与盒盖关闭时的操作精度问题。

III-B：（a）-（b）将放错位置的柠檬从工具箱转移到食品盒中；（c）整理桌子上剩余的物品。（d）并用合适的盖子将每个盒子盖好。

3.4.3 实验 III-C：遮挡场景下的桌面整理任务

任务描述：在实验 III-B 基础上增加遮挡因素，初始状态工具盒处于关闭状态，评估框架的遮挡处理与临时规划能力。

实验流程：框架需额外完成：识别工具盒关闭状态→通过 VLM 确定盒盖临时放置位置→移开盒盖→执行后续整理任务→将盒盖复位关闭。

实验结果：PF 为 80%，TCR 为 60%，SGH 为 100%，失败主要源于遮挡导致的物体定位误差与临时放置位置规划的合理性问题，表明复杂视觉环境对感知层的挑战显著影响整体性能。

III-C：（e）-（f）机器人通过打开初始关闭的工具箱来处理遮挡问题，将盖子放在 VLM 识别的临时位置，然后按照 III-B 中的步骤进行操作。

3.5 实验结果分析与讨论

3.5.1 整体性能统计

所有实验的核心指标统计如下表所示：

实验编号	规划可行性（%）	任务完成率（%）	场景图处理精度（%）	实验编号	规划可行性（%）	任务完成率（%）	场景图处理精度（%）
I-A	100	100	100	II-A	100	100	100
I-B1	100	20	100	II-B	100	100	100
I-B2	100	100	100	III-A	100	100	100
I-C	100	100	100	III-B	95	75	100
I-D	100	80	100	III-C	80	60	100

3.5.2 关键发现

场景图处理精度（SGH）在所有实验中均保持 100%，表明框架的动态场景图更新机制稳定可靠，能准确反映环境状态变化，为各层推理提供坚实基础；
规划可行性（PF）整体表现优异（最低 80%），仅在遮挡复杂场景（III-C）中出现明显下降，证明认知层的推理能力对环境复杂度的敏感度较低；
任务完成率（TCR）受指令清晰度与场景复杂度双重影响：明确指令 + 简单场景（I-A、I-B2、I-C、II-A、II-B、III-A）的 TCR 达 100%，模糊指令（I-B1）导致 TCR 仅 20%，复杂遮挡场景（III-C）TCR 降至 60%；
推理与执行的分离设计在长时域任务（如汉诺塔）中展现显著优势，既保证了规划的逻辑性，又维持了执行的稳健性；
VLM 的泛化能力得到有效验证，能处理未知物体（如盒盖旋钮）的定位需求，但在视觉 clutter 或遮挡场景下性能下降。

3.5.3 框架优势

场景图的引入实现了环境信息的结构化表征，支撑多步骤推理与隐式目标推断，大幅提升了对高层模糊指令的理解能力；
基础模型的无微调应用降低了数据依赖，VLM 对未知物体与场景的泛化能力增强了框架的适用性；
分层架构与模块分离设计（推理 - 执行分离、感知 - 规划协同）兼顾了规划质量与执行效率，实现了 “精准推理 + 稳健执行” 的双重目标。

3.5.4 现存局限

语言歧义敏感性：模糊或信息不足的指令易导致跨模块误差传播，尤其影响 VLM 的空间定位精度；
动态碰撞建模缺失：执行层未考虑可操作物体间的动态碰撞，在 clutter 场景下易导致操作失败；
遮挡处理能力不足：复杂遮挡场景下，VLM 的定位精度下降，影响后续操作序列的执行；
领域知识依赖：涉及特定领域（如食谱）的任务中，缺乏领域知识库支撑导致部分分类判断失误。

结论与未来展望

4.1 研究结论

本研究提出一种基于基础模型与场景图的长时域机器人操作框架，通过分层架构整合 LLM 的推理能力、VLM 的感知能力与传统运动控制的执行稳健性，实现了从自然语言到机器人动作的精准映射。核心贡献包括：

提出结构化分层架构，明确各层功能定位与交互机制，解决了基础模型在机器人操作中 “感知 - 推理 - 执行” 脱节的关键问题；
引入动态场景图作为核心知识底座，实现环境空间语义信息的统一表征与增量更新，支撑跨阶段一致推理；
验证了无领域特定训练的基础模型整合方案的有效性，框架兼具泛化性与稳健性，在多种场景下表现优异；
通过系统实验揭示了指令清晰度、场景复杂度对机器人操作性能的影响规律，为后续优化提供了实证基础。

实验结果表明，该框架在基础任务中实现 100% 的任务完成率，复杂场景下仍保持良好性能，为长时域机器人操作提供了新的有效解决方案。

4.2 未来研究方向

针对现有局限，未来将从以下四个方向开展深入研究：

语言歧义处理：引入上下文增强机制与指令补全模块，降低模糊指令对系统性能的影响；
动态碰撞建模：优化执行层的运动规划算法，融入可操作物体的动态碰撞预测，提升 clutter 场景下的操作稳健性；
遮挡鲁棒感知：结合多视角感知与深度学习遮挡推理，增强 VLM 在复杂视觉环境中的定位精度；
功能扩展：支持灵巧操作与变形物体处理，拓展框架的应用场景；同时整合领域知识库，提升特定场景下的推理准确性。

4.3 总结

本研究通过基础模型与结构化环境表征的创新融合，为长时域机器人操作提供了兼具泛化性与稳健性的解决方案。框架无需领域特定训练，降低了机器人系统的开发门槛，同时通过动态场景图与分层架构保障了操作精度与长时域适应性。研究成果不仅推动了基础模型在机器人领域的应用深化，也为通用型机器人操作系统的发展提供了重要参考。

Airking Robots

北京艾科伯特科技有限公司，是专注协作机器人和移动机器人的技术公司，Airking Robots——艾科伯特立足于航空/航天，专注于机器人智能制造方向，Airking Robots是优傲机器人，Robotiq等协作机器人方向中国区域金牌提供商

商务联系：

更多案例请关注公众号：

【声明】内容源于网络

AirkingRobots艾科伯特科技

北京艾科伯特科技有限公司(Airking Robotics)是UR机器人，Robotiq，Robosense等机器人领域的金牌授权商，我们面向教育行业，航空航天，工业，生命科学等领域，致力于让协作机器人、移动机器人实现人机交互。

内容 78

粉丝 0

AirkingRobots艾科伯特科技北京艾科伯特科技有限公司(Airking Robotics)是UR机器人，Robotiq，Robosense等机器人领域的金牌授权商，我们面向教育行业，航空航天，工业，生命科学等领域，致力于让协作机器人、移动机器人实现人机交互。

总阅读107

粉丝0

内容78