一、那些已摸到“天花板”的研究方向
机器人学的发展从未脱离“先易后难”的规律,如今部分传统方向已进入技术收敛期,科研突破空间逐渐收窄。最典型的莫过于导航(Navigation)领域,以视觉语言导航(VLN)为核心范式的技术路线,经过数年迭代已日趋成熟,核心算法性能逼近理论上限,预计未来两年将完成关键问题的收敛。
VLN 凭借“视觉感知+语言理解”的跨模态能力,已能应对室内、半结构化环境的复杂导航需求,其技术瓶颈已从算法创新转向大尺度开放世界场景的数据难题——如何高效采集、标注开放环境中的动态障碍物、地形变化等数据,成为后续工程优化的核心,而非基础研究的突破点。
类似的趋势也出现在四足机器人、旋翼机等载体领域。这些机器人的核心价值在于解决“移动”问题,即 locomotion 相关的动力学控制、稳定性优化等“小脑能力”。如今,从实验室的经典场景到户外复杂地形,这类机器人的核心控制算法已完成全面验证,经典实验设置被反复打磨,技术方案趋于统一。目前行业主流研究机构已证明,四足机器人的奔跑、跳跃、越障等动作控制已达到工程可用水平,旋翼机的自主避障、路径规划也形成了成熟技术体系。
这类方向的共性的是“无操作能力”,仅聚焦于移动功能,缺乏与物理世界的复杂交互,导致研究问题边界清晰、可解性强,从而率先实现技术收敛。
但这并不意味着工程化的终结:从实验室原型到工业级可靠性、从特定场景到通用环境适配,仍需大量工程打磨。对于科研新手而言,这类方向已不再适合单打独斗式的基础研究,更适合依托产业团队开展工程优化类工作。
二、VLX、复杂操作、具身数据 三大技术赛道值得特别关注
目前全球科研资源正加速向VLX 协同、灵巧操作、数据高效学习三个方面快速靠拢,部分方向已成为未来机器人智能化的核心技术路径。
作为视觉、语言与动作的融合载体,VLX 并非单一技术的升级,而是重构了机器人的感知-决策-执行链路。其中,视觉语言动作模型(VLA)的突破最为关键——与仅能实现“感知-理解”的视觉语言模型(VLM)不同,VLA 通过前缀 token、状态 token、动作 token 的统一表征,将视觉观测、语言指令、机器人关节状态、动作序列纳入同一嵌入空间,实现了“理解任务+生成动作”的端到端能力。如 RT-2、PaLM-E 等模型已证明,VLA 能让机器人通过自然语言指令生成精准动作序列,完成“拿起红色苹果”“拧紧螺丝”等基础操作,而其核心挑战在于如何提升动作生成的精度与泛化性,尤其是在复杂物理交互场景中。
第二条核心赛道是复杂操作(Manipulation),这被公认为机器人学的“终极问题”。这里的操作绝非简单的“抓取-放置”(Pick and Place),而是涵盖人形/移动上半身的全身物体交互、多指手灵巧操作等高阶能力,正如《Science》此前文章刊登的观点,灵巧手操作是机器人技术“皇冠上的明珠”,其难度源于人类手部的极致复杂性:27 块骨头、27 个关节、34 块肌肉构成的系统,能实现 24 个自由度的精细运动,而机器人要复刻这种能力,需突破硬件结构、算法控制、数据获取三重瓶颈。
2025 年清华大学团队提出的 DexNDM 系统,为灵巧操作提供了新的解题思路:通过“关节级别”学习方法,让机器人每个关节独立从历史动作中学习,无需建模整个手部的复杂动力学,再结合“混沌盒子”自动化数据收集策略,让机器人在装满软球的箱子中自主互动,高效获取力学关系数据,最终实现了细长物体旋转、多姿态操作等人类级难度动作。但这仅是局部突破,当操作与移动底盘、腿足结合形成移动操控(Mobile Manipulation)时,问题复杂度呈指数级增长:观测空间扩大、动作维度飙升、动力学模型非线性增强,再加上 sim2real 的现实差距难题,至今仍无通用解决方案。
围绕前两大赛道,数据高效学习成为必备支撑技术。无论是 VLX 模型训练还是复杂操作技能习得,数据都是核心瓶颈,传统方法需海量标注数据,而机器人真实交互数据的采集成本极高。
微软研究院与清华大学提出的IGOR 框架
为此,产业界正探索三个方面的技术路径,一是规模化数据获取,如“混沌盒子”这类自动化采集方案,实现 24 小时无监督数据积累。二是从人类视频中学习,微软研究院与清华大学提出的IGOR 框架从互联网视频中提取人类动作特征,构建跨任务、跨智能体的统一动作表示空间,UC Berkeley VideoMimic 系统则能将人类视频动作直接迁移到机器人,让四足机器人学会爬楼梯、坐下等复杂动作。
三是现实世界滚动数据(Rollout Data)利用,通过闭环控制中的实时数据反馈,持续优化模型性能,减少对模拟数据的依赖。这些方法的核心目标,是打破“数据饥荒”对机器人学习的限制。
三、移动操控如何跳出“实验室陷阱”?
在所有研究方向中,移动操控(Mobile Manipulation)被公认为未来最具价值的赛道,更多的面向移动底盘、机械臂、灵巧手的协同,人形机器人正是这类技术的终极载体。无论是户外作业机器人(Field Robot)还是家庭服务机器人(Home Robot),其核心需求都是在移动中完成复杂操作,这要求机器人同时具备全身控制(Whole Body Control)、高阶任务规划与实时推理能力。
ICRA 2025 上提出的 EHC-MM 框架,尝试解决移动与操控的协同难题,通过 sig(ω)控制函数动态调整底盘移动与机械臂操作的优先级,远离目标时优先移动,接近目标时聚焦精细操作,再结合基于监视-位置的伺服控制(MPBS),确保抓取过程中不丢失视觉目标,最终使真实环境中连续抓取成功率达到 95.6%。但这一方案仍局限于特定场景,如何在动态环境中实现全身协同的自适应规划,仍是机器人学习与轨迹优化两大流派共同攻坚的核心。
比技术攻坚更紧迫的,是系统级验证(System-level Verification)与工程标准的缺失。当前机器人领域仍依赖主观直觉的端到端测试,缺乏统一的性能评估体系与安全标准,导致科研成果难以量化对比,工程化进展陷入“各自为战”的浮躁状态。尽管我国已发布首批机器人检测标准,逐步替代通用电磁兼容标准,但针对移动操控、灵巧操作等复杂场景的专项标准仍在制定中。没有统一标准,机器人技术就难以形成规模化产业落地,这也是为何部分技术看似成熟,却始终无法走出实验室的关键原因。
四、具身智能的本质到底是什么?
从维纳 1940 年代提出控制论(Cybernetics),到如今机器人技术进入攻坚期,人类对“机器智能”的探索已走过近百年。而机器人要理解物理世界,就必须通过身体与世界交互,这种具身智能的探索,正是人类认知自身智能的最佳路径。
有人说“解决了 Manipulation,就解决了机器人学”,这句话虽显得有点绝对,却点出了核心方向。从 2024 年开始,每一年都被视作“机器人元年”,这种期待背后,是技术积累到临界点的必然。当越来越多的科研力量聚焦于移动操控与复杂交互,当系统标准逐步建立,机器人或许将真正突破“工具”的边界,成为人类理解物理世界、拓展能力边界的核心载体。

