大数跨境
0
0

北大卢宗青团队新作:超 70% 实机成功率,支持语言指令的功能性抓取系统

北大卢宗青团队新作:超 70% 实机成功率,支持语言指令的功能性抓取系统 AI科技评论
2026-01-06
9
导读:当机器人学会「为什么而抓」,智能才真正开始面对真实世界。
当机器人学会「为什么而抓」,智能才真正开始面对真实世界。


作者丨郑佳美
编辑丨岑峰

在机器人研究中,抓取这一看似基础的问题,正成为决定上层智能能走多远的关键变量。当前大模型已具备语言理解、图像分析与任务规划能力,但在与物理世界发生真实交互时,系统仍显笨拙。

现有抓取研究多聚焦于几何稳定性——只要夹住不掉落即视为成功。然而人类日常中的抓取从来不是目的本身,而是功能行为的起点:端杯为倒水,握锤为敲击,按压扳机为喷洒。功能性抓取比稳定抓取更贴近真实世界的智能需求

难点在于,功能性抓取并非单纯几何问题,而是需综合理解物体结构、用途、操控部位与适配姿态的语义任务。尤其在灵巧手系统中,上百维控制空间叠加复杂接触动力学,使传统强化学习难以有效收敛。如何让机器人自主习得功能相关的抓取位置与姿态,长期缺乏系统、可验证的解决方案。

北京大学卢宗青团队在论文《Universal Dexterous Functional Grasping via Demonstration-Editing Reinforcement Learning》中提出DemoFunGrasp方法,对功能性抓取进行全新建模。

该方法将关注点从“是否抓住”提升至“如何围绕功能抓取”,首次将功能位置(如把手、扳机)与抓取风格(如捏持、侧持)统一纳入策略优化框架,并在大规模仿真与真实机器人平台完成系统验证,实现超70%的功能性抓取成功率

论文地址:https://arxiv.org/pdf/2512.13380v1

01 从「抓得住」走向「抓得对」

DemoFunGrasp 方法可在大量异形、异构、异功能物体上,实现可控、语义明确的功能性抓取,并直接迁移到真实机器人平台。

在大规模仿真环境中,研究者基于 IsaacGym 构建含3000+物体的测试集,覆盖细长体、球体、带柄容器及工具类物体(源自 DexGraspNet 与 YCB 数据集)。机器人需在指定功能条件下完成抓取,如抓取杯子把手、喷壶扳机或工具柄部。结果显示:在强功能约束下,该方法仍保持高成功率,证明策略兼顾稳定性与功能性。

实验进一步验证了功能区域对准精度显著提升。团队定义“目标功能点与实际接触点距离”为关键指标。DemoFunGrasp 将平均偏差控制在约 3 厘米,而基线方法常偏离至非功能区——例如在锤子场景中,基线多抓锤头,DemoFunGrasp 集中于锤柄;在喷壶场景中,前者常落于瓶身,后者则精准覆盖扳机及握柄区域。

研究还验证了抓取风格的多样性与可控性。团队依据人类手部抓取分类体系,定义捏持、侧持、小直径抓等语义化风格标签,并作为策略输入条件。实验表明:同一物体在不同风格指令下,生成的姿态差异显著,非微调扰动;低维嵌入可视化显示,各风格聚类清晰分离,证实模型已结构化编码并可控调节抓取风格。

真实机器人平台测试中,团队使用 7 自由度机械臂+灵巧手系统,仅依赖单目摄像头图像输入(无完美状态信息),未做真实域微调,即实现超70%功能性抓取成功率。更重要的是,机器人能执行后续功能动作:提起壶柄倒水、按压扳机喷洒等,真正实现“为抓而抓”向“为用而抓”的跨越。

消融实验进一步证明各模块必要性:移除可供性奖励项后,成功率略升但功能点偏离严重;取消风格扰动机制,成功率大幅下降;去除尺寸归一化,大物体学习极不稳定。所有设计均非装饰,而是性能基石。

02 把「怎么抓」提升到「为什么而抓」

该研究的核心突破,在于将模糊的“功能抓取”概念转化为可建模、可计算、可条件控制的问题,并以演示编辑式强化学习求解。

任务建模层面,团队摒弃传统纯几何视角,提出功能抓取由两要素共同定义:功能位置(以三维可供性点表示,如茶壶把手、剪刀握柄)与抓取风格(以类别标签表示,如环握、侧持)。由此,问题被形式化为:在给定物体形状、功能点及风格标签条件下,生成完整抓握动作。

方法上,团队采用演示编辑强化学习(Demonstration-Editing RL):不从零训练轨迹,而是先构建一条基础示范轨迹(“抓取动作骨架”),再让策略学习对其施加残差式调整。策略输出包括手腕位姿整体变换与手指关节角小幅修正,将长序列决策降维为单步决策,显著降低搜索空间与学习难度。

奖励函数包含四部分:抓取成功与否、接触点与功能点距离、过程是否靠近功能区、最终姿态与目标风格匹配度。其中,针对物体尺寸差异,引入按尺度归一化的距离度量,保障奖励一致性,提升强化学习稳定性。

随后,团队将状态级策略迁移至视觉空间:在仿真中采集大量 RGB 图像、状态、功能点、风格标签与动作数据,以此监督训练视觉策略网络,完成从“理想信息策略”到“真实感知策略”的蒸馏。训练中对光照、材质、相机位姿等进行大规模随机化,确保策略泛化能力。

系统进一步融合视觉语言模型(VLM),支持自然语言输入。用户说出“抓住喷壶扳机”或“拿茶壶把手”,VLM 即在图像中定位对应功能区域,并转化为可供性点输入抓取策略,形成完整闭环:语言理解 → 视觉定位 → 功能推理 → 灵巧控制。

03 当控制难题被真正降维

本研究的意义体现在三个层面:抓取目标的转变、学习方法的突破、具身智能能力的整体跃升

第一,它重构了机器人抓取的目标范式。传统研究以“不掉落”为终点;本工作强调“为抓而用”——抓杯为倒水、抓剪为裁剪、抓喷壶为喷洒,将抓取从几何稳定性问题升级为语义功能性问题,是迈向真正智能操作的关键一步。

第二,为灵巧手(dexterous hand)强化学习提供新路径。通过演示编辑机制,将高维连续控制降维为单步残差决策,显著缓解探索失败与收敛缓慢难题。该思路可拓展至旋转、插接、开合等复杂操作,对整个灵巧操作(dexterous manipulation)领域具普适启发性。

第三,提出“功能点 + 风格标签”的可组合表达范式,使抓取策略可接收来自语言指令、任务规划器或感知系统的条件输入,为多模态机器人与人类自然交互奠定基础。

最后,研究实现了从语言、视觉到低层控制的全栈闭环,机器人不再执行刚性程序,而能在理解任务语义后自主决策“如何抓、为何抓、如何用”,是通用家庭机器人、服务机器人及具身AI的核心能力。

04 让抓取拥有「目的」的研究者

通讯作者卢宗青为北京大学计算机学院长聘副教授、国家级青年人才、智源学者。长期担任 NeurIPS、ICML、ICLR 等顶会领域主席,提出 Video Tokenizer 技术与 Retriever–Actor–Critic 框架,推动多模态模型与强化学习在机器人领域的深度结合,成果已在多家头部机器人企业落地验证。

卢宗青本科与硕士毕业于东南大学,2014 年获新加坡南洋理工大学计算机博士,2014–2017 年在美国宾州州立大学从事博士后研究。2022 年任智源研究院多模态交互研究中心负责人,主持国家自然科学基金委“通用智能体”原创探索计划;2023 年带领团队研发通用智能体 Cradle,相关论文于 2025 年被 ICML 录用。

2025 年 1 月,他创立北京智在无界科技有限公司(BeingBeyond),提出基于 1500 万条互联网视频关节动作数据构建多模态姿态模型;同年 6 月完成由联想之星领投、智谱 Z 基金等跟投的数千万元天使轮融资

参考链接:https://z0ngqing.github.io/

【声明】内容源于网络
0
0
AI科技评论
聚焦AI前沿研究,关注AI工程落地。
内容 8431
粉丝 0
AI科技评论 聚焦AI前沿研究,关注AI工程落地。
总阅读67.6k
粉丝0
内容8.4k