大数跨境
0
0

URDF-Anything:使用 3D 多模态语言模型构建关节目标

URDF-Anything:使用 3D 多模态语言模型构建关节目标 极市平台
2025-11-17
1
↑ 点击蓝字 关注极市平台
作者丨黄浴@知乎
来源丨https://zhuanlan.zhihu.com/p/1971321570757702505
编辑丨极市平台

极市导读

 

URDF-Anything 单图直出可执行 URDF:3D-MLLM 预测关节 JSON+[SEG]  token 分割点云,mIoU↑17%、关节误差↓29%,OOD 物体仍适用。>>加入极市CV技术交流群,走在计算机视觉的最前沿

25年11 月来自北大和西雅图华盛顿大学的论文“URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model”。

构建精确的关节(铰接)体数字孪生模型对于机器人仿真训练和具身人工智能世界模型构建至关重要,但传统上需要耗费大量精力进行手动建模或采用多阶段流程。本文提出一种基于三维多模态大语言模型(MLLM)的端到端自动重建框架——URDF-Anything。URDF-Anything 利用基于点云和文本多模态输入的自回归预测框架,联合优化几何分割和运动学参数预测。它实现一种专门的 [SEG] token 机制,该机制直接与点云特征交互,从而在保持与运动学参数预测一致性的同时,实现细粒度的部件级分割。在模拟数据集和真实数据集上的实验表明,该方法在几何分割(mIoU 提升 17%)、运动学参数预测(平均误差降低 29%)和物理可执行性(比基线方法提升 50%)方面均显著优于现有方法。该方法展现出卓越的泛化能力,即使在训练集之外的目标上也能表现良好。

URDF-Anything 如图所示:从视觉观察(单视图或多视图图像)生成功能性 URDF 数字孪生。该框架利用 3D 多模态大语言模型,并在指令(例如“分割部件并预测参数”)的指导下,处理点云,以联合推断几何部件分割和运动学结构。输出结果是一个具有已定义关节(此处用不同部件颜色表示)的分割 3D 模型,形成一个可直接在物理模拟器中使用的功能性 URDF 数字孪生。

01 任务定义

为了确保与标准 3D 仿真器(例如 MuJoCo、PyBullet)兼容,将关节目标表示为 URDF(统一机器人描述格式)模型。URDF 结构将目标定义为一个由以下部分组成的层次树:

连杆:代表目标部件(例如,柜门、抽屉或底座)的刚体组件。每个连杆包含几何(网格)和惯性属性。

关节:连接连杆并指定运动学约束的关节。每个关节包含:

  • 类型:棱柱关节、旋转关节、连续关节、浮动关节、平面关节或固定关节。
  • 父/子关系:由该关节连接的连杆。
  • 原点:相对于父连杆的 3D 位置 (x, y, z) 和方向 (r, p, y) 。
  • 轴:定义运动方向的归一化三维向量(例如,垂直滑动时为 [0, 1, 0])。
  • 极限:定义棱柱关节、旋转关节和平面关节的运动范围。

目标是从关节目标的视觉输入中自动推断这些 URDF 组件——具体来说,就是每个连杆的网格、每个关节的类型、原点、父关节、子关节和轴。

URDF-Anything框架概述如图所示:该流程以三维点云(来自图像)和结构化语言指令作为输入。三维多级逻辑模型(MLLM,使用LoRa进行微调)自回归地生成符号输出(运动学参数)和[SEG] token。生成的[SEG] token对应的嵌入向量随后通过三维解码器与点云特征交互,从而对点云进行精细的几何分割,将其分割成各个连接。最后,将联合预测的运动学参数和分割后的几何形状集成到一个功能完善的URDF文件中,生成一个完整的、可用于物理仿真的关节三维模型。

02 输入表示

流程的第一步是将关节目标的原始视觉观察结果转换为适合结构解析的三维表示。现实世界的观察结果可能差异很大,有时提供目标的多个视角,有时只提供一个视角。因此,点云采集策略会根据输入模态进行调整:

多视角输入:当有来自不同视角的多个 RGB 图像可用时,利用 DUSt3R生成密集的三维点云 P_obj。 DUSt3R 擅长建立密集的 2D 到 3D 对应关系,并从多个视图重建精确的 3D 几何形状。

单视图输入:对于更具挑战性的单视图场景,采用生成式方法 LGM。首先,使用预训练的扩散模型合成一致的多视图图像。随后,从这些合成视图重建 3D 几何形状,该形状可以表示为 3D 高斯扩散模型,也可以转换为点云 P_obj。

无论输入类型(单视图或多视图),此阶段的输出都是一个密集的点云 P_obj,表示整个关节目标。需要特别注意的是,这个初始点云是一个整体表示;它捕捉整体几何形状,但本身并不区分或分割目标的各个连接或子组件。这个包含整个目标的点云 P_obj 将作为后续多模态关节解析阶段的主要几何输入。

04 基于 3D MLLM 的关节解析

采用ShapeLLM作为主干网络,ShapeLLM 是一个最新的 3D MLLM,它结合点云编码器和大语言模型。ShapeLLM 已展现出执行 3D 视觉定位并输出结构化 3D 信息(例如 3D 边框坐标)的能力。这种预存在的能力对于预测关节参数的任务尤为有利,因为关节参数本身就涉及 3D 位置(原点、轴线)和方向(原点)。这种统一的架构具有两个优势:

  1. 开放世界泛化:3D MLLM 的几何理解能力,通过大规模 3D 语言预训练得到增强,使其能够对已见和未见的物体类别进行稳健的推理。
  2. 结构化输出能力:MLLM 本身支持生成任意长度和复杂度的 JSON 格式输出,从而能够灵活地表示关节层次结构和部件关系。

输入:输入点云 P_obj 由 3D 编码器编码,提取密集几何特征 F_pc,其中 M 为点数(可能经过下采样),d_pc 为特征维度。同时,提供自然语言指令以指导解析过程。采用结构化指令模板,该模板显式地包含几何特征,并提示模型输入特定的 URDF 信息。指令的文本部分 X_txt 由 LLM 的标准词嵌入层处理,生成文本嵌入 F_txt,其中 L 为token数,d_txt 为嵌入维度。这些多模态特征(F_pc 和 F_txt)由 LLM 的各个层进行整合和处理。这种核心的多模态处理和输出生成过程可以形式化地表示为:

Y_output = M_LLM(F_pc, F_txt)

输出:虽然 3D MLLM 擅长处理多模态输入并生成结构化的文本输出,但它们本身并不具备生成几何分割所需的密集逐点预测的能力。任务不仅需要预测符号化的 URDF 结构和参数,还需要精确分割每个链接对应的点云几何形状。受 LISA的启发,扩展词汇表,引入一个特殊的token [SEG] 来实现这一联合目标。MLLM 经过训练,能够自回归地生成一个结构化的 JSON 输出序列,其中包含预测的联合参数以及链接的描述。关键在于,输出中的每个链接描述都与一个 [SEG] token相关联(例如,“link_0”: “base_cabinet[SEG]”,“link_1”: “drawer[SEG]”)。这意味着 MLLM 能够同时预测铰接结构的符号表示,并放置 token([SEG])来指示需要识别的每个部件对应的几何形状。

05 基于特殊token机制的几何分割

对 MLLM 输出序列 Y_output 中由 [SEG] token指示的每个目标部分执行几何分割。对于每个生成的 [SEG] token,利用其最终隐藏状态 h_seg,并结合前一个部分类别token的状态 h_category,形成融合token表示 h_combined = [h_category ; h_seg ]。然后,将此表示用作在交叉注意机制中的查询

H_query = MLP_query(h_combined)

另一个点特征 S_pc 由 3D 主干网络生成 S_pc = F_enc(P_obj)。然后,一个机制处理投影点云特征 F′_pc = MLP_pc(S_pc),有效地计算每个点的得分表示每个点属于该部件的可能性:

y_mask = CrossAttn(Q=H_query, K=F′_pc,V =F′_pc)

这些得分 y_mask 通过 sigmoid 函数和阈值转换为对应链路的二值分割掩码。此过程对每个 [SEG] token 重复进行,从而生成所有预测部件的掩码。

06 网格转换和 URDF 文件生成

流程的最后阶段将重建的几何和运动学信息整合到一个标准的 URDF XML 文件中,以便直接在物理模拟器中使用。从几何分割过程获得的每个链路分割点云,使用点到网格转换方法转换为 3D 网格表示(例如,OBJ 格式)。同时,MLLM的结构化JSON输出提供完整的运动学结构,包括关节类型、父子关系、原点和轴线。解析此JSON并组装最终的URDF XML文件,其中每个链接都指向其生成的网格,并且关节元素填充预测参数。生成的URDF模型可以直接导入到标准物理模拟器(例如MuJoCo、Sapiens )中。下图提供一个示例目标实例生成的URDF文件的完整示例:

07 模型训练

URDF-Anything 模型采用端到端训练方式,联合生成结构化的 URDF 参数并从点云预测精确的部件级分割掩码。总体训练目标 L 是语言建模损失 L_text 和分割损失 L_seg 的加权和。

分割损失结合二元交叉熵损失(BCE)和Dice损失(DICE)。对于与[SEG] token 关联的给定部分,令M_gt ∈ {0, 1}为该部分的真实二值掩码。

实现细节:采用 ShapeLLM 作为 3D MLLM 主干网络,默认设置使用 ShapeLLM-7B-general-v1.0 检查点。对于 3D 主干网络,用 Uni3D 提取密集几何特征。训练采用一块 NVIDIA 80GB A800 GPU。用 LoRA 进行高效微调,LoRA 的 rank 默认设置为 8。用 AdamW 优化器 ,学习率和权重衰减分别设置为 0.0003 和 0。用余弦学习率调度器,预热迭代比设置为 0.03。每个设备的批大小设置为 2,梯度累积步长设置为 10。模型在一块 NVIDIA A800 (80GB) GPU 上用时 2.5 小时完成微调。

数据集:用 PartNet-Mobility 数据集 来训练和评估框架。该数据集包含大量带有 URDF 标注的 3D 关节目标。数据集仅基于目标类别划分为分布内 (ID) 和分布外 (OOD) 子集。由于方法使用图像输入,在仿真环境中渲染数据集中 3D 模型的多视图和单视图 RGB 图像,生成视觉数据。原始 URDF 文件中的真实运动学和几何信息经过处理和重组,形成与模型输出结构相匹配的紧凑 JSON 格式。数据集分为标准训练集和测试集。

基线方法:与三种现有方法进行比较:

  1. Articulate-Anything,一种 Actor-Critic 系统,通过网格检索机制进行迭代细化,生成可编译成模拟器的代码。
  2. Real2Code:一种使用定向边框表示物体部件的方法,并使用经过微调的LLM模型将关节参数预测为代码。
  3. URDFormer:一个直接从真实世界图像构建包含完整关节结构的仿真场景的流程。

评估指标:从三个关键方面评估URDF-Anything框架的性能:部件级几何分割、运动学参数预测精度以及最终重建URDF的物理可执行性。


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k