大数跨境
0
0

EmbodiedGen:面向具身智能的生成式3D世界引擎

EmbodiedGen:面向具身智能的生成式3D世界引擎 大语言模型和具身智体及自动驾驶
2025-11-24
5
导读:25年6月来自地平线机器人、极佳科技、地瓜机器人、上海交大和南开大学的论文“EmbodiedGen: Towards a Generative 3D World Engine for Embodied

25年6月来自地平线机器人、极佳科技、地瓜机器人、上海交大和南开大学的论文“EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence”。

构建一个物理真实且比例精确的模拟三维世界对于具身智能任务的训练和评估至关重要。三维数据资产的多样性、真实性、低成本易用性和经济性对于实现具身人工智能的泛化和可扩展性至关重要。然而,目前大多数具身智能任务仍然严重依赖于手动创建和标注的传统三维计算机图形资产,这些资产存在制作成本高昂且真实性有限的问题。这些限制极大地阻碍数据驱动方法的可扩展性。EmbodiedGen,一个用于交互式三维世界生成的基础平台,能够以低成本,在统一机器人描述格式 (URDF) 中可扩展地生成高质量、可控且具有照片级真实感的三维资产,这些资产具有精确的物理属性和真实世界比例。这些资产可以直接导入到各种物理仿真引擎中进行细粒度的物理控制,从而支持下游的训练和评估任务。 EmbodiedGen 是一款易于使用、功能齐全的工具包,由六个关键模块组成:图像到 3D、文本到 3D、纹理生成、关节/铰接目标生成、场景生成和布局生成。EmbodiedGen 可生成多样化且交互式的 3D 世界,这些世界由生成式 3D 资产构成,并利用生成式人工智能 (GI) 来解决具身智能相关研究中泛化和评估方面的挑战。



3D 资产生成。在3D 目标生成,目标是根据输入图像或文本描述生成相应的 3D 模型。现有的方法大致可以分为三种代表性范式:前馈生成、基于优化的生成和视图重建。前馈生成利用大模型,通过一次前向传播即可生成输入提示的 3D 模型。此类方法包括 LRM[11]、PixelSplat[5]、GRM[52] 和 MVSplat[6] 等,它们以推理时间效率高而著称。基于优化的生成,例如 DreamFusion[30] 和 DreamMat[58] 等方法,使用扩散模型和可微渲染指导的分数蒸馏采样 (SDS) 直接优化 3D 模型的参数。这通常会以增加计算时间为代价,获得更高质量的输出。视图重建方法生成多视图二维图像,并通过稀疏视图几何重建最终的三维表示。该域的代表性工作包括 Zero123[22]、Unique3d[46]、MVDream[39] 和 MV-Adapter[17]。为了满足对更高质量三维物体的需求,近年来出现一些方法,例如 CLAY[56]、Hunyuan3D[41]、Meta3DGen[3] 和 Trellis[50],它们采用解耦的流程,将几何生成和纹理生成分为两个阶段,然后进行纹理重投影,将几何与逼真的纹理融合。除了刚体生成之外,URDFormer[7] 和 SINGAPO[21] 等方法也被提出用于生成关节/铰接体。然而,这些方法主要局限于以图形为中心的物体生成。生成的物体缺乏真实世界的尺度和物理属性,并且无法保证其完整性或几何完整性。这些限制严重阻碍它们在基于物理的模拟器中的直接应用。

3D场景生成。近年来,诸如LucidDreamer[8]等方法采用3DGS[19]实现灵活一致的场景渲染,但主要局限于前向视图。为了实现完整的360°场景生成,人们探索全景表示方法。PERF[43]率先提出全景NeRF,用于从单个全景图中合成新视图。DreamScene360[60]、HoloDreamer[59]和WorldGen[51]通过全景高斯溅射(GS)扩展这一方法,而LayerPano3D[53]引入分层全景图,并将其提升为3D溅射(GS)以处理复杂场景。然而,这些方法仅限于生成不具备交互性的静态3D场景,因此不适用于具身智能相关研究的需求。

具身智能任务。以往的研究,例如 RoboTwin[28]、Gen2Sim[18]、MatchMaker[45] 和 ACDC[9],都探索利用 3D 生成技术来扩充模拟器中的资源库。然而,由于 3D 生成技术在质量和效率上的局限性,资源的丰富性仍然有限,环境背景也往往较为简单,这不足以满足具身智能任务中大规模数据生成和评估的需求。

为了应对这些挑战, EmbodiedGen,一个以数据为中心的具身智能基础架构,能够根据图像或文本提示生成多样化的物体和背景资源,并支持纹理编辑以增强视觉效果。该框架有效地支持不同模拟器中的实物-到-仿真迁移、数据增强和基于物理的仿真[4, 26, 42, 49],从而加速具身智能系统的开发。

如图所示:



图像到三维物体的生成


方法概述。社区驱动的三维物体资产生成能力正在迅速发展,并有望持续提升。在模型组件方面,利用开源模型。这种方法确保随着社区模型的改进,图像到三维功能可以轻松扩展。具体而言,用Trellis[50],因为它具有卓越的几何生成质量,并且能够在网格和3DGS[19]格式中生成一致的三维表示。然而,Trellis存在一些限制,阻碍了其在具身人工智能任务中的直接应用:生成的纹理视觉质量较差,特别是由于高光过多,导致烘焙到网格上时出现明显的泛白现象。此外,生成的文件纯粹是图形资源,缺乏真实世界的比例、物理属性或物理上合理的几何形状,因此不适合直接用于物理模拟器[26, 42, 49]。着重于三项关键改进:(1) 开发一套完整用于具身智能资源生成的数据孪生流程,能够生成具有真实属性、精确比例和物理一致的封闭几何形状的数据资源,并可直接导入仿真引擎;(2) 通过应用高光去除和超分辨率技术来提升纹理质量,从而获得高质量、高分辨率的纹理;(3) 开发一种基于扩散的铰接式3D目标生成模型,以满足各种仿真任务中对复杂数据资源日益增长的需求。

物理上真实的3D资源生成。如图所示,用Trellis[50]生成输入图像的3D表示。此外,还采用GPT-4o[1]和Qwen[10]来构建物理专家智体。具体来说,该智体通过渲染生成对象的正面视图并应用文本提示约束来估算对象的实际高度。由于宽度、长度和高度相互关联,缩放高度可以精确恢复网格和3DGS的真实尺寸。对于尺寸本身存在歧义的对象,系统提供一个文本引导的物理属性恢复界面,允许用户指定上下文(例如,“老虎毛绒玩具”或“老虎动物”),以便更准确地预测尺寸。给定渲染的3D对象四个正交视图作为输入,物理专家智体可以进一步估算摩擦系数和质量等物理属性,并将它们与语义描述关联起来,从而对3D对象进行相应的分类。

自动化质量检测。开发一个自动化质量检测模块,利用美学检查器[38]作为视觉质量的衡量标准,因为它与纹理丰富度呈正相关。前景分割的质量对3D资产生成质量有显著影响,因此进一步构建一个基于GPT-4o的ImageSegChecker,用于前景提取质量评估。为了确保在不同领域都能获得稳健的分割质量,提供三种不同的前景分割模型:SAM[20]、REMBG[15]和RMBG14[2]。如果ImageSegChecker检测到分割失败,系统将切换到备用模型进行重试。MeshGeoChecker通过渲染四个正交视图并评估几何完整性和合理性来检查资产。通过质量检测的资产将被转换为URDF格式并存储。任何在流程中失败的节点都会被送回相应的生成步骤,并使用调整后的设置和种子。

纹理反投影优化。与 Trellis 等方法不同,后者依赖于基于优化的烘焙,将从 3DGS[19] 渲染的多视图 RGB 图像烘焙回 3D 空间,而优化的方法采用一种几何确定的投影方案,并将其与视图法线融合。在将纹理重投影回 3D 空间之前,对 RGB 图像应用全局高光去除和超分辨率处理,从而生成高质量的 2K 分辨率纹理 UV 图。具体来说,用一个令人愉悦的模型[41] 来去除多视图纹理中的光照效果,同时保持不同视图之间风格和亮度的一致性。此外,还应用 Real-ESRGAN [44] 对每个视图独立执行 4 倍超分辨率处理,将分辨率提升至 2048x2048。实验表明,对每个视图进行独立的超分辨率处理不会影响最终3D资产纹理的一致性或质量。算法流程如图所示。

文本-到-3D对象生成


方法概述。文本-到-3D模块旨在高度可控地生成具有多样化几何形状和纹理的3D对象资源。为此,文本-到-3D的任务被分解为两个阶段:文本-到-图像和图像-到-3D。这种解耦带来诸多优势。在大规模资源生成中,它能够实现早期自动质量检查,使系统能够在将计算资源投入3D生成之前,过滤掉未通过前景分割检查或语义与文本描述不一致的样本。更重要的是,这种模块化设计提高迭代灵活性并降低了维护成本。它还使流程能够充分利用文本-到-图像和图像-到-3D领域的最新进展,从而持续提升可控性、可扩展性和资源生成质量。具体而言,采用 Kolors[40] 作为文本-到-图像的生成模型,因为它支持根据中文和英文提示生成高质量图像。在图像-到- 3D 转换阶段,维护一个统一的服务 EmbodiedGen Image-to-3D,以简化系统复杂性。如图展示大规模文本-到- 3D 资产生成的工作流程。

自动化质量检测评估。评估自动化质量检测模块在大规模3D资产生成中的效率。构建基于美学检查器(Aesthetic-Checker)、图像分割检查器(ImageSegChecker)和网格地理检查器(MeshGeoChecker)的自动化质量检测流程。在评估过程中,如果生成的资产满足以下标准,则认为其可用:与输入文本描述的几何和纹理一致性、几何完整性、纹理丰富度以及与仿真引擎的兼容性。否则,将其归类为不可用。精确率,定义为被自动化检查器识别为不可用的资产中实际不可用的资产所占的比例,召回率,定义为所有真正不可用的资产中被检查器正确标记的比例。生成150个杯子3D资产并对其进行手动标注。其中,107个被标记为可用,43个被标记为不可用。自动化质量检测的准确率达到 68.7%,召回率为 76.7%。虽然这些指标尚未超过 90%,但目前的系统已大幅减少资产筛选所需的人工工作量。此外,预计随着多模态大型模型的进步,该流程将持续改进,从而在未来进一步提升自动化质量评估水平。

铰接体生成


铰接体,例如橱柜、抽屉和家用电器,在现实世界环境中十分常见。精确建模这些物体不仅需要捕捉其几何结构,还需要理解其运动行为和部件连接。这种能力对于虚拟仿真、机器人和交互式环境等任务至关重要[14, 27, 33]。

方法概述。用DIPO[48],这是一个可控的生成框架,它从双-态图像对构建铰接3D物体。一幅图像显示物体的静止状态,另一幅图像显示其铰接状态。这种双-态输入格式编码结构和运动学信息,使模型能够更好地解决运动歧义并预测关节行为。生成过程基于扩散transformer,用每一层的专用双-态注入模块来融合这两幅图像。 DIPO 还包含一个基于思维链的图推理器,用于推断各部分之间的连接关系。由此生成的关节图被用作注意先验,以增强生成的一致性和合理性。

自动关节/铰接目标数据增强。除了模型设计之外,为了提高复杂关节目标生成的泛化能力,用一个自动数据增强流程,利用基于网格的空间推理和从现有 3D 数据集中检索部件,根据自然语言提示合成关节目标布局。由此产生的 PM-X 数据集包含 600 个结构各异的关节目标,每个目标都标注渲染图像和物理属性。

纹理生成


方法概述。纹理生成模块旨在为 3D 目标资源执行多样式纹理的生成和编辑。以 3D 网格作为输入,它输出具有生成视觉外观的纹理化 3D 网格。没有从头开始训练多视图扩散模型,而是设计一个可插拔和可扩展的模块,该模块利用现有的 2D 文本-到-图像基础模型,并将其功能扩展到 3D 领域。该方法能够生成多样化且高质量的纹理,这些纹理在不同视图之间保持几何一致性。这种设计范式能够利用社区基础模型的持续改进,从而以最小的重训练工作量,经济高效且可扩展地生成视图一致的纹理。如图所示:

模型设计。开发一个名为 GeoLifter 的模型,该模块将基础文本-到-图像扩散模型的功能扩展到具有几何一致性的多视图生成。 GeoLifter 通过交叉注意机制将几何控制注入到基础扩散模型中,从而实现基于 3D 几何形状的视图一致性纹理生成。用 Kolors 的文本-到-图像模型[40] 作为基础扩散模型。与 ControlNet[55] 等方法(这些方法复制并训练基础模型 U-Net 的一个独立编码器分支)不同,GeoLifter 保持轻量级和高度可扩展性。其参数规模不会随基础模型深度的增加而增长,这使其效率更高,并且更容易与不断发展的扩散架构集成。

给定一个输入网格,从六个预定义的相机视角(仰角elevation ∈ {20°, -10°},方位角azimuth ∈ {0°, 60°, 120°, 180°, 240°, 300°})渲染法线图、位置图和二值掩码。对于每个视图,法线图和位置图均从相机视角渲染到图像空间,并沿每个属性的空间(高度和宽度)维度进行拼接。然后,不同类型的属性(法线、位置、掩码)沿通道维度拼接,形成几何条件输入 G。法线图编码每个顶点插值并投影到图像平面的表面法线。位置图存储可见顶点的 XYZ 坐标(在物体空间中)。掩码是二值分割图。几何条件 G 随后被隐式编码为特征嵌入,并通过交叉注意机制逐步注入到扩散模型的去噪过程中,利用零卷积来确保在训练初期对基础模型解码器的干扰最小。

文本提示支持正向和负向提示,并接受多语言输入,包括中文和英文描述,以指定所需的纹理样式和外观。除了文本提示外,用户还可以选择提供 RGB 图像作为参考样式,作为语言输入的补充控制信号。用户可以仅提供文本提示、仅提供参考图像,或同时提供两者。这种设计通过结合语义引导和视觉样式提示,实现了高度可控且富有表现力的纹理生成。

GeoLifter 凭借其轻量级的几何条件化设计,有效地保留底层基础模型的纹理生成能力,同时显著提高跨视图的空间和几何一致性。在多视图纹理生成之后,应用光照去除和超分辨率技术,并将细化后的纹理投影回 3D 空间,从而获得最终的纹理网格,该网格配备高分辨率 2K UV 图。

损失函数设计。在潜扩散模型[37]中使用的原始损失函数的基础上,引入空间损失函数作为潜空间中的几何一致性约束。其中,B为批次大小,r_b和s_b分别为第b个样本的参考点集和搜索点集。f_b(·)表示对应坐标处的提取特征向量。应用标准的逐元素平滑L1损失,以促使对应于同一3D点(投影到多个视图上)的像素的潜特征在特征空间中保持接近,从而增强跨视图一致性。最终损失函数L由L_LDM和L_spatial相加得到,其中λ_ldm和λ_spatial分别设置为1和0.02。

定性比较。对本文的方法与几种最先进的纹理生成方法进行定性比较,包括 TEXTure[36]、SyncMVD[24]、Paint3D[54]、Meshy[25] 和 Hunyuan3d-2[12]。本文提出的方法能够持续生成更高质量的 3D 纹理,并且在不同视图之间具有更优异的几何一致性。此外,本文提出的方法独具优势,可以直接在 3D 表面上生成指定的文本。

3D场景生成


方法概述。除了3D物体资源生成之外,场景多样性作为背景上下文也发挥着同样重要的作用。开发一个可扩展且高效的3D场景生成框架。该系统采用模块化流程,将多模态输入转换为全景图像,然后利用这些全景图像生成具有一致真实世界比例的3D场景。该框架包含三个主要阶段:(1)全景图像生成;(2)使用3DGS[19]生成3D场景并从全景图像中提取网格表示;(3)比例对齐和标准化输出,如图所示。

全景图像生成。该方法支持文本和图像两种输入模式,或二者结合,从而能够灵活高效地生成高质量的全景图像。对于文本驱动的生成,用 Diffusion360 模型[13]将用户提供的场景描述转换为全景视图,该模型已证明在此任务中表现出色。对于图像驱动的生成,采用 Qwen [10] 从输入图像中提取语义描述。然后,全景生成模型[13]联合处理图像及其对应的文本描述,生成语义对齐的全景图。为了确保质量和可靠性,引入 PanoSelector 模块,该模块基于 Qwen [10] 构建,能够根据结构质量指标(例如地面和墙面的一致性)自动评估和过滤生成的全景图。这保证了只有高质量的输出才能进入几何生成阶段。

场景三维表示生成。在获得高质量全景图后,系统基于 Pano2Room[32] 生成相应的 3DGS 和网格三维表示。首先,从全景图输入生成初始网格,然后通过网格优化进一步细化,以提高几何精度和可重建性。优化后的网格随后被转换为 3DGS 表示。为了增强视觉保真度,从优化后的网格渲染的视图被转换为立方体图(cubemap),并通过超分辨率模型[44] 进行处理。超分辨率图像随后用于进一步细化初始 3DGS,从而有效地提高最终 3DGS 输出的细节质量。

物理复原。为了生成逼真且度量一致的 3D 场景,系统通过预测输入全景图及其语义描述中的真实世界尺寸(例如建筑物高度)来进行绝对尺度估计。基于 Qwen 模型 [10] 构建的专用比例估计模块,能够推断这些比例因子,从而实现网格和 3DGS [19] 表示的无损缩放。此外,坐标系重新以场景的地面为中心,坐标轴根据输入图像中的相机方向或文本描述所暗示的方向进行对齐。最终输出的是一个比例对齐的高保真 3D 场景资源,可用于虚拟现实、增强现实和机器人等下游应用。

【声明】内容源于网络
0
0
大语言模型和具身智体及自动驾驶
讨论大模型(包括语言大模型、视觉-语言大模型和多模态大语言模型)、具身智能、AI智体、自动驾驶和计算机视觉的技术发展和挑战
内容 1850
粉丝 0
大语言模型和具身智体及自动驾驶 讨论大模型(包括语言大模型、视觉-语言大模型和多模态大语言模型)、具身智能、AI智体、自动驾驶和计算机视觉的技术发展和挑战
总阅读1.2k
粉丝0
内容1.9k