机器人需要借助大规模、高物理精度且多样化的数据集进行训练,才能在复杂环境中进行推理并完成多种任务,而目前这些数据难以公开获取。
在华盛顿特区举行的 NVIDIA GTC 大会上,NVIDIA 发布了基于 NVIDIA Cosmos 世界基础模型构建的 Isaac GR00T-Dreams 合成数据生成与神经仿真框架,可帮助机器人突破现实经验的局限进行学习。通过生成如虚拟世界状态与动作轨迹的“梦境”,开发者可为机器人生成不同环境下的训练数据与动作指令,使其掌握新技能。
传统合成数据生成方法需要开发者耗费大量精力构建虚拟环境,而 GR00T-Dreams 框架彻底改变了这一模式:仅需一张图片以及简单的自然语言指令,即可“构想”出全新的训练场景。
GR00T-Dreams 框架包含两种核心模式:
Passive dreaming 模式能够自动生成多样化的机器人训练视频场景。开发者只需输入图像和指令,例如移动物体或在空间内导航,即可对类似 NVIDIA Cosmos Predict 等世界模型进行后训练。随后,GR00T-Dreams 仅需文本提示,即可“构想”生成多个合成序列,动态呈现机器人如何在新环境中完成各类任务,同时场景中的物体与背景可以完全通过文本提示进行更换。
Lucid dreaming 模式作为一个响应式神经仿真器则更进一步。它可使 AI 模型仅凭一张 2D 图像构建出完整的交互式虚拟世界,在这些环境中开发者可以远程精确控制机器人进行复杂机械动作,还可实时测试各种边缘场景。
场景生成后,GR00T-Dreams 会将其送入 Cosmos Reason 推理模型进行筛选,该模型能够过滤存在缺陷或质量较低的“不好的梦境”。经筛选保留的数据将形成连贯的动作轨迹,为 GR00T N 系列等视觉语言动作模型提供后训练支持。
这些模型集成了视觉感知、自然语言理解与物理控制系统,使机器人能够精准解析指令并在复杂环境中做出自主响应。
扫描下方二维码,观看 CEO 黄仁勋在华盛顿特区 NVIDIA GTC 大会的主题演讲回放,了解改变每个行业和应用的突破性创新。

