大数跨境

蚂蚁集团开源 LingBot-VLA:一个实用的 VLA 基础模型,9 类机器人 2 万小时真实操作数据。

蚂蚁集团开源 LingBot-VLA:一个实用的 VLA 基础模型,9 类机器人 2 万小时真实操作数据。 AIGC Studio
2026-05-03
6
导读:点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!

在具身智能领域,如何让机器人真正走进复杂现实世界并跨平台执行精细操作,一直是学术界与工业界的痛点。蚂蚁灵波科技发布的 LingBot-VLA 基础模型,整合 9 类机器人 2 万小时真实操作数据,采用 MoT 架构,具备超强跨平台泛化力与空间感知力,训练效率较主流框架提升 1.5 - 2.8 倍,在真实世界与仿真测试中表现卓越,为具身智能落地提供了高性价比底座。

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2601.18692
  • 网页: https://technology.robbyant.com/lingbot-vla
  • 源码:https://github.com/robbyant/lingbot-vla
  • 权重: https://huggingface.co/collections/robbyant/lingbot-vla

unsetunset论文介绍unsetunset

LingBot-VLA是一个基于约 20,000 小时真实世界操作数据的具身人工智能基础模型,涵盖 9 种主流双臂机器人配置。我们在 3 个机器人平台上进行了系统评估,每个配置包含 100 个任务,每个任务使用 130 个训练回合进行后训练自适应。实验结果表明,LingBot-VLA 的性能显著优于现有解决方案,验证了其卓越的性能和强大的泛化能力。此外,论文开发了一个高效的后训练工具链,在 8 GPU 配置下实现了每秒 261 个样本的吞吐量,相比现有的 VLA 代码库(取决于底层 VLM),速度提升了 1.5 到 2.8 倍。这些特性确保该模型非常适合物理机器人部署。为了推动机器人学习领域的发展,我们发布了完整的代码、基础模型和基准测试数据,旨在支持对更具挑战性任务的研究,并促进评估协议的标准化。

unsetunset模型概要unsetunset

LingBot-VLA 具身智能基座模型,其训练数据涵盖 9 种主流双臂机器人配置、总计约 20,000 小时的真实世界操作数据。我们在 3 种机器人构型上进行了系统性评估,每种构型设置 100 项任务,每项任务使用 130 条后训练数据进行适配。实验结果表明,LingBot-VLA 相较于现有方案具有显著优势,充分验证了其卓越的性能表现与广泛的泛化能力。与此同时,我们构建了一套高效的后训练工具链,在 8 卡 GPU 配置下实现了每秒 261 个样本的吞吐量,较现有 VLA 代码库提升了 1.5 至 2.8 倍(具体取决于所依赖的 VLM 基座模型)。上述特性使该模型能够充分满足实机部署需求。为推动机器人学习领域的持续发展,我们开源了全部代码、基座模型及评测基准数据,旨在为更具挑战性的任务研究提供支撑,并促进领域内评估标准的规范化建设。

unsetunset真机 Scaling Lawunsetunset

基于在海量的真实世界数据上的预训练,第一次系统研究了 VLA 模型在真实机器人任务性能上随着数据规模增长时的 scaling law。该项目发现随着预训练数据规模从 3,000 小时扩展到 6,000、13,000、18,000,最终至20,000 小时,模型在下游任务的成功率获得持续且显著的提升。值得注意的是,预训练数据量达到 20,000 小时时,模型性能仍呈现上升趋势,表明 VLA 的性能仍然能够随着数据量的增加而提升。这些实验结果证明了 VLA 模型在用真实数据预训练时呈现了良好的可扩展性,为未来的 VLA 开发和大规模数据挖掘提供了重要启示。

unsetunset大规模数据管理和高效训练代码库unsetunset

论文精心收集了 20,000 小时的真实机器人训练数据,涵盖九种主流双臂机器人。为了确保标注的精确性,我们手动将视频分割成原子动作,并使用 VLM 工具标注全局和子任务描述。我们的代码库集成了多项高级优化技术,包括全分片数据并行 (FSDP)、混合精度训练和算子融合。海量高质量数据与高效训练基础设施的结合,是 LingBot-VLA 卓越性能的基石。

unsetunset实验unsetunset

对多种机器人模型进行了广泛的实际应用验证,包括 Agibot G1、AgileX 和 Galaxea R1Pro:每个模型在每种机器人模型上均进行了 100 项任务的评估,每项任务收集了 130 条轨迹用于模型训练。实验结果表明,LingBot-VLA 的性能显著优于现有的 VLA 基线模型,展现出更高的准确率和更强的泛化能力。

为了显式捕捉操控环境中的空间感知能力,并进一步提升机器人执行的鲁棒性,我们采用了一种基于查询向量(query)的深度蒸馏方法。具体而言,我们引入了与三视角操作图像相对应的可学习 queries,这些 queries 经 VLM 处理后,与 LingBot-Depth 输出的 depth embeddings 进行对齐。这种对齐机制在维持模型训练与推理的效率的同时,有效将深度信息集成到 LingBot-VLA 中。在真实机器人平台和仿真环境下进行的广泛实验证明,深度信息的融入提升了 LingBot-VLA 的操控性能。

unsetunset结论unsetunset

LingBot-VLA 的研究为具身智能领域带来重要启示,其“大规模真实数据”“解耦与融合”“极致的工程效率”三大特点,证明了具身领域存在强大的 Scaling Law 且上限极高,通过 MoT 架构平衡语义理解与动作控制,解决了跨模态干扰难题,同时提升了训练效率。该模型开源代码、模型和基准数据,为全球开发者提供了高性能且易于上手的“务实”起点,推动具身智能竞争从“比 Demo”转向“比底座”。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

【声明】内容源于网络
0
0
AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
内容 1172
粉丝 0
AIGC Studio 一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
总阅读22.3k
粉丝0
内容1.2k