大数跨境
0
0

北京人形开源最新VLM模型,推动具身智能再迈关键一步 !

北京人形开源最新VLM模型,推动具身智能再迈关键一步 ! 数智科技产业研究
2025-11-15
16


11月13日,北京人形机器人创新中心全面开源具身智能VLM模型——Pelican-VL 1.0。该模型覆盖7B、72B参数规模,是“最大规模的开源具身多模态大脑模型”。其核心优势在于深度整合海量数据与自适应学习机制:并在由 1000+ A800 GPU 组成的集群上训练,单次检查点训练耗费超过 50,000 A800 GPU-小时;团队从原始数据中蒸馏出包含数亿 token 的高质量元数据以做训练基石。在基线基础上性能提升20.3%,超过同级别开源模型10.6%,成为开源具身性能最好的大脑模型。另外值得注意的是,Pelican-VL的核心主创团队由女性组成,这也充分体现了女性力量在我国科技研发中的重要贡献。


得益于“刻意练习”DPPO(Deliberate Practice Policy Optimization)训练范式,Pelican-VL 就像一名刻苦钻研的学生:每次训练循环都会“看视频—自主练习—发现错误—纠正提升”。通过DPPO 模仿人类元认知的学习方式,通过强化学习(RL)探索弱点、生成失败样本,再进行有针对性的监督微调(SFT),让模型不断自我纠错和迭代进步。

就像学生做错题后总结经验一样,Pelican-VL 能在训练中发现“薄弱知识点”并补齐,从而持续提高在视觉-语言和具身任务上的能力。通过这种机制,Pelican-VL 能够更准确地理解图像内容、语言指令和物理常识,最终在决策和操作执行环节中,实现了具身智能在空间-时间推理和动作规划方面的大幅突破。

  • 具身交互能力在诸如物体抓取、导航、协作等机器人任务中,Pelican-VL 不仅能理解任务目标,还能输出细化的动作步骤和评估每步可行性。这意味着它在看到指令后,可以设计出机器人抓取点和操作策略。其多任务能力覆盖抓取、导航、人机交互等不同应用场景,体现出跨任务的强大泛化性。


  • 自我纠错与迭代学习借助DPPO循环训练,Pelican-VL 具有“自我纠错”特质。每轮强化学习后,模型都会自动生成新的难题样本并进行再训练,如同不断练习和复盘。随着训练的进行,它的弱点被逐步修补,能力不断提升。这一过程类似“刻意练习”的学习范式,使得Pelican-VL在迭代中持续进步并达到与顶级闭源系统持平的表现。


这些改进并非纸上谈兵,Pelican-VL在多项真实的具身任务上给出评测:在接触丰富的触觉操控(例如需要调整握力以抓取软物体)上,Pelican-VL 成功实现了闭环预测与实时调节;在以“可供性(affordance)”为核心的物体搬取策略中,模型能零样本生成可行的操作方案;在长程任务规划方面,一个统一大脑也能协调多台机器人完成级联任务。总体上,论文报告称相较基线模型,Pelican-VL在空间理解和时间推理等能力上出现显著提升,并在若干公开基准上超过了部分 100B 量级的开源系统,甚至接近一些闭源模型的水平。

同时,团队还在九个维度的具身智能分类体系中,对Pelican-VL的各项技能进行了评测,如下雷达图分布显示,各项指标均在关键维度上表现突出。


Pelican-VL,让具身拥有智能

人形机器人无疑是目前AI技术在普通人认知里最具象的展现,而让机器人真正能够做到服务人类,一直都是全球研发团队所追求的目标,但这并不容易,背后是具身智能体对于空间-时间的理解不足,以及多步骤长线程复杂决策的能力缺失造成的困境。

在典型的Vision–Language–Action (VLA) 系统里,Pelican-VL 扮演着“视觉语言大脑”的角色,为机器人提供强大的环境感知和指令理解能力。它将摄像头所见与自然语言指令结合,构建起对场景的多模态表征,然后输出可供后续决策单元使用的结构化信息。也就是说,Pelican-VL负责“看图听话”,理解指令和环境,VLA负责跨机器人应用;二者组合可以在多种机器人上执行多任务。

有了这样的基础,系统可以完成长时序、多步骤的任务规划和执行。以下面这个复合指令为例:“把鞋子放到鞋架上、将桌上的垃圾扔到垃圾桶,再把衣服放入洗衣机”。Pelican-VL 首先感知房间物体和布局,构建出整个环境的语义表示;接着根据指令自动生成行动序列:依次移动到鞋架、垃圾桶和洗衣机位置并进行抓取和放置操作。在这一过程中,模型不断更新内部环境状态,调整计划并适应实际情况,实现了自然语言指令的自主分解和执行。简而言之,Pelican-VL 构成了VLA系统的认知前端,为长期规划和指令执行提供跨模态的信息支持,使机器人能够像人类一样将复杂任务拆解并落地操作。


英伟达团队在25年3月提出来Cosmos-Reason1 是 NVIDIA 发布的专为物理智能(Physical AI)打造的多模态大模型,包含 8B 和 56B 两种尺寸。模型在空间、时间和基础物理三大常识范畴下,融合视觉与文本信息,具备强大的物理常识推理和具身推理能力。采用 ViT-300M 视觉编码器、Mamba-MLP-Transformer 主干,以及多阶段训练流程(包括视觉预训练、物理 SFT、物理强化学习),配合 1 亿级多模态样本和千万级具身与物理常识数据。在物理推理、空间认知等多项基准测试上远超现有主流模型,并开源了权重与代码。

Google 的 embodied reasoning以 Gemini Robotics-ER 模型为代表,它是以它强大的基座模型Gemini为基座继续增强,核心目标是让 AI 能够在真实物理环境中理解、规划并做出决策,主要应用于机器人领域。Gemini Robotics-ER 具备多模态推理能力,能够处理物体检测、空间理解、抓取预测和三维轨迹规划等任务,并将视觉感知转化为机器人可执行的高阶指令。模型支持多步规划和环境反馈动态调整,利用如 ERQA 数据集等基准评估其现实任务能力。此外,Google 探索“内心独白”机制,让机器人在动态环境下能自我思考、实时调整,实现高鲁棒性的具身智能。

GPT-5是通用视觉-语言大模型同样具备强大的图像理解和跨模态推理能力,但它们原本并非专为物理执行而设计。GPT-5可以回答视觉问题、生成图像描述,但缺少与机器人硬件对接的控制层。

相比国外闭源模型,Pelican-VL 在国内开源模型基础上进行预训练,利用少量的数据和训练资源,即达到了相当的性能,甚至更好的性能,另外因为其开源的模型属性,可以更广泛地赋能国内外具身行业

开源当天,北京人形进行了直播演示和技术解读,邀请了《商业漫谈 Jane’s Talk》创始人、科技媒体人卫诗婕与主创成员深度对话,不仅详细展现了具身智能大脑Pelican-VL全面领先的性能,并拆解Pelican-VL创新的技术架构,还充分展示了女性研发成员在具身智能模型领域的创新力量。


用“最低”的门槛,激发“最高”的产业活力

Pelican-VL 的开放策略为产业落地提供了良好土壤。开源意味着广大机器人厂商和开发者可以自由使用与定制这一模型,加速研发进程。例如,北京人形机器人创新中心还在推进“千台机器人真实场景数据采集计划”,让上千台机器人在工厂、仓库、酒店等场景中执行任务并采集数据。这些规模化的多模态数据与Pelican-VL结合,将推动其在制造业自动化、智能物流、零售无人化和家居服务等多领域的快速适配和优化。

从产业视角看,Pelican-VL 的开源特点和多场景覆盖能力犹如为机器人生态搭建了一个“开放型大脑”。就像开源大语言模型(如LLaMA)迅速催生了应用爆发一样,Pelican-VL 有望成为国产机器人产业的基础软件平台。厂商可以基于它快速开发特定场景下的应用方案,大大降低开发成本和难度。长期来看,Pelican-VL 及其后续版本将促进国内形成完善的通用机器人智能平台,推动更多种类的机器人像安装“通用智能操作系统”一样迅速获取新能力。

总之,Pelican-VL 1.0 的开源标志着具身智能进入了一个以数据驱动、开放协同为核心的新阶段。它不仅在技术上实现了视觉、语言和行动的深度融合,也为产业链带来了全新的合作模式。随着更多研究机构和企业参与生态建设,Pelican-VL 有望引领国内外通用机器人“大脑”市场的发展,让更多机器人在可见的未来中具备“通用智能”、灵活自适应的能力。

  • 主页:https://pelican-vl.github.io/

  • Github:https://github.com/Open-X-Humanoid/pelican-vl

  • Huggingface:https://huggingface.co/collections/X-Humanoid/pelican-vl-10

  • Modelscope:https://modelscope.cn/collections/Pelican10-VL-1036b65bbdfe46


【声明】内容源于网络
0
0
数智科技产业研究
1234
内容 420
粉丝 0
数智科技产业研究 1234
总阅读3.2k
粉丝0
内容420