大数跨境
0
0

GAIR 2025 「数据&一脑多形」分论坛,激辩 AI 演进路径

GAIR 2025 「数据&一脑多形」分论坛,激辩 AI 演进路径 雷峰网
2025-12-14
3
导读:过去十年,AI的核心突破是从“专用”走向“通用”的语言理解;未来十年的关键战役,或许就是将这种通用性,从语言世界拓展到物理世界。
过去十年,AI的核心突破是从专用走向通用的语言理解;未来十年的关键战役,或许就是将这种通用性,从语言世界拓展到物理世界。

作者丨吴彤 刘欣 齐铖湧 梁丙鉴

编辑丨林觉民 马晓宁


12月13日举行的第八届GAIR全球人工智能与机器人大会“数据&一脑多形”分论坛上,两个看似独立却紧密交织的技术前沿——数据的价值重构与一脑多形(One Brain, Many Forms)的架构革命,成为探索下一代智能系统的核心焦点。

一方面,数据正从传统的“资源”角色,向更本质的“认知基础”与“价值载体”演进。

随着多模态大模型的爆发,高质量、结构化、富有逻辑链的数据已不再是模型的“养料”那么简单,它正演化为定义模型认知边界与价值对齐的核心框架。

本次论坛深入探讨了如何在数据洪流中构建更具解释性、可信度与进化能力的知识体系,以及如何通过数据流动重塑产业智能化的闭环。数据不再仅仅是起点,更是驱动智能持续进化、与人和社会和谐共生的核心纽带。

另一方面,“一脑多形”的范式正在重新定义智能的构建方式。

它超越了单一模型解决特定任务的局限,指向一个更具适应性与扩展性的未来:一个统一的底层认知核心(“一脑”),能够动态衍生出适应不同场景、模态与任务的多种形态。这不仅是架构效率的革命,更是智能向通用性与自主性迈进的关键一步。

论坛聚焦于如何让同一个“大脑”理解语言、解析视觉、操控实体,并在不同形态间共享知识、迁移能力,最终实现从“专用智能”到“统一智能”的跃迁。

两者的融合,恰恰勾勒出通往更高级人工智能的路径:以革新性的数据方法论,滋养和约束一个具有统一认知且形态多样的智能核心。

这不仅是技术的耦合,更是对智能本质的深度思考——如何让机器在理解复杂世界的同时,也能灵活、可靠地服务于这个世界的无限场景。因此,本次分论坛的讨论,正是这一宏大征程的重要注脚。


01

新数据范式:驱动模型演进的核心基础设施


诺亦腾机器人创始人&CEO戴若犁:用动作捕捉技术构建具身智能数据工厂


在下午的“数据 & 一脑多形”专场中,首场分享由诺亦腾机器人(Noitom Robotics)创始人/CEO 戴若犁博士带来,主题为《用动作捕捉技术构建具身智能数据工厂》。

深耕动作捕捉与运动相关技术研究十余年,戴若犁博士在分享中回顾了自己对技术路径与产业方向的长期思考,并指出,人形机器人所代表的具身智能,正在成为一个天花板足够高、且对高质量数据有强烈需求的新赛道。

他提到,随着人形机器人和具身智能研究逐步进入工程化阶段,行业对高质量、大规模数据的关注度显著提升,越来越多的企业开始系统性地思考数据规模、数据质量与模型能力之间的关系。

在谈到数据商业模式时,戴若犁博士强调,不同领域的数据生产逻辑存在本质差异。具身智能对数据的获取方式、结构形式以及可迁移性提出了更高要求,这也决定了如果甲方获取生数据的能力和乙方平权,那这个领域的毛利天花板注定是可观的。

在案例分享环节,他介绍了与西湖机器人在全身遥操作(whole-body teleoperation)方向上的合作实践,戴博团队提供的动作捕捉设备为相关研究提供了技术支持,贡献了一份自己的力量。

同时,戴若犁博士也从工程实践出发,客观分析了遥操作作为数据获取手段所面临的三大结构性挑战(“原罪”),包括:

  • 成本效率:昂贵而缓慢,成功率很低。

  • 能力局限性:比如灵巧性高的手内的操作(in-hand manipulation)、高精度依赖力触觉的双手协同、非视觉引导操作(vision non-guided manipulation)无法执行,只有pick and place最成熟。

  • 以及跨本体泛化能力等问题。

这些现实痛点,正推动行业进一步探索更加通用、可扩展的数据获取范式。24年7月份,全球包括戴博团队在内的五个组都开始探索“如何让数据能够跨本体”。

正是在这样的背景下,行业开始将视角逐步拓展至以人为中心(human-centric)的数据路径,尝试构建不与单一机器人本体强绑定的数据体系,从而提升数据在不同形态、不同平台之间的复用价值。

围绕这一思路,戴若犁博士介绍了诺亦腾机器人(Noitom Robotics)建设具身智能数据工厂的实践经验。相关数据采集工作覆盖标准化采集与真实场景采集等多种形式,并在持续迭代中不断优化数据结构与生产流程。

分享中,他还展示了具身智能数据的“数据金字塔”框架,并提出:在设计不同层级的数据获取方案时,理解每一层数据的“第一性问题”至关重要,只有明确数据的核心价值,才能在工程和商业层面形成可持续的路径。

演讲最后,戴若犁博士引用Sergey Levine的学界作结,以形象的“勺叉”比喻强调技术与产品取舍的重要性:与其追求“什么都能做”,不如聚焦于真正关键、能够解决核心问题的能力,从而在复杂系统中构建清晰而有效的价值。“如果你像麦当劳里的勺叉,不仅在喝汤的时候会漏,还叉不起来鸡块。既要又要的结果就是个勺叉,咱不当勺叉,咱们当一个好用的叉子就行。”

极数迭代CEO,深圳AIRS访问研究员佟显乔:具身智能的数据工程解决方案思考


接下来分享的是极数迭代 CEO、深圳 AIRS 访问研究员佟显乔,他的分享主题是《具身智能的数据工程解决方案思考》。在该领域,佟显乔积累了大量一线经验。

一开场,他率先抛出观点:无论具身模型如何演进,数据始终是基石。他预测,未来几年具身数据体量将爆发式增长,“具身数据服务”会成为机器人赛道里下一个“Scale AI”级别的确定性机会。

结合过往实践,佟显乔梳理出当前几大数据瓶颈:机器人泛化能力差,与数据量呈幂律关系——现有数据远不能达到较高成功率;大规模、高质量数据采集成本极高,真机与动作捕捉投入巨大,难以负担;模型能力难以跨本体迁移,数据孤岛化且缺乏统一评估标准……这些底层采集方案与数据标准设计上的挑战,恰恰意味着行业新机会。

随后,他梳理出当下主流技术路线:大脑(system 2)负责理解物理世界常识与人类指令,分解复杂任务;小脑负责技能,如抓取、按压等,需人类示教与标注数据。二者需端到端融合训练。不同流派都需要大量异构数据、人工参与,以及跨场景、跨任务的泛化能力。

佟显乔把数据采集现状归纳为两条路径:

真机端:以末端执行器动捕、人类视觉示教、同构遥操及“光惯混合操作”为主;

仿真端:围绕轨迹合成、资产合成、预测生成与决策生成等维度展开。

作为极数迭代联合创始人兼 CEO、机器人与自动驾驶领域专家,佟显乔曾在百度美研、苹果、英伟达等公司深耕多年。接着,他分享了具身智能数据平台的设计思路。

一方面,平台化可针对场景做系统化设计,在高效与可靠之间取得平衡,锁定数据标准,提升真机与仿真采集效率,并优化部署对接;另一方面,通过兼容性设计与低代码接口降低使用门槛。

他还提出真机数据的“万物皆可达”、仿真数据的“万物皆可生”两大系统,并引入 AI Agent 概念,借助大模型完成自动标注、资源管理与模型评测,构建完整数据工具链。实测下来,真实世界数据集构建速度提升 30×,仿真数据生成提升 3.5×,以数据飞轮方式加速模型迭代。

分享结尾,佟显乔给出判断数据好坏的经典洞察:“从最终模型反推——能让模型表现优异的数据,就是好数据。”

圆桌论坛:具身数据如何塑造行业未来?


数据专场的最后环节,以具身数据为主题的圆桌论坛在王建明的主持下正式开始。王建明、戴若犁、佟显乔、丁琰四位嘉宾围绕具身数据采集、数据飞轮等议题展开了深度对话。

对机器人而言,什么是好的数据?王建明以数据质量切入,几位嘉宾就“以终为始”达成了共识,最终的模型性能、训练中机器人的受益程度反映着数据的质量。丁琰进一步指出,采集成本和各种数采方式对于不同场景和硬件的适配与否,都是决定数据质量的关键环节。

未来的数据采集方式或将走向多元化。作为一家有数据能力的创业公司,丁琰表示,鹿明机器人正在筹建自己的数采厂。出于成本考虑,现阶段采用UMI方式进行数据采集,但未来仍可能引进更多方案。“遥操作、UMI(Universal Manipulation Interface)、动捕、仿真数据,存在即合理。”丁琰强调。

戴若犁就In-the-wild的数据采集方式发出了提醒,他指出这是一种高度考验技术水平的方案,其落地需要先后克服软硬件易用性、组织管理能力两道难关,而在当前的时间节点,迈过前者的技术门槛无疑更为重要。

具体而言,在采集阶段需要低摩擦、高精度、多模态的数采设备,野采数据的利用,还需要从稀疏原始数据中得到稠密信息的技术方案。戴若犁认为,一条可行的链路是通过世界模型进行先验估计,输出更丰富的模态及维度数据。相较之下,远未到比拼人力组织能力的时间。

佟显乔认为,数据采集行业仍处于早期阶段,数据、本体、模型公司仍在相互磨合。不同的模型公司提出了不同的需求,这意味着数据采集公司不能停留于堆人力的体力活阶段,而是要懂模型、给建议。“模型公司也需要你的knowledge”,佟显乔强调,“一个个批次之后,大家才能一起做得更好。”


02

AI的“大脑”革命:一脑,何以多形?


过去两年,具身智能的火热源于一个共同期待:大语言模型的出色能力有目共睹,若将其接入机器人,有望赋予机器人更聪明的大脑,从而为行业打开新空间。

然而热闹两年后,具身智能仍没有标准答案。在众多技术路线中,“一脑多形”被提及得最多——同一套智能系统,可适配人形、车形等不同形态,只要场景需要,外形可变,核心大脑不变。

接下来登场的嘉宾们,对“一脑多形”带来了不同方向的诠释和分享。

微分智飞创始人高飞教授:智能飞行机器人研究进展及产业应用


率先登场的,是微分智飞创始人高飞教授,他带来的分享主题是《智能飞行机器人研究进展及产业应用》。

高飞的演讲风格极具画面感:他用《普罗米修斯》的无人机编队镜头引出“分布式集群”终极形态,又用《流浪地球》的混乱场景对比“去中心化”的重要性。

一开场,他抛出判断:通用飞行智能正处于爆发前夜。

随后列出行业“老大难”问题:气流扰动大,擦碰即坠机;机载算力弱,传感器廉价;数据稀缺,采集比车辆/行人困难得多。

高飞认为,这些行业难题是困难,也是机会,目前他们团队正逐步攻克这些难关,也因此会形成自己的技术护城河。

在接下来的演讲里,他从五个方面展示了团队的技术突破。

首先是敏捷轻量的多任务小脑,高飞教授现场展示了一镜到底的实飞视频,画面里无人机的飞行能力非常酷炫敏捷,可以穿越各种狭窄缝隙,比专业的飞手操作更熟练。

为了更形象说明这一点,他展示了一场长链路动作下飞手和机器人的人机对抗,其中包含连续倒转穿过六个框的特技飞行等动作。实验表明,相比高水平飞手,算法完成的轨迹质量有明显提升。

这里他还提到一个细节,他们团队最小的端到端神经网络可以运行在 自重仅50 克左右的无人机上,其机载算力低于 1 Tops。借助团队研发的自动化数据采集系统和合成数据生成管线,有效数据采集成本大大降低,

大脑方面,高飞老师认为跨本体和跨场景非常重要。

他展示了一个飞行器在无GPS和人为操作的环境下走迷宫,还展示了复杂地下空间场景中飞行器的自主决策和自主导航过程。

他突出了集群系统和分布式群脑飞行,展示了多个一镜到底的 demo :无人机集群穿越复杂稠密竹林的自主导航,以及五台飞行机器人协同搬运载荷。

最后,高飞教授还放了一个彩蛋。

在家庭空间里,飞行操作一体化的飞行机器人可以帮人拿饮料、拿物品,高飞教授表示,他们已经可以做到通过单电机线驱动机构实现飞行机械手的多自由度形变,使其在稳定飞行同时展现出指尖捏取和掌心抓握等交互操作能力。这种新构型飞行器虽然操作自由度不高,但可实现抓了就跑,充分发挥本体移动性优势,未来有望应用于短途物品运送,还可作为人手的空间延伸,通过端侧辅助驾驶完成复杂任务。

这些技术的展示充满了对技术落地应用的想象力。

最后高飞对研发成果的潜在应用也做了总结,凭借“小脑-大脑-群脑”三位一体方案,飞行具身智能体目前已经可以代替人进入高危环境完成信息采集,也正在推进在安防巡检、物流运输等场景的落地应用。

宁波东方理工大学的助理教授金鑫:空间智能技术在自动驾驶及具身机器人中的初步探索与应用


宁波东方理工大学的助理教授金鑫,做了题为《空间智能技术在自动驾驶及具身机器人中的初步探索与应用》的分享。

金鑫表示,其团队围绕空间智能在自动驾驶与机器人领域的应用进行了初步探索。他将空间智能分为三个层级:基础的空间感知(构建3D世界)、进阶的空间交互(支持智能体与环境的互动)以及最终的空间理解与生成(基于对世界的理解创造数据)。

团队将工作细分为空间构建与智能体训练两部分,并形成了“建模-训练-迭代优化”的闭环研发飞轮。

在自动驾驶领域,针对真实数据采集难以覆盖极端场景的痛点,团队提出了以“占据栅格”(Occupancy)为中心的生成方案UniScene(CVPR25)。金鑫指出,Occupancy是连接场景理解与多模态生成的理想桥梁,它兼顾了必要的语义和几何信息。

基于此,团队开发了两阶段生成流程:先由鸟瞰图布局生成语义Occupancy,再以此衍生出激光雷达点云与多视角视频。该方案的迭代版本(UniScene V2)新增了深度与语义分割模态,并支持按传感器位置生成数据,目前已与理想汽车合作测试其在复杂场景下的泛化能力。

更进一步,团队在近期的工作OmniNWM中,引入了“规划-生成”的闭环机制。

金鑫解释道,该模型能将规划的轨迹作为条件输入,预测未来场景变化,并在世界模型内部通过计算Occupancy的物理指标(如碰撞、速度)实现奖励反馈与闭环优化,从而构建“万能驾驶导航世界模型”。

在机器人领域,团队将相同方法论迁移,用于生成机器人训练数据,提出ORV框架。

针对第一人称视角数据稀缺的问题,团队构建了InterVLA数据集,通过学生模拟机器人并佩戴GoPro,配合动捕设备,采集了包含语言指令、多视角视频与动作轨迹的数据。同时,团队与北京银河通用合作研发的DreamVLA模型,其核心思想是将大语言模型的“思维链”思想引入视觉-语言-动作模型,让模型在输出最终动作前,先在潜在空间中推理出“世界知识”(如哪些物体需移动、深度估计等),从而提升决策的可解释性与泛化能力。

此外,针对机器人方位感知弱的问题,团队还提出了模块化的“方位基础模型”,使其能像人一样抓取物体的合适部位(如瓶身而非瓶盖)。最后,金鑫介绍了将“解耦学习”嵌入世界模型的工作(DisWM,ICCV25),旨在从仿真环境的视觉输入中分离出与任务无关的干扰因素(如光照、纹理),使智能体能更专注于关键信息,从而提升训练效率与在真实世界的鲁棒性。

他表示,上述技术正逐渐尝试走出实验室,探索产业化可能。

上海人工智能实验室青年科学家王靖博:人形机器人,从“盲动”走向“感知驱动”


随后,上海人工智能实验室青年科学家王靖博带来了主题演讲《从虚拟走向现实,构建通用人形机器人控制与交互策略》。

长期以来,人形机器人的研究是否必要一直存在着争议。演讲伊始,王靖博博士就对此做出了回应。他指出,由人类搭建的真实生活环境,也面向人类的各种需求,这决定了人形必然是一种相对通用的方案。在数据维度,互联网上有大量来源于人类日常生活的第一人称及第三人称数据,其中包含的运动逻辑和操作逻辑,对于模型训练来说都是可用资源。在应用层,人形机器人的交互逻辑、安全性等研究,最终也会回馈到人自身。

而人形机器人现阶段研究的核心问题之一,就是如何在仿真中训练机器人,并使其在真实世界中实现稳定、可泛化的运动与控制。由于仿真环境与真实物理世界之间存在的差异,人形机器人的技能训练与部署长期面临着Sim2Real的鸿沟。对此,王靖博博士介绍了其团队的最新成果,通过对日常生活环境的集成性构造,以及创新的感知和表示方案,显著提升了复杂地形下运动策略的迁移成功率。其核心在于用体素化的点云表示压缩环境信息,并在仿真中引入机器人本体的激光雷达自扫描,以更好地对齐仿真与真实的传感器数据分布,从而使机器人能提前感知地形变化,如台阶、吊顶,并预先规划动作,而非依赖碰撞后的力反馈。

此外,王靖博博士在演讲中提到了构建统一的动作技能表征,作为基础的人形机器人运动控制模型,可以进一步拓展在有效的可迁移的人形机器人感知方案下的动作与技能选择,使得人形机器人可以在基础的运动之外完成和场景的交互已经多种球类运动。

在演讲中,王靖博博士进一步指出,人形机器人的控制策略正从“盲走盲动”转向“感知驱动”,融合视觉、激光雷达等环境感知,以实现机器人在复杂、非结构化环境中的自主导航与交互是必然趋势。关于人形机器人的未来,王靖博博士认为,当前的模型参数量和学习方式限制了技能容量和更多元控制形式的探索。长远来看,构建容量更大,更高效利用数据的方案,例如离线的监督学习,是提升机器人技能通用性和长程控制能力的可行路径。

一脑多形圆桌论坛:探索・落地・未来


演讲过后,一场关于“一脑多形”的圆桌论坛,将整个会场气氛推向高潮。在英诺天使基金ED王建明的主持下,浙江大学控制学院副教授,微分智飞创始人高飞,宁波东方理工大学助理教授金鑫,上海人工智能实验室青年科学家王靖博三位嘉宾围绕着具身智能、世界模型等话题进行了热烈讨论。

首先,王建明抛出一个共性问题,邀请三位嘉宾用简短的话语,概括近两年具身智能在学术与产业领域的发展进展。

对此,高飞直言:“现在还没到技术路线收敛的时候,行业仍处于探索阶段。这一波技术浪潮的本质,是 AI 与机器人本体结合后,带来的智能性与泛化性飞跃。” 他同时强调,从业者要时刻牢记做具身智能的初心。金鑫对此表示认同,并补充道:“这两年高校在具身智能领域的机会,相较于产业界其实要少一些。未来不妨将核心关键问题交由高校攻关,产业界则专注于技术落地转化。”

王靖博也分享了自己的观察:“人形机器人其实十年前就有波士顿动力在做运动能力的展示,但一直没能真正走进大众的应用场景。而当软硬件的code design的理念出现后,整个领域的发展节奏明显加快了。”

随后,王建明针对各个嘉宾的研究方向分别提出了不同的问题。首先向高飞的demo提出称赞,高飞认为自己相对来讲,是无人机比较懂AI的,是AI里比较懂无人机的。无人机的技术范式会往端到端的方向倾斜,端到端则是指:进来的是图像等传感器数据,输出的是电机控制指令。最后,高飞表示,端到端是一种范式,强化学习是一种解法,黑箱是一种模式,三者是不一样的概念,不宜直接画等号。

后面,又对世界模型进行了探讨,现在世界模型的定义都没有达成共识,金鑫认为,自动驾驶和机器人这两个任务对世界模型的要求和技术范式都是有很大的区别的,世界模型是一个非常大的概念。而在自动驾驶中,视频生成比较主流一些,因为涉及到安全性的问题。

金鑫还指出,世界模型与 VLA 模型并非对立关系,二者完全可以结合应用。他提到,他与清华、科大合作的一篇survey前一天刚上线,文章专门探讨了这一问题,要么先建世界模型再做policy learning,要么两个一起做。

当被问及 “何时能实现性能优异的通用控制器” 时,王靖博从仿真与现实两个维度给出答案:如果是在仿真器里面,不去做例举的限制,实现一个还不错的控制器还可以,只是要精度和平衡性之间找到最优解。如果是在真实世界上,这个就得看算法和硬件了。他以自己实验室的实践举例,相同的算法在不同的人形机器人上运行,会得出截然不同的结果,最终得由硬件性能来决定。

论坛尾声,嘉宾们将话题拉回到技术落地这一核心议题。高飞畅想:未来说不定我们会在生活中看到各种各样的无人机,这也是他的梦想,他还调侃道,如果未来没有各种无人机高空作业或者送人送货的活,这是他们这帮学者、创业者的失败。

金鑫对于具身智能的落地则表示,不想回到工业自动化的阶段,但现在工业自动化那边的需求很着急,希望赶紧把机器人用起来。这是一个很大的gap,创业者脑海中的想法和实际情况有差距,上级会让你快读落地,投资人在其中扮演的角色是既让技术人员很着急,又让需求方不能那么着急,将这种困境概括成一句话就是——“既要星辰大海,也要赶紧赚钱。”

王靖博则基于自身的观察给出了审慎的判断:落地还比较遥远,但今年已经给大家看到了很多希望,至少我们在现实生活中,已经能见到相关技术的落地应用,而不再是像看波士顿动力的 Atlas 机器人那样,如同观看科幻大片。

伴随着对未来的畅想与探讨,数据&一脑多形分论坛圆满落幕。

//

近期热门文章

AI算力新十年:技术革新、生态协同与商业闭环,共探「下一个寒武纪」之路丨GAIR 2025


【声明】内容源于网络
0
0
雷峰网
洞见智能未来,共与产业变迁
内容 15901
粉丝 0
认证用户
雷峰网 深圳英鹏信息技术股份有限公司 洞见智能未来,共与产业变迁
总阅读211.4k
粉丝0
内容15.9k