大数跨境
0
0

对话Skild AI创始研究员:26岁的他想用“全具身大脑”重新定义机器人

对话Skild AI创始研究员:26岁的他想用“全具身大脑”重新定义机器人 DeepTech深科技
2025-12-02
5
导读:屏幕里,一把电锯正切向机器人的腿。

屏幕中,电锯正切向一只机器人的腿。

这并非科幻电影场景,而是Skild AI发布的一段核心技术测试视频。失去一条腿的四足机器人,在短暂踉跄后迅速恢复平衡并继续前行。尽管其训练数据中从未出现过“断腿”形态,它却表现出近乎生物本能的适应能力。

(来源:X)

该视频在社交媒体引发热议,也让这家成立不到两年的AI初创企业走入公众视野。

2024年7月,Skild AI以15亿美元估值完成3亿美元A轮融资,投资方包括杰夫·贝索斯、软银、Lightspeed和红杉资本。2025年6月,公司再获由软银领投的B轮融资,估值达约45亿美元,英伟达与三星等科技巨头亦参与其中。

Skild AI的核心理念是:真正的通用人工智能(AGI)必须扎根于物理世界。其位于匹兹堡的实验室中,各类机器人正在执行爬楼、跳跃间隙、精准抓取AirPods等任务——驱动它们的是同一个“大脑”:Skild Brain。

这一被称作“基础模型”的系统,宣称可跨硬件形态执行任意物理任务,其训练数据规模据称为竞争对手的千倍以上,核心技术依赖大规模仿真训练。

少年天才与机器狗革命

在由卡内基梅隆大学资深教授领衔的团队中,26岁的创始研究员Ananye Agarwal尤为引人注目。他高中时曾获国际物理奥林匹克竞赛金牌,博士期间的研究直接催生了Skild AI的核心技术,并于2025年入选《麻省理工科技评论》“35岁以下科技创新35人”亚太区榜单。

从盲狗到具身智能

Ananye在CMU攻读博士时,导师Deepak开发了一款低成本四足机器人,能在泥地、油面等复杂地形行走并抵抗外力干扰,但缺乏视觉感知能力——如同“盲狗”,遇楼梯即停滞。

他的突破在于为机器人加装仅300美元的单深度摄像头,并重构整个系统架构。通过引入具有记忆功能的循环网络,模型能记住半秒至两秒前的环境信息,从而克服前置摄像头无法观测脚下区域的局限。

该成果获得最佳论文奖,甚至吸引了波士顿动力创始人Marc Raibert亲赴CMU考察。此后,该公司也转向强化学习路线。

模拟随机化:跨越虚实鸿沟

为解决模拟与现实间的“领域差距”,团队采用“模拟随机化”策略:在成千上万个参数扰动的“平行宇宙”中训练机器人,涵盖摩擦力、刚度、延迟等变量。

同时,训练策略具备自适应性,能根据交互历史调整行为。当真实世界环境落入该随机化集合范围内时,策略即可无缝迁移,无需传统工程中的精细系统辨识与调参。

技术进阶:从移动到操作

SPIN:同步感知、交互与导航

Ananye将上述方法论拓展至“移动操作”领域,应用于名为“Stretch”的轮式机器人。其摄像头可主动调节朝向,形成感知-导航-操作的闭环耦合问题。

团队提出SPIN框架(Simultaneous Perception, Interaction, Navigation),利用大规模GPU训练,使机器人自主学会在杂乱空间中协调动作与视线,实现高效清理与拾取任务。

极限跑酷与Leap Hand灵巧手

在“跑酷”项目中,机器人面对两倍身长的沟壑或高台,自发演化出冲刺蹬地、前肢攀援、后肢翻越的复合动作序列,过程中甚至烧毁多个电机,彰显算法对硬件性能的极致压榨。

针对市售灵巧手价格高昂、维护困难的问题,Ananye联合开发开源三指机械手Leap Hand,成本仅一至两千美元,支持3D打印替换部件,现已被全球多所学术实验室采用。

为实现“功能性抓取”,团队融合仿真数据与互联网图像:通过分析海量图片中人类握持工具的方式(如锤柄),建立“可供性”认知,指导机械手完成符合使用意图的精准抓取,即便目标滑动亦能动态调整。

SAPG:面向大规模并行的新算法

为提升超大规模并行训练效率,团队摒弃2017年的PPO算法,研发SAPG(Scaled-up Asynchronous Policy Gradients)。其允许多个PPO实例异步运行并共享经验,鼓励探索多样化策略,避免资源浪费于重复尝试。

在双臂协同移动立方体的任务中(共44自由度),SAPG成功解决需抛接协作的复杂场景,而PPO完全无法收敛,凸显新算法在高维控制中的优势。

构建全具身大脑

Skild AI的目标是打造通用“机器人大脑”Skild Brain,而非为特定任务定制解决方案。该模型基于单一架构,融合多种机器人、多样任务的数据,旨在形成跨平台共享的知识结构,最终实现“具身通用人工智能”(Physical AGI)。

目前,Skild Brain已掌握多项核心能力:
- 跨形态运动:适配人形、四足等多种机器人;
- 极端适应性:肢体受损或被砍断后仍可稳定运行;
- 复杂导航:构建地图、避障、抵达指定地点;
- 精密操作:完成如将AirPods装入保护套等细粒度任务。

其关键在于“零样本泛化”能力:通过在模拟中训练大量随机生成的虚拟机器人(如不同腿长、结构),使大脑学会抽象物理规律而非记忆具体形态。因此,即使首次接触真实机器人(如宇树Unitree产品),也能快速适配控制。

Ananye指出,自然界存在强大佐证:动物出生后迅速学会行走,截肢后能用余肢代偿;人类大脑半球切除后另一侧可接管功能——这些“涌现适应性”证明跨具身控制的可行性。

多模态数据融合:突破模拟瓶颈

模拟、视频与远程操作的三角协同

尽管仿真擅长高频闭环控制(如防跌倒反射),但难以复现现实世界的语义多样性(如厨房差异、工具使用习惯)。为此,Skild AI采用三源数据融合策略:

  • 模拟数据:提供高质量、高频率的动作控制训练;
  • 视频数据(尤以第一视角为主):蕴含丰富语义与场景多样性,揭示人类如何操作工具;
  • 远程操作数据:最高精度的人类示范,用于微调关键技能。

Ananye比喻:观看网球视频可理解战术,但无法替代挥拍练习;反之,仅有模拟训练则缺乏任务语义指引。二者结合,方能实现“知行合一”。

相较而言,纯远程操作路径难以规模化:部署成本高、网络依赖强、家庭准入难。而人类视频采集成本极低、扩展性强,更适合作为预训练数据主体,远程操作仅作为“锦上添花”的微调补充。

安全、应用与未来图景

渐进式信任构建安全体系

针对深度学习缺乏形式化安全保证的质疑,Skild AI主张通过“信任累积”机制应对。随着训练数据规模扩大,模型失败率持续下降且行为更可解释——类似语言模型随SFT优化而减少幻觉现象。

实际部署遵循渐进原则:从简单任务起步,逐步增加责任范围,如同企业雇佣员工般建立信任链条。自动驾驶领域的演进路径(如Waymo试点扩展)即为明证。

工厂:机器人的首要战场

Ananye认为,最具潜力的应用场景是当前自动化难以覆盖的装配线任务。例如iPhone组装虽高度标准化,但元器件存在微小公差,传统机器人因缺乏适应性而无法胜任,仍需人工完成。

AI驱动的机器人则能容忍差异,有望取代数十亿人从事的重复性体力劳动。工厂环境相对封闭、多样性低,利于价值快速释放,将成为机器人落地的首选领域。

通向“后稀缺世界”

若Skild Brain成功,物理劳动将不再是生产力瓶颈。人类只需投入原材料,机器即可完成从芯片制造到衣物生产的全过程,真正迈入“后稀缺社会”——物质需求不再构成根本约束。

关于失业焦虑,Ananye持乐观态度:历史表明,技术革命淘汰旧岗位的同时创造更多新职业(如工业革命催生服务业)。在体力劳动被解放后,人类将转向艺术、创作、科研等更具创造性的工作,回归本质追求。

通往AGI的十年征途

Ananye坦言,终极模型至少还需十年。构建真正AGI不仅是技术挑战,更是范式变革——现有AI多局限于软件层面,而解决现实问题(如气候变化、太空探索)必须理解并干预物理世界。

他寄语年轻一代:保持批判性思维与好奇心,不盲信教科书,敢于从第一性原理出发质疑假设。正如深度学习先驱Geoffrey Hinton曾面临普遍质疑,最终却掀起革命,未来的突破属于那些勇于挑战共识的人。

“最终目标是建立真正的AGI,即能够解决人类所有问题的通用人工智能。” Ananye如此总结其使命。

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 4809
粉丝 0
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读20.2k
粉丝0
内容4.8k