

对话Skild AI创始研究员：26岁的他想用“全具身大脑”重新定义机器人

DeepTech深科技

2025-12-02

导读：屏幕里，一把电锯正切向机器人的腿。

屏幕中，电锯正切向一只机器人的腿。

这并非科幻电影场景，而是Skild AI发布的一段核心技术测试视频。失去一条腿的四足机器人，在短暂踉跄后迅速恢复平衡并继续前行。尽管其训练数据中从未出现过“断腿”形态，它却表现出近乎生物本能的适应能力。

（来源：X）

该视频在社交媒体引发热议，也让这家成立不到两年的AI初创企业走入公众视野。

2024年7月，Skild AI以15亿美元估值完成3亿美元A轮融资，投资方包括杰夫·贝索斯、软银、Lightspeed和红杉资本。2025年6月，公司再获由软银领投的B轮融资，估值达约45亿美元，英伟达与三星等科技巨头亦参与其中。

Skild AI的核心理念是：真正的通用人工智能（AGI）必须扎根于物理世界。其位于匹兹堡的实验室中，各类机器人正在执行爬楼、跳跃间隙、精准抓取AirPods等任务——驱动它们的是同一个“大脑”：Skild Brain。

这一被称作“基础模型”的系统，宣称可跨硬件形态执行任意物理任务，其训练数据规模据称为竞争对手的千倍以上，核心技术依赖大规模仿真训练。

少年天才与机器狗革命

在由卡内基梅隆大学资深教授领衔的团队中，26岁的创始研究员Ananye Agarwal尤为引人注目。他高中时曾获国际物理奥林匹克竞赛金牌，博士期间的研究直接催生了Skild AI的核心技术，并于2025年入选《麻省理工科技评论》“35岁以下科技创新35人”亚太区榜单。

从盲狗到具身智能

Ananye在CMU攻读博士时，导师Deepak开发了一款低成本四足机器人，能在泥地、油面等复杂地形行走并抵抗外力干扰，但缺乏视觉感知能力——如同“盲狗”，遇楼梯即停滞。

他的突破在于为机器人加装仅300美元的单深度摄像头，并重构整个系统架构。通过引入具有记忆功能的循环网络，模型能记住半秒至两秒前的环境信息，从而克服前置摄像头无法观测脚下区域的局限。

该成果获得最佳论文奖，甚至吸引了波士顿动力创始人Marc Raibert亲赴CMU考察。此后，该公司也转向强化学习路线。

模拟随机化：跨越虚实鸿沟

为解决模拟与现实间的“领域差距”，团队采用“模拟随机化”策略：在成千上万个参数扰动的“平行宇宙”中训练机器人，涵盖摩擦力、刚度、延迟等变量。

同时，训练策略具备自适应性，能根据交互历史调整行为。当真实世界环境落入该随机化集合范围内时，策略即可无缝迁移，无需传统工程中的精细系统辨识与调参。

技术进阶：从移动到操作

SPIN：同步感知、交互与导航

Ananye将上述方法论拓展至“移动操作”领域，应用于名为“Stretch”的轮式机器人。其摄像头可主动调节朝向，形成感知-导航-操作的闭环耦合问题。

团队提出SPIN框架（Simultaneous Perception, Interaction, Navigation），利用大规模GPU训练，使机器人自主学会在杂乱空间中协调动作与视线，实现高效清理与拾取任务。

极限跑酷与Leap Hand灵巧手

在“跑酷”项目中，机器人面对两倍身长的沟壑或高台，自发演化出冲刺蹬地、前肢攀援、后肢翻越的复合动作序列，过程中甚至烧毁多个电机，彰显算法对硬件性能的极致压榨。

针对市售灵巧手价格高昂、维护困难的问题，Ananye联合开发开源三指机械手Leap Hand，成本仅一至两千美元，支持3D打印替换部件，现已被全球多所学术实验室采用。

为实现“功能性抓取”，团队融合仿真数据与互联网图像：通过分析海量图片中人类握持工具的方式（如锤柄），建立“可供性”认知，指导机械手完成符合使用意图的精准抓取，即便目标滑动亦能动态调整。

SAPG：面向大规模并行的新算法

为提升超大规模并行训练效率，团队摒弃2017年的PPO算法，研发SAPG（Scaled-up Asynchronous Policy Gradients）。其允许多个PPO实例异步运行并共享经验，鼓励探索多样化策略，避免资源浪费于重复尝试。

在双臂协同移动立方体的任务中（共44自由度），SAPG成功解决需抛接协作的复杂场景，而PPO完全无法收敛，凸显新算法在高维控制中的优势。

构建全具身大脑

Skild AI的目标是打造通用“机器人大脑”Skild Brain，而非为特定任务定制解决方案。该模型基于单一架构，融合多种机器人、多样任务的数据，旨在形成跨平台共享的知识结构，最终实现“具身通用人工智能”（Physical AGI）。

目前，Skild Brain已掌握多项核心能力：
- 跨形态运动：适配人形、四足等多种机器人；
- 极端适应性：肢体受损或被砍断后仍可稳定运行；
- 复杂导航：构建地图、避障、抵达指定地点；
- 精密操作：完成如将AirPods装入保护套等细粒度任务。

其关键在于“零样本泛化”能力：通过在模拟中训练大量随机生成的虚拟机器人（如不同腿长、结构），使大脑学会抽象物理规律而非记忆具体形态。因此，即使首次接触真实机器人（如宇树Unitree产品），也能快速适配控制。

Ananye指出，自然界存在强大佐证：动物出生后迅速学会行走，截肢后能用余肢代偿；人类大脑半球切除后另一侧可接管功能——这些“涌现适应性”证明跨具身控制的可行性。

多模态数据融合：突破模拟瓶颈

模拟、视频与远程操作的三角协同

尽管仿真擅长高频闭环控制（如防跌倒反射），但难以复现现实世界的语义多样性（如厨房差异、工具使用习惯）。为此，Skild AI采用三源数据融合策略：

模拟数据：提供高质量、高频率的动作控制训练；
视频数据（尤以第一视角为主）：蕴含丰富语义与场景多样性，揭示人类如何操作工具；
远程操作数据：最高精度的人类示范，用于微调关键技能。

Ananye比喻：观看网球视频可理解战术，但无法替代挥拍练习；反之，仅有模拟训练则缺乏任务语义指引。二者结合，方能实现“知行合一”。

相较而言，纯远程操作路径难以规模化：部署成本高、网络依赖强、家庭准入难。而人类视频采集成本极低、扩展性强，更适合作为预训练数据主体，远程操作仅作为“锦上添花”的微调补充。

安全、应用与未来图景

渐进式信任构建安全体系

针对深度学习缺乏形式化安全保证的质疑，Skild AI主张通过“信任累积”机制应对。随着训练数据规模扩大，模型失败率持续下降且行为更可解释——类似语言模型随SFT优化而减少幻觉现象。

实际部署遵循渐进原则：从简单任务起步，逐步增加责任范围，如同企业雇佣员工般建立信任链条。自动驾驶领域的演进路径（如Waymo试点扩展）即为明证。

工厂：机器人的首要战场

Ananye认为，最具潜力的应用场景是当前自动化难以覆盖的装配线任务。例如iPhone组装虽高度标准化，但元器件存在微小公差，传统机器人因缺乏适应性而无法胜任，仍需人工完成。

AI驱动的机器人则能容忍差异，有望取代数十亿人从事的重复性体力劳动。工厂环境相对封闭、多样性低，利于价值快速释放，将成为机器人落地的首选领域。

通向“后稀缺世界”

若Skild Brain成功，物理劳动将不再是生产力瓶颈。人类只需投入原材料，机器即可完成从芯片制造到衣物生产的全过程，真正迈入“后稀缺社会”——物质需求不再构成根本约束。

关于失业焦虑，Ananye持乐观态度：历史表明，技术革命淘汰旧岗位的同时创造更多新职业（如工业革命催生服务业）。在体力劳动被解放后，人类将转向艺术、创作、科研等更具创造性的工作，回归本质追求。

通往AGI的十年征途

Ananye坦言，终极模型至少还需十年。构建真正AGI不仅是技术挑战，更是范式变革——现有AI多局限于软件层面，而解决现实问题（如气候变化、太空探索）必须理解并干预物理世界。

他寄语年轻一代：保持批判性思维与好奇心，不盲信教科书，敢于从第一性原理出发质疑假设。正如深度学习先驱Geoffrey Hinton曾面临普遍质疑，最终却掀起革命，未来的突破属于那些勇于挑战共识的人。

“最终目标是建立真正的AGI，即能够解决人类所有问题的通用人工智能。” Ananye如此总结其使命。

【声明】内容源于网络

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

内容 4809

粉丝 0

DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

总阅读20.2k

粉丝0

内容4.8k