屏幕中,电锯正切向一只机器人的腿。
这并非科幻电影场景,而是Skild AI发布的一段核心技术测试视频。失去一条腿的四足机器人,在短暂踉跄后迅速恢复平衡并继续前行。尽管其训练数据中从未出现过“断腿”形态,它却表现出近乎生物本能的适应能力。
(来源:X)
该视频在社交媒体引发热议,也让这家成立不到两年的AI初创企业走入公众视野。
2024年7月,Skild AI以15亿美元估值完成3亿美元A轮融资,投资方包括杰夫·贝索斯、软银、Lightspeed和红杉资本。2025年6月,公司再获由软银领投的B轮融资,估值达约45亿美元,英伟达与三星等科技巨头亦参与其中。
Skild AI的核心理念是:真正的通用人工智能(AGI)必须扎根于物理世界。其位于匹兹堡的实验室中,各类机器人正在执行爬楼、跳跃间隙、精准抓取AirPods等任务——驱动它们的是同一个“大脑”:Skild Brain。
这一被称作“基础模型”的系统,宣称可跨硬件形态执行任意物理任务,其训练数据规模据称为竞争对手的千倍以上,核心技术依赖大规模仿真训练。
少年天才与机器狗革命
在由卡内基梅隆大学资深教授领衔的团队中,26岁的创始研究员Ananye Agarwal尤为引人注目。他高中时曾获国际物理奥林匹克竞赛金牌,博士期间的研究直接催生了Skild AI的核心技术,并于2025年入选《麻省理工科技评论》“35岁以下科技创新35人”亚太区榜单。
从盲狗到具身智能
Ananye在CMU攻读博士时,导师Deepak开发了一款低成本四足机器人,能在泥地、油面等复杂地形行走并抵抗外力干扰,但缺乏视觉感知能力——如同“盲狗”,遇楼梯即停滞。
他的突破在于为机器人加装仅300美元的单深度摄像头,并重构整个系统架构。通过引入具有记忆功能的循环网络,模型能记住半秒至两秒前的环境信息,从而克服前置摄像头无法观测脚下区域的局限。
该成果获得最佳论文奖,甚至吸引了波士顿动力创始人Marc Raibert亲赴CMU考察。此后,该公司也转向强化学习路线。
模拟随机化:跨越虚实鸿沟
为解决模拟与现实间的“领域差距”,团队采用“模拟随机化”策略:在成千上万个参数扰动的“平行宇宙”中训练机器人,涵盖摩擦力、刚度、延迟等变量。
同时,训练策略具备自适应性,能根据交互历史调整行为。当真实世界环境落入该随机化集合范围内时,策略即可无缝迁移,无需传统工程中的精细系统辨识与调参。
技术进阶:从移动到操作
SPIN:同步感知、交互与导航
Ananye将上述方法论拓展至“移动操作”领域,应用于名为“Stretch”的轮式机器人。其摄像头可主动调节朝向,形成感知-导航-操作的闭环耦合问题。
团队提出SPIN框架(Simultaneous Perception, Interaction, Navigation),利用大规模GPU训练,使机器人自主学会在杂乱空间中协调动作与视线,实现高效清理与拾取任务。
极限跑酷与Leap Hand灵巧手
在“跑酷”项目中,机器人面对两倍身长的沟壑或高台,自发演化出冲刺蹬地、前肢攀援、后肢翻越的复合动作序列,过程中甚至烧毁多个电机,彰显算法对硬件性能的极致压榨。
针对市售灵巧手价格高昂、维护困难的问题,Ananye联合开发开源三指机械手Leap Hand,成本仅一至两千美元,支持3D打印替换部件,现已被全球多所学术实验室采用。
为实现“功能性抓取”,团队融合仿真数据与互联网图像:通过分析海量图片中人类握持工具的方式(如锤柄),建立“可供性”认知,指导机械手完成符合使用意图的精准抓取,即便目标滑动亦能动态调整。
SAPG:面向大规模并行的新算法
为提升超大规模并行训练效率,团队摒弃2017年的PPO算法,研发SAPG(Scaled-up Asynchronous Policy Gradients)。其允许多个PPO实例异步运行并共享经验,鼓励探索多样化策略,避免资源浪费于重复尝试。
在双臂协同移动立方体的任务中(共44自由度),SAPG成功解决需抛接协作的复杂场景,而PPO完全无法收敛,凸显新算法在高维控制中的优势。
构建全具身大脑
Skild AI的目标是打造通用“机器人大脑”Skild Brain,而非为特定任务定制解决方案。该模型基于单一架构,融合多种机器人、多样任务的数据,旨在形成跨平台共享的知识结构,最终实现“具身通用人工智能”(Physical AGI)。
目前,Skild Brain已掌握多项核心能力:
- 跨形态运动:适配人形、四足等多种机器人;
- 极端适应性:肢体受损或被砍断后仍可稳定运行;
- 复杂导航:构建地图、避障、抵达指定地点;
- 精密操作:完成如将AirPods装入保护套等细粒度任务。
其关键在于“零样本泛化”能力:通过在模拟中训练大量随机生成的虚拟机器人(如不同腿长、结构),使大脑学会抽象物理规律而非记忆具体形态。因此,即使首次接触真实机器人(如宇树Unitree产品),也能快速适配控制。
Ananye指出,自然界存在强大佐证:动物出生后迅速学会行走,截肢后能用余肢代偿;人类大脑半球切除后另一侧可接管功能——这些“涌现适应性”证明跨具身控制的可行性。
多模态数据融合:突破模拟瓶颈
模拟、视频与远程操作的三角协同
尽管仿真擅长高频闭环控制(如防跌倒反射),但难以复现现实世界的语义多样性(如厨房差异、工具使用习惯)。为此,Skild AI采用三源数据融合策略:
- 模拟数据:提供高质量、高频率的动作控制训练;
- 视频数据(尤以第一视角为主):蕴含丰富语义与场景多样性,揭示人类如何操作工具;
- 远程操作数据:最高精度的人类示范,用于微调关键技能。
Ananye比喻:观看网球视频可理解战术,但无法替代挥拍练习;反之,仅有模拟训练则缺乏任务语义指引。二者结合,方能实现“知行合一”。
相较而言,纯远程操作路径难以规模化:部署成本高、网络依赖强、家庭准入难。而人类视频采集成本极低、扩展性强,更适合作为预训练数据主体,远程操作仅作为“锦上添花”的微调补充。
安全、应用与未来图景
渐进式信任构建安全体系
针对深度学习缺乏形式化安全保证的质疑,Skild AI主张通过“信任累积”机制应对。随着训练数据规模扩大,模型失败率持续下降且行为更可解释——类似语言模型随SFT优化而减少幻觉现象。
实际部署遵循渐进原则:从简单任务起步,逐步增加责任范围,如同企业雇佣员工般建立信任链条。自动驾驶领域的演进路径(如Waymo试点扩展)即为明证。
工厂:机器人的首要战场
Ananye认为,最具潜力的应用场景是当前自动化难以覆盖的装配线任务。例如iPhone组装虽高度标准化,但元器件存在微小公差,传统机器人因缺乏适应性而无法胜任,仍需人工完成。
AI驱动的机器人则能容忍差异,有望取代数十亿人从事的重复性体力劳动。工厂环境相对封闭、多样性低,利于价值快速释放,将成为机器人落地的首选领域。
通向“后稀缺世界”
若Skild Brain成功,物理劳动将不再是生产力瓶颈。人类只需投入原材料,机器即可完成从芯片制造到衣物生产的全过程,真正迈入“后稀缺社会”——物质需求不再构成根本约束。
关于失业焦虑,Ananye持乐观态度:历史表明,技术革命淘汰旧岗位的同时创造更多新职业(如工业革命催生服务业)。在体力劳动被解放后,人类将转向艺术、创作、科研等更具创造性的工作,回归本质追求。
通往AGI的十年征途
Ananye坦言,终极模型至少还需十年。构建真正AGI不仅是技术挑战,更是范式变革——现有AI多局限于软件层面,而解决现实问题(如气候变化、太空探索)必须理解并干预物理世界。
他寄语年轻一代:保持批判性思维与好奇心,不盲信教科书,敢于从第一性原理出发质疑假设。正如深度学习先驱Geoffrey Hinton曾面临普遍质疑,最终却掀起革命,未来的突破属于那些勇于挑战共识的人。
“最终目标是建立真正的AGI,即能够解决人类所有问题的通用人工智能。” Ananye如此总结其使命。

