它们的身姿轻盈、步伐自然,甚至带着几分模特走秀般的节奏。最引人注目的例子来自中国:小鹏旗下的 Iron 机器人,用流畅的步态和稳定的重心控制,让观众第一次看到一种“不是实验室、而是像生活中行走的人”。
但在机器人行业内部,真正的较量并不在腿部。
那是大家公开展示的部分。真正难、真正决定未来价值的地方,是——手。
几十年来,工程师们认为让机器人用两条腿走路是终极难题:保持平衡、抬腿迈步、预测地面变化、避免摔倒——所有事情都同时发生,稍有误差就会变成一场机械灾难。
技术确实曾停在原地,但后来发生了两件事:
• 传感器变得更便宜、更精准
• 控制算法能够实时预测重心与落脚点
结果是:机器人走路这件事从“科学难题”变成了“工程优化”。不再是“能不能走”,而是“走得更稳、更省电、更便宜”。
这正是为什么像 Agility Robotics(美国)和 Unitree(中国)已经把会走的机器人送入仓库、实验室,甚至客户订单里。
一句话概括:
会走,已经不是奇迹,而是合格线。
当小鹏的 Iron 展示完漂亮的步态,人们的目光很自然地转向下一个问题:
它能做什么?
因为现实世界不是舞台,而是复杂、混乱、没有脚本的空间。
• 杯子、餐盘、玩具、鞋盒都形状不同
• 有些物品柔软,有些易碎
• 插拔充电线、折衣服、关门、擦桌子……都是无序、不可预测的动作
这就是人类一直以来的优势:
我们有手。
精细、柔软、带触觉、能判断轻重缓急——这是机器人真正的门槛。
特斯拉选择的战场并不在腿,而在指尖。
Optimus 的最新版本用了一套全指触觉传感系统:
它能感知接触点、滑移、力度变化,并在毫秒级做出调整。特斯拉用一个简单但极具象征意义的演示——“拿鸡蛋”——告诉外界:
机器人不只是抓东西,而是理解怎么抓、怎么放、怎么不弄碎它。
这是一个信号:
机器人要从“看起来像人”,走向“做事像人”。
因为走路的世界是有规律的。
地板是硬的、重力是恒定的、步长可以预测。
而手所面对的世界是无序的:
• 塑料杯、玻璃杯、纸杯——同样的动作会产生完全不同的反应
• 插一个 USB 接口,用力过小插不进去,用力过大会损坏
• 握住番茄和握住螺丝刀,是两个完全不同的物理问题
换句话说:
腿面对的是地面;手面对的是世界。
这也是为什么今天世界上只有两家公司公开展示触觉驱动的“通用操作”尝试:
特斯拉 Optimus 和美国的 Figure AI。
它们的演示并不完美,但意义重大:
它标志着机器人开始从“实验室表演”走向“真正的劳动”。
未来 24 个月的关键战场
工程师们正在攻克五个技术节点:
1. 高密度触觉传感——指尖要像人类皮肤一样“能感觉世界”
2. 长期精度与耐久性——传感器不能工作一周就“失忆”
3. 亚牛顿级力控——轻一点、再轻一点,这世界充满易碎品
4. 模型预测 + AI策略——不是死记动作,而是理解任务
5. 无脚本家庭实验——真正的考场,不是展示舞台
如果这些难关被突破,机器人将第一次从“移动雕塑”,变成“通用劳动力”。
这还没人能回答。
小鹏展示了中国在步态稳定性方面快速追赶甚至领先;特斯拉展示了美国团队在手部控制上的技术雄心;Agility 和 Unitree 证明机器人可以变成现实生意。
但真正的胜利者可能不是走得最好、也不是最漂亮的那个,而是:
最早能在没有人指导的家里洗碗、整理房间、拧上一个螺丝钉的机器人。
当这一天来临,
机器人不再是科技展的明星,
而是和洗衣机、吸尘器一样——
默默改变世界的工具。
而人类会意识到:
人工智能真正的革命,不在屏幕里,
而在我们身边,与物体、世界、生活打交道。
人形机器人领域正经历一场由电动汽车(EV)制造商主导的革命,其中小鹏汽车的 Iron 和特斯拉的 Optimus 是最具代表性的竞争者。这两家公司利用其在垂直整合 AI 硬件(例如自研芯片)和大规模视觉数据采集网络方面的既有优势,将人形机器人视为实现具身智能(Embodied AI)和扩展 AI 移动能力的关键载体 。两家公司的商业目标均指向自动化危险、重复或枯燥的任务 ,并雄心勃勃地计划在 2026 年底实现先进机器人的规模化量产。
人形机器人的通用性取决于其计算能力和机械自由度。在这方面,Iron 表现出极具侵略性的规格。Iron 搭载了三颗小鹏自研的 Turing AI 芯片,提供了 2250 TOPS 的有效计算能力,在演示中最高可达 3000 TOPS 。这是当前人形机器人领域公开宣称的最高计算能力之一,为运行小鹏的物理世界大模型(Physical World Large Model,融合了 VLT、VLA 和 VLM)提供了强大的边缘推理基础 。高算力对于支持高频次的全身运动规划和实时感知下的复杂任务推理至关重要,远超传统工业自动化平台所需的计算水平。
在机械结构上,Iron 的总自由度(DoF)指标也显著领先。Iron 拥有 82 个总自由度 ,而全身 DoF 数量总计约 200 个 。相比之下,特斯拉 Optimus 的总自由度估计在 40 个以上 。更多的自由度旨在提供运动冗余,以更好地模仿人类运动学,确保行动的平稳性和灵活性 。
人形机器人的动态稳定性与运动效率对重量分布和能量密度极为敏感。Iron 在能源系统上的创新是其关键优势:它是首个采用全固态电池的人形机器人 。该技术实现了 30% 的重量减轻和 30% 的动力提升 。从工程角度来看,固态电池的大幅轻量化,特别是减少了腿部和躯干的质量,意味着更低的惯性。这一特性极大地减轻了全身动量控制(WBC)系统在维持动态平衡时的负担,为实现流畅、高动态的步态(如“猫步”)奠定了物理基础。
小鹏 Iron 独特的“猫步”(Catwalk gait)步态是其高度拟人化设计的集中体现,旨在实现视觉上的流畅性和生物力学上的效率 。这种步态不仅仅是为了美观,更是小鹏机器人战略的关键组成部分。
Iron 的设计遵循“源于内部”的仿生哲学,特点是具有类人的脊柱结构和全柔性皮肤,并支持男性和女性形态定制 。这种高度的拟人化是为了服务于更宏大的战略目标:数据收集。小鹏汽车首席执行官贺小鹏曾明确指出,如果机器人的结构与人类“完全不同,则无法收集逼真的数据” 。因此,Iron 的仿生设计和高 DoF(82个) 旨在缩小形态差异(Cross-Morphology Gap) ,使得机器人能够有效地利用人类行为演示数据(例如,其 VLA 模型所需的大规模视频数据 )进行模仿学习和运动策略训练。
Iron 的“猫步”被描述为“温柔、流畅、模特般”的步态 。在动力学上,这种流畅的步态要求机器人进行高度协调的侧向重心转移和精确的摆臂动作,以维持动态平衡。传统的零力矩点(ZMP)控制往往导致步态僵硬。因此,Iron 必须依赖更高级的控制策略:全身动量控制(WBC)与捕获点(CP)控制的结合 。
WBC 允许机器人通过利用躯干和摆动臂产生的惯性力矩来抵消步态转换时的角动量波动 。研究结果表明,通过动量控制器生成的主动手臂运动能够有效增强平衡性能,同时减小角动量波动,这对于在不平整地形和遇到外部干扰时保持鲁棒性至关重要。Iron 拥有 2250 TOPS 的高算力平台(Turing/AIOS ),能够同时处理 VLM 模型的感知推理和复杂的 WBC/MPC 动态控制,确保了高频次的实时性,这是实现复杂、流体步态的关键技术支撑 。
人形机器人的能效是决定其续航和实用性的核心因素。尽管 Iron 腿部驱动的具体细节尚未完全披露,但行业趋势倾向于通过机械创新来降低能耗。例如,采用并行驱动而非传统的串行驱动结构,可以在关键的髋关节和踝关节显著降低瞬时功率峰值。仿真结果显示,并行配置可以将峰值髋关节俯仰功率降低 80.4\%,峰值踝关节俯仰功率降低 53.5\% 。如果 Iron 采用了类似的并行或高效率驱动设计,结合其固态电池的优势 ,将极大提升其在长时间任务中的续航和动态性能。
表 1:小鹏 Iron 步态控制的关键技术要素
机械手是人形机器人执行通用任务(如使用工具、操作复杂环境)的核心能力所在。小鹏 Iron 和特斯拉 Optimus 在硬件自由度和操作精度上展开了激烈的竞争,但在驱动架构和传感哲学上采取了截然不同的路径。
在硬件设计上,两家公司已趋于一致,均选择了高自由度(DoF)的仿人化设计。
●Iron 机械手: 拥有22 DoF,并采用了业界尺寸最小的谐波关节,实现了与人类手部1:1 的尺寸比例 。这使得 Iron 的手部能够在保持人类手部尺寸的同时,实现高度的灵巧性,可以执行抓取鸡蛋或拧瓶盖等精密任务 。
●Optimus 机械手: Optimus Gen 3 同样实现了 22 DoF,接近人类手部的 25 个关节复杂度 。Optimus Gen 2 为 11 DoF,但即使是这一代也已领先于许多仅有 6 至 7 DoF 的竞争对手 。
这种 DoF 上的趋同标志着通用人形机器人的操作灵巧性已达到一个关键的仿人门槛,即能够实现精密的捏取(Pinch Grasp)和宽跨度的力量抓取(Power Grasp) 。然而,硬件参数仅仅是起点,操作的成功最终取决于驱动机制和传感系统的有效性。
Iron 和 Optimus 在驱动架构上采取了核心差异化的设计,这反映了两家公司不同的优化目标。
●特斯拉 Optimus:远程腱驱动架构
○Optimus 采用腱驱动(Tendon-Driven Architecture),将所有执行器和电机集中放置在前臂或更远的位置 。运动通过缆线和滑轮(类似于生物腱)传输到手指关节 。
○这种设计的主要优势在于:保持手指纤细和敏捷;将大部分重量集中在靠近机器人核心的位置,从而显著降低了手指末端执行器的惯性 。低惯性有助于实现更快的指尖运动和更强大的抓取力。这种设计与 Optimus 强调的工业/物流应用定位高度吻合 。
○然而,腱驱动系统面临复杂的工程挑战,包括腱缆的摩擦、磨损以及由此导致的非线性控制问题。
●小鹏 Iron:最小谐波关节驱动
○Iron 强调使用“业界最小的谐波关节” 。这暗示了其驱动系统可能将执行器更靠近或集成在手指关节本身(局部驱动或分布式驱动)。
○这种设计的潜在优势在于缩短传动链,提供更高的控制带宽和更直接的力反馈,从而简化柔顺性控制,并避免腱驱动中的摩擦损耗。
○然而,局部驱动的设计可能导致即使是最小的电机和齿轮也会增加手指的末端重量和惯性,这可能会限制机器人在需要高动态、大范围摆动操作时的敏捷性。
表 2 对比了 Iron 和 Optimus 在机械手设计上的关键指标:
Table 2: XPeng Iron 与 Tesla Optimus 机械手性能对比
在通用操作领域,传感能力决定了机器人在非结构化环境中的鲁棒性。操作任务本质上是“接触密集型”任务 ,因此触觉传感比单纯的 DoF 数量更为关键。
* Optimus 的触觉感知优势: Optimus 明确集成触觉传感和防滑检测 。这种系统使其能够安全地处理易碎物品,例如在抓取鸡蛋时不会造成损坏 。触觉数据对于**抓取力控制和物体稳定化至关重要。先进的系统能够通过检测滑移方向来动态调整握力,从而防止物体意外脱落。Optimus 的演示显示其能够进行亚牛顿级的精确力控**,成功操作螺丝刀、锤子等通用工具,甚至实现了每分钟 40 词以上的键盘打字速度 。
●Iron 的视觉依赖: Iron 展示了抓取鸡蛋和拧瓶盖的能力 。尽管这些任务对精度和柔顺性要求很高,但公开材料中未明确披露 Iron 触觉传感系统的细节或分辨率。因此,Iron 在通用操作中的成功可能在很大程度上依赖其强大的 VLA 模型 提供的卓越视觉感知和高精度的运动规划。然而,仅仅依靠视觉和语言(VLA)在接触丰富的任务中,特别是面对不确定性、易碎性和滑动时,性能往往会大幅下降 。Optimus 对触觉传感的强调表明,其正在积极弥补汽车 AI 向机器人操作迁移时在“接触障碍”上的不足 。
Iron 和 Optimus 的核心竞争力都来源于其母公司在自动驾驶 AI 领域的积累,但这种 AI 能力向通用人形机器人的迁移并非易事。
特斯拉 Optimus 则直接受益于其 FSD (Full Self-Driving) 技术栈。FSD 栈专注于大规模视觉感知和规划 ,其训练涉及多达 48 个神经网络,需要 70,000 GPU 小时的训练时间 。这种巨大的数据飞轮效应和训练流程被直接转移到 Optimus 的平衡、导航和感知软件栈中,赋予其强大的环境理解和基础运动规划能力 。
自动驾驶 AI 擅长处理长程、非接触的场景理解(例如,预测道路布局和行人轨迹)。然而,人形机器人的核心价值在于操作,这属于短程、接触密集的任务。操作任务要求机器人不仅识别物体,还需要实时预测自身动作所产生的物理后果(如物体是否会滑落、施加的力是否会导致损坏)。这种需求远超传统自动驾驶 AI 的能力范围 。
因此,成功的通用操作需要视觉-触觉多模态融合机制 。Optimus 明确引入触觉传感 的策略,正在尝试利用硬件来桥接这一汽车 AI 模型的先天缺陷,从而增强其在复杂物理交互中的适应性和效率 。
要实现高级仿人行为,如边行走边操作(Loco-Manipulation),机器人需要一个统一的控制框架。传统的模块化方法(将 Locomotion 和 Manipulation 解耦)存在效率低下的问题,例如,如果行走层没有考虑到操作所需的最佳位置,整体任务性能将受到影响 。
Iron 和 Optimus 都在向全栈系统集成迈进 。尽管像强化学习(RL)这样的方法为学习复杂的全身行为提供了潜力 ,但要实现全身感知、柔顺材料和力透明机制设计的全面集成,仍然是当前人形机器人研发中的核心技术挑战 。Iron 的高算力平台(2250 TOPS)和 Optimus 强大的 FSD 数据基础,是支撑这种复杂、高维策略学习的计算保障。
两家公司的商业化路径反映了其技术侧重点的不同。
小鹏 Iron 的短期商业化战略聚焦于商业场景,如零售店的导览、销售协助和工厂巡检。这种定位避免了家庭环境和传统工业中的极端复杂性,而是利用其高度拟人化的外形和流畅步态(“猫步”)来最大化社会接受度和亲和力 。
Iron 的一个关键优势是其内部验证和快速迭代。Iron 已部署在小鹏自己的工厂生产线上,协助电动汽车组装 。这种内部部署提供了宝贵的、真实的工业环境数据 ,从而加速了其 VLA 模型在物理环境中的鲁棒性训练。此外,小鹏与宝钢集团等伙伴的联合应用开发 进一步显示了其快速落地的决心。小鹏对人形机器人领域做出了长期的财务承诺,计划在未来二十年内投入高达 1000 亿元人民币(约 138 亿美元) 。
特斯拉 Optimus 的主要目标市场是物流、制造业中取代或辅助人类执行重复性和危险任务 。其腱驱动设计(优化了力量和低惯性)和 20 kg 的有效载荷能力 都是为工业环境中的重物搬运和工具操作量身定制。Optimus 的策略更具颠覆性,旨在直接影响工业劳动力结构。
尽管 Optimus 计划实现大规模量产 ,但其面临地缘政治带来的供应链挑战,例如稀土出口管制和监管问题 。Iron 凭借其在本土市场迅速实现的内部部署,在实际数据收集和工程迭代速度上暂时获得领先优势。
人形机器人市场预计将从 2025 年的 19.3 亿美元强劲增长至 2035 年的 1039.6 亿美元,复合年增长率高达 47.01\% 。这一市场潜力(摩根士丹利预测到 2050 年可能达到 5 万亿美元 )驱动着两家 EV 巨头进行技术军备竞赛。
Optimus 拥有全球知名的 AI 品牌和强大的视觉训练基础。然而,Iron 凭借其极致拟人化的设计、卓越的计算能力(2250 TOPS)、固态电池带来的工程优势,以及在本土市场快速落地的商业化策略,正在成为全球人形机器人领域的强大竞争者 。Iron 专注于“最像人”的交互体验,使其在服务和零售领域建立了独特的差异化优势,而 Optimus 则更注重通用工具操作和工业效率。
小鹏 Iron 人形机器人以其独特的“猫步”步态、高自由度设计以及先进的固态电池技术,在拟人化运动和集成算力方面设立了新的行业基准。其步态的流畅性是全身动量控制、高 DoF 机械冗余以及低惯性固态电池系统协同作用的结果。这一拟人化策略不仅是为了美观,更是为了缩小形态差异,从而有效利用人类行为数据来训练其 VLA 模型。
在操作能力方面,Iron 的 22 DoF 机械手和 Optimus Gen 3 站在了相同的灵巧性硬件前沿。然而,两者在技术哲学上存在本质区别:
1.运动与效率的取舍: Optimus 的远程腱驱动旨在优化工业环境中的力量和高速操作,降低末端惯性。Iron 的局部/集成谐波关节设计则可能更侧重于柔顺性和对人类尺寸的匹配。
2.传感与鲁棒性: Optimus 通过明确集成触觉传感和防滑检测,致力于解决接触密集型任务中的鲁棒性问题,这是汽车视觉 AI 迁移到操作领域的关键障碍。尽管 Iron 拥有强大的 VLA 视觉模型,但缺乏明确的触觉传感细节,可能使其在面对高不确定性、接触丰富的通用操作时,鲁棒性挑战大于 Optimus。
未来的竞争焦点将不再是单纯的硬件规格(DoF 或 TOPS),而是如何实现全栈、多模态的 Loco-Manipulation。即如何将高级语义推理(VLA/FSD)与高频次的物理交互(力控、触觉反馈)无缝融合。Iron 在仿人化设计和固态电池上的工程突破使其在商业服务领域拥有独特的优势,而 Optimus 在数据飞轮和触觉传感上的投入则使其在工业和物流领域更具潜力。两款机器人的发展路径将共同推动通用人形机器人市场的快速成熟和规模化部署。

