人形机器人的发布会越开越密,融资消息一条接一条。但在这波热潮的背面,一家不做人形、不秀Demo的公司,已经在产线上把钱赚到了。
极客公园最近深度对话了微亿智造CEO张志琦。看完最大的感受是:物理AI的第一份答卷,大概率不会写在实验室里,而是写在工厂的节拍表上。
所谓物理 AI,是具身智能落地的核心底层,算法依托物理 AI 认知现实世界规律,搭载实体硬件的具身智能设备才可在真实场景完成作业。高盛在最新研报中给出一个判断:当前适配工厂的机器人不必是人形,功能性形态已能覆盖70%—90%的工业场景。微亿智造的选择,恰好踩中了这条线。
工厂要的不是人形,是能干活的工具
张志琦讲了一个2022年的真实项目。客户要对两米多长的一体化压铸件做检测和打磨,零件有近3000个拍摄点位,要求10分钟内完成。传统机械臂按固定轨迹走一遍要一小时,熟练工人七八分钟就能搞定。
差距在哪?人会先扫一遍,找到有缺陷的位置,只处理该处理的地方。机械臂不行,它只能老老实实把预设路径全部跑完。
微亿的做法是让机械臂长出"眼睛+脑子":先快速扫描识别缺陷,再自动生成打磨轨迹。最终节拍压到7—10分钟,逼近人工水平。
这就是传统自动化和工业具身智能的分水岭。工厂不需要"人形崇拜",需要的是能把活干完的工具。
不是所有场景都该上VLA
行业有个惯性认知:具身智能等于VLA大模型。张志琦的判断更冷一点。
他把工业现场的工种分成两类:
工种类型 |
典型场景 |
特征 |
需要的模型规模 |
技术工种 |
打磨、焊接、检测 |
知识在老师傅脑子里 |
百亿参数级足够 |
普工 |
码垛、上下料、分拣 |
普通人30分钟能上手 |
需要端到端大模型灌出泛化能力 |
但VLA也有撞墙的时候。比如CNC上下料,属于普工范畴,精度要求0.1毫米以内,不允许出错。目前VLA的精度是厘米级或几毫米级,根本接不住。
不是所有场景都需要上最大的模型,也不是所有场景都该被VLA覆盖。"
高盛的判断与此一致:行业共识正从单一VLA模型转向以执行为导向的多模态AI堆栈——不是越大越好,是越有效越好。
23TB真实数据:比模型参数更硬的壁垒
高盛报告反复强调一个瓶颈:高质量、多维度的真实世界数据极度稀缺。
灼识咨询的数据显示,2024年多数具身智能公司拥有的真实工业精标数据不到5TB。微亿智造积累了超过23TB,含16亿条精标记录,覆盖质检、打磨、装配、上下料等核心场景。
这些数据不是仿真跑出来的,是产线上一单一单攒出来的。微亿有一套"快慢思考"机制:遇到新问题,远程工程师实时指导,机器人把"有人教"的过程存下来,下次自主执行。每一次成功执行又回流训练模型——数据飞轮转起来,机器人越用越聪明。
结果是交付周期从传统自动化的数月压缩到"天级"。这23TB,是仿真模拟永远复制不了的东西。
ROI算得清,客户才掏钱
张志琦有句话反复出现:"ROI可计算,这是工业的第一性原理。"
这种务实直接反映在客户行为上。以某全球头部新能源车企的一体化压铸件检修场景为例:生产效益提升50%以上,人工成本降低80%以上,整体1—2年回本。新能源汽车、3C消费电子等老客户每年持续复购——不只是复制已有场景,还主动问"这个新场景还有一堆人,能不能也换了?"
财务数据更能说明问题:
总收益从2023年的4.34亿元增长到2025年的7.96亿元,复合年增长35.4%
2024—2025年连续两年盈利
2025年经营性现金流转正,净流入1.41亿元
今年海外市场也开始从0到1破冰。张志琦透露,有些项目在国内ROI算不过来,放到海外人力成本更高的环境下反而能算平。未来两三年,海外收入目标是20%—30%。
写在最后
高盛的报告、极客公园的访谈、微亿智造的财务数字,指向同一件事:具身智能的早期答案不在炫技的Demo里,在工厂的ROI表里。
当行业从"人形崇拜"转向"场景算账",微亿智造靠23TB真实数据、可验证的回报模型、以及不追人形的务实策略,已经在这场长跑里占据了一个很难被绕过去的位置。

