作者 | 肖恩
编辑 | 德新
4月末的北京,正在进入一年里最拥挤的时段之一。
两年一届的北京车展即将开幕,主机厂、供应商、投资人和媒体陆续赶来,春季的首都一下子热闹起来。另一条同样热闹的赛道,是具身智能:仅今年一季度,国内具身智能赛道已披露超过50起融资,累计金额约200亿元,单笔10亿元级别的融资也不再罕见。
也就是在这个时间点,我们在海淀区一处并不张扬的办公楼里,见到了原力灵机联合创始人周而进。
原力灵机成立一年多,已完成近12亿元融资,并陆续推出模型、开源框架、量产工作流、真机评测平台,以及开源硬件。相比只押注一个模型或一段Demo,它选择了一条更重的路径:把模型、数据、评测、硬件和量产交付放进同一套系统里。
周而进毕业于清华大学电子工程系,曾在旷视长期负责视觉算法和算法量产,后来带队做多模态大模型。进入具身智能后,他的判断很直接:具身智能不是一个模型的事。
因此,真机还是仿真,VLA还是世界模型,灵巧手还是夹爪,开源会不会削弱护城河,在他看来都不是简单的站队题。比起选择某条路线,他更关心机器人能不能进入客户现场,接入业务系统,处理异常,算清ROI,并在真实环境里回收数据。
采访中,周而进有一句话很适合作为这篇文章的注脚:
"一个idea,CVPR八页纸就能说明白。你想把这个东西当成公司的护城河,是非常荒谬的事情。"
这句话背后,是他对具身智能产业化难度的判断:机器人要从实验室进入仓库、门店和产线,难点不只是"会不会做一个动作",而是当它做错了、做慢了、卡住了,整套系统有没有能力兜底。
所以,原力灵机最终想提供给客户的,是一套能长期运转的系统。
以下为对话全文,机研所做了不改变原意的编辑和删减。
为什么不能只做模型
机研所:原力灵机同时在做模型、框架、评测工具、硬件,会不会摊子铺得太大?
周而进:不会。反过来看:任何一家严肃做具身智能的公司,你不做评测吗?数据重不重要?关不关心落地?每一个模块拆出来都是必须做的,不是摊子大不大的问题,是目标定在哪里。
具身智能是一场综合系统的比拼。我们的目标是通用具身智能。做某个行业落地就得了当然更容易,但今天行业还在很早期,不是已经收敛了。行业很早期时会有很多颠覆性事情出来,过早判断某些东西定型了是不对的。做通用具身智能会影响整个基建策略、数据策略、模型策略,比如要不要做基模,这可能就是一个非常重要的区别。
机研所:您之前在旷视做计算机视觉,从什么时候开始觉得具身智能有潜力?
周而进:不是一个突变的过程。我最早在旷视一直做人脸,所有产品线的人脸算法都是我统一负责。这个方向做到2018、2019年基本到头了,后面主要做算法量产,把各种视觉算法用标准化方式规模化生产。
再后来大模型出来,能把更复杂的视觉任务放在一个统一范式里。旷视其实很早就想做机器人,中间也做过工业场景的机械臂控制、视觉模组和芯片。在大模型框架下,做通用机器人变成一种可能。
结合传感器经验、芯片经验,尤其是大规模算法迭代的经验,几个能力圈串在一起了。2024年,我们觉得应该尝试做一个更通用的机器人智能,而不是case by case的机械臂动作。蛮连续的。
机研所:从计算机视觉到具身智能,最大的区别在哪里?
周而进:最大的区别是,计算机视觉还是解决单点理解问题。我们2016、2017年就考虑过做机器人,但那时很多技术不ready,所以先解决机器人里一个核心:眼睛能看懂世界。
视觉说到底是感知,到大模型阶段加上理解,但始终没有涉及动作——怎么去改变物理世界。感知偏静态,你和世界是隔离的。一旦涉及动作,从开环世界进入闭环世界,你的动作会影响下一步看到什么。复杂度一下高了很多。
机研所:为什么选择物流先落地?
周而进:我们考虑几个因素。具身智能今天一定要在真实场景里被用起来,形成数据飞轮,这件事才能更高效地迭代。否则大家只做demo、拍视频,没有太大意义。
什么样的场景更适合做这件事?首先要有一定错误容忍率;其次比较容易把整个系统构建起来;同时符合商业化要求,能规模化复制,不是单点做完就结束。
看了一圈后,To C场景安全性要求高、成本容忍度低、场景又复杂;To B场景环境更可控、可复制性更高。再结合我们之前做过很多物流客户,对物流非常熟悉。我非常清楚物流仓库里现在有多少工种仍然是人工在做,为什么这些工种还是人工在做,为什么传统机械臂替换不了,为什么基于规则的方案替换不了。
更重要的是,我们有很多客户,甚至很多仓库就是我们建的。所以我们很容易在仓库里改造环境,构造新的流水线,让它适应我们的算法。因为算法不可能一下子100分,可能从50分、60分一点点进化。
问题是,一个50分的算法怎么落到场景里?有没有兜底方案?有没有故障处理方案?这些都对场景改造能力和整体方案能力要求非常高。
物流一方面不是传统机械臂写规则就能搞定的,它属于要用具身智能去解决的问题;另一方面,在这些场景里我们自己可以改造环境、构建流水线,帮助复制机器人,形成数据飞轮。今年我们同时还选择了商业方向,门店里的导购、导游,介于纯工业物流和To C之间。场景比传统工业产线复杂很多,但对单个机器人成本的要求又没有To C那么严格。一步一步拓展自由度。
机研所:物流分拣场景里,哪一部分动作最难?
周而进:我们有好几类原子动作是最基础的:抓放、塞东西、打包、折叠、贴胶带、撕胶带,都不容易。
以最简单的抓取为例,大家觉得这是任何公司都会秀的第一个demo。但要真正落地,而不是从 demo 里选一个正好work的片段,是非常困难的。
比如服装类客户,真实场景里衣服满满当当塞一整箱,你要一件一件抽出来数。柔性物体仿真器做不了,真实场景也非常复杂,还有很大进步空间。
机研所:泛化性和把单一任务做到极致,哪个更重要?
周而进:泛化性更重要。而且通用和泛化是两个正交的概念。
我们之前办比赛有Specialist和Generalist两个赛道,今年已经只做Generalist。务实一点说,单一任务做到极致门槛很低,未来有更强的开源模型出来,任何非标自动化厂商都能在自己场景下把单点做好。
但通用智能不一样。一个模型掌握很多种技能,技能之间能够相互促进。如果只做单一任务,整个数据策略、基建策略、模型训练策略,都会和做通用能力越走越分叉。几年前大家还说各种垂类大模型,今天发现通用大模型里各行各业的知识是能相互促进的。
第二个是泛化。一个模型声称自己各种任务都能做,但离开那家公司那张桌子就不work,落地时完全不能接受。通用和泛化是正交的:既要能干很多事情,同时要开箱即用,放到任何环境都work。这两个维度是我们认为最重要的。
从Demo到进场,第一天就要算ROI
机研所:从Demo到进场部署,什么指标会把不合格的产品或方案淘汰掉?
周而进:如果只看一个指标,很简单,就是你的产品最后能不能长期被使用起来。绝大部分都非常困难。
这也和我们以前十几年做AI算法落地的经验有关。我们非常清楚,一个算法从能够完成客户想要的功能,到真的在客户场景被用起来,中间还隔着十万八千里。
以机器人为例,今天可以进车厂做一些零件搬运,拍一个视频没有问题。但真的要进去替换某些工人——是不是要对接它的上层软件业务系统?你有没有能力对接一个运行了十几年的复杂业务系统?
第二,出了错有没有兜底方案?搬东西掉地上,人可以弯腰捡起来,机器人能搞吗?第三,会不会影响节拍?人是什么效率,你能做到这个效率吗?整个流水线你如果慢了,上下游都会卡。
这些事情远超今天大家单点去想的"我能不能把这个动作做好"。而且它需要的整个团队配置和经验,可能是现在很多具身公司压根没想到的。很多团队没有经历过真正大规模落地过程中的各种脏活累活。所以如果只看一个指标,从"能拍演示视频"到"真的被长期使用起来",这会筛掉绝大部分人。
机研所:客户更关注成本还是可靠性?ROI是后面再考虑的事吗?
周而进:都会关注。很多时候大家可能一起做一个PR,那不是奔着真实落地去的。任何一个真实落地客户都非常关心成本,大家讲商业化逻辑:你替我省了多少钱,或者创造了多少价值?
我觉得第一天就应该考虑ROI。你一天能做到多少节拍?通过人加机器的方式,在一套可靠系统下今天能做到多少节拍?一台机器人成本是多少?带来的收益多少?几年能回本?从第一天设计方案时就应该全部考虑进去。
还是那个问题,它不是单点机器人问题,最终提供的是一整套system。这套system可能涉及改造客户产线,除了具身机器人之外还要有其他非标自动化机械臂、其他硬件。从第一天就应该算ROI。
机研所:客户对你们方案的评价?
周而进:客户非常兴奋。客户接触过很多公司,不只是我们在做物流。但大部分公司还是单点讲我的机器人现在能完成哪些动作、成功率多少,接下来讲一个数据飞轮故事。
但客户要的不是这个。如果有10%的物品解决不了,谁来解决?以货物分拣为例,有10%解决不了,难道要客户自己解决吗?你得给一个方案把这些也解决掉。客户要的是端到端的闭环。
客户可以接受一开始效率低一点、成本贵一点,后面慢慢进化,但从第一天开始整个东西就应该能转起来。我们之前做过很多行业落地,非常清楚客户要的是现在就把整件事闭环掉。
机研所:灵巧手、高自由度这些能力,哪些是必须的?哪些现在加上反而拖累量产节奏?
周而进:我倒不觉得有什么东西一定会拖累量产节奏。真实落地一定是极度务实主义地看待问题。我们希望在安全性、效率、成本和最终完成任务质量之间取得比较优的状态。一般会选择越简洁的结构越好,可靠性和安全性更高。
今天大部分还是以干活为主,完成manipulation(操作)和navigation(移动)这两个能力,在目前主要场景里基本能满足。末端可能是夹爪也可能是灵巧手,取决于客户场景。但大部分应用场景夹爪已经能完成很多事情,只有某些场景需要灵巧手。我们夹爪和灵巧手都在研发,以双臂机器人构型为主,轮式导航。
机研所:你们有自研灵巧手吗?灵巧手最有价值的指标是什么?
周而进:我们现在没有自研灵巧手。逻辑很简单:今天灵巧手硬件更新迭代速度很快,去年展会上就有很多灵巧手。而且灵巧手算法非常不成熟,大家秀的灵巧手很多都是摇摇晃晃地捏东西。
所以我们一定首先用市面上成熟硬件把算法能力跑通,才能真正明白核心硬件痛点在哪里,然后再看自研。
至于指标,还是看它能不能完成夹爪做不了的事。今天单纯追求参数,就像看手机只对比参数一样,能用起来吗?大家说灵巧手到底是20多个自由度还是十几个自由度,好像成本也不一样。但今天哪个算法能真正用好它?大部分算法其实都把灵巧手当夹爪在用,四个手指也不动就在那里夹。
我相信一两年内会有高自由度、质量可控的灵巧手出来。但更着急的是算法上怎么把高自由度的东西用好。比如灵巧手的数据采集方案是什么?没有一个完美方案。有人用手套,有人直接用视觉、3D map定位,但都很粗糙。那边是我们觉得现在更应该往前拱的。
机研所:本体应该服务于应用场景?
周而进:聊真实具体的应用落地场景,一定是这样。这也是为什么我们做算法时一直强调模型要做多本体适应。不能说只做一个本体。哪怕今天你做人形,觉得人形就是人,好像所有场景都能做。但真的去很多业务场景,比如仓库,货架那么高人也够不到。人也会借助各种工具完成事情。
把人和工具放在一起看,其实就已经形成了不同形态。机器人既然从头就可以造本体,不如一步到位想清楚:在各个业务形态上更合适的本体是什么。所以本体一定是多样化的。
跨过行业1.0:
先让机器自己生产数据
机研所:数据、模型、本体、落地交付——现在行业最瓶颈的是哪个环节?
周而进:很难说今天单点最卡脖子的是哪一个。整个行业都还在比较初级的阶段。但相比去年和前年,进步很快。
举个例子,前几年大家会怀疑具身的数据远少于互联网,可能不具备像大模型一样训练出强模型能力的基础。但走到今天会发现,真的要累积数据是很快的。一台机器一天采集5个小时很正常,1000台机器一天就是5000小时,跑100天就是50万小时。而1000台机器对整个行业来说是非常小的量。
什么东西最欠缺?我觉得大家还处在我们内部所谓的1.0阶段。1.0的意思是,谁都还没有真正大规模把机器部署出去。
为什么今天大家会看到各种五花八门的数据采集方案?有的用互联网视频,有的用第一视角ego data,有的用遥操。因为没有人把大部分机器人部署出去,真正机器人的数据是缺乏的。所有人都在做妥协,只不过每个人妥协的方向不一样。
比如用ego data来训练,妥协的是没有精准的关节位置数据,获得的是场景丰富度和数据量。有人妥协的是数据没那么多,但获得高精尖的遥操关节位置数据。
更重要的是谁能尽快迈向2.0——机器被大规模部署出来,真正机器人数据由机器人生产。我相信这是一个非常重要的台阶。到了那个台阶后,数据飞轮带来的增益会远高于现在。
尽快让机器被大规模部署出去,这也是为什么我们选择物流这些行业。我们始终觉得,机器人今天不是一个单点的事,而是一个系统。你需要让这套系统能够规模化复制出去,而不是单点造一个机器人然后觉得有地方就能卖出去。
机研所:关于闭环,数据闭环、训练闭环、部署闭环——最难补上的是哪一个?
周而进:这些闭环其实就是一个闭环。训练、部署、rollout、人工接管、数据回流、继续训练——只有这么一个闭环,没有其他乱七八糟的小闭环。关键是你能把这个闭环放到多大的自由度里:实验室一张桌子能跑,大部分公司都能做到;搬到真实业务环境里还能跑,那就是另一回事了。
机研所:数据量级大概是什么量?
周而进:分两个。我们在做机器人基模,基模对数据量级要求非常高。今年我们自己做的数据规模会在100多万小时的体量,多种数据混合在一起。展望明年还会继续提升。
相反,落地到真实场景里,基模效果越好,真实落地所需要的数据会越少。在落地场景里,可能几十小时就能初步形成一个有比较好成功率的模型,然后结合真实环境里的rollout做数据飞轮迭代。
机研所:采集数据时怎么取舍?你们提过"熵在哪里,数据就投向哪里"。
周而进:技术不能用二元论看,说我要这个还是不要那个,这很荒谬。每一份数据都有优势和劣势。真机遥操数据、外骨骼数据、ego第一视角数据,我们都会用。落到产品机需要高精尖的遥操数据,基模需要广泛认识各种场景所以ego data也用,低速导航仿真就很好。每份数据解决不同问题。
举个例子,我们想识别各种商品SKU,靠自己采根本采不完。互联网多模态数据里有各种商品SKU、有对万物识别的理解,能补充那部分知识就应该吸收进来。核心是找到能提供信息量最大、熵最高的数据源,让它在基模训练里被吃进来,同时别的场景不掉点。
机研所:行业里VLA和世界模型有很多路线之争,你怎么看?
周而进:我们觉得很奇怪,今天好像还有站队一说:我站世界模型一队,还是站VLA一队。这些态度都非常荒谬。我们更多还是回到目标上:你要解决未来更长程、更好的规划,要出动作,也要出未来预测,两者其实形成一个闭环,相互之间是能够影响的。
什么样的框架能把这两个东西都吃在一起?所以我们是把世界模型和VLA做联合训练的方案。
一定是从要解决的问题倒推。否则天天会陷入一种问题:这种架构是不是最终答案?VLA会不会被颠覆?这些问题没有意义。重要的是我们要解决的问题,当下框架有什么问题、能不能解。如果不能解,就拿数据去看应该补哪些模块进来,然后去试。
机研所:DM0的2.4B模型是什么定位?是不是不相信更大模型?
周而进:不是不相信大。内部4B、8B以及更大尺度都在做。但做这些需要有参考。我需要知道一个2.4B的模型在准确率和基础能力上到底能做到哪里。这也是对我们自己认知的校准:像Table30这类桌面简单任务,是不是在这个参数规模下就能做好?
如果2.4B已经做到这样,4B理论上应该比它好得多。如果没做到,要么数据不对,要么训练方法不对。核心是回到一个科学尺度上。同时我们做出来也开源,完全不介意把花时间拿到的认知告诉行业。
Table30里,我们在Specialist上做到了60多分的成功率。但不是平均每个任务都是60%,分散很大。很多任务比如简单的pick and place、堆叠方块、翻找物品,其实能做到100%。
护城河与行业格局
机研所:为什么一开始就选择开源?
周而进:因为希望有更多生态。我们一开始做具身智能时非常痛,没有好用的codebase,没有好用的benchmark,无法对比。很多学术成果到底好不好?论文里说的和我们自己复现出来的结果没有办法公平对比。
所以完全出于自用角度,我们把基础设施都做了。做完发现行业也都有诉求。具身智能除了To B方向,我们也在做教育方向,对外做教育类科研机型,需要一个好的生态。开源是最简单直接的共享方式。
机研所:开源会不会让护城河变薄?
周而进:护城河不会在这边。护城河本质上还是整个system的基建,软硬一体化产品更新迭代的速率,以及最后落地的业务场景。核心是时间积累。
任何一个单点算法也好、模型也好,你想得到,难道别人想不到吗?就算先想到半年,别人半年后也可能想到了。以前我们做CV时也是这个逻辑:一个idea,CVPR八页纸就能说明白。你想把这个东西当成公司的护城河,是非常荒谬的事情。
真正的护城河一定来自于你在某一个方向上长期积累的复杂性,比如一整套从生产到最后落地部署的基建。这东西有时间不可压缩性。或者说在一些长期客户场景里,和客户反复迭代整套生产系统,已经完全嵌入进去,这才是真正的护城河。
机研所:RoboChallenge上你们拿了第一名,有没有人说你们既当裁判又当运动员?
周而进:有,很多。但我们问心无愧,所有做的事情都开源了,今天也有新玩家超过我们了。比赛公开公平,任何人好好做算法就能取得更好成绩。
拉长时间线看这些都是噪声。本质上看两件事:比赛是不是公平公正,测试的东西是不是在不停演进。去年推出第一期30个桌面任务考题,最近推出了V2增强泛化性测试。内部也是两个团队隔离:一个专门做比赛,一个做算法迭代。
机研所:今年会不会是具身智能的淘汰赛之年?
周而进:每年都在进淘汰赛。融资变得越来越火,也是淘汰——跟不上融资节奏的公司会被淘汰。融资不火、行业降温,也是淘汰——没有造血能力或商业化落地能力的会被淘汰。一直在淘汰,只不过是在不同维度。
节奏把握很重要。一方面技术要不停尽可能跑得更快;另一方面商业化维度不能落下。
机研所:最终行业会走向什么形态?几家大公司垄断,还是分层分化?
周而进:物理世界和软件最大的区别——软件可能很容易收敛到几家。今天大模型做到某阶段后,大家都是卖token,你的效果比别人好,所有人很快选择你。
但物理世界不是这样。物理世界有太多长尾,太多local minimum。我今天在物流行业机器人做得好,换一个别的工业场景,构型、整套system可能完全不一样。真实世界很多行业都是这样,会有很多局部区域,每个区域都会分化出来。尤其机器人是硬件,和场景高度耦合。
最后会不会有大型巨头垄断?没有理由说不可能,但可能需要更长时间周期。并不妨碍未来一到两年,在某些细分领域逐步冒出能把完整system跑起来的公司。包括我们也希望自己能在物流行业第一个先闭环。
机研所:具身智能是不是也要经历和自动驾驶一样长的模型迭代周期?
周而进:所有事情都在加速。AI领域足够开放,很多子领域里别的领域花了很长时间探索出来的东西,在这个领域会被继承。
比如Transformer在NLP领域2017年就发表了,中间探索了很长时间。但语言模型探索出来的结果很快迁移到多模态大模型上。视频生成也很快把这一套东西迁移过来。
跨学科知识迁移和复用非常快。整个技术演进一定是加速的。
结语
具身智能最终要回到物理世界里,而物理世界不讲道理——模型可以一夜之间刷新榜单,Demo可以一条视频传遍全网,但一台机器人从搬错东西到学会兜底,只能一个故障一个故障地熬过来。
周而进不太愿意谈护城河。
在他看来,一个idea CVPR八页纸就能说明白,一个算法领先半年别人就能追上来。真正拉开差距的,是谁先在客户的仓库里把整套系统跑通——部署、故障、接管、回流、复盘,循环往复,直到机器人变成客户愿意长期续费的生产力。
这不是一个模型能解决的,而是一整套系统在真实世界里反复磨合的过程。
点赞
收藏
分享

