对话原力灵机周而进：具身智能的护城河不在八页纸的论文里- 大数跨境

首页

对话原力灵机周而进：具身智能的护城河不在八页纸的论文里

大蒜粒机研所

2026-05-11

导读：别拿八页纸的学术论文当做商业护城河。

作者 | 肖恩

编辑 | 德新

4月末的北京，正在进入一年里最拥挤的时段之一。

两年一届的北京车展即将开幕，主机厂、供应商、投资人和媒体陆续赶来，春季的首都一下子热闹起来。另一条同样热闹的赛道，是具身智能：仅今年一季度，国内具身智能赛道已披露超过50起融资，累计金额约200亿元，单笔10亿元级别的融资也不再罕见。

也就是在这个时间点，我们在海淀区一处并不张扬的办公楼里，见到了原力灵机联合创始人周而进。

原力灵机成立一年多，已完成近12亿元融资，并陆续推出模型、开源框架、量产工作流、真机评测平台，以及开源硬件。相比只押注一个模型或一段Demo，它选择了一条更重的路径：把模型、数据、评测、硬件和量产交付放进同一套系统里。

周而进毕业于清华大学电子工程系，曾在旷视长期负责视觉算法和算法量产，后来带队做多模态大模型。进入具身智能后，他的判断很直接：具身智能不是一个模型的事。

因此，真机还是仿真，VLA还是世界模型，灵巧手还是夹爪，开源会不会削弱护城河，在他看来都不是简单的站队题。比起选择某条路线，他更关心机器人能不能进入客户现场，接入业务系统，处理异常，算清ROI，并在真实环境里回收数据。

采访中，周而进有一句话很适合作为这篇文章的注脚：

"一个idea，CVPR八页纸就能说明白。你想把这个东西当成公司的护城河，是非常荒谬的事情。"

这句话背后，是他对具身智能产业化难度的判断：机器人要从实验室进入仓库、门店和产线，难点不只是"会不会做一个动作"，而是当它做错了、做慢了、卡住了，整套系统有没有能力兜底。

所以，原力灵机最终想提供给客户的，是一套能长期运转的系统。

以下为对话全文，机研所做了不改变原意的编辑和删减。

为什么不能只做模型

机研所：原力灵机同时在做模型、框架、评测工具、硬件，会不会摊子铺得太大？

周而进：不会。反过来看：任何一家严肃做具身智能的公司，你不做评测吗？数据重不重要？关不关心落地？每一个模块拆出来都是必须做的，不是摊子大不大的问题，是目标定在哪里。

具身智能是一场综合系统的比拼。我们的目标是通用具身智能。做某个行业落地就得了当然更容易，但今天行业还在很早期，不是已经收敛了。行业很早期时会有很多颠覆性事情出来，过早判断某些东西定型了是不对的。做通用具身智能会影响整个基建策略、数据策略、模型策略，比如要不要做基模，这可能就是一个非常重要的区别。

机研所：您之前在旷视做计算机视觉，从什么时候开始觉得具身智能有潜力？

周而进：不是一个突变的过程。我最早在旷视一直做人脸，所有产品线的人脸算法都是我统一负责。这个方向做到2018、2019年基本到头了，后面主要做算法量产，把各种视觉算法用标准化方式规模化生产。

再后来大模型出来，能把更复杂的视觉任务放在一个统一范式里。旷视其实很早就想做机器人，中间也做过工业场景的机械臂控制、视觉模组和芯片。在大模型框架下，做通用机器人变成一种可能。

结合传感器经验、芯片经验，尤其是大规模算法迭代的经验，几个能力圈串在一起了。2024年，我们觉得应该尝试做一个更通用的机器人智能，而不是case by case的机械臂动作。蛮连续的。

机研所：从计算机视觉到具身智能，最大的区别在哪里？

周而进：最大的区别是，计算机视觉还是解决单点理解问题。我们2016、2017年就考虑过做机器人，但那时很多技术不ready，所以先解决机器人里一个核心：眼睛能看懂世界。

视觉说到底是感知，到大模型阶段加上理解，但始终没有涉及动作——怎么去改变物理世界。感知偏静态，你和世界是隔离的。一旦涉及动作，从开环世界进入闭环世界，你的动作会影响下一步看到什么。复杂度一下高了很多。

机研所：为什么选择物流先落地？

周而进：我们考虑几个因素。具身智能今天一定要在真实场景里被用起来，形成数据飞轮，这件事才能更高效地迭代。否则大家只做demo、拍视频，没有太大意义。

什么样的场景更适合做这件事？首先要有一定错误容忍率；其次比较容易把整个系统构建起来；同时符合商业化要求，能规模化复制，不是单点做完就结束。

看了一圈后，To C场景安全性要求高、成本容忍度低、场景又复杂；To B场景环境更可控、可复制性更高。再结合我们之前做过很多物流客户，对物流非常熟悉。我非常清楚物流仓库里现在有多少工种仍然是人工在做，为什么这些工种还是人工在做，为什么传统机械臂替换不了，为什么基于规则的方案替换不了。

更重要的是，我们有很多客户，甚至很多仓库就是我们建的。所以我们很容易在仓库里改造环境，构造新的流水线，让它适应我们的算法。因为算法不可能一下子100分，可能从50分、60分一点点进化。

问题是，一个50分的算法怎么落到场景里？有没有兜底方案？有没有故障处理方案？这些都对场景改造能力和整体方案能力要求非常高。

物流一方面不是传统机械臂写规则就能搞定的，它属于要用具身智能去解决的问题；另一方面，在这些场景里我们自己可以改造环境、构建流水线，帮助复制机器人，形成数据飞轮。今年我们同时还选择了商业方向，门店里的导购、导游，介于纯工业物流和To C之间。场景比传统工业产线复杂很多，但对单个机器人成本的要求又没有To C那么严格。一步一步拓展自由度。

机研所：物流分拣场景里，哪一部分动作最难？

周而进：我们有好几类原子动作是最基础的：抓放、塞东西、打包、折叠、贴胶带、撕胶带，都不容易。

以最简单的抓取为例，大家觉得这是任何公司都会秀的第一个demo。但要真正落地，而不是从 demo 里选一个正好work的片段，是非常困难的。

比如服装类客户，真实场景里衣服满满当当塞一整箱，你要一件一件抽出来数。柔性物体仿真器做不了，真实场景也非常复杂，还有很大进步空间。

机研所：泛化性和把单一任务做到极致，哪个更重要？

周而进：泛化性更重要。而且通用和泛化是两个正交的概念。

我们之前办比赛有Specialist和Generalist两个赛道，今年已经只做Generalist。务实一点说，单一任务做到极致门槛很低，未来有更强的开源模型出来，任何非标自动化厂商都能在自己场景下把单点做好。

但通用智能不一样。一个模型掌握很多种技能，技能之间能够相互促进。如果只做单一任务，整个数据策略、基建策略、模型训练策略，都会和做通用能力越走越分叉。几年前大家还说各种垂类大模型，今天发现通用大模型里各行各业的知识是能相互促进的。

第二个是泛化。一个模型声称自己各种任务都能做，但离开那家公司那张桌子就不work，落地时完全不能接受。通用和泛化是正交的：既要能干很多事情，同时要开箱即用，放到任何环境都work。这两个维度是我们认为最重要的。

从Demo到进场，第一天就要算ROI

机研所：从Demo到进场部署，什么指标会把不合格的产品或方案淘汰掉？

周而进：如果只看一个指标，很简单，就是你的产品最后能不能长期被使用起来。绝大部分都非常困难。

这也和我们以前十几年做AI算法落地的经验有关。我们非常清楚，一个算法从能够完成客户想要的功能，到真的在客户场景被用起来，中间还隔着十万八千里。

以机器人为例，今天可以进车厂做一些零件搬运，拍一个视频没有问题。但真的要进去替换某些工人——是不是要对接它的上层软件业务系统？你有没有能力对接一个运行了十几年的复杂业务系统？

第二，出了错有没有兜底方案？搬东西掉地上，人可以弯腰捡起来，机器人能搞吗？第三，会不会影响节拍？人是什么效率，你能做到这个效率吗？整个流水线你如果慢了，上下游都会卡。

这些事情远超今天大家单点去想的"我能不能把这个动作做好"。而且它需要的整个团队配置和经验，可能是现在很多具身公司压根没想到的。很多团队没有经历过真正大规模落地过程中的各种脏活累活。所以如果只看一个指标，从"能拍演示视频"到"真的被长期使用起来"，这会筛掉绝大部分人。

机研所：客户更关注成本还是可靠性？ROI是后面再考虑的事吗？

周而进：都会关注。很多时候大家可能一起做一个PR，那不是奔着真实落地去的。任何一个真实落地客户都非常关心成本，大家讲商业化逻辑：你替我省了多少钱，或者创造了多少价值？

我觉得第一天就应该考虑ROI。你一天能做到多少节拍？通过人加机器的方式，在一套可靠系统下今天能做到多少节拍？一台机器人成本是多少？带来的收益多少？几年能回本？从第一天设计方案时就应该全部考虑进去。

还是那个问题，它不是单点机器人问题，最终提供的是一整套system。这套system可能涉及改造客户产线，除了具身机器人之外还要有其他非标自动化机械臂、其他硬件。从第一天就应该算ROI。

机研所：客户对你们方案的评价？

周而进：客户非常兴奋。客户接触过很多公司，不只是我们在做物流。但大部分公司还是单点讲我的机器人现在能完成哪些动作、成功率多少，接下来讲一个数据飞轮故事。

但客户要的不是这个。如果有10%的物品解决不了，谁来解决？以货物分拣为例，有10%解决不了，难道要客户自己解决吗？你得给一个方案把这些也解决掉。客户要的是端到端的闭环。

客户可以接受一开始效率低一点、成本贵一点，后面慢慢进化，但从第一天开始整个东西就应该能转起来。我们之前做过很多行业落地，非常清楚客户要的是现在就把整件事闭环掉。

机研所：灵巧手、高自由度这些能力，哪些是必须的？哪些现在加上反而拖累量产节奏？

周而进：我倒不觉得有什么东西一定会拖累量产节奏。真实落地一定是极度务实主义地看待问题。我们希望在安全性、效率、成本和最终完成任务质量之间取得比较优的状态。一般会选择越简洁的结构越好，可靠性和安全性更高。

今天大部分还是以干活为主，完成manipulation（操作）和navigation（移动）这两个能力，在目前主要场景里基本能满足。末端可能是夹爪也可能是灵巧手，取决于客户场景。但大部分应用场景夹爪已经能完成很多事情，只有某些场景需要灵巧手。我们夹爪和灵巧手都在研发，以双臂机器人构型为主，轮式导航。

机研所：你们有自研灵巧手吗？灵巧手最有价值的指标是什么？

周而进：我们现在没有自研灵巧手。逻辑很简单：今天灵巧手硬件更新迭代速度很快，去年展会上就有很多灵巧手。而且灵巧手算法非常不成熟，大家秀的灵巧手很多都是摇摇晃晃地捏东西。

所以我们一定首先用市面上成熟硬件把算法能力跑通，才能真正明白核心硬件痛点在哪里，然后再看自研。

至于指标，还是看它能不能完成夹爪做不了的事。今天单纯追求参数，就像看手机只对比参数一样，能用起来吗？大家说灵巧手到底是20多个自由度还是十几个自由度，好像成本也不一样。但今天哪个算法能真正用好它？大部分算法其实都把灵巧手当夹爪在用，四个手指也不动就在那里夹。

我相信一两年内会有高自由度、质量可控的灵巧手出来。但更着急的是算法上怎么把高自由度的东西用好。比如灵巧手的数据采集方案是什么？没有一个完美方案。有人用手套，有人直接用视觉、3D map定位，但都很粗糙。那边是我们觉得现在更应该往前拱的。

机研所：本体应该服务于应用场景？

周而进：聊真实具体的应用落地场景，一定是这样。这也是为什么我们做算法时一直强调模型要做多本体适应。不能说只做一个本体。哪怕今天你做人形，觉得人形就是人，好像所有场景都能做。但真的去很多业务场景，比如仓库，货架那么高人也够不到。人也会借助各种工具完成事情。

把人和工具放在一起看，其实就已经形成了不同形态。机器人既然从头就可以造本体，不如一步到位想清楚：在各个业务形态上更合适的本体是什么。所以本体一定是多样化的。

跨过行业1.0：

先让机器自己生产数据

机研所：数据、模型、本体、落地交付——现在行业最瓶颈的是哪个环节？

周而进：很难说今天单点最卡脖子的是哪一个。整个行业都还在比较初级的阶段。但相比去年和前年，进步很快。

举个例子，前几年大家会怀疑具身的数据远少于互联网，可能不具备像大模型一样训练出强模型能力的基础。但走到今天会发现，真的要累积数据是很快的。一台机器一天采集5个小时很正常，1000台机器一天就是5000小时，跑100天就是50万小时。而1000台机器对整个行业来说是非常小的量。

什么东西最欠缺？我觉得大家还处在我们内部所谓的1.0阶段。1.0的意思是，谁都还没有真正大规模把机器部署出去。

为什么今天大家会看到各种五花八门的数据采集方案？有的用互联网视频，有的用第一视角ego data，有的用遥操。因为没有人把大部分机器人部署出去，真正机器人的数据是缺乏的。所有人都在做妥协，只不过每个人妥协的方向不一样。

比如用ego data来训练，妥协的是没有精准的关节位置数据，获得的是场景丰富度和数据量。有人妥协的是数据没那么多，但获得高精尖的遥操关节位置数据。

更重要的是谁能尽快迈向2.0——机器被大规模部署出来，真正机器人数据由机器人生产。我相信这是一个非常重要的台阶。到了那个台阶后，数据飞轮带来的增益会远高于现在。

尽快让机器被大规模部署出去，这也是为什么我们选择物流这些行业。我们始终觉得，机器人今天不是一个单点的事，而是一个系统。你需要让这套系统能够规模化复制出去，而不是单点造一个机器人然后觉得有地方就能卖出去。

机研所：关于闭环，数据闭环、训练闭环、部署闭环——最难补上的是哪一个？

周而进：这些闭环其实就是一个闭环。训练、部署、rollout、人工接管、数据回流、继续训练——只有这么一个闭环，没有其他乱七八糟的小闭环。关键是你能把这个闭环放到多大的自由度里：实验室一张桌子能跑，大部分公司都能做到；搬到真实业务环境里还能跑，那就是另一回事了。

机研所：数据量级大概是什么量？

周而进：分两个。我们在做机器人基模，基模对数据量级要求非常高。今年我们自己做的数据规模会在100多万小时的体量，多种数据混合在一起。展望明年还会继续提升。

相反，落地到真实场景里，基模效果越好，真实落地所需要的数据会越少。在落地场景里，可能几十小时就能初步形成一个有比较好成功率的模型，然后结合真实环境里的rollout做数据飞轮迭代。

机研所：采集数据时怎么取舍？你们提过"熵在哪里，数据就投向哪里"。

周而进：技术不能用二元论看，说我要这个还是不要那个，这很荒谬。每一份数据都有优势和劣势。真机遥操数据、外骨骼数据、ego第一视角数据，我们都会用。落到产品机需要高精尖的遥操数据，基模需要广泛认识各种场景所以ego data也用，低速导航仿真就很好。每份数据解决不同问题。

举个例子，我们想识别各种商品SKU，靠自己采根本采不完。互联网多模态数据里有各种商品SKU、有对万物识别的理解，能补充那部分知识就应该吸收进来。核心是找到能提供信息量最大、熵最高的数据源，让它在基模训练里被吃进来，同时别的场景不掉点。

机研所：行业里VLA和世界模型有很多路线之争，你怎么看？

周而进：我们觉得很奇怪，今天好像还有站队一说：我站世界模型一队，还是站VLA一队。这些态度都非常荒谬。我们更多还是回到目标上：你要解决未来更长程、更好的规划，要出动作，也要出未来预测，两者其实形成一个闭环，相互之间是能够影响的。

什么样的框架能把这两个东西都吃在一起？所以我们是把世界模型和VLA做联合训练的方案。

一定是从要解决的问题倒推。否则天天会陷入一种问题：这种架构是不是最终答案？VLA会不会被颠覆？这些问题没有意义。重要的是我们要解决的问题，当下框架有什么问题、能不能解。如果不能解，就拿数据去看应该补哪些模块进来，然后去试。

机研所：DM0的2.4B模型是什么定位？是不是不相信更大模型？

周而进：不是不相信大。内部4B、8B以及更大尺度都在做。但做这些需要有参考。我需要知道一个2.4B的模型在准确率和基础能力上到底能做到哪里。这也是对我们自己认知的校准：像Table30这类桌面简单任务，是不是在这个参数规模下就能做好？

如果2.4B已经做到这样，4B理论上应该比它好得多。如果没做到，要么数据不对，要么训练方法不对。核心是回到一个科学尺度上。同时我们做出来也开源，完全不介意把花时间拿到的认知告诉行业。

Table30里，我们在Specialist上做到了60多分的成功率。但不是平均每个任务都是60%，分散很大。很多任务比如简单的pick and place、堆叠方块、翻找物品，其实能做到100%。

护城河与行业格局

机研所：为什么一开始就选择开源？

周而进：因为希望有更多生态。我们一开始做具身智能时非常痛，没有好用的codebase，没有好用的benchmark，无法对比。很多学术成果到底好不好？论文里说的和我们自己复现出来的结果没有办法公平对比。

所以完全出于自用角度，我们把基础设施都做了。做完发现行业也都有诉求。具身智能除了To B方向，我们也在做教育方向，对外做教育类科研机型，需要一个好的生态。开源是最简单直接的共享方式。

机研所：开源会不会让护城河变薄？

周而进：护城河不会在这边。护城河本质上还是整个system的基建，软硬一体化产品更新迭代的速率，以及最后落地的业务场景。核心是时间积累。

任何一个单点算法也好、模型也好，你想得到，难道别人想不到吗？就算先想到半年，别人半年后也可能想到了。以前我们做CV时也是这个逻辑：一个idea，CVPR八页纸就能说明白。你想把这个东西当成公司的护城河，是非常荒谬的事情。

真正的护城河一定来自于你在某一个方向上长期积累的复杂性，比如一整套从生产到最后落地部署的基建。这东西有时间不可压缩性。或者说在一些长期客户场景里，和客户反复迭代整套生产系统，已经完全嵌入进去，这才是真正的护城河。

机研所：RoboChallenge上你们拿了第一名，有没有人说你们既当裁判又当运动员？

周而进：有，很多。但我们问心无愧，所有做的事情都开源了，今天也有新玩家超过我们了。比赛公开公平，任何人好好做算法就能取得更好成绩。

拉长时间线看这些都是噪声。本质上看两件事：比赛是不是公平公正，测试的东西是不是在不停演进。去年推出第一期30个桌面任务考题，最近推出了V2增强泛化性测试。内部也是两个团队隔离：一个专门做比赛，一个做算法迭代。

机研所：今年会不会是具身智能的淘汰赛之年？

周而进：每年都在进淘汰赛。融资变得越来越火，也是淘汰——跟不上融资节奏的公司会被淘汰。融资不火、行业降温，也是淘汰——没有造血能力或商业化落地能力的会被淘汰。一直在淘汰，只不过是在不同维度。

节奏把握很重要。一方面技术要不停尽可能跑得更快；另一方面商业化维度不能落下。

机研所：最终行业会走向什么形态？几家大公司垄断，还是分层分化？

周而进：物理世界和软件最大的区别——软件可能很容易收敛到几家。今天大模型做到某阶段后，大家都是卖token，你的效果比别人好，所有人很快选择你。

但物理世界不是这样。物理世界有太多长尾，太多local minimum。我今天在物流行业机器人做得好，换一个别的工业场景，构型、整套system可能完全不一样。真实世界很多行业都是这样，会有很多局部区域，每个区域都会分化出来。尤其机器人是硬件，和场景高度耦合。

最后会不会有大型巨头垄断？没有理由说不可能，但可能需要更长时间周期。并不妨碍未来一到两年，在某些细分领域逐步冒出能把完整system跑起来的公司。包括我们也希望自己能在物流行业第一个先闭环。

机研所：具身智能是不是也要经历和自动驾驶一样长的模型迭代周期？

周而进：所有事情都在加速。AI领域足够开放，很多子领域里别的领域花了很长时间探索出来的东西，在这个领域会被继承。

比如Transformer在NLP领域2017年就发表了，中间探索了很长时间。但语言模型探索出来的结果很快迁移到多模态大模型上。视频生成也很快把这一套东西迁移过来。

跨学科知识迁移和复用非常快。整个技术演进一定是加速的。

结语

具身智能最终要回到物理世界里，而物理世界不讲道理——模型可以一夜之间刷新榜单，Demo可以一条视频传遍全网，但一台机器人从搬错东西到学会兜底，只能一个故障一个故障地熬过来。

周而进不太愿意谈护城河。

在他看来，一个idea CVPR八页纸就能说明白，一个算法领先半年别人就能追上来。真正拉开差距的，是谁先在客户的仓库里把整套系统跑通——部署、故障、接管、回流、复盘，循环往复，直到机器人变成客户愿意长期续费的生产力。

这不是一个模型能解决的，而是一整套系统在真实世界里反复磨合的过程。

【声明】内容源于网络

大蒜粒机研所

上海大蒜粒科技旗下AI机器人研究平台

内容 0

粉丝 0

大蒜粒机研所上海大蒜粒科技旗下AI机器人研究平台

总阅读0

粉丝0

内容0