2025年,具身智能赛道拥挤喧嚣。当大多数人还在为炫酷的Demo狂欢时,原力无限正在进行一场关于“智能本质”的冷思考。
我们看到,简单的LLM复制并不能解决物理世界的复杂性,单一的技术路径难以跨越Sim-to-Real的鸿沟。如何让机器人从“看着聪明”进化为“真正有用”?如何打破“伪智能”的桎梏,构建通往AGI的实体桥梁?
近日,科技产业媒体「第一新声」深度专访了原力无限创始人、CEO白惠源与原力无限资深研究科学家陈佳玉博士。在这次对话中,陈博士不仅犀利地剖析了行业痛点,更首次深度拆解了原力无限“VLA保落地,世界模型攻前沿”的双线技术壁垒。
这是一个关于技术信仰的故事,更是一份通往具身智能下半场的行动指南。
以下为专访稿件全文:
能跑、能拿、能跳舞的机器人早已站上科技赛道C位。走进任何一家具身智能公司的实验室,会看到机器人已能完成各种令人惊叹的任务。
在资本与技术的双重加持下,这条赛道正以惊人增速领跑科技领域。然而,估值水涨船高的背后,是整个行业仍在等待那个真正引爆市场的“杀手级应用”。机器人不仅尚未跨越智能“门槛”,更陷入场景难落地的困境。
当前,具身智能尚未真正实现“智能涌现”。不够智能究竟表现在哪些地方呢?
从实际表现来看,对人形机器人而言“大脑”与“身体”的协同难题尤为突出。大脑会下达躯体、头部、手臂等部位的目标位置指令,但人形机器人全身自由度高达数十个,指令与动作往往难以精准匹配,形成决策与执行的错配。
而双臂机器人虽能快速响应位置指令,却卡在“大脑“决策环节。面对长时序任务或高复杂度操作,它们容易出错,缺乏在复杂情境下的灵活应变能力。
总体而言,当前具身智能最核心的短板,在于应对突发状况的应变力不足,以及从错误中自我恢复的自愈力缺失。
那么,为什么机器人始终难以实现真正的智能?
一个关键的原因在于行业对大语言模型成功路径的盲目追随。正如原力无限资深研究科学家陈佳玉博士指出:“人们在大语言模型上看到了‘数据+算力’的成功范式,就想把这一整套直接搬到机器人学习上。结果导致具身智能在‘大脑’层面缺乏独立探索,整体仍处于蹒跚学步的阶段。”
大语言模型的成功提供了一套看似清晰、可复制的技术范式,但是这套“抄作业”的思路,在具身智能领域遭遇了明显的“水土不服”,主要受限于两大因素:
首先是数据的匮乏。大语言模型之所以能借助海量文本实现强大泛化能力,根本在于语言是单一模态信息。无论是新闻、代码还是对话,都可以统一为文本进行处理,采集和清洗成本低、效率高。
而具身智能需要处理视觉、语音、触觉、动作控制等多模态信息,不同模态数据的采集逻辑差异巨大,导致数据积累成本高、难度大。缺乏高质量、大规模的数据“喂养”,机器人自然难以应对未知场景,更无法实现自主纠错与恢复。
其次是跨模态协同带来的复杂性。大语言模型只需处理文字逻辑,不同文本间的关联是线性、可预测的,但机器人要同时完成看到物体、听懂指令、摸到质感、做出动作的闭环。
陈佳玉博士举例道,“让机器人拿起桌上的杯子,它得先通过视觉判断杯子位置,再结合语言指令理解‘轻拿’的要求,同时靠触觉反馈调整握力,最后通过动作控制完成抬手、抓取的连贯流程。”
这每一步的信息协同都需要精准匹配,而这种多模态信息的协同本身就是难题,再加上不同机器人的本体结构不同,动作空间更是千差万别,使得机器人结合多模态信息并做出反应的难度呈指数级上升。
这种智能能力的不足,也直接拖累了具身智能在真实场景中的落地进程。
如今走进任何一场科技展会,都能看到机器人表演抓取、倒水、甚至跳舞,但这些亮眼的Demo,到了真实场景里却很难真正胜任。
在工业场景中,机器人往往难以真正替代人力。不少企业宣称机器人能替代人力,但实际应用中,机器人的操作效率远低于熟练工人,且对场景适配性较差。面对不同规格的零件、流水线微小变动,就可能出现操作失误,若是碰撞导致故障而停机维修,反而给企业增加了设备维护和生产停滞的隐性成本。
在家庭场景中,机器人则跳不出单一功能的孤岛。当前的家庭服务机器人大多只能专注一项任务,未能实现多场景的部署。扫地机器人无法兼顾擦窗,洗碗机器人不能处理台面污渍,想让一台机器人既扫地又洗碗,甚至根据家人需求调整动作,几乎不可能。
尽管瓶颈显著,行业的探索并未止步。面对数据与协同的双重挑战,不同技术路线正逐渐成形,试图在感知、决策与控制等环节实现突破,为具身智能的下一步发展寻找可行路径。
在具身智能从实验室走向产业化的过程中,技术路线选择成为核心焦点。当前产业界已分化出两条核心技术路径,一是以快速落地为锚点的VLA(视觉语言动作模型),二是以突破泛化为目标的世界模型。
在行业迫切需要从0到1验证商业价值的当下,VLA这条有成熟践行经验的技术路径率先跑出。
VLA是如何让机器人听懂指令、完成动作的呢?
其核心逻辑是延续大语言模型“token化”的思路,将视觉图像、语言指令、动作等多模态信息,统一拆解为离散化的“token”,通过监督学习直接建立输入、输出的映射关系,让机器人通过模仿学习快速掌握具体任务。
以日常指令“接一杯咖啡”为例,在VLA系统中不是一个模糊的需求,而是能够被拆解为一系列标准化动作。陈佳玉博士解释道:“VLA会将指令转化为可执行的动作序列,移动机械臂至杯子上方、控制夹爪力度握紧、平移至咖啡机出水口、触发冲泡按钮、等待设定时间,最后将咖啡移至指定位置并松开,每一步都依照标准化的动作列表。”
这套看似连贯的操作,并非依赖复杂的逻辑推理,而是基于海量动作数据训练出的“条件反射”。VLA通过数据驱动的模式,学会将指令映射为预设的动作列表,相当于照着脚本模仿,本身并不具备自主的智能推演能力。
得益于这种技术架构,机器人研发的效率得到了显著提升。
一方面,开发者无需重新设计整体系统结构,仅需调整或替换输出模块,就能适配新任务,大幅缩短了研发与部署周期。另一方面,模型可通过增加数据和提升基座大模型能力实现迭代升级,有效降低了长期设计与维护成本。
更重要的是,VLA打破了以往只能在单个任务上训练大模型的局限性,让机器人第一次拥有了将语言意图、视觉感知与物理动作整合成连续决策的能力,让具身智能更加通用和泛化,极大缩短了指令理解和任务执行之间的距离。
正因如此,VLA已成为当前具身智能领域应用最广的技术路径之一。2025年以来,多家科技巨头与创业公司陆续发布自研VLA模型,赛道竞争日趋激烈。
然而,VLA也并非万能钥匙,其深层瓶颈正随场景复杂化逐渐暴露。
首先是数据采集难度大、成本高。VLA的训练依赖大规模、高质量的多模态数据集,需同步采集视觉、语言与动作信息。然而,当前具身硬件商用化程度低,数据采集成本高、可扩展性差,制约了模型的进一步发展。
其次是长期规划与状态跟踪能力的缺失。VLA通常由作为“大脑”的VLM(视觉语言模型)和作为“小脑”的动作模型构成,二者依赖语言指令直接驱动动作,缺乏对时序依赖的有效处理,也缺少长期记忆机制。这导致模型在复杂任务中容易出现步骤遗漏、逻辑混乱,甚至陷入行为停滞或目标误判,难以胜任需多步推理的长流程任务。
与VLA的路线截然不同,世界模型为机器人赋予了一种更接近“思考”的能力。它不直接教机器人“怎么做”,而是先让它理解“世界如何运作”。这一路径的核心,在于让机器人在执行动作之前,先学会感知并预测环境的变化。
陈佳玉博士指出:“VLA是从状态到动作的映射,而世界模型学习的是从当前时刻的状态到下一时刻状态的预测,它让机器人能够基于对物理规律的认知进行自主规划。”
世界模型是怎么教会机器人自主规划与泛化能力的呢?
世界模型通过编码物理世界的底层规律,在虚拟空间中构建出一个可推演的数字环境。在执行真实任务前,机器人可在此模型中预演多种动作路径,并推断其后果,从而自主规划出最优操作序列。
陈博士以“在桌面移动杯子”的任务为例进行说明:“世界模型能够预测到,如果杯子被推到桌边仍继续移动,就会因重力掉落。基于这种对因果关系的理解,机器人会在规划阶段主动避开边缘区域,生成安全可靠的动作序列。”
整个过程不是对训练数据的简单复现,而是基于物理规律预测和风险规避的自主推理。
世界模型的独特优势在于其能够进行事实推理。也就是说,当接到指令时,世界模型不会依赖预设的动作脚本,而是先在内部模拟场景变化。整个过程的动作序列都是基于预测后果和规避风险的逻辑生成的,而非重复训练数据中的动作。
正是因为这种机制,使机器人从“重复学到的动作”升级为“理解行为背后的逻辑”,从而显著增强在动态环境中的应变与决策能力。也因这一潜力,世界模型已成为具身智能领域备受关注的研究方向。
陈博士认为,世界模型能够达到的技术天花板更高。不过,世界模型目前仍处于发展早期,尚未进入成熟应用阶段。
首先在于技术路线尚未统一。世界模型需要同时捕捉几何结构、物理规则与因果关系,建模复杂度极高,导致研发投入巨大、周期漫长。
其次是模拟到现实的迁移差距显著。虚拟环境中的推演无法完全匹配真实世界的复杂性,导致生成的动作指令在实际执行时经常出现偏差。
因此,尽管世界模型在理论上代表了一条通向通用智能的可行路径,但目前仍更多停留在研究与原型验证阶段,尚未实现规模化商业落地。陈佳玉博士预测,至少需要三到五年时间,世界模型才能真正跑起来。
VLA与世界模型并非彼此替代,而是在不同阶段、不同场景中互为补充。在两条路线的交织演进中,具身智能正逐步跨越从演示可行到真正可用的关键门槛。
在具身智能行业仍处于技术验证与场景探索的早期阶段,原力无限凭借清晰的商业化路径与高度务实的产品逻辑,展现出一种独特的“杀手气质”。
正如其创始人白惠源所言:“我们的杀手气质,不是为了杀死竞品、让行业内卷,而是体现在追求极致、不破不立的决心,敢于触碰别人不愿涉足的复杂领域,让用户享受更优质的服务和更好的体验。”
基于这一理念,当前原力无限的商业图景已初见成效。原力无限FORCE系列已经在全国20多个核心城市落地,服务数千万的新能源车主。而AstroDroid系列机器人已拿到2.6亿元订单,面向家庭、文旅、服务等场景,能够适配多样需求。
原力无限为何能够快速实现商业落地?
这并非单一优势的偶然爆发,而是源于其在全链条团队、双线技术路线与场景聚焦三个维度上的协同。这种协同使其在有用与前沿之间找到了关键平衡,既避免了纯算法探索的资源空耗,也跳出了单一技术路径的发展局限,在落地中迭代。
三类人才协同,打破技术断层
具身智能的突破离不开科研、工程、硬件的协同,原力无限搭建的“三驾马车”团队架构,恰好补上了行业普遍存在的能力断层短板。
白惠源介绍道,“原力无限的团队成员一类具备深厚的科研实力;一类拥有成熟的工程化能力,之前在智驾领域有成熟落地案例,能直接借鉴到具身智能领域;还有一类专注于硬件设计与控制,来自传统机器人领域,负责本体和小脑侧的运动控制与设计。这三驾马车共同确保,未来不管是在技术、产品还是在商业化能力上,原力无限能在行业处于第一梯队的位置。”
原力无限的科研引领层以资深研究科学家陈佳玉博士为核心,他深耕多模态大模型与强化学习领域多年,而强化学习正是机器人“大脑”后训练与“小脑”高难度运控的核心技术,多模态大模型则是VLA路线的底层基座,这些积累与具身智能研发高度契合。在他的带领下,团队可以在前沿方向延伸,避免了技术探索的盲目性。
而工程落地层的核心成员多为智能驾驶及主机厂背景,自带全流程工程化经验。从数据采集、清理到标注,他们能快速搭建起数据与模型的闭环体系,有效支撑模型训练所需的海量真实数据,大幅降低数据采集成本,为技术落地提供坚实支撑。
硬件支撑层则汇聚了传统机器人领域的资深人才,专注于本体设计与运动控制。这一布局自主掌控硬件设计,既能避免依赖外部本体导致的API调用限制,也能让“大脑”的决策指令与“身体”的运动能力精准匹配,为人形机器人解决高自由度运控难题,实现大脑、小脑、本体的深度协同。
三类人才形成的合力,让原力无限既能深耕算法前沿,又能搞定工程落地,还能自主优化硬件适配,构成了难以复制的核心壁垒。
面对VLA的落地优势与世界模型的未来潜力,原力无限选择双线并行的技术路线,既保证当下能落地,也抢占未来制高点。
陈佳玉博士解释选择两条技术路线并行的原因,“VLA的训练依赖于大量的数据,在真实世界去采集数据成本会比较高。世界模型就相当于是一个虚拟的世界,如果能有一个很好的世界模型,可以在虚拟的世界里采集大量的数据来训练VLA能够很好地节约成本。同时,世界模型作为前沿方向,能突破VLA的固有局限。”
在实用端,团队以VLA技术为核心,快速推进场景落地。依托工程团队的数据流能力,原力无限基于海量数据训练VLA模型,让机器人能快速掌握具体任务。该框架技术成熟、落地门槛低,能借助端到端架构实现感知与控制一体化,避免传统模块拼接的逻辑断层。目前,原力无限自主研发的Hyper-VLA端到端模型已实现突破,能将视觉、语言与动作控制深度贯通,模型在有限的数据与算力条件下,仍能高效进化。
在前沿端,团队布局世界模型研发。陈佳玉介绍团队技术攻坚的三大关键方向,“一是捕捉可泛化的因果关系,让机器人理解动作与结果的本质关联。二是构建以Agent为中心的世界模型,让机器人能基于自身体验持续更新对世界的认知,而非依赖第三方视角的通用数据。三是探索多时间尺度的预测能力,让规划更贴合真实世界的动态变化。”
这种布局既发挥了VLA技术成熟、易落地的优势,又通过世界模型突破了其数据依赖、泛化性弱的瓶颈,实现了短期实用与长期前沿的兼顾。
原力无限认为,未来通用智能诞生的挑战不仅仅是模型和算法之战,更是如果高效获取数据、增加数据的有效性和增广之战。白惠源透露,在数据这个方向上,原力无限还有更多杀手锏技术即将发布。
聚焦场景落地,制定长期战略
原力无限的所有布局都围绕“落地”展开。在白惠源看来,“我们做人形机器人最核心的一个目标其实就是面向通用性。它不是为了解决某个特定的问题,而是能在更多的泛化场景下去实现自己的能力。”
当前,原力无限构建出清晰的战略路径。短期来看,团队聚焦工业制造与商业服务等可控场景,以可快速部署的产品验证技术实用性。在商业场景,FORCE系列机器人已在多个核心场景落地,这些产品的落地不仅带来了实际营收,更重要的是形成了数据飞轮。机器人在真实场景中持续产生数据,反哺模型优化,让后续产品的泛化能力不断提升。
而长期来看,原力无限则瞄准家用人形机器人,通过“一脑多身”架构打破传统机器人单任务专用的局限,实现跨场景的泛化能力。白惠源强调,“一脑多身”不仅仅是一种产品形态,更是一种数据战略。如果为每个场景单独造机器人,数据就是孤岛。但当我们用同一个大脑(Hyper-VLA)去驱动充电机器人、巡检机器人、陪伴机器人甚至未来的人形机器人时,不同场景的数据就开始产生化学反应。这就好比一个孩子,学会了在操场上跑步,这种平衡能力自然能帮助他在客厅里走路。原力无限正在构建的,就是这样一种通用的物理世界通用智能。”
具身智能从蹒跚学步到稳步前行,依然道阻且长。当前行业都尚未真正突破通用能力的临界点,在技术路线逐渐分野、落地逻辑日趋清晰的当下,原力无限走出了一条不唯技术论、而以落地为导向的路径。“杀手气质”并非一句口号,而是一种在复杂系统中找准发力点的能力,找到持续进化的平衡。
原力无限的实践或许只是行业演进中的一个切片,这条路没有捷径,但每一步有效的落地,都在为行业校准方向。

