点击上方联想控股微空间→右上角···键→设为星标⭐
能够自主观察、理解并行动的具身智能机器人,正成为研发焦点,其核心突破在于通过“端到端”技术路径,将复杂的环境感知与实时决策融为一体,让机器真正具备了在动态现实场景中从“被动执行”向“主动服务”演进。
能力拆解:
“眼里有活儿”的本质是什么?
对人类而言,“眼里有活儿”是一种基于社会经验和情景判断的综合能力。对机器人而言,这意味着一场能力维度的全面升级,其本质是四大核心能力的融合:
● 多模态感知与融合:不再依赖单一视觉,而是综合运用视觉、听觉、力觉等多种传感器,像人类一样“眼观六路,耳听八方”,全面构建环境模型。
● 场景语义深度理解:不仅能识别“杯子”、“老人”,更能理解“杯子在桌沿可能掉落”、“老人起身动作缓慢意味着需要帮助”这类对象间的动态关系和潜在意图。
● 自主任务推理与规划:将“为老人提供帮助”这样的高层目标,自主拆解为“移动至身旁”、“伸出机械臂支撑”、“协同行走”等一系列链式动作决策。
● 长期记忆与学习:能够记住用户的习惯和偏好,实现服务的个性化迭代。例如,记住你下班后通常先喝水而不是喝咖啡。
传统机器人是在明确的指令程序下“听话”执行,而“眼里有活儿”的机器人,是在此基础上,通过端到端多模态大模型实现从感知到决策的“一通到底”,让机器人真正学会“思考”。
如何实现?
端到端技术路径打通任督二脉
实现上述能力,过去需要多个独立模块(感知、识别、规划、控制)拼接,过程复杂且容易“失真”。而“端到端”技术,旨在将感知信号到控制指令的整个过程,用一个统一的模型来实现,极大提升了信息处理效率和决策的智能性。
当前,部分国内企业已在端到端的技术路径上进行深度探索。
君联资本、联想之星共同投资企业自变量机器人作为国内较早探索端到端具身智能大模型的公司,其自主研发WALL-A系列VLA(Vision-Language-Action)操作大模型,构建了统一的认知与行动框架。模型能够同时处理感知、推理和行动,直接进行跨模态的因果推理和行动决策,让机器人能够在真实物理世界中,像人类一样思考和工作。
自变量机器人同步开源了其大规模真实数据训练的具身基础模型WALL-OSS。WALL-OSS具备强大的泛化性和推理能力、良好的因果推理、空间理解和反思能力,在长程操作任务方面表现优于其他基础模型。
君联资本、联想创投共同投资企业Dexmal原力灵机是一家专注于具身智能软件、硬件技术研发与落地的创新型公司,其研发的MMLA技术,深度融合传感器数据、大语言模型(LLM)、视觉语言模型(VLM)、视觉语言动作模型(VLA),初步实现跨场景、跨任务、跨机器人构型的智能泛化。与传统机器人相比,MMLA让机器人不再需要人类的明确指令,而是能自主判断环境、识别需求并采取行动。
Dexmal原力灵机已开源基于PyTorch的VLA工具箱——Dexbotic,为具身智能领域从业者提供一站式科研服务;推出机器人开源硬件产品——DOS-W1(Dexbotic Open Source-W1),大幅降低机器人的使用门槛,提升机器人维护和改造的便利性。
发展前景:
从“工具”进化成“机器人伙伴”
技术的终极目标不是替代,而是补位。让机器人去承担那些重复、枯燥或高强度的劳动,让人类回归更具创造性的工作,这才是智能时代人机协作的正确打开方式。
市场前景印证了这一趋势。据国务院发展研究中心预测,中国具身智能产业市场规模有望在2030年达到4000亿元,并在2035年突破万亿元大关。这一数据背后,是全社会对提升生产效率和服务质量的迫切需求。
随着端到端技术路径的不断成熟和产业生态的协同推进,我们即将迎来一个机器人从“工具”向“伙伴”转变的临界点。未来,它将不再是那个需要你事事下达命令的冰冷机器,而是一个能提前预判、主动服务的智能存在。
参考链接
>《Dexmal原力灵机完成近10亿元融资,君联资本持续跟进》
>《Dexmal原力灵机官方微博》
>《自变量机器人完成近 10 亿元 A+ 轮融资,多元资本押注共同布局具身智能未来》
>《以具身基础模型驱动产业生态发展,自变量机器人释放真实落地需求》
>《报告显示:中国具身智能产业市场规模2035年有望突破万亿元》

