机器人产业研究系列三：未来机器人的大脑——机器人大模型行业发展趋势- 大数跨境

首页

机器人产业研究系列三：未来机器人的大脑——机器人大模型行业发展趋势

CCID苏州赛迪

2024-09-04

导读：本期内容主要从人工智能大模型的细分领域——机器人大模型的概念定义、国内外主要产品及行业发展趋势等角度简要阐述产业现状及未来发展形势。

本期内容主要从人工智能大模型的细分领域——机器人大模型的概念定义、国内外主要产品及行业发展趋势等角度简要阐述产业现状及未来发展形势。

机器人大模型的概念及必要性

早期的机器人主要被设计为执行特定任务的专用设备，如工业生产线上的机械臂、服务业中的自动清洁机器人等。这些机器人通过预设的编程和精确的工程设计，在限定的环境中完成特定的任务，具备高效的执行能力。随着社会对自动化需求的不断提高，专用机器人的局限性逐渐显现，人们开始追求更具通用性的机器人解决方案。这一目标的实现高度依赖于大模型的应用，大模型凭借其庞大的先验知识库和强大的通识理解能力，能够满足泛用型机器人在不同场景和任务中的通用性需求，不再局限于单一任务的执行，增强了机器人的泛化能力。

以谷歌为代表的企业已率先开始探索机器人大模型的应用。2022年谷歌推出的SayCan模型，首次将大语言模型与机器人任务执行相结合，通过理解自然语言指令生成并执行任务操作。这一尝试开创了机器人应用的新范式，奠定了大模型在机器人领域的重要地位。通过机器人大模型的赋能，机器人有望成为未来最具影响力、不可替代的生产工具。

全球企业主要产品及迭代

1. 谷歌PaLM-SayCan

2022年4月，谷歌推出了SayCan模型，首次将大语言模型引入机器人任务执行领域。SayCan模型通过与谷歌的大语言模型结合，将获得的任务进行分解，找到最适合当前行动的策略。随后，模型会计算出机器人成功执行这一任务的概率，最终通过机器人的操作来完成任务。这是大语言模型首次被用于帮助理解任务，SayCan只能使用预设的动作来完成特定任务，底层技能的通用性和泛用性仍处于较低水平。

▲ 图 1：SayCan模型如何利用大语言模型生成任务建议，并结合环境感知来选择和执行最合适的任务（来源：《Do As I Can, Not As I Say: Grounding Language in Robotic Affordances》）

2. 谷歌RT-1

2022年12月，谷歌推出了RT-1模型，是专门为机器人领域设计的Transformer模型。RT-1模型通过结合图像和文本指令，将特定的机器人指令与相关图像相匹配，经过Transformer模型解码得到离散的动作指令。该模型能够在复杂环境中识别任务目标，并生成适合当前情境的操作方案，在任务执行的准确性和响应速度上有所提升，但仍然依赖于预先定义的任务类型，尚未实现完全通用的技能应用。

▲ 图 2：RT-1通过预训练的 FiLM EfficientNet 模型将图像编码为Token，再通过 TokenLearner 对其进行压缩，然后经Transformer输出动作Token（来源：《RT-1: Robotics Transformer for Real-World Control at Scale》）

3. 谷歌PaLM-E

2023年3月，谷歌与柏林工业大学合作推出了PaLM-E模型，专门设计用于机器人控制领域。PaLM-E模型是首个多模态具身视觉语言模型，通过结合图像和自然语言输入，基于丰富的多模态模型知识对任务信息进行理解和处理，并分解成特定的机器人指令。该模型能够处理视觉数据与语言描述之间的复杂关联，再通过RT-1模型将特定的机器人指令转化为对应的机器人控制指令，使复杂的任务分解为简单的步骤进行完成，具备了更强的抗干扰性和知识能力，使机器人能够在多样化的环境中自主完成复杂任务。

▲ 图 3：PaLM-E将大模型的能力引入到机器人控制领域（来源：《PaLM-E: An Embodied Multimodal Language Model》）

4. 谷歌RT-2

2023年7月，谷歌基于RT-1的数据集，以PaLM-E的VLM（视觉语言模型）作为主模型进行迭代，推出了RT-2模型，专门用于提升机器人的多模态感知和决策能力。RT-2模型通过结合视觉、语言和动作输入，采用Transformer架构来处理这些信息，并生成精确的机器人操作指令。相较于SayCan与RT-1的分拆执行的双层模型架构，RT-2在训练模型时候就学习视觉、语言、机器人行为，直接产生动作输出，显著增强了机器人在新环境中的任务泛化能力。

▲ 图 4：RT-2通过思维链生成相应的行动计划，并发出指令控制机器人完成相应行动（来源：《RT-2: Vision-Language-Action Models》）

5. 谷歌RT-X

2023年10月，谷歌发布了由控制模型RT-1-X和视觉模型RT-2-X组成的全球最大通用大模型——RT-X，并开放了训练数据集Open X-Embodiment，其汇集了来自21个机构的22个不同机器人的海量数据。RT-1-X/RT-2-X相比RT-1/RT-效率大幅提高，但架构完全相同，性能的提高完全依靠其全新数据集提供的数据训练。RT-X最重要的意义在于创造了一个仍然在持续增长的共享与开源的数据集，为全球相关的研究者和开发者提供了丰富的资源。

▲ 图 5：RT-X模型概述——RT-1与RT-2在数据集的帮助下训练成RT-1-X与RT-2-X（来源：《pen X-Embodiment: Robotic Learning Datasets and RT-X Models》）

6. 微软ChatGPT for Robotics

2023年2月，微软推出ChatGPT for Robotics，其基于OpenAI的GPT-3.5模型的自然语言处理系统，专门用于增强机器人与人类之间的交互能力。ChatGPT for Robotics通过自然语言输入，结合语义理解和代码生成能力，将复杂的指令转换为机器人可以直接执行的操作代码。与传统的机器人编程方式相比，ChatGPT for Robotics无需依赖具体的编程语言，用户可以通过简单的自然语言描述，让机器人执行复杂任务，有效降低机器人使用门槛。

▲ 图 6：ChatGPT for Robotics进行机器人任务规划和执行的四个步骤：定义任务相关的API库、根据工程原则构建提示、通过用户反馈迭代提高解决方案质量和安全性，最后执行任务。（来源：《ChatGPT for Robotics: Design Principles and Model Abilities》）

7. 成都人形机器人创新中心R-DDPRM模型

2024年7月，成都人形机器人创新中心发布了中国首个基于视觉扩散架构的人形机器人任务生成式R-DDPRM模型。该模型基于正向扩散阶段和反向扩散阶段的深层生成模型，从扩散架构的底层逻辑应用于人形机器人核心技术研发，加强了人形机器人在复杂任务中的稳定泛化。但该新模型采用的新扩散架构技术成熟度相对较低，在计算负担和推理过程时间效率方面还有待优化。

行业发展趋势及展望

➢ 产业链上游，互联网软件企业正主导机器人大模型的开发，专注于构建端到端的大模型，涵盖人形机器人从感知、决策到规划和控制的整个流程，通过提供全面的AI解决方案来引领行业的发展方向。

➢ 产业链下游，传统机器人公司尝试将语言大模型集成到现有系统中，利用大模型来提升人形机器人的决策、推理等泛化能力，如智元机器人已经开始尝试采用结合了大语言模型（LLM）和视觉语言模型（VLM）的大型任务模型WorkGPT，提高机器人智能化程度。

➢ 上游互联网企业将在机器人大模型的构建中继续深化技术积累，下游传统机器人公司提供实际应用场景和数据反馈加快大模型技术的商业化应用。未来有望看到大模型在机器人领域的广泛应用，引领行业向更加智能化、精细化的方向发展。

赛迪先进制造研究中心朱泽西

关于“赛迪先进制造研究中心”

先进制造研究中心是苏州赛迪公司立足苏州、面向长三角、辐射全国的先进制造业研究单元，也是中国电子信息产业发展研究院（赛迪研究院）进一步提升强化服务地方政府决策支撑能力的业务承接和实施部门，研究中心在业务上与赛迪智库产业政策研究所联动。

研究中心围绕新能源汽车、工业母机、机器人、生物医药、高端纺织等领域，面向政府及企业提供全价值链服务。面向政府，充分发挥赛迪上接天线、下接地气优势，构建包括顶层设计、载体规划、资源导入等核心服务能力，助力地方产业换挡升级。面向企业，依托赛迪深厚的行业资源，积极开展联合研究、生态搭建、资源对接等业务合作，积极构筑先进制造合作生态圈，提供符合长三角地区经济高质量发展需求的研究咨询服务。

【声明】内容源于网络

CCID苏州赛迪

赛迪工业和信息化研究院集团(苏州)有限公司是工业和信息化部中国电子信息产业发展研究院在长三角区域的唯一综合性分支机构。围绕建设长三角一流高端智库的目标，苏州赛迪坚持数字化和信创两条业务主线，提供“产业研究-产业赋能-产业集聚”一体化服务。

内容 511

粉丝 0

CCID苏州赛迪赛迪工业和信息化研究院集团(苏州)有限公司是工业和信息化部中国电子信息产业发展研究院在长三角区域的唯一综合性分支机构。围绕建设长三角一流高端智库的目标，苏州赛迪坚持数字化和信创两条业务主线，提供“产业研究-产业赋能-产业集聚”一体化服务。

总阅读160

粉丝0

内容511