2025具身智能年度大横评：中国信通院构建具身智能权威评价标尺—

2025具身智能年度大横评：中国信通院构建具身智能权威评价标尺——EAI bench关键洞察

CAICT人工智能

2026-01-07

引言

在具身智能从实验室走向真实场景演练的关键阶段，构建一个“面向实际应用场景的”、“能支持多样化的技术方案和整机产品的”、“能提供客观评价依据的”具身智能基准测试方法，十分必要。如何通过基准测试系统性分析技术能力及脆弱点，明确每个场景任务的技术可达性，是行业持续关心的问题。中国信通院人工智能研究所于2024年初启动具身智能基准测试（简称“EAI Bench”）工作，以产业共建、国际引领为目标，联合40余家单位共同开展《2024-1328T-YD-人工智能关键技术具身智能基准测试方法》行业标准编制。目前该标准已报批定稿，并同步在ITU SG21推进国际标准立项。

2025年12月31日，2025年工业和信息化部人工智能标准化技术委员会年度全体会议于北京顺利召开。会上，《2024-1328T-YD 人工智能关键基础技术具身智能基准测试方法》行业标准正式定稿，并发布可信AI—具身智能基准测试（EAI Bench）首批测试结果（Y2025Q4）。

‹‹

EAI Bench评测工作介绍

››

EAI Bench是首个面向产业的具身智能基准测试方法。

紧贴行业需求，统一评价尺度。目前已开放15个场景赛道，覆盖14个通用能力评测。

涵盖模型和部署模型的整机系统2类评测对象，适用于不同技术路线（如VLM、VLA、世界模型等）和不同形态整机（轮臂、双足、机械臂、四足狗）。

支持虚实结合测试，涉及仿真和真实2类评测环境。

模拟现实场景干扰，量化τ1~τ3三种干扰强度，考察系统对场景干扰的应对能力。

2025年第四季度可信AI—具身智能基准测试（EAI Bench）首批测试结果（Y2025Q4）涵盖智元机器人（Agibot）、银河通用（Galbot）、聆动通用（LindenBot）、千寻智能（Spirit AI）、北京人形机器人创新中心（X-Humanoid）、零次方（Zerith）、智谱AI（Zhipu AI）等8家企业。其中6家企业，以部署模型的整机系统完成首轮测试。一是面向真实场景任务，智元机器人（Agibot）、银河通用（Galbot）、聆动通用（LindenBot）、千寻智能（Spirit AI）、北京人形机器人创新中心（X-Humanoid）、零次方（Zerith）等6家企业参与，涉及工业、家庭、零售、清洁和巡检五类场景，二是仿真环境下的模型测试，智谱AI（Zhipu AI）等2家企业的具身基础模型（视觉语言动作模型（VLM））完成基础任务、任务交互、任务推理、空间位置、场景外观、长线程五个维度能力测试。

首批测试涉及9个真实场景，评测能力设置如图1所示。EAI Bench首批测试希望回答三个问题：

1. 走进真实场景需要什么能力？

2. 参测对象具备哪些场景作业能力（技术可达性）？

3. 参测对象应对场景干扰的能力如何（现实场景干扰下的泛化性和鲁棒性）？

图 1 首批开放场景赛道的评测能力维度

‹‹

EAI Bench测试结果（Y2025Q4）解读

››

工业场景任务评测结果

工件分拣

工业场景下的工件分拣评测，该任务是操作任务，涉及抓取-放置和单双臂协同动作。通过单臂或双臂协同，抓取传送带上移动的工件，并分类放入对应类别的托盘中。

北京人形机器人创新中心参测软件和本体为慧思开物系统和天工2.0Pro。评测结果如下：

能力亮点：

——针对随机送到传送带上的工件（含不同姿态、操作区域内的不同位置）均能稳定抓取；操作节拍在2s/件。

——具备较好的双臂协作能力，在右臂错过工件抓取时，左臂能及时协同完成抓取。

系统现阶段限制：

——在放置工件时，偶有放在分拣盘边缘情况；

——大工件更容易抓放失败。双臂协作时，右臂更容易漏抓工件。

料箱搬运

工业场景下的料箱搬运评测。该任务是移动操作类任务，涉及抓取、移动和放置动作。需要抓取目标周转箱、移动搬运至目标区域、调整位姿并稳健放置（或插入货位）。

北京人形机器人创新中心参测软件和本体为慧思开物系统和天轶2.0、天工2.0 Pro。其中天轶2.0开展搬运场景的全体系能力测试，天工2.0 Pro仅开展基础任务测试。评测结果如下：

能力亮点：

——轮臂式在结构化搬运场景中展现较好稳定性，支持连续拆垛作业；

——欧标物料箱在视野可见范围内，支持在放置位置、料框角度偏移，以及欧标物料箱外观、尺寸变化情况下的稳定搬运；

——支持语音交互下达任务指令，能理解指令中的模糊语义和空间关系，并推理完成长程任务。

系统现阶段限制：

——天轶2.0在10kg负载搬运下，机器人仍有倾倒风险；在往高处取放箱子时，底盘容易晃动。泡沫箱和纸箱搬运仅支持单体抓放，不支持拆垛，未测试不同点位和高度搬运。

——天工2.0 Pro目前仅具备基础搬运能力。

包裹分拣

工业场景下的包裹分拣评测。该任务是操作任务，涉及抓取-放置-翻面和单双臂协同动作。需从料框里抓取包裹，放在导台上翻面，确保二维码朝上后送到主传送带上。

智元机器人参测模型和本体为GO-1模型和精灵G1。评测结果如下：

能力亮点：

——包裹外观泛化：系统支持不同衣物外观的包裹泛化，在无干扰情况下针对相同尺寸的包裹分拣完成率在100%。

——包裹尺寸泛化：针对4种包裹尺寸，均能稳定抓取，并翻面送到主传送带上。

系统现阶段限制：

——在不同尺寸包裹混合放置或包裹摆放混乱时，会出现多次尝试抓取，导致操作节拍下降；偶有包裹漏翻面（包裹分拣错误）情况。

家庭场景任务评测结果

桌面分拣

家庭场景下的桌面分拣评测，该任务是操作任务，涉及抓取-放置动作。需要机器人从桌面上抓取一个物品，并放到盘子里。

聆动通用参测模型和本体为iFlyBot-VLM+iFlyBot-VLA模型和具身智能采训推机器人LDT-01标准版。评测结果如下：

能力亮点：

——开展了12个通用能力评价，能很好适应光线、背景、桌面高度和平面位置变化；

——能稳定抓取不同尺寸、姿态和可变形体的物体；

——支持全程语音交互作业，能适应任务指令变化。

系统现阶段限制：

——任务交互方面，对语义中的物体空间关系理解有待持续优化；

——在物体姿态变化、高密度操作和长程任务执行下，抓取成功率会有一定程度损失。

叠衣服

家庭场景下的叠衣服任务评测。该任务是长程柔性操作任务，需要机器人把衣服抻平，并完成折叠，折叠过程中需抵抗衣物形态。

千寻智能参测模型和本体为Spirit VLA V1和ARX双臂机器人。评测结果如下：

能力亮点：

——支持衣物在桌面可操作区域内的任意位置摆放，能适应不同外观、不同尺码的短袖折叠；

——针对展平、随机堆叠、打乱衣角等不同堆叠状态的衣物，能较好完成衣物抖开、抻平和折叠动作；

系统现阶段限制：

——在持续高频的动态干扰情况下，任务得分会有所降低。

——即使针对未见材质（如衬衫、长袖等）的泛化性仍需进一步优化。

零售场景任务评测结果

物品打包

零售场景下的物品打包评测。该任务是多阶段操作任务，需将桌面上的至少3个物品分拣到购物篮里。

智元机器人参测模型和本体为GO-1模型和精灵G1。评测结果如下：

能力亮点：

——长程作业：3至5阶段连续抓放操作，任务流程契合真实商超收银场景；

——物品泛化：测试员商超店随机拣选，涵盖不同品类、不同材质和异形物品：

√物品品类：薯片、饼干、面包、牛奶、饮料、矿泉水、罐头、日化用品、生活用品等超市常见物品；

√物品材质：袋装塑料、光滑塑料、易拉罐、橡胶磨具、木块、纸盒、毛巾、海绵等；

√异形物品：圆形扁盒、方形扁盒、圆柱形、充气包装等物品分拣。

系统现阶段限制：

——系统在抓取表面光滑、异形物品时，容易出现多次抓取或物品掉落情况；

——物体位置、物体姿态变化会对成功抓取物品有较大影响；

——执行5阶段长程任务时，任务得分会有所下降。

售卖饮料

零售场景下的售卖饮料评测。该任务是移动操作任务，涉及抓取-移动-放置动作。需要机器人接收到物品订单后，自主完成饮料抓取-移动-饮料递送全流程。

银河通用参测模型和本体为GroceryVLA和Galbot。评测结果如下：

能力亮点：

——支持不同高度、不同品类、不同操作密度的物品抓取；

——支持一次包含多物品订单的长程“抓取-移动-递送”作业；且具备较好的任务理解和灵活调度能力。

清洁场景任务评测结果

清洁场景下的桌面擦拭评测。该任务是操作任务，涉及擦拭动作。需要机器人识别桌面污渍，并抓取工具，完成污渍擦拭。

零次方参测模型和本体为Zerith V0和Zerith-H1仿人七自由度双臂轮式机器人。评测结果如下：

能力亮点：

——能较好适应污渍颜色（可乐、芬达、绿茶、番茄汁、茉莉柚子茶（接近透明）、葡萄汁）、桌面背景、作业高度变化；针对3种完全未见污渍（测试员现场采购物品），也能有较好的污渍识别能力；

——在有障碍物情况下，能灵活规划并调整擦拭轨迹，动作策略适应性较好。

系统现阶段限制：

——在未见污渍、工具位置偏移和作业高度变化情况下，性能会有一定损失。

巡检场景任务评测结果

自主开关门

巡检场景下的自主开关门评测，该任务是移动操作类任务，涉及开关门和手臂，腰部与底盘的协调运动。需要机器人在接收到任务指令后，打开门、穿越门并关闭门。

北京人形机器人创新中心参测软件和本体为慧思开物系统和天轶2.0。评测结果如下：

能力亮点：

——能够适应门的不同颜色（绿色、蓝色、红色、黑色和透明等）、不同材质（铁栅栏、木质门、铁门等）；能自主选择不同开门方式（如推开、按压门把手、推拉等）；

——在光线变化、动态干扰等情况下，能准确找到门把手完成开门任务。

——支持连续打开、穿越并关闭门的长程移动操作任务。

系统现阶段限制：

——在长程作业中，会偶有开门失败情况；在长程作业中，会偶有开门失败情况；在暗光情况下打开黑门（门把手和门扇同色）时有较大挑战。

仿真场景—视觉语言模型（VLM）测试

仿真环境中针对2个视觉语言模型（VLM）评测，涵盖基础任务、任务交互、任务推理、空间位置、场景外观、长线程五个维度；输入数据包括任务指令和当前视觉观察状态（RGB图片），以任务成功率为评价指标。具体评测结果如下：

从图中可见，通用VLM在理解和执行具身任务时仍面临较大挑战，在空间关系、复杂场景理解和长程任务等方面仍有待进一步优化。

‹‹

下一步重点方向

››

后续，中国信通院人工智能所将依托具身智能测试实验室不断完善具身智能基准测试（EAI Bench）工作：

‹‹

咨询联系人

››

白老师 15501202911

张老师 13552276063

【声明】内容源于网络

CAICT人工智能

中国信通院人工智能研究所官方公众号。关注我们，了解中国信通院人工智能工作动态，了解人工智能技术研究、标准制定、评估测试、行业应用、产业发展、监管政策及国际交流等前沿进展。

内容 26

粉丝 0

CAICT人工智能中国信通院人工智能研究所官方公众号。关注我们，了解中国信通院人工智能工作动态，了解人工智能技术研究、标准制定、评估测试、行业应用、产业发展、监管政策及国际交流等前沿进展。

总阅读343

粉丝0

内容26