随着人工智能技术加速向现实世界场景渗透,以OpenClaw为代表的智能助手正从概念验证迈向规模化应用。智能助手通过将复杂操作指令转化为对本地或远程系统的直接操控,实现从“信息处理”到“任务执行”的能力跨越,成为重塑人机交互范式与产业数字化发展格局的关键动能。中国信息通信研究院(以下简称“中国信通院”)人工智能研究所高度关注智能助手技术及应用发展动态,联合业界多家单位共同编制并发布了智能助手基准测试通用框架,并依据通用框架开展评估工作。
图1 智能助手(Claw)基准测试通用框架
智能助手基准测试通用框架围绕基础能力、应用能力和综合能力3个能力域,共计17个能力子域,形成覆盖智能助手核心能力的全维度评测体系。基础能力方面,关注智能助手人机交互与任务执行能力,包括理解交互、逻辑推理、检索核验、规划执行、状态记忆和工具技能等方面。应用能力方面,聚焦智能助手落地应用实效,包括软件工程、数据分析、创意写作、流程执行、文档处理、文件管理和网页操作等方面。综合能力方面,围绕智能助手多样化部署、系统化运营及安全可控性,包括多渠协作、工程运行、合规对齐和端侧应用等方面。
中国信通院人工智能研究所智能助手基准测试工作正在有序进行中,并拟于近期发布首批基准测试结果,欢迎相关单位及专家与我们交流。
联系人
张老师,15722924458
zhangxueqiang@caict.ac.cn
王老师,18755879708
wangyiru@caict.ac.cn
胡奕璇,15052927319
huyixuan@caict.ac.cn

