随着人工智能向智能体自主交互新阶段加速演进,具备自主决策、多模态交互、工具调用能力的智能体已深度渗透政务、金融、教育、汽车等关键领域,成为产业数字化转型的核心驱动力。但智能体规模化落地过程中,数据泄露、行为失控、权限越界等安全风险也日益凸显,严重制约产业健康发展。为筑牢智能体应用安全防线,推动行业规范发展,中国信息通信研究院正式启动2026年第一批智能体安全系列评测,从场景任务类智能体安全、行业任务类智能体安全、智能体应用安全保障能力、智能体应用安全成熟度4大维度构建全体系评测框架,为智能体安全应用树立权威标尺。
本系列评测面向智能体应用开发、服务提供方开展的智能体安全和可靠性专项评估。评估覆盖智能体任务规划、决策、任务执行、工具调用、协议、交互等关键环节,重点评估内容安全、数据安全、隐私安全、场景安全等方面的关键指标。本系列评估均是首批评估。
场景任务类智能体安全评测
客服智能体安全评估:针对客服智能体在多行业落地中的安全风险,从鲁棒性、稳定性、偏见、幻觉、数据泄露等多个维度,对客服智能体的安全能力进行评估。
GUI-Agent安全和可靠性评估:针对图形用户智能体(GUI-Agent),围绕其感知、决策、执行、迭代等核心环节开展安全测试,聚焦感知准确性、决策合理性等测试维度,排查图形交互场景落地中的误操作、恶意利用等安全隐患,全面检验GUI-Agent的安全可靠性。
行业任务类智能体安全评测
教育智能体安全和可靠性评估:针对教育智能体开展安全测试,聚焦内容输出、数据保护、交互引导、权限管控等核心环节,重点测试内容准确性、未成年人保护等维度,排查教学场景落地中的不良内容传播、信息泄露等隐患,全面检验教育智能体的安全能力,适配教育行业特殊安全需求。
车端智能体安全和可靠性评估:针对车端智能体开展安全与可靠性测试,围绕数据处理、行为控制、攻击防护等核心环节,重点测试数据安全、行为控制准确性等维度,排查车载场景落地中的行车安全及数据安全隐患,系统检验车端智能体的安全可靠性能,为其合规落地提供测试支撑。
智能体应用安全保障能力评测
智能体互操作安全评估:针对智能体的互操作安全,围绕多智能体在通信安全、数据安全、运营安全等方面的互操作安全性开展评估测试。
模型上下文协议应用安全评估:针对模型上下文协议应用安全,围绕其通信安全、数据安全和服务安全三个维度的安全要求,聚焦权限控制、身份鉴权、通信加密、数据监控、关键数据防护、环境隔离等多个关键位置的安全要点,开展安全能力评估测试。
智能体应用安全成熟度评测
智能体应用安全分级:针对智能体的不同应用场景、风险等级及影响范围开展安全分级评估,明确分级依据、指标与标准。围绕数据敏感度、操作权限等核心维度划分安全等级,明确各等级防护、测试及管控要求,支撑分级管控与精准防控,确保智能体应用安全适配场景需求。
邹老师 13683690412 zouhao@caict.ac.cn
陈老师 13661070401 chenjie7@caict.ac.cn
陈老师 18500022046 chenwentao@caict.ac.cn

