大数跨境

申请CNAS人工智能检测实验室政策解读以及针对5个难点的剖析

申请CNAS人工智能检测实验室政策解读以及针对5个难点的剖析 软件测试实验室认可
2026-05-26
1
导读:随着人工智能技术加速融入经济社会各领域,AI产品的质量保障、安全性评估与性能检测日益成为行业刚需。

随着人工智能技术加速融入经济社会各领域,AI产品的质量保障、安全性评估与性能检测日益成为行业刚需。

中国合格评定国家认可委员会(CNAS)于2024年8月1日正式发布新版CNAS-AL06:20240801《实验室认可领域分类》,首次将“人工智能产品与系统”作为独立的认可领域(代码15),标志着人工智能检测正式纳入国家认可体系。

然而,人工智能检测技术尚处于快速演进阶段,其检测方法与传统软件测试存在本质差异,实验室在申请CNAS资质过程中面临诸多现实挑战。本文将系统梳理政策环境、认可分类与申请要点,并重点剖析当前AI领域申请CNAS的核心难点,供拟申报该领域的机构参考。

一、政策环境与监管导向

1. 国家层面战略部署

2025年8月,国务院印发《关于深入实施“人工智能+”行动的意见》(国发〔2025〕11号),明确到2027年新一代智能终端、智能体等应用普及率超70%,到2030年普及率超90%,到2035年我国全面步入智能经济和智能社会发展新阶段。意见提出6大重点行动,特别强调“建立健全模型能力评估体系,促进模型能力有效迭代提升”,为人工智能检测提供了明确的政策导向。

2. 行业专项政策推动

“人工智能+制造”专项行动:2025年12月,工信部等八部门联合印发实施意见,明确提出要“研制一批质量检测、工艺优化、设备运维等场景专用小模型”。

计量支撑产业发展:2025年6月,市场监管总局、工信部联合印发《计量支撑产业新质生产力发展行动方案(2025—2030年)》,明确提出“开展人工智能算法计量测试关键技术研究及体系建立”“建设跨领域的人工智能计量测试平台”“推动建立人工智能风险等级测试评估体系”。

网络安全法修订:2025年10月修订的《网络安全法》新增第二十条,要求“加强风险监测评估和安全监管”,该条款已于2026年1月1日正式施行,为人工智能安全检测提供了法律依据。

地方政策配套:四川省、广东省、河南省等省份陆续出台地方性AI发展方案,多地明确提出“搭建人工智能产业检验检测平台,完善检验检测与标准体系”。

3. 国际动态

2026年3月,CNAS在国际认可会议上明确将ISO/IEC 42001人工智能管理体系纳入工作组研讨范围,全球AI治理与标准化进程持续加速。

二、CNAS人工智能检测领域完整分类

根据CNAS-AL06:20240801《实验室认可领域分类》,人工智能产品与系统作为第15个一级代码,下设3个二级代码,具体分类如下:

15.人工智能产品与系统

1501.智能算法
150101
深度学习算法基础性能
指深度学习算法在规定条件下和规定的时间内,正确完成预期功能且不引起系统失效或异常的能力。如:(1)查准率;(2)查全率;(3)准确率;(4)响应时间。
150102
深度学习算法安全性
指深度学习算法在面临各种潜在威胁和攻击等情况下保证其正常功能和隐私保护的能力。如:(1)可控性;(2)鲁棒性;(3)完整性;(4)隐私性。

150103
预训练生成式模型基础性能
指生成式模型在未经特定任务微调之前所具备的一系列基本能力。如:(1)文本归纳能力;(2)信息抽取能力;(3)逻辑推理能力。

150104
预训练生成式模型安全性
指预训练生成式模型在面临各种潜在威胁和攻击等情况下生成内容的可信度和可靠性。如:(1)攻击成功率;(2)对抗样本拒绝率。

150199
其他


1502.智能芯片
150201
云侧深度学习芯片
指以大数据集中式处理和并发业务请求为主要特征的数据中心场景使用的深度学习芯片。如:(1)服务器集群;(2)先进计算集群。
150202
边缘侧深度学习芯片
指以汇聚、处理多个终端设备数据为主要特征的场景中使用的深度学习芯片。如:(1)自动驾驶深度学习芯片;(2)机器人深度学习芯片;(3)边缘网关深度学习芯片。

150203
端侧深度学习芯片
指以数据获取及本地处理为主要特征的场景中使用的深度学习芯片。如:(1)摄像头深度学习芯片;(2)移动通信终端深度学习芯片;(3)可穿戴设备深度学习芯片。

150299
其他


1503.智能应用系统
150301
通用应用智能系统
指为解决某类问题而设计的,非特定行业使用的应用智能系统。如:(1)智能写作与文本生成系统;(2)智能图像生成与编辑系统;(3)智能视频制作与编辑系统;(4)智能音频转录与处理系统;(5)智能数据分析与处理系统;(6)智能检索与推荐应用系统。
150302
行业应用智能系统
针对特定行业或领域的应用智能系统。如:(1)制造业领域智能系统;(2)金融领域智能系统;(3)医疗领域智能系统;(4)安防领域智能系统;(5)交通运输领域智能系统;(6)物流领域智能系统。

150399
其他


1599.其他



三、核心申请难点解析

尽管CNAS已为人工智能检测领域已经作为单独的分类项目纳入认可体系,但目前尚处于起步阶段,许多具体实施细节尚待行业共识。以下是几个在认可过程中较为常见的问题:

难点一:缺少业内共识的商业化检测工具

人工智能检测与传统软件测试有着本质区别:与传统软件测试不同,AI检测需要评估模型的泛化能力、鲁棒性、公平性、可解释性等复杂维度。目前,市面上成熟、标准化、获得业内广泛认可的商业化AI检测工具较少。多数机构依赖自研测试脚本或开源工具,这些工具在功能性、稳定性和可溯源性与CNAS对“设备”的要求存在差距。

一是AI检测工具需要支持多种算法框架,不同框架的适配和兼容性验证本身就构成巨大工作量;二是AI检测过程中大量依赖测试数据集,而数据集的构建、标注质量、代表性等因素直接影响检测结果的可靠性,但测试数据集本身并非标准化的“测量设备”,其质量控制缺乏成熟的计量溯源体系;三是检测工具的有效性验证缺乏统一的标准方法,实验室难以向CNAS评审组提供“设备”层面的有效验证证据。

难点二:缺少相应的能力验证计划

能力验证是CNAS认可的强制性要求。CNAS-RL02:2023《能力验证规则》明确规定,获认可实验室在认可范围内必须定期参加符合要求的能力验证活动。然而在AI检测这一新兴领域,CNAS组织的能力验证计划极为有限。

目前已知的能力验证计划主要集中在特定细分方向。例如,CNAS秘书处组织的“人工智能伪造图像鉴定(CNAS-AI001)”能力验证计划,由公安部第三研究所上海辰星电子数据司法鉴定中心实施。但总体而言,在智能算法基础性能、深度学习算法安全性、预训练模型性能等CNAS-AL06所覆盖的广泛检测方向上,系统的能力验证计划仍属空白。实验室在申请认可时,难以向评审组展示在相关领域的“外部比对”能力,这在“确保结果有效性的措施”这一过程要求上构成显著短板。

(针对这个问题,可以先行提交申请,后续有合适的能力验证活动时,再补交相关资料。)

难点三:难以找到有相应资格的实验室进行比对

能力验证的替代方式是实验室间比对。根据CNAS要求,在缺乏能力验证计划的情况下,实验室应通过与其他具备相应能力的实验室开展比对来验证检测结果的可靠性。然而在人工智能检测领域,具备CNAS认可的同类实验室数量极为有限。

截至2026年初,全国范围内通过CNAS认可的人工智能检测实验室仍屈指可数。获得人工智能领域CNAS认可的机构大多是基于所属行业,如电力行业、医疗器械行业、真正在通用领域获得CNAS认可的实验室并不多。

这意味着,拟申报AI检测领域的实验室在满足“实验室内外部比对”要求时面临“无对象可对”的困境:一方面,无法找到具备同等认可范围的CNAS实验室作为比对伙伴;另一方面,即使找到技术实力相当的机构,也可能因检测方法不统一、数据集不一致、评价指标存在差异等因素,导致比对结果缺乏可比性和权威性。

(如需人工智能检测实验室CNAS认可现状,可文末扫码交流)

难点四:检测方法和评价标准尚未统一

AI检测涉及的方法论仍在演进之中,标准体系尚不完善。以深度学习算法安全性检测为例,“鲁棒性”“可控性”等指标的定义、测试方法、评价尺度在行业内尚未形成共识。

在测试计划(方案)设计、测试用例设计与执行记录、测试缺陷记录、AI专属缺陷分类、测试报告等整个流程中,如何设计符合CNAS要求的科学、可控、可追溯的测试体系,可参照的材料都非常有限,大量的内容需要实验室自己去创新和尝试。

难点五:检测数据集的质量控制与计量溯源难题

AI模型性能检测离不开测试数据集。与传统检测领域的“标准物质”不同,测试数据集的构建、维护、版本管理、质量控制缺乏成熟的计量溯源体系。数据集本身可能存在标注偏差、样本偏差、分布偏移等问题,直接影响检测结果的准确性和可比性。在CNAS计量溯源性要求框架下,如何将“测试数据集”纳入有效的质量管理体系并实现可溯源,也是实验室需要做的很重要的一部分工作。

四、现行可引用的标准清单

以下为目前人工智能检测领域CNAS认可较为常见的标准

1、45288系列标准(对应150103/150104)

标准号
标准名称
状态
申报用途
GB/T 45288.1-2025
《人工智能 大模型 第1部分:通用要求》
现行
定义大模型能力/安全/服务的评价边界和通用要求,做能力项设计时的"顶层框架"
GB/T 45288.2-2025
《人工智能 大模型 第2部分:评测指标与方法》
现行
最核心的操作层标准——给出评测指标体系和评测方法学,是你写SOP和方法确认最直接的依据之一
GB/T 45288.3-2025
《人工智能 大模型 第3部分:服务能力成熟度》(注:实际标准名为服务能力相关维度,以官方发布名称为准)
现行
面向大模型服务化交付的能力分级/成熟度评价维度

这三部是目前国内唯一成体系的大模型评测国标,也是在人工智能检测领域CNAS认可中具备"有据可依"的标尺,较为通用的一个标准。

2、深度学习算法评估(对应150101/150102)

标准号
标准名称
状态
申报用途
GB/T 45225-2025
《人工智能 深度学习算法评估》
现行
传统DL模型(非生成式)的性能指标评估依据——准确率/召回/损失行为/泛化等维度的规范化表达
GB/T 42888-2023
《信息安全技术 机器学习算法安全评估规范》
现行
对应150102安全性——鲁棒性、对抗攻击、数据投毒、模型窃取等安全评测项的合规框架
T/CESA 1026-2018
《人工智能 深度学习算法评估规范》(AIOSS联盟团体标准)
现行/行业引用
早期被多家机构用作方法学补充依据(注意:团标在CNAS体系中不能单独撑起能力项,需配合方法确认+验证数据)

3、生成式AI安全合规(对应150104 )

标准号
标准名称
性质
申报用途
GB/T 45654-2025
《网络安全技术 生成式人工智能服务安全基本要求》
推荐性国标
内容安全底线评测的重要依据——有害内容过滤、个人信息处理边界、透明度等
GB 45438-2025
《网络安全技术 人工智能生成合成内容标识方法》
强制性国标
AIGC标识合规检测的硬门槛——客户(尤其政务/媒体/教育类)采购时经常直接引用这一条
GB/T 35273-2020
《信息安全技术 个人信息安全规范》
推荐性国标
AI训练中数据处理/隐私保护的合规交叉依据,尤其在人脸/语音/生物特征类项目中绕不开

4智能语音 (对应1503)

标准号
标准名称
用途场景
GB/T 36464.1~5
《智能语音交互》系列(智能家居/智能客服/移动终端/车载终端等分部)
语音识别率、唤醒率、误唤醒率、抗噪等指标的标准化表述——150301通用应用系统里语音类项目的经典依据

5、人脸识别 / 视觉AI安全

标准号
标准名称
用途场景
GB/T 38671-2022
《信息安全技术 远程人脸识别系统技术要求》
远程人脸核验系统的安全/性能基线——金融、政务入口类项目高频引用
GA/T 1212-2014
《安防人脸识别应用 防假体攻击测试方法》
活体检测/防假体攻击(照片/视频/面具)测试的方法学依据
T/CESA 1124-2020
《信息安全技术 人脸比对模型安全技术规范》(团体标准)
人脸比对模型的安全属性描述与方法参考

6、 医疗AI(如有涉足150302行业应用)

标准号
标准名称
备注
YY/T 1858-2022 系列 / YY/T 1833.1~4
人工智能医疗器械 性能/安全/临床评价系列行标
医疗AI赛道是CNAS+NMPA双轨监管交叉处,行标效力极强,缺了基本不可能过

谢绝转载,如需人工智能检测领域CNAS认可成功案例、质量管理体系相关文件等资料,可私信我获取。

【声明】内容源于网络
0
0
软件测试实验室认可
深耕软测行业二十年,国资参股。可以同时提供性能测试、安全测试、代码测试、AI测试等工具。可帮助企业和组织建立软件测试体系,提供软件测试cnas/cma实验室认证咨询服务。
内容 47
粉丝 0
软件测试实验室认可 深耕软测行业二十年,国资参股。可以同时提供性能测试、安全测试、代码测试、AI测试等工具。可帮助企业和组织建立软件测试体系,提供软件测试cnas/cma实验室认证咨询服务。
总阅读214
粉丝0
内容47