随着人工智能技术加速融入经济社会各领域,AI产品的质量保障、安全性评估与性能检测日益成为行业刚需。
中国合格评定国家认可委员会(CNAS)于2024年8月1日正式发布新版CNAS-AL06:20240801《实验室认可领域分类》,首次将“人工智能产品与系统”作为独立的认可领域(代码15),标志着人工智能检测正式纳入国家认可体系。
然而,人工智能检测技术尚处于快速演进阶段,其检测方法与传统软件测试存在本质差异,实验室在申请CNAS资质过程中面临诸多现实挑战。本文将系统梳理政策环境、认可分类与申请要点,并重点剖析当前AI领域申请CNAS的核心难点,供拟申报该领域的机构参考。
一、政策环境与监管导向
1. 国家层面战略部署
2025年8月,国务院印发《关于深入实施“人工智能+”行动的意见》(国发〔2025〕11号),明确到2027年新一代智能终端、智能体等应用普及率超70%,到2030年普及率超90%,到2035年我国全面步入智能经济和智能社会发展新阶段。意见提出6大重点行动,特别强调“建立健全模型能力评估体系,促进模型能力有效迭代提升”,为人工智能检测提供了明确的政策导向。
2. 行业专项政策推动
“人工智能+制造”专项行动:2025年12月,工信部等八部门联合印发实施意见,明确提出要“研制一批质量检测、工艺优化、设备运维等场景专用小模型”。
计量支撑产业发展:2025年6月,市场监管总局、工信部联合印发《计量支撑产业新质生产力发展行动方案(2025—2030年)》,明确提出“开展人工智能算法计量测试关键技术研究及体系建立”“建设跨领域的人工智能计量测试平台”“推动建立人工智能风险等级测试评估体系”。
网络安全法修订:2025年10月修订的《网络安全法》新增第二十条,要求“加强风险监测评估和安全监管”,该条款已于2026年1月1日正式施行,为人工智能安全检测提供了法律依据。
地方政策配套:四川省、广东省、河南省等省份陆续出台地方性AI发展方案,多地明确提出“搭建人工智能产业检验检测平台,完善检验检测与标准体系”。
3. 国际动态
2026年3月,CNAS在国际认可会议上明确将ISO/IEC 42001人工智能管理体系纳入工作组研讨范围,全球AI治理与标准化进程持续加速。
二、CNAS人工智能检测领域完整分类
根据CNAS-AL06:20240801《实验室认可领域分类》,人工智能产品与系统作为第15个一级代码,下设3个二级代码,具体分类如下:
15.人工智能产品与系统
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
三、核心申请难点解析
尽管CNAS已为人工智能检测领域已经作为单独的分类项目纳入认可体系,但目前尚处于起步阶段,许多具体实施细节尚待行业共识。以下是几个在认可过程中较为常见的问题:
难点一:缺少业内共识的商业化检测工具
人工智能检测与传统软件测试有着本质区别:与传统软件测试不同,AI检测需要评估模型的泛化能力、鲁棒性、公平性、可解释性等复杂维度。目前,市面上成熟、标准化、获得业内广泛认可的商业化AI检测工具较少。多数机构依赖自研测试脚本或开源工具,这些工具在功能性、稳定性和可溯源性与CNAS对“设备”的要求存在差距。
一是AI检测工具需要支持多种算法框架,不同框架的适配和兼容性验证本身就构成巨大工作量;二是AI检测过程中大量依赖测试数据集,而数据集的构建、标注质量、代表性等因素直接影响检测结果的可靠性,但测试数据集本身并非标准化的“测量设备”,其质量控制缺乏成熟的计量溯源体系;三是检测工具的有效性验证缺乏统一的标准方法,实验室难以向CNAS评审组提供“设备”层面的有效验证证据。
难点二:缺少相应的能力验证计划
能力验证是CNAS认可的强制性要求。CNAS-RL02:2023《能力验证规则》明确规定,获认可实验室在认可范围内必须定期参加符合要求的能力验证活动。然而在AI检测这一新兴领域,CNAS组织的能力验证计划极为有限。
目前已知的能力验证计划主要集中在特定细分方向。例如,CNAS秘书处组织的“人工智能伪造图像鉴定(CNAS-AI001)”能力验证计划,由公安部第三研究所上海辰星电子数据司法鉴定中心实施。但总体而言,在智能算法基础性能、深度学习算法安全性、预训练模型性能等CNAS-AL06所覆盖的广泛检测方向上,系统的能力验证计划仍属空白。实验室在申请认可时,难以向评审组展示在相关领域的“外部比对”能力,这在“确保结果有效性的措施”这一过程要求上构成显著短板。
(针对这个问题,可以先行提交申请,后续有合适的能力验证活动时,再补交相关资料。)
难点三:难以找到有相应资格的实验室进行比对
能力验证的替代方式是实验室间比对。根据CNAS要求,在缺乏能力验证计划的情况下,实验室应通过与其他具备相应能力的实验室开展比对来验证检测结果的可靠性。然而在人工智能检测领域,具备CNAS认可的同类实验室数量极为有限。
截至2026年初,全国范围内通过CNAS认可的人工智能检测实验室仍屈指可数。获得人工智能领域CNAS认可的机构大多是基于所属行业,如电力行业、医疗器械行业、真正在通用领域获得CNAS认可的实验室并不多。
这意味着,拟申报AI检测领域的实验室在满足“实验室内外部比对”要求时面临“无对象可对”的困境:一方面,无法找到具备同等认可范围的CNAS实验室作为比对伙伴;另一方面,即使找到技术实力相当的机构,也可能因检测方法不统一、数据集不一致、评价指标存在差异等因素,导致比对结果缺乏可比性和权威性。
(如需人工智能检测实验室CNAS认可现状,可文末扫码交流)
难点四:检测方法和评价标准尚未统一
AI检测涉及的方法论仍在演进之中,标准体系尚不完善。以深度学习算法安全性检测为例,“鲁棒性”“可控性”等指标的定义、测试方法、评价尺度在行业内尚未形成共识。
在测试计划(方案)设计、测试用例设计与执行记录、测试缺陷记录、AI专属缺陷分类、测试报告等整个流程中,如何设计符合CNAS要求的科学、可控、可追溯的测试体系,可参照的材料都非常有限,大量的内容需要实验室自己去创新和尝试。
难点五:检测数据集的质量控制与计量溯源难题
AI模型性能检测离不开测试数据集。与传统检测领域的“标准物质”不同,测试数据集的构建、维护、版本管理、质量控制缺乏成熟的计量溯源体系。数据集本身可能存在标注偏差、样本偏差、分布偏移等问题,直接影响检测结果的准确性和可比性。在CNAS计量溯源性要求框架下,如何将“测试数据集”纳入有效的质量管理体系并实现可溯源,也是实验室需要做的很重要的一部分工作。
四、现行可引用的标准清单
以下为目前人工智能检测领域CNAS认可较为常见的标准
1、45288系列标准(对应150103/150104)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
这三部是目前国内唯一成体系的大模型评测国标,也是在人工智能检测领域CNAS认可中具备"有据可依"的标尺,较为通用的一个标准。
2、深度学习算法评估(对应150101/150102)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3、生成式AI安全合规(对应150104 )
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4智能语音 (对应1503)
|
|
|
|
|
|
|
|
5、人脸识别 / 视觉AI安全
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
6、 医疗AI(如有涉足150302行业应用)
|
|
|
|
|
|
|
|
谢绝转载,如需人工智能检测领域CNAS认可成功案例、质量管理体系相关文件等资料,可私信我获取。

