大数跨境

国家标准|《人工智能 大模型 第2部分:评测指标与方法》GB/T 45288.2-2025【附下载方式】

国家标准|《人工智能 大模型 第2部分:评测指标与方法》GB/T 45288.2-2025【附下载方式】 AI算力那些事儿
2025-09-24
19

标准名称:人工智能 大模型 第2部分:评测指标与方法

标准编号:GB/T 45288.2-2025

发布日期:2025-02-28

实施日期:2025-02-28

归口单位:国家标准委

主管部门:国家标准委

国际标准分类号(ICS):35.240

中国标准分类号(CCS):L70

该标准构建了覆盖理解能力(如语义理解、逻辑推理)和生成能力(如文本、图像生成质量)两大维度的评测体系,细化指标计算方法(如客观量化评分与主观人工评估结合)及标准化测试流程(含数据集构建、工具要求和实施规范)。其核心目的是通过统一评测框架解决行业模型能力评估的碎片化问题,为金融、医疗等领域的模型选型与优化提供依据,并与GB/T 45288.1-2025(通用要求)、GB/T 45288.3-2025(服务能力成熟度评估)共同构成大模型标准体系。

01

三维评测体系


# 基础能力集

◉ 语言理解:  

   - CLUE-CN综合得分≥86 | MMLU全科目平均≥75  

◉ 逻辑推理:  

   » GSM8K数学准确率≥80% | ReClor逻辑题通过率≥85%  

◉ 生成质量:  

   ! BLEU-4≥32 | 事实一致性FACTSCORE≥90  

# 专用能力集

▶ 行业适配:  

   - 医疗:MedQA-USMLE≥85% | 金融:FinSim评测≥92%  

▶ 多模态融合:  

   » VQA准确率≥82% | 跨模态检索Recall@5≥88%  

▶ 代码能力:  

   ! HumanEval通过率≥75% | 代码安全漏洞检出率≥95%  

# 工程效能集

◉ 训练效率:  

   - 千卡扩展效率≥80% | 断点恢复≤15min  

◉ 推理性能:  

   » 175B模型INT4量化延迟≤350ms  

   » 动态显存压缩≥60%  

◉ 资源消耗:  

   ! 单参数训练能耗≤7.5kWh/1e9 tokens  

   ! 碳排放强度≤1.2kg CO₂/1e6 queries  

02

动态评测沙箱


对抗测试模块

─ 提示注入攻击:模拟10种越狱手法  

─ 后门触发测试:植入500+对抗样本  

─ 成员推断攻击:F1检测率≥97%  

持续学习评估

» 灾难性遗忘:历史任务召回率下降≤5%  

» 概念漂移:新知识融合时效≤24h  

» 领域迁移:行业F1衰减阈值≤8%  

鲁棒性矩阵

● 噪声干扰:信噪比20dB时性能衰减≤15%  

● 数据偏移:OOD检测准确率≥90%  

● 系统容灾:节点故障恢复≤3min  

03

开源模型专项评测


| 维度         | 评测方法                    | 准入红线                 |

| 许可证合规 | SPDX扫描 + 冲突树分析 | GPL传染率=0           |

| 供应链安全 | SBOM深度≥3层           | 未签名组件≤2%         |

| 代码原创性 | CodeBERT相似度检测    | 主流模型碰撞率≤15%  |

| 社区治理   | CII最佳实践认证            | 高危漏洞修复≤72h     |

04

能力分级认证矩阵


安全合格分= 漏洞修复时效(天)/10+许可证合规率(%)/100+供应链追溯深度/3

准入条件:

▶安全分≥2.3且代码相似度检测≤15

治理要求:

!禁止未经验证的三方插件加载

!必须提供完整权重溯源文档

!衍生模型名称哈希值碰撞率≤10−6

05

能力分级认证体系


综合得分=0.4×基础能力/基准值+0.3×专用能力/行业max+0.3×工程效能/理想值

认证等级

▶入门级(L1):55−70分∣通过基础+安全测试

▶专业级(L2):71−85分∣支持≥2个领域适配

▶顶尖级(L3):86−95分∣多模态融合+持续学习

▶超维级(L4):≥96分∣通过图灵测试(30min)

06

六大红线禁令


! 核心指标未达基准值(如中文CLUE<60)  

! 安全测试未覆盖提示注入/后门攻击  

! 开源模型许可证冲突未解决  

! 碳排放数据未接入国家监测平台  

! 灾难性遗忘率>20%  

! 评测过程未使用受控环境(沙箱规避)


-END-

-今日福利-


关注本公众号,并在后台回复关键词“GB/T 45288.2”,即可免费下载《人工智能 大模型 第2部分:评测指标与方法》GB/T 45288.2-2025(有效期7天),若过了有效期请加号主微信获取。

写在最后:未来,我将在公众号「AI算力那些事儿」持续分享更多有趣的科技热点、政策解读、标准解读、行业实践、热点100问和项目实战。在这里,我们不讲枯燥的代码,只聊有趣的“算力江湖”。快用你那发财的小手点击关注吧!
为什么值得关注?

行业前沿:实时跟踪和解锁当前AI算力产业热点话题
技术剖析:以100问形式带你了解算力、低空、AI全产业链,聚焦核心技术进行硬核解析和实操

产品测评:聚焦国内外主流厂商相关软硬件和方案,形成测评报告
场景实战:剖析各厂商在各行业领域的方案,进行案例拆解和分析,同时聚焦算力项目如何操盘、如何运营、AI+行业方案如何设计等

书影畅想:梳理过往AI相关电影和书籍,从中分析过去、窥见现实、展望未来
投资机会:聚焦全产业链上中下游企业,分析核心赛道,进行财报解读

全资源库汇编AI算力低空方面政策文件、标准规范、行业报告,随时检阅查阅,定期解读分析

项目申报:剖析中长期国债等AI算力领域项目申报,提供申报支撑

资源链接:VIP资源群,链接算力产业上中下游产业,拉通供需双方需求,不定期掉落独家活动参与资格(线下沙龙,你可能就是VIP席位的主人)


AI无人直播卖课:当技术沦为镰刀,宝妈们的焦虑如何被算法收割?

当心!你的隐私正在被实时拍卖!315晚会曝光的“信息黑洞”如何将每个人变成透明人?

2025 政府工作报告里,藏着中国算力崛起的惊天密码!中国正在下一盘怎样的算力大棋?

5000 亿美元押注 “星际之门”,美国 AI 霸权之路布满荆棘还是一马平川?


【声明】内容源于网络
0
0
AI算力那些事儿
数字经济服务者、AI算力产业资讯个人IP,聚焦人工智能、算力、低空领域的前沿趋势、政策布局、深度科普、行业洞察和干货实践,用故事化的语言、深度的解析,带你看透技术背后的商业逻辑与未来趋势。
内容 884
粉丝 0
AI算力那些事儿 数字经济服务者、AI算力产业资讯个人IP,聚焦人工智能、算力、低空领域的前沿趋势、政策布局、深度科普、行业洞察和干货实践,用故事化的语言、深度的解析,带你看透技术背后的商业逻辑与未来趋势。
总阅读6.6k
粉丝0
内容884