大数跨境

“科学大模型基准测试”技术规范参编单位征集启动

“科学大模型基准测试”技术规范参编单位征集启动 人工智能产业发展联盟AIIA
2026-04-22
7
导读:欢迎相关单位及专家共同参与




为响应《国家技术规范化发展纲要》及“人工智能+”行动关于推动人工智能与科学研究深度融合的部署,加快构建面向科研场景的模型评测技术规范体系,提升科学大模型能力评估的规范性与可比性,中国人工智能产业发展联盟(AIIA)科学智能(AI4S)工作组联合中国信通院正式启动“科学大模型基准测试”技术规范编制工作。当前,科学大模型加速发展并持续演进,已成为科研智能的重要基础能力,但在实际应用中,评测方式尚不统一,试结果缺乏可比性与权威性,制约了模型能力的客观评价与规模化应用推广。


当前,国内外已经陆续开展科学大模型基准测试研究,包括通用能力评测(如MMLU、HumanEval)、高难度科学基准(如HLE),以及面向科研流程的专项评测体系,逐步从单一任务测试向综合能力评估演进。然而,面向科学大模型通用能力评测的技术规范建设仍面临三个关键挑战:一是能力指标体系尚不完备,难以系统覆盖科学理解、生成、推理、多模态与跨学科迁移等核心能力;二是测试方法与任务设计不足,难以支撑多模态、多步骤及长上下文等复杂科研场景评测;三是评测框架与结果表达缺乏统一规范,不同模型间可比性与评测结果复现性有待提升。


前期AI4S工作组围绕科研智能领域持续开展研究,已发布《科研智能发展报告(2025年)》,并系统构建科研智能技术规范体系,围绕科研基础设施、平台工具及应用方向推进多项技术规范研制,已完成科研智能开发平台、科研智算系统测试方法、科研文献助手等多项技术规范研制工作。


为进一步推进科学大模型能力评测的规范化与体系化发展,现正式启动《科学大模型基准测试》技术规范编制工作。本技术规范将面向科研场景需求,围绕科学大模型通用能力评测。一是科学大语言模型的科学理解、生成、推理等能力,二是科学多模态模型的科学多模态感知、理解、推理、融合等能力,重点开展测试指标构建与测试方法研究,构建统一的基准测试框架,规范测试流程及结果表达,为科研机构、企业及平台开展模型能力评估与选型提供统一依据。


现面向社会各界公开征集技术规范编写单位和专家,根据参与技术规范内容编写的贡献度可作为编制单位、专家写入技术规范,有意向参编的单位或专家请扫描下方二维码点击“阅读原文填写信息报名,本次报名截至时间2026年5月14日



联系方式

张老师:13840517805

zhangweiting@caict.ac.cn


董老师:15910462421

donghao@caict.ac.cn


【声明】内容源于网络
0
0
人工智能产业发展联盟AIIA
中国人工智能产业发展联盟(简称AIIA)是在国家发改委、科技部、工信部、网信办指导下,由中国信息通信研究院等单位发起的行业组织,立足于搭建全球化的人工智能生态合作平台,支撑政府决策,推进技术创新与应用落地,促进我国人工智能产业有序发展。
内容 171
粉丝 0
人工智能产业发展联盟AIIA 中国人工智能产业发展联盟(简称AIIA)是在国家发改委、科技部、工信部、网信办指导下,由中国信息通信研究院等单位发起的行业组织,立足于搭建全球化的人工智能生态合作平台,支撑政府决策,推进技术创新与应用落地,促进我国人工智能产业有序发展。
总阅读4.0k
粉丝0
内容171