为响应《国家技术规范化发展纲要》及“人工智能+”行动关于推动人工智能与科学研究深度融合的部署,加快构建面向科研场景的模型评测技术规范体系,提升科学大模型能力评估的规范性与可比性,中国人工智能产业发展联盟(AIIA)科学智能(AI4S)工作组联合中国信通院正式启动“科学大模型基准测试”技术规范编制工作。当前,科学大模型加速发展并持续演进,已成为科研智能的重要基础能力,但在实际应用中,评测方式尚不统一,测试结果缺乏可比性与权威性,制约了模型能力的客观评价与规模化应用推广。
当前,国内外已经陆续开展科学大模型基准测试研究,包括通用能力评测(如MMLU、HumanEval)、高难度科学基准(如HLE),以及面向科研流程的专项评测体系,逐步从单一任务测试向综合能力评估演进。然而,面向科学大模型通用能力评测的技术规范建设仍面临三个关键挑战:一是能力指标体系尚不完备,难以系统覆盖科学理解、生成、推理、多模态与跨学科迁移等核心能力;二是测试方法与任务设计不足,难以支撑多模态、多步骤及长上下文等复杂科研场景评测;三是评测框架与结果表达缺乏统一规范,不同模型间可比性与评测结果复现性有待提升。
前期AI4S工作组围绕科研智能领域持续开展研究,已发布《科研智能发展报告(2025年)》,并系统构建科研智能技术规范体系,围绕科研基础设施、平台工具及应用方向推进多项技术规范研制,已完成科研智能开发平台、科研智算系统测试方法、科研文献助手等多项技术规范研制工作。
为进一步推进科学大模型能力评测的规范化与体系化发展,现正式启动《科学大模型基准测试》技术规范编制工作。本技术规范将面向科研场景需求,围绕科学大模型通用能力评测。一是科学大语言模型的科学理解、生成、推理等能力,二是科学多模态模型的科学多模态感知、理解、推理、融合等能力,重点开展测试指标构建与测试方法研究,构建统一的基准测试框架,规范测试流程及结果表达,为科研机构、企业及平台开展模型能力评估与选型提供统一依据。
现面向社会各界公开征集技术规范编写单位和专家,根据参与技术规范内容编写的贡献度可作为编制单位、专家写入技术规范,有意向参编的单位或专家请扫描下方二维码或点击“阅读原文”填写信息报名,本次报名截至时间为2026年5月14日。
联系方式
张老师:13840517805
zhangweiting@caict.ac.cn
董老师:15910462421
donghao@caict.ac.cn

