“科学大模型基准测试”技术规范参编单位征集启动- 大数跨境

人工智能产业发展联盟AIIA

2026-04-22

导读：欢迎相关单位及专家共同参与

为响应《国家技术规范化发展纲要》及“人工智能+”行动关于推动人工智能与科学研究深度融合的部署，加快构建面向科研场景的模型评测技术规范体系，提升科学大模型能力评估的规范性与可比性，中国人工智能产业发展联盟（AIIA）科学智能（AI4S）工作组联合中国信通院正式启动“科学大模型基准测试”技术规范编制工作。当前，科学大模型加速发展并持续演进，已成为科研智能的重要基础能力，但在实际应用中，评测方式尚不统一，测试结果缺乏可比性与权威性，制约了模型能力的客观评价与规模化应用推广。

当前，国内外已经陆续开展科学大模型基准测试研究，包括通用能力评测（如MMLU、HumanEval）、高难度科学基准（如HLE），以及面向科研流程的专项评测体系，逐步从单一任务测试向综合能力评估演进。然而，面向科学大模型通用能力评测的技术规范建设仍面临三个关键挑战：一是能力指标体系尚不完备，难以系统覆盖科学理解、生成、推理、多模态与跨学科迁移等核心能力；二是测试方法与任务设计不足，难以支撑多模态、多步骤及长上下文等复杂科研场景评测；三是评测框架与结果表达缺乏统一规范，不同模型间可比性与评测结果复现性有待提升。

前期AI4S工作组围绕科研智能领域持续开展研究，已发布《科研智能发展报告（2025年）》，并系统构建科研智能技术规范体系，围绕科研基础设施、平台工具及应用方向推进多项技术规范研制，已完成科研智能开发平台、科研智算系统测试方法、科研文献助手等多项技术规范研制工作。

为进一步推进科学大模型能力评测的规范化与体系化发展，现正式启动《科学大模型基准测试》技术规范编制工作。本技术规范将面向科研场景需求，围绕科学大模型通用能力评测。一是科学大语言模型的科学理解、生成、推理等能力，二是科学多模态模型的科学多模态感知、理解、推理、融合等能力，重点开展测试指标构建与测试方法研究，构建统一的基准测试框架，规范测试流程及结果表达，为科研机构、企业及平台开展模型能力评估与选型提供统一依据。

现面向社会各界公开征集技术规范编写单位和专家，根据参与技术规范内容编写的贡献度可作为编制单位、专家写入技术规范，有意向参编的单位或专家请扫描下方二维码或点击“阅读原文”填写信息报名，本次报名截至时间为2026年5月14日。