“方升”政务大模型基准测试能力体系正式发布- 大数跨境

CAICT人工智能

2026-04-30

当前，大模型技术已深度融入政务服务、城市治理、辅助决策等全流程，成为重塑政务流程、创新治理模式的核心力量。无锡、深圳福田、广州等地已率先落地政务大模型应用，在公文处理、政策解读、民生服务、城市治理等场景实现提质增效。但行业快速发展背后，仍面临模型选型困难、输出幻觉、持续优化机制不足、上线标准不明确等痛点，亟需统一、权威、可落地的评测体系与工具平台。

2026年4月28日，由同方知网数字科技有限公司、哈尔滨市道外区发展和改革局主办，电子政务建模仿真国家工程实验室、中国信息通信研究院人工智能研究所、中国人工智能产业发展联盟政务应用推进组等单位承办的数据要素×人工智能赋能政企价值共创研讨会于福州海峡国际会展中心成功举办。会上，中国信息通信研究院人工智能研究所正式发布“方升”政务大模型基准测试能力体系，同步推出政务基准测试平台，为政务大模型选型、上线、运营、优化提供全流程权威支撑，助力政务AI从“能用”迈向“好用、可靠、安全”。

政务大模型基准测试能力体系围绕指标体系、测试数据集、测试方法、测试工具四大核心构建，形成“基础能力-业务能力-安全合规-应用效能”全维度评估框架，填补政务领域权威评测空白。

在指标体系上，既覆盖语言理解、逻辑推理、生成能力等通用能力，又针对性设置政策合规性、风险拒答、特殊群体友好度等政务专属指标，全面适配机关办公、政务服务、社会治理、辅助决策等政务场景。

在测试数据集上，联合北京政数局、首都之窗、中科院自动化所、首信云等单位共建50+政务专用数据集、3万+测试题目，覆盖政务通用能力、业务能力、安全可信能力三大类别，囊括政务服务、应急预案、公文写作、智能问数等细分场景。

在测试方法上，采用自适应动态测试模式，结合自动化框架、专家评审、虚拟仿真等方式，支持API接口测试、本地部署测试，实现主客观一体化评测，精准刻画模型能力。

在测试工具上，推出政务大模型智能评测平台，支持全生命周期任务管理、多维可视化分析、辅助人工审核、评测资源库统一管理，可快速创建评测任务、实时监控状态、生成权威报告，大幅提升评测效率与客观性。

依托该体系，中国信通院已形成多项实践成果：一是支撑北京政数局编制《政务领域通用大模型技术选型指引》，明确合规、自主可控、稳定、兼容四大选型原则与全流程工作机制；二是联合华为、中国联通等单位起草两项国家标准草案，规范政务大模型基准测试与应用效果评估；三是为北京、武汉、深圳、无锡等地方政府完成政务服务、公文写作、智能问数、应急管理等多场景专项测试，为模型上线验收提供科学依据。

未来，“方升”政务大模型基准测试能力体系，将持续迭代动态测试集、测试平台工具，完善事前选型、事中测评、事后监测的全生命周期管理闭环，助力全国一体化政务大模型建设，为数字政府治理能力现代化提供坚实技术支撑。欢迎政产学研各界专家积极参与“方升”政务大模型基准测试能力体系建设。

联系人

赵老师 15726686995（微信同号）

【声明】内容源于网络

CAICT人工智能

中国信通院人工智能研究所官方公众号。关注我们，了解中国信通院人工智能工作动态，了解人工智能技术研究、标准制定、评估测试、行业应用、产业发展、监管政策及国际交流等前沿进展。

内容 205

粉丝 1

CAICT人工智能中国信通院人工智能研究所官方公众号。关注我们，了解中国信通院人工智能工作动态，了解人工智能技术研究、标准制定、评估测试、行业应用、产业发展、监管政策及国际交流等前沿进展。

总阅读7.8k

粉丝1

内容205