大数跨境

“方升”政务大模型基准测试能力体系正式发布

“方升”政务大模型基准测试能力体系正式发布 CAICT人工智能
2026-04-30
7




当前,大模型技术已深度融入政务服务、城市治理、辅助决策等全流程,成为重塑政务流程、创新治理模式的核心力量。无锡深圳福田、广州等地已率先落地政务大模型应用,在公文处理、政策解读、民生服务、城市治理等场景实现提质增效。但行业快速发展背后,仍面临模型选型困难、输出幻觉、持续优化机制不足、上线标准不明确等痛点,亟需统一、权威、可落地的评测体系与工具平台。


2026年4月28日,由同方知网数字科技有限公司、哈尔滨市道外区发展和改革局主办,电子政务建模仿真国家工程实验室、中国信息通信研究院人工智能研究所、中国人工智能产业发展联盟政务应用推进组等单位承办的数据要素×人工智能赋能政企价值共创研讨会福州海峡国际会展中心成功举办。会上,中国信息通信研究院人工智能研究所正式发布“方升”政务大模型基准测试能力体系,同步推出政务基准测试平台为政务大模型选型、上线、运营、优化提供全流程权威支撑,助力政务AI从“能用”迈向“好用、可靠、安全”。



政务大模型基准测试能力体系围绕指标体系、测试数据集、测试方法、测试工具四大核心构建,形成“基础能力-业务能力-安全合规-应用效能”全维度评估框架,填补政务领域权威评测空白。


指标体系上,既覆盖语言理解、逻辑推理、生成能力等通用能力,又针对性设置政策合规性、风险拒答、特殊群体友好度等政务专属指标,全面适配机关办公、政务服务、社会治理、辅助决策等政务场景。

测试数据集上,联合北京政数局、首都之窗、中科院自动化所、首信云等单位共建50+政务专用数据集、3万+测试题目,覆盖政务通用能力、业务能力、安全可信能力三大类别,囊括政务服务、应急预案、公文写作、智能问数等细分场景。

测试方法上,采用自适应动态测试模式,结合自动化框架、专家评审、虚拟仿真等方式,支持API接口测试、本地部署测试,实现主客观一体化评测,精准刻画模型能力。

测试工具上,推出政务大模型智能评测平台,支持全生命周期任务管理、多维可视化分析、辅助人工审核、评测资源库统一管理,可快速创建评测任务、实时监控状态、生成权威报告,大幅提升评测效率与客观性。


依托该体系,中国信通院已形成多项实践成果:一是支撑北京政数局编制《政务领域通用大模型技术选型指引》,明确合规、自主可控、稳定、兼容四大选型原则与全流程工作机制;二是联合华为、中国联通等单位起草两项国家标准草案,规范政务大模型基准测试与应用效果评估;三是为北京、武汉、深圳、无锡等地方政府完成政务服务、公文写作、智能问数、应急管理等多场景专项测试,为模型上线验收提供科学依据。



未来,“方升”政务大模型基准测试能力体系,将持续迭代动态测试集、测试平台工具,完善事前选型、事中测评、事后监测的全生命周期管理闭环,助力全国一体化政务大模型建设,为数字政府治理能力现代化提供坚实技术支撑。欢迎政产学研各界专家积极参与“方升”政务大模型基准测试能力体系建设。


联系人

赵老师 15726686995(微信同号)


【声明】内容源于网络
0
0
CAICT人工智能
中国信通院人工智能研究所官方公众号。关注我们,了解中国信通院人工智能工作动态,了解人工智能技术研究、标准制定、评估测试、行业应用、产业发展、监管政策及国际交流等前沿进展。
内容 205
粉丝 1
CAICT人工智能 中国信通院人工智能研究所官方公众号。关注我们,了解中国信通院人工智能工作动态,了解人工智能技术研究、标准制定、评估测试、行业应用、产业发展、监管政策及国际交流等前沿进展。
总阅读7.8k
粉丝1
内容205