大数跨境
0
0

中文Web Coding测评方案发布!

中文Web Coding测评方案发布! CLUE中文语言理解测评基准
2025-11-26
0
导读:中文Web Coding测评方案发布!
随着大型语言模型在编程领域迅速发展,其编程能力的强弱日益成为提升开发效率的关键。为全面评估大型语言模型在Web开发场景下的实际表现与应用潜力,我们推出中文WebCoding测评基准SuperCLUE-WebCoding ,旨在分析不同模型在真实Web开发任务中的需求贴合性、功能正确性等性能,为模型编程能力开发提供精准指引。

排行榜地址:www.SuperCLUEai.com


SuperCLUE-WebCoding

测评体系

注:本测评基于“界面呈现实现类”和“交互功能实现类”的分类体系展开,所提及的各子类及典型场景仅作为代表性说明,涉及到的场景包括但不限于社交互动、电商购物、计算处理工具、效率辅助工具、数据分析工具、多媒体编辑、互动娱乐、仿真学习、流程构建平台等的实现。具体的测评体系以正式发布的测评报告为准。
该多功能协同实现的电商购物界面呈现效果由gemini-3-pro实现

测评方法

WebCoding测评采用端到端(E2E)功能测试,借助playwright(自动化测试库)、浏览器进行自动化功能测试,对每个测试用例进行0/1评分,对于一个测试用例,通过则记为1分,不通过则记为0分。

评价流程

1. 用例设计:针对每个测评题目,有一套全面的功能测试用例集(total_test),确保覆盖题目描述中的所有功能要求和边界条件。

2. 模型代码生成:将题目输入至待测模型,获取模型首次生成的Web代码(HTML/CSS/JS代码)。

3. 环境部署与执行:将模型生成的代码部署至预设的Web运行环境中,并执行对应的功能测试用例。

4. 结果判定:playwright自动化测试工具将根据预设的断言,判定每个测试用例的通过或失败状态,统计通过的测试用例数(passed_test)。

5. 分数计算:汇总所有题目总的测试用例数和模型通过的测试用例数,计算通过的测试用例数与总的测试用例数的比值再百分化后得到最终得分。

评分标准

每个题目将对应一套功能测试用例(total_test)。模型回答的代码将通过自动化测试,得出通过的测试用例数(passed_test)。最终得分计算公式如下:

  • 分数范围: [0, 100],分数越高代表模型代码的功能正确性越好。

  • 具体判定:

    • 100: 代码完全满足所有功能要求,所有测试用例均通过。

    • 0 < Score < 100: 代码部分满足功能要求,部分测试用例通过。

    • 0: 代码无法通过任何功能测试用例。

评估示例

示例1

【题目类别】:交互功能实现类——多功能协同

【问题描述】:

gemini-3-pro-preview模型答案】:

gemini-3-pro-preview答案实现结果】 :

gemini-3-pro-preview答案测试结果】 :

gemini-3-pro-preview得分】: 

GPT5.1模型答案】:

【GPT5.1答案实现结果】 :

【GPT5.1答案测试结果】 :

【GPT5.1得分】:      

示例2

【题目类别】:界面呈现实现类——信息内容呈现

【问题描述】:

【kimi_k2模型答案】:

【kimi_k2答案实现结果】 :

【kimi_k2答案测试结果】 :

【kimi_k2得分】:      
注:因篇幅限制,以上示例所展示问题描述和模型答案只截取部分片段。

测评邀请

时间规划

1. 测评开始时间:2025年11月26日
2. 测评结果发布:2025年12月23日

测评流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供API接口或大模型

5.获得测评报告

申请评测地址
邮件标题:
SuperCLUE-WebCoding中文测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。


【声明】内容源于网络
0
0
CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
内容 241
粉丝 0
CLUE中文语言理解测评基准 精准量化AGI进展,定义人类迈向AGI的路线图
总阅读29
粉丝0
内容241