排行榜地址:www.SuperCLUEai.com
# SuperCLUE-WebCoding
测评体系
WebCoding测评采用端到端(E2E)功能测试,借助playwright(自动化测试库)、浏览器进行自动化功能测试,对每个测试用例进行0/1评分,对于一个测试用例,通过则记为1分,不通过则记为0分。
评价流程
1. 用例设计:针对每个测评题目,有一套全面的功能测试用例集(total_test),确保覆盖题目描述中的所有功能要求和边界条件。
2. 模型代码生成:将题目输入至待测模型,获取模型首次生成的Web代码(HTML/CSS/JS代码)。
3. 环境部署与执行:将模型生成的代码部署至预设的Web运行环境中,并执行对应的功能测试用例。
4. 结果判定:playwright自动化测试工具将根据预设的断言,判定每个测试用例的通过或失败状态,统计通过的测试用例数(passed_test)。
5. 分数计算:汇总所有题目总的测试用例数和模型通过的测试用例数,计算通过的测试用例数与总的测试用例数的比值再百分化后得到最终得分。
评分标准
每个题目将对应一套功能测试用例(total_test)。模型回答的代码将通过自动化测试,得出通过的测试用例数(passed_test)。最终得分计算公式如下:
分数范围: [0, 100],分数越高代表模型代码的功能正确性越好。
具体判定:
100: 代码完全满足所有功能要求,所有测试用例均通过。
0 < Score < 100: 代码部分满足功能要求,部分测试用例通过。
0: 代码无法通过任何功能测试用例。
评估示例
示例1
【题目类别】:交互功能实现类——多功能协同
【问题描述】:
【gemini-3-pro-preview模型答案】:
【gemini-3-pro-preview答案实现结果】 :
【gemini-3-pro-preview答案测试结果】 :
【GPT5.1模型答案】:
【GPT5.1答案实现结果】 :
【GPT5.1答案测试结果】 :
示例2
【题目类别】:界面呈现实现类——信息内容呈现
【问题描述】:
【kimi_k2模型答案】:
【kimi_k2答案实现结果】 :
【kimi_k2答案测试结果】 :
测评邀请
时间规划
测评流程
1.邮件申请
2.意向沟通
3.参测确认与协议流程
4.提供API接口或大模型
5.获得测评报告

