

国内首家AI编程工具基准测评方案发布

CLUE中文语言理解测评基准

2025-11-26

导读：中文场景下，AI编程工具哪家强？

AgentCLUE-AICodeKit基准方案要点

1.中文开发场景适配

本评测基准专为中文开发环境设计，涵盖各种的真实中文问题。任务实例涉及中文开发者常用的编程框架，确保评测结果贴近中文开发者的实际需求。

2.核心任务聚焦

聚焦于 AI 编程工具在真实开发环境中解决实际问题的能力，评估不同产品在新项目开发、新功能应用、BUG修复等方面的表现。

3.科学量化评价体系

建立明确的量化评分标准，采用百分制对各项任务表现进行评估。确保评价结果客观、可对比，为AI编程工具性能提升提供明确的方向。

说明：BUG修复任务使用的数据，涵盖了开源项目中各种的真实 GitHub近两年来中文问题（issue）及其对应的拉取请求（PR）。参考文章中文「软件工程」测评基准方案发布！（SuperCLUE-SWE）。

# 测评体系

# 测评背景

在大模型加速发展的当下，软件开发的效率与质量成为决定项目成败的关键因素。AI 编程工具应运而生，以其智能辅助的特性，正逐渐改变着开发者的工作模式。从代码的快速生成到错误的精准检测，这些工具为开发者提供了全方位的支持，大大缩短了开发周期，降低了开发成本。然而，市面上的 AI 编程工具琳琅满目，如 Cursor 以项目级上下文理解、多文件协作与代码重构能力脱颖而出，Claude Code 则以自主复杂操作独树一帜，它们在功能、性能和适用场景上存在着显著差异。因此，一套针对性强、全面细致的测评方案对于开发者来说至关重要，它不仅能帮助开发者快速甄别出最适合自身需求的工具，还能推动整个 AI 编程工具市场的健康发展，促使工具开发者不断优化产品，提升服务。

本方案 AgentCLUE-AICodeKit是 AI 编程工具测评的专项方案，旨在构建科学、全面的测评体系，精准评估 AI 编程工具的核心能力，填补行业内统一测评标准的空白，明确技术发展方向，为用户选择产品提供可靠依据，同时推动该领域技术的规范化、高质量发展。需要说明的是，本期测评主要考察 IDE 类编程工具，暂不涉及 CLI 类和插件类编程工具，在后续测评中会逐步完善纳入。

# 测评任务

AI 编程工具测评方案共包括3大任务，具体介绍如下：

(1)新项目开发任务：评估 AI 编程工具从需求拆解、架构设计到代码实现、调试优化的全流程自主开发能力。

(2)新功能应用任务：评估 AI 编程工具在已有项目基础上，实现功能设计、代码开发、兼容性适配及功能验证的高效落地能力。

(3)BUG 修复任务：评估 AI 编程工具识别语法错误、逻辑漏洞等各类缺陷，迭代优化修复方案直至功能验证通过的能力。

说明：本次测评仅针对 IDE 类编程工具。

# 评价标准

本次测评的三大任务均采用百分制进行评估，每个任务的评价标准如下：

新项目开发任务：

AI 编程工具的输出结果需满足评分标准各得分点的具体要求，评分将严格按照该标准逐项核算后得出。

说明：评分标准由gpt-5.1 medium根据需求文档，并经过人工校验合理性得到。

新功能应用任务：

AI 编程工具的输出结果需满足评分标准各得分点的具体要求，评分将严格按照该标准逐项核算后得出。

BUG修复任务：

将AI编程工具修复后的结果生成补丁(patch)，执行该补丁，如果通过了测试用例，得100分，否则0分。

# 测评方法

1.1新项目开发任务和新功能应用任务的评估流程：

(1)获得问题、产品回复--> (2)在codex中使用gpt-5.1 medium来依据评分标准评价每一题的分数-->(3)计算产品最终得分

1.2BUG修复任务评估流程：

(1)获得问题、产品回复--> (2)将产品回复后的结果生成补丁(patch)--> (3)执行该补丁-->(4)根据补丁能否通过测试用例，计算产品最终得分

2.总分计算：

总任务分为新项目开发任务、新功能应用任务和 BUG 修复任务。

总任务得分计算：

总任务得分 = 新项目开发任务得分*0.4+新功能应用任务得分*0.3+BUG修复任务得分*0.3

说明：具体的权重以测评结果发布文章为准。

# 示例展示

示例1: 新项目开发任务

【题目】：

绝版旧书借阅集合店需求文档

1. 网站概述

1.1 网站名称

绝版旧书借阅集合店

1.2 网站描述

本网站是一个专注于绝版旧书借阅的在线平台，连接藏书者和爱书人，促进文化传承。管理员可在后台配置旧书信息，用户可通过填写表单申请免费借阅珍稀书籍。

1.3 网站定位

建立垂直化的绝版旧书借阅平台
提供便捷的书籍管理和借阅流程
保护珍贵旧书资源，确保合理使用

2. 用户角色

2.1 管理员

管理后台所有功能
审核用户借阅申请
管理书籍和用户数据

2.2 普通用户

浏览绝版旧书列表
申请借阅感兴趣的书籍
查看借阅状态和历史记录

3. 网站功能

3.1 书籍管理（后台）

书籍信息录入：ISBN、书名、作者、出版社、出版年份、版次、印刷次数、书籍状态、稀缺程度
书籍图片上传：封面、内页样张
书籍分类管理：文学、历史、艺术、科技等
书籍状态管理：可借阅、已借出、维护中、已下架
书籍描述：内容简介、作者简介、书籍特色、保存状况

3.2 用户借阅流程

1.用户注册/登录

2.浏览书籍信息（可按分类、作者、出版年份等筛选）

3.查看书籍详情

4.填写借阅申请表单

5.提交申请等待审核

6.查看申请状态

7.借阅成功（获取取书方式/地址，若邮寄则运费到付）

8.归还书籍（可线上或线下）

3.3 借阅申请表单

必填信息：

姓名
手机号（需短信验证）
借阅目的（研究/收藏/阅读等）
预计归还日期
承诺书（保证爱护书籍等）

选填信息：

职业/研究领域
曾经借阅过的类似书籍
对本书的简要研究计划（研究用途时）

3.4 审核流程

管理员收到申请后审核
审核标准：借阅目的合理性、用户历史借阅记录、书籍稀缺程度、用户所在地区
审核结果通知（站内信）

3.5 借阅管理

借阅记录查询
逾期提醒
归还确认
损坏/丢失处理流程

3.6 用户系统

用户注册/登录
个人资料管理
借阅历史记录
收藏夹功能
信用评价体系

4. 主要页面

4.1 首页

搜索栏
书籍分类导航
推荐书籍展示
最新上架书籍
借阅排行榜

4.2 书籍详情页

书籍封面大图
书籍详细信息
借阅按钮/状态
书籍描述
借阅须知

4.3 借阅申请页

借阅申请表单
用户协议勾选
提交按钮

4.4 用户中心

个人资料
借阅记录
收藏夹
申请状态跟踪

4.5 后台管理

书籍管理
用户管理
借阅审核

5. 示例数据

初步生成的网站放置6本书做示例，确保图片生成可展示：

5.1《红楼梦》（民国版）

5.2《古文观止》（清代刻本）

5.3《鲁迅全集》（1938年初版）

5.4《唐诗三百首》（线装本）

5.5《资治通鉴》（民国石印本）

5.6《本草纲目》（清代版本）

6. 非功能需求

6.1 性能需求

页面加载时间小于3秒
支持1000+并发用户
数据安全可靠，定期备份

6.2 安全需求

用户数据加密存储
防止SQL注入和XSS攻击
敏感操作日志记录

6.3 合规需求

遵守版权法律法规
隐私政策声明
用户数据保护

7. 网站设计风格

配色方案：以复古棕色（#8B4513）为主色调，搭配米黄色（#F5DEB3）和深灰色（#4A4A4A），营造古朴典雅的氛围
视觉细节：采用圆角矩形卡片（圆角8px），添加柔和阴影（0 2px 8px rgba(0,0,0,0.1)），图标采用线性风格
整体布局：首页采用网格式布局展示书籍，详情页采用左右分栏式，左侧展示书籍图片，右侧展示详细信息

请你根据上面的需求文档，帮我在当前的空目录中，生成完整的项目。

【评分标准】：

一、核心功能模块（60 分）

1.书籍管理（后台）（15 分）

书籍信息完整录入（ISBN、出版信息等）：4 分

书籍图片上传（封面 + 内页）：3 分

分类管理与状态维护：3 分

书籍描述详情配置：3 分

稀缺程度标注功能：2 分

2.用户借阅流程（20 分）

用户注册 / 登录功能：3 分

书籍浏览与筛选（分类 / 作者 / 年份）：4 分

借阅申请表单提交：5 分

审核流程闭环（申请 - 审核 - 通知）：4 分

借阅 / 归还状态跟踪：4 分

3.借阅管理（15 分）

借阅记录查询（用户 + 管理员端）：3 分

逾期提醒功能：3 分

归还确认机制：3 分

损坏 / 丢失处理流程：3 分

信用评价体系：3 分

4.用户系统（10 分）

个人资料管理：2 分

收藏夹功能：2 分

借阅历史可视化：3 分

站内信通知（审核结果 / 提醒）：3 分

二、页面功能实现（20 分）

1.核心页面完整性（12 分）

首页（搜索 + 分类 + 推荐）：3 分

书籍详情页（信息 + 借阅入口）：3 分

借阅申请页（表单 + 协议）：3 分

用户中心（全功能入口）：3 分

2.后台管理页面（8 分）

书籍管理模块：3 分

用户管理模块：2 分

借阅审核模块：3 分

三、非功能需求（20 分）

1.性能需求（7 分）

页面加载≤3 秒：3 分

支持 1000 + 并发：2 分

数据定期备份：2 分

2.安全需求（7 分）

用户数据加密存储：2 分

防 SQL 注入 / XSS 攻击：3 分

敏感操作日志：2 分

3.合规与设计（6 分）

版权 / 隐私政策合规：3 分

复古风格设计还原（配色 + 布局）：3 分

【Kiro测评结果详情】：

评分总结

总分：65.5/100分（65.5%）

各模块得分：

1.核心功能模块（60分）：39.5分（65.8%）

书籍管理：11/15分
用户借阅流程：17/20分
借阅管理：8.5/15分
用户系统：3/10分

2.页面功能实现（20分）：19分（95%）

核心页面完整性：12/12分
后台管理页面：7/8分

3.非功能需求（20分）：7分（35%）

性能需求：2/7分
安全需求：2/7分
合规与设计：3/6分

【CodeBuddyCN测评结果详情】：

总分：13 / 100（核心功能 4/60，页面 6/20，非功能 3/20）。大部分模块仍是占位页面，只有首页、书籍列表与详情页有较完整实现，整体完成度很低。

示例2: 新功能应用任务

【原始网页展示】：

【题目】：

请你读取整个项目，我现在想要新增： 1）对于每一条评论都有点赞评论和否定评论的按钮，并且点击之后有正常的交互效果。 2）对于每一条评论也有点击回复按钮，点击这个按钮之后，能够弹出回复框，对这条评论进行回复，支持删除自己发布的回复。当单条评论回复数的时候≥3 条时，自动显示 “展开回复” 入口，点击之后，可以参考当前这条评论的所有回复情况。

【评分标准】：

一、功能完整性（40 分）

1.点赞 / 否定评论功能（15 分）

每条评论均配备独立点赞、否定按钮，无遗漏（5 分，缺一个按钮扣 2 分，扣完为止）；

点击点赞按钮后，点赞数实时递增，状态视觉区分（如按钮变色）（4 分，计数不实时扣 2 分，无状态区分扣 2 分）；

点击否定按钮后，否定数实时递增，状态视觉区分（4 分，标准同点赞功能）；

支持取消点赞 / 否定操作（点击已激活状态的按钮，计数回退、状态恢复）（2 分，缺少取消功能全扣）。

2.回复功能基础实现（15 分）

每条评论配备独立回复按钮，点击后弹出回复输入框（5 分，缺一个按钮扣 2 分，输入框不弹出全扣）；

输入回复内容后，支持提交并实时显示在对应评论下方（4 分，提交失败扣 3 分，显示延迟扣 1 分）；

回复内容关联原评论，层级关系清晰（3 分，无层级区分扣 2 分，关联错误全扣）；

支持删除自己发布的回复（3 分，不支持删除全扣）。

3.展开回复功能（10 分）

当单条评论回复数≥3 条时，自动显示 “展开回复” 入口（4 分，未按数量触发扣 3 分，无入口全扣）；

点击 “展开回复” 后，完整展示所有回复，入口切换为 “收起回复”（3 分，展示不全扣 2 分，无切换效果扣 1 分）；

点击 “收起回复” 后，仅显示前 2 条回复，恢复 “展开回复” 入口（3 分，收起效果异常全扣）。

二、交互体验（25 分）

1.操作反馈（10 分）

点击点赞 / 否定 / 回复 / 展开 / 收起按钮时，有即时视觉反馈（如按钮高亮、震动提示）（4 分，无反馈扣 3 分）；

回复提交过程中，有加载状态提示（如转圈动画）（3 分，无加载提示扣 2 分）；

操作失败（如网络异常）时，有明确文字提示，支持重试（3 分，无提示扣 2 分）。

2.易用性（10 分）

输入框自动聚焦，支持回车提交、点击空白处取消（3 分，聚焦异常扣 1 分，提交 / 取消不便扣 2 分）；

回复区与原评论视觉区分明显（如缩进、边框、背景色）（3 分，区分不清晰扣 2 分）；

“展开回复” 入口位置显眼（如回复区底部居中），无遮挡（4 分，位置不合理扣 2 分，被遮挡全扣）。

3.性能表现（5 分）

点赞 / 否定计数更新无延迟（≤100ms）（2 分，延迟明显扣 1 分）；

展开 / 收起回复无卡顿（≤200ms）（2 分，卡顿明显扣 1 分）；

多回复（≥10 条）场景下，页面滚动流畅（1 分，滚动卡顿全扣）。

三、UI 设计合理性（15 分）

1.按钮设计（5 分）

点赞 / 否定 / 回复按钮图标直观（如点赞用 “👍”、回复用 “💬”），尺寸适中（可点击区域≥40px×40px）（3 分，图标不直观扣 1 分，尺寸过小扣 2 分）；

按钮布局紧凑，不占用过多空间，与评论内容协调（2 分，布局杂乱扣 1 分）。

2.回复区设计（5 分）

输入框样式统一，高度自适应内容（单行≤60px，多行≤120px）（2 分，样式突兀扣 1 分，高度异常扣 1 分）；

回复内容排版整齐，字体、字号与原评论一致（3 分，排版混乱扣 2 分，字体不一致扣 1 分）。

3.适配性（5 分）

在手机端（≤768px）、平板端（768px-1024px）、PC 端（≥1024px）均有良好显示效果，无布局错乱（3 分，单端错乱扣 1 分）；

深色模式 / 浅色模式下，按钮、文字、背景色对比度符合规范（≥4.5:1）（2 分，对比度不达标扣 1 分）。

四、兼容性（10 分）

支持主流浏览器（Chrome、Firefox、Safari、Edge）最新 3 个版本（4 分，单个浏览器不兼容扣 1 分）；

支持主流移动端系统（iOS 14+、Android 10+）（3 分，单个系统不兼容扣 1 分）；

支持键盘操作（Tab 切换按钮、Enter 触发点击、Esc 取消回复）（3 分，不支持键盘操作扣 2 分）。

五、代码质量（10 分）

代码结构清晰，注释完整（如功能说明、参数解释）（3 分，结构混乱扣 2 分，无注释扣 1 分）；

无冗余代码、无控制台报错（4 分，存在报错每条扣 1 分，冗余代码过多扣 2 分）；

复用现有组件 / 工具函数，无重复开发（3 分，重复开发严重扣 2 分）。

cursor修改后的网页

【cursor测评结果详情】：

• 综合来看，这个项目在评论/回复核心功能上做得非常完整，主要扣分集中在交互细节和可用性上。按评分标准拆解如下：

一、功能完整性（40/40）

评论点赞/否定：每条评论都有独立的点赞/否定按钮；toggleCommentLike / toggleCommentDislike 实现计数实时更新、互斥

且可取消，按钮颜色和图标填充区分状态（15/15）。

回复功能：每条评论都有“回复”按钮，点击后显示输入框；addReply 将回复挂到对应 comment.replies 下，UI 使用缩进和边

框显示层级；仅自己发布的回复会显示“删除”按钮并通过 deleteReply 校验用户（15/15）。

展开/收起回复：当 replies.length >= 3 时显示“展开回复”入口；showAllReplies 控制显示全部或前 2 条，按钮文案在“展

开…条回复 / 收起回复”间切换，逻辑正确（10/10）。

二、交互体验（约 13/25）

空白处取消”的要求（这一项基本丢分）；回复区与原评论通过 pl-4 + border-l-2 做了清晰区分（3/3）；“展开回复”入口

在回复区域底部，字体高亮，未被遮挡，位置合理（4/4）。该大项约 7/10。

操作反馈：点赞/否定/回复/展开/收起都有明显的状态变化（颜色、内容区域变化），即时生效（4/4）；但回复提交没有任

何“加载中”状态，也没有失败提示和重试逻辑（各保留 1 分，合计约 2/6）。

易用性：回复输入框没有自动聚焦，也不支持点击空白处关闭，只能靠“取消”按钮；虽支持回车提交，但整体不符合“自动聚焦

三、UI 设计合理性（约 13/15）

按钮设计：点赞/否定/回复按钮使用直观的图标路径，配合 px-2/py-1 等样式，点击区域和布局都比较合理（5/5）。

回复区设计：评论与回复输入框样式统一，但都是单行 input，没有随内容自动增高（在“高度自适应内容”上略有欠缺）；回复文本使用较小字号，排版整齐但与评论字号不完全一致（约 3/5）。

适配性：整体布局使用大量 md:hidden / hidden md:block 等 Tailwind 响应式类，在手机、平板和 PC 上理论布局良好；深/ 浅色模式通过 ThemeContext 配合 Tailwind 色板，文字与背景对比度基本达标（5/5）。

四、兼容性（约 8/10）

浏览器 & 移动端：使用 React + Vite + Tailwind，未见使用特别老旧或非标准 API，针对最新版 Chrome/Firefox/Safari/

Edge 以及 iOS14+/Android10+ 一般是兼容的（7/7）。

键盘操作：按钮都是 <button> 元素，Tab 可以聚焦，Enter 可触发点击；但回复输入框没有 Esc 关闭的键盘支持，这一点不

符合要求（约 1/3）。

五、代码质量（10/10）

综合得分：约 84 / 100

结构清晰：通过 ThemeContext、AuthContext、DataContext 分层管理主题、认证和数据状态，组件职责清楚；有少量中文注释说明功能（3/3）。

无明显冗余或错误：项目代码中未搜索到自定义的 console.log，逻辑简洁，没有明显死代码或重复实现（4/4）。

复用良好：广泛复用 UserAvatar、PostCard 等组件和上下文方法，没有在多个地方重复实现类似逻辑（3/3）。

示例3 BUG修改任务
【项目信息】：
1.仓库信息
<repo> https://github.com/psf/black
</repo>
2.代码版本
<base_commit>
b1d17ef9a2579d10e5e31d3bb9e0a31dee95d7e9
</base_commit>

【prompt】：

请你读取整个项目和问题描述，详细地进行分析并修复代码中的错误。

输入信息

1. 问题描述

<problem_statement>

`blank_line_after_nested_stub_class`：若前一行是函数定义，则规则不生效描述该缺陷

该问题与 `blank_line_after_nested_stub_class` 预览样式相关。如果类体以带省略号的函数定义结束，该规则无法识别需要添加空行的场景。

复现步骤

例如，将以下代码添加到 `file.pyi` 存根文件中：

```python

class TopLevel:

class Nested1:

foo: int

def bar(self): ...

field = 1

c...

</problem_statement>

产品

Trae

Trae_CN

产品结果展示

评价

给项目增加产品预测的补丁，再重新运行测试用例，测试通过，说明产品给出的patch成功修复bug，得100分

给项目增加产品预测的补丁，再重新运行测试用例，测试不通过，说明产品给出的patch未能成功修复bug，得0分

# 测评邀请

时间规划

1. 报名开始时间：2025年11月26日

2. 测评结果发布：2025年12月26日

拟测评AI编程工具列表

说明：以测评结果发布文章为准。

测评流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供测评测评使用方式

5.获得测评报告

# 申请评测地址

邮件标题：AgentCLUE-AICodeKit「AI编程工具测评基准」测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、产品简介、联系人和所属部门、联系方式

# 交流合作

【声明】内容源于网络

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

内容 241

粉丝 0

CLUE中文语言理解测评基准精准量化AGI进展，定义人类迈向AGI的路线图

总阅读29

粉丝0

内容241