大数跨境
0
0

国内首家AI编程工具基准测评方案发布

国内首家AI编程工具基准测评方案发布 CLUE中文语言理解测评基准
2025-11-26
7
导读:中文场景下,AI编程工具哪家强?
AgentCLUE-AICodeKit基准方案要点
1.中文开发场景适配

本评测基准专为中文开发环境设计,涵盖各种的真实中文问题。任务实例涉及中文开发者常用的编程框架,确保评测结果贴近中文开发者的实际需求。

2.核心任务聚焦

聚焦于 AI 编程工具在真实开发环境中解决实际问题的能力,评估不同产品在新项目开发、新功能应用、BUG修复等方面的表现。

3.科学量化评价体系

建立明确的量化评分标准,采用百分制对各项任务表现进行评估。确保评价结果客观、可对比,为AI编程工具性能提升提供明确的方向。

说明:BUG修复任务使用的数据,涵盖了开源项目中各种的真实 GitHub近两年来中文问题(issue)及其对应的拉取请求(PR)。参考文章中文「软件工程」测评基准方案发布!(SuperCLUE-SWE)

# 测评体系

# 测评背景
在大模型加速发展的当下,软件开发的效率与质量成为决定项目成败的关键因素。AI 编程工具应运而生,以其智能辅助的特性,正逐渐改变着开发者的工作模式。从代码的快速生成到错误的精准检测,这些工具为开发者提供了全方位的支持,大大缩短了开发周期,降低了开发成本。然而,市面上的 AI 编程工具琳琅满目,如 Cursor 以项目级上下文理解、多文件协作与代码重构能力脱颖而出,Claude Code 则以自主复杂操作独树一帜 ,它们在功能、性能和适用场景上存在着显著差异。因此,一套针对性强、全面细致的测评方案对于开发者来说至关重要,它不仅能帮助开发者快速甄别出最适合自身需求的工具,还能推动整个 AI 编程工具市场的健康发展,促使工具开发者不断优化产品,提升服务。

本方案 AgentCLUE-AICodeKit是 AI 编程工具测评的专项方案,旨在构建科学、全面的测评体系,精准评估 AI 编程工具的核心能力,填补行业内统一测评标准的空白,明确技术发展方向,为用户选择产品提供可靠依据,同时推动该领域技术的规范化、高质量发展。需要说明的是,本期测评主要考察 IDE 类编程工具,暂不涉及 CLI 类和插件类编程工具,在后续测评中会逐步完善纳入。

# 测评任务

AI 编程工具测评方案共包括3大任务,具体介绍如下:

(1)新项目开发任务:评估 AI 编程工具从需求拆解、架构设计到代码实现、调试优化的全流程自主开发能力。

(2)新功能应用任务:评估 AI 编程工具在已有项目基础上,实现功能设计、代码开发、兼容性适配及功能验证的高效落地能力。

(3)BUG 修复任务:评估 AI 编程工具识别语法错误、逻辑漏洞等各类缺陷,迭代优化修复方案直至功能验证通过的能力。


说明:本次测评仅针对 IDE 类编程工具。

# 评价标准

本次测评的三大任务均采用百分制进行评估,每个任务的评价标准如下:

新项目开发任务:

AI 编程工具的输出结果需满足评分标准各得分点的具体要求,评分将严格按照该标准逐项核算后得出。

说明:评分标准由gpt-5.1 medium根据需求文档,并经过人工校验合理性得到。

新功能应用任务:

AI 编程工具的输出结果需满足评分标准各得分点的具体要求,评分将严格按照该标准逐项核算后得出。

BUG修复任务:

将AI编程工具修复后的结果生成补丁(patch),执行该补丁,如果通过了测试用例,得100分,否则0分。

# 测评方法

1.1新项目开发任务和新功能应用任务的评估流程:

(1)获得问题、产品回复--> (2)在codex中使用gpt-5.1 medium来依据评分标准评价每一题的分数-->(3)计算产品最终得分

1.2BUG修复任务评估流程:

(1)获得问题、产品回复--> (2)将产品回复后的结果生成补丁(patch)--> (3)执行该补丁-->(4)根据补丁能否通过测试用例,计算产品最终得分


2.总分计算:

总任务分为新项目开发任务、新功能应用任务和 BUG 修复任务。


总任务得分计算:

  • 总任务得分 = 新项目开发任务得分*0.4+新功能应用任务得分*0.3+BUG修复任务得分*0.3

说明:具体的权重以测评结果发布文章为准。

# 示例展示
示例1: 新项目开发任务
【题目】:

绝版旧书借阅集合店需求文档

1. 网站概述

1.1 网站名称

绝版旧书借阅集合店

1.2 网站描述

本网站是一个专注于绝版旧书借阅的在线平台,连接藏书者和爱书人,促进文化传承。管理员可在后台配置旧书信息,用户可通过填写表单申请免费借阅珍稀书籍。

1.3 网站定位

  • 建立垂直化的绝版旧书借阅平台

  • 提供便捷的书籍管理和借阅流程

  • 保护珍贵旧书资源,确保合理使用

    2. 用户角色

    2.1 管理员

    • 管理后台所有功能

    • 审核用户借阅申请

    • 管理书籍和用户数据

      2.2 普通用户

      • 浏览绝版旧书列表

      • 申请借阅感兴趣的书籍

      • 查看借阅状态和历史记录

        3. 网站功能

        3.1 书籍管理(后台)

        • 书籍信息录入:ISBN、书名、作者、出版社、出版年份、版次、印刷次数、书籍状态、稀缺程度

        • 书籍图片上传:封面、内页样张

        • 书籍分类管理:文学、历史、艺术、科技等

        • 书籍状态管理:可借阅、已借出、维护中、已下架

        • 书籍描述:内容简介、作者简介、书籍特色、保存状况

          3.2 用户借阅流程

          1.用户注册/登录

          2.浏览书籍信息(可按分类、作者、出版年份等筛选)

          3.查看书籍详情

          4.填写借阅申请表单

          5.提交申请等待审核

          6.查看申请状态

          7.借阅成功(获取取书方式/地址,若邮寄则运费到付)

          8.归还书籍(可线上或线下)

            3.3 借阅申请表单

            必填信息:

            • 姓名

            • 手机号(需短信验证)

            • 借阅目的(研究/收藏/阅读等)

            • 预计归还日期

            • 承诺书(保证爱护书籍等)

              选填信息:

              • 职业/研究领域

              • 曾经借阅过的类似书籍

              • 对本书的简要研究计划(研究用途时)

                3.4 审核流程

                • 管理员收到申请后审核

                • 审核标准:借阅目的合理性、用户历史借阅记录、书籍稀缺程度、用户所在地区

                • 审核结果通知(站内信)

                  3.5 借阅管理

                  • 借阅记录查询

                  • 逾期提醒

                  • 归还确认

                  • 损坏/丢失处理流程

                    3.6 用户系统

                    • 用户注册/登录

                    • 个人资料管理

                    • 借阅历史记录

                    • 收藏夹功能

                    • 信用评价体系

                      4. 主要页面

                      4.1 首页

                      • 搜索栏

                      • 书籍分类导航

                      • 推荐书籍展示

                      • 最新上架书籍

                      • 借阅排行榜

                        4.2 书籍详情页

                        • 书籍封面大图

                        • 书籍详细信息

                        • 借阅按钮/状态

                        • 书籍描述

                        • 借阅须知

                          4.3 借阅申请页

                          • 借阅申请表单

                          • 用户协议勾选

                          • 提交按钮

                            4.4 用户中心

                            • 个人资料

                            • 借阅记录

                            • 收藏夹

                            • 申请状态跟踪

                              4.5 后台管理

                              • 书籍管理

                              • 用户管理

                              • 借阅审核

                                5. 示例数据

                                初步生成的网站放置6本书做示例,确保图片生成可展示:

                                5.1《红楼梦》(民国版)

                                5.2《古文观止》(清代刻本)

                                5.3《鲁迅全集》(1938年初版)

                                5.4《唐诗三百首》(线装本)

                                5.5《资治通鉴》(民国石印本)

                                5.6《本草纲目》(清代版本)

                                  6. 非功能需求

                                  6.1 性能需求

                                  • 页面加载时间小于3秒

                                  • 支持1000+并发用户

                                  • 数据安全可靠,定期备份

                                    6.2 安全需求

                                    • 用户数据加密存储

                                    • 防止SQL注入和XSS攻击

                                    • 敏感操作日志记录

                                      6.3 合规需求

                                      • 遵守版权法律法规

                                      • 隐私政策声明

                                      • 用户数据保护

                                        7. 网站设计风格

                                        • 配色方案:以复古棕色(#8B4513)为主色调,搭配米黄色(#F5DEB3)和深灰色(#4A4A4A),营造古朴典雅的氛围

                                        • 视觉细节:采用圆角矩形卡片(圆角8px),添加柔和阴影(0 2px 8px rgba(0,0,0,0.1)),图标采用线性风格

                                        • 整体布局:首页采用网格式布局展示书籍,详情页采用左右分栏式,左侧展示书籍图片,右侧展示详细信息

                                        请你根据上面的需求文档,帮我在当前的空目录中,生成完整的项目。

                                        【评分标准】:

                                        一、核心功能模块(60 分)

                                        1.书籍管理(后台)(15 分)

                                        书籍信息完整录入(ISBN、出版信息等):4 分

                                        书籍图片上传(封面 + 内页):3 分

                                        分类管理与状态维护:3 分

                                        书籍描述详情配置:3 分

                                        稀缺程度标注功能:2 分

                                        2.用户借阅流程(20 分)

                                        用户注册 / 登录功能:3 分

                                        书籍浏览与筛选(分类 / 作者 / 年份):4 分

                                        借阅申请表单提交:5 分

                                        审核流程闭环(申请 - 审核 - 通知):4 分

                                        借阅 / 归还状态跟踪:4 分

                                        3.借阅管理(15 分)

                                        借阅记录查询(用户 + 管理员端):3 分

                                        逾期提醒功能:3 分

                                        归还确认机制:3 分

                                        损坏 / 丢失处理流程:3 分

                                        信用评价体系:3 分

                                        4.用户系统(10 分)

                                        个人资料管理:2 分

                                        收藏夹功能:2 分

                                        借阅历史可视化:3 分

                                        站内信通知(审核结果 / 提醒):3 分

                                        二、页面功能实现(20 分)

                                        1.核心页面完整性(12 分)

                                        首页(搜索 + 分类 + 推荐):3 分

                                        书籍详情页(信息 + 借阅入口):3 分

                                        借阅申请页(表单 + 协议):3 分

                                        用户中心(全功能入口):3 分

                                        2.后台管理页面(8 分)

                                        书籍管理模块:3 分

                                        用户管理模块:2 分

                                        借阅审核模块:3 分

                                        三、非功能需求(20 分)

                                        1.性能需求(7 分)

                                        页面加载≤3 秒:3 分

                                        支持 1000 + 并发:2 分

                                        数据定期备份:2 分

                                        2.安全需求(7 分)

                                        用户数据加密存储:2 分

                                        防 SQL 注入 / XSS 攻击:3 分

                                        敏感操作日志:2 分

                                        3.合规与设计(6 分)

                                        版权 / 隐私政策合规:3 分

                                        复古风格设计还原(配色 + 布局):3 分


                                        Kiro测评结果详情】:

                                        评分总结

                                        总分:65.5/100分(65.5%)

                                        各模块得分:

                                        1.核心功能模块(60分):39.5分(65.8%)

                                        • 书籍管理:11/15分

                                        • 用户借阅流程:17/20分

                                        • 借阅管理:8.5/15分

                                        • 用户系统:3/10分

                                        2.页面功能实现(20分):19分(95%)

                                        • 核心页面完整性:12/12分

                                        • 后台管理页面:7/8分

                                        3.非功能需求(20分):7分(35%)

                                        • 性能需求:2/7分

                                        • 安全需求:2/7分

                                        • 合规与设计:3/6分


                                        CodeBuddyCN测评结果详情】:

                                        总分:13 / 100(核心功能 4/60,页面 6/20,非功能 3/20)。大部分模块仍是占位页面,只有首页、书籍列表与详情页有较完整实现,整体完成度很低。
                                        示例2: 新功能应用任务
                                        【原始网页展示】:
                                        【题目】:

                                        请你读取整个项目,我现在想要新增: 1)对于每一条评论都有点赞评论和否定评论的按钮,并且点击之后有正常的交互效果。 2)对于每一条评论也有点击回复按钮,点击这个按钮之后,能够弹出回复框,对这条评论进行回复,支持删除自己发布的回复。当单条评论回复数的时候≥3 条时,自动显示 “展开回复” 入口,点击之后,可以参考当前这条评论的所有回复情况。

                                        【评分标准】:

                                        一、功能完整性(40 分)

                                        1.点赞 / 否定评论功能(15 分)

                                        • 每条评论均配备独立点赞、否定按钮,无遗漏(5 分,缺一个按钮扣 2 分,扣完为止);

                                        • 点击点赞按钮后,点赞数实时递增,状态视觉区分(如按钮变色)(4 分,计数不实时扣 2 分,无状态区分扣 2 分);

                                        • 点击否定按钮后,否定数实时递增,状态视觉区分(4 分,标准同点赞功能);

                                        • 支持取消点赞 / 否定操作(点击已激活状态的按钮,计数回退、状态恢复)(2 分,缺少取消功能全扣)。

                                        2.回复功能基础实现(15 分)

                                        • 每条评论配备独立回复按钮,点击后弹出回复输入框(5 分,缺一个按钮扣 2 分,输入框不弹出全扣);

                                        • 输入回复内容后,支持提交并实时显示在对应评论下方(4 分,提交失败扣 3 分,显示延迟扣 1 分);

                                        • 回复内容关联原评论,层级关系清晰(3 分,无层级区分扣 2 分,关联错误全扣);

                                        • 支持删除自己发布的回复(3 分,不支持删除全扣)。

                                        3.展开回复功能(10 分)

                                        • 当单条评论回复数≥3 条时,自动显示 “展开回复” 入口(4 分,未按数量触发扣 3 分,无入口全扣);

                                        • 点击 “展开回复” 后,完整展示所有回复,入口切换为 “收起回复”(3 分,展示不全扣 2 分,无切换效果扣 1 分);

                                        • 点击 “收起回复” 后,仅显示前 2 条回复,恢复 “展开回复” 入口(3 分,收起效果异常全扣)。

                                        二、交互体验(25 分)

                                        1.操作反馈(10 分)

                                        • 点击点赞 / 否定 / 回复 / 展开 / 收起按钮时,有即时视觉反馈(如按钮高亮、震动提示)(4 分,无反馈扣 3 分);

                                        • 回复提交过程中,有加载状态提示(如转圈动画)(3 分,无加载提示扣 2 分);

                                        • 操作失败(如网络异常)时,有明确文字提示,支持重试(3 分,无提示扣 2 分)。

                                        2.易用性(10 分)

                                        • 输入框自动聚焦,支持回车提交、点击空白处取消(3 分,聚焦异常扣 1 分,提交 / 取消不便扣 2 分);

                                        • 回复区与原评论视觉区分明显(如缩进、边框、背景色)(3 分,区分不清晰扣 2 分);

                                        • “展开回复” 入口位置显眼(如回复区底部居中),无遮挡(4 分,位置不合理扣 2 分,被遮挡全扣)。

                                        3.性能表现(5 分)

                                        • 点赞 / 否定计数更新无延迟(≤100ms)(2 分,延迟明显扣 1 分);

                                        • 展开 / 收起回复无卡顿(≤200ms)(2 分,卡顿明显扣 1 分);

                                        • 多回复(≥10 条)场景下,页面滚动流畅(1 分,滚动卡顿全扣)。

                                        三、UI 设计合理性(15 分)

                                        1.按钮设计(5 分)

                                        • 点赞 / 否定 / 回复按钮图标直观(如点赞用 “👍”、回复用 “💬”),尺寸适中(可点击区域≥40px×40px)(3 分,图标不直观扣 1 分,尺寸过小扣 2 分);

                                        • 按钮布局紧凑,不占用过多空间,与评论内容协调(2 分,布局杂乱扣 1 分)。

                                        2.回复区设计(5 分)

                                        • 输入框样式统一,高度自适应内容(单行≤60px,多行≤120px)(2 分,样式突兀扣 1 分,高度异常扣 1 分);

                                        • 回复内容排版整齐,字体、字号与原评论一致(3 分,排版混乱扣 2 分,字体不一致扣 1 分)。

                                        3.适配性(5 分)

                                        • 在手机端(≤768px)、平板端(768px-1024px)、PC 端(≥1024px)均有良好显示效果,无布局错乱(3 分,单端错乱扣 1 分);

                                        • 深色模式 / 浅色模式下,按钮、文字、背景色对比度符合规范(≥4.5:1)(2 分,对比度不达标扣 1 分)。

                                        四、兼容性(10 分)

                                        • 支持主流浏览器(Chrome、Firefox、Safari、Edge)最新 3 个版本(4 分,单个浏览器不兼容扣 1 分);

                                        • 支持主流移动端系统(iOS 14+、Android 10+)(3 分,单个系统不兼容扣 1 分);

                                        • 支持键盘操作(Tab 切换按钮、Enter 触发点击、Esc 取消回复)(3 分,不支持键盘操作扣 2 分)。

                                        五、代码质量(10 分)

                                        • 代码结构清晰,注释完整(如功能说明、参数解释)(3 分,结构混乱扣 2 分,无注释扣 1 分);

                                        • 无冗余代码、无控制台报错(4 分,存在报错每条扣 1 分,冗余代码过多扣 2 分);

                                        • 复用现有组件 / 工具函数,无重复开发(3 分,重复开发严重扣 2 分)。

                                        cursor修改后的网页

                                        【cursor测评结果详情】:

                                        • 综合来看,这个项目在评论/回复核心功能上做得非常完整,主要扣分集中在交互细节和可用性上。按评分标准拆解如下:

                                        • 一、功能完整性(40/40)

                                          • 评论点赞/否定:每条评论都有独立的点赞/否定按钮;toggleCommentLike / toggleCommentDislike 实现计数实时更新、互斥

                                          •   且可取消,按钮颜色和图标填充区分状态(15/15)。

                                          • 回复功能:每条评论都有“回复”按钮,点击后显示输入框;addReply 将回复挂到对应 comment.replies 下,UI 使用缩进和边

                                          •   框显示层级;仅自己发布的回复会显示“删除”按钮并通过 deleteReply 校验用户(15/15)。

                                          • 展开/收起回复:当 replies.length >= 3 时显示“展开回复”入口;showAllReplies 控制显示全部或前 2 条,按钮文案在“展

                                          •   开…条回复 / 收起回复”间切换,逻辑正确(10/10)。

                                        • 二、交互体验(约 13/25)

                                          • 空白处取消”的要求(这一项基本丢分);回复区与原评论通过 pl-4 + border-l-2 做了清晰区分(3/3);“展开回复”入口

                                          •     在回复区域底部,字体高亮,未被遮挡,位置合理(4/4)。该大项约 7/10。

                                          • 操作反馈:点赞/否定/回复/展开/收起都有明显的状态变化(颜色、内容区域变化),即时生效(4/4);但回复提交没有任

                                          •   何“加载中”状态,也没有失败提示和重试逻辑(各保留 1 分,合计约 2/6)。

                                          • 易用性:回复输入框没有自动聚焦,也不支持点击空白处关闭,只能靠“取消”按钮;虽支持回车提交,但整体不符合“自动聚焦

                                        • 三、UI 设计合理性(约 13/15)

                                          • 按钮设计:点赞/否定/回复按钮使用直观的图标路径,配合 px-2/py-1 等样式,点击区域和布局都比较合理(5/5)。

                                          • 回复区设计:评论与回复输入框样式统一,但都是单行 input,没有随内容自动增高(在“高度自适应内容”上略有欠缺);回复        文本使用较小字号,排版整齐但与评论字号不完全一致(约 3/5)。

                                          • 适配性:整体布局使用大量 md:hidden / hidden md:block 等 Tailwind 响应式类,在手机、平板和 PC 上理论布局良好;深/        浅色模式通过 ThemeContext 配合 Tailwind 色板,文字与背景对比度基本达标(5/5)。

                                        • 四、兼容性(约 8/10)

                                          • 浏览器 & 移动端:使用 React + Vite + Tailwind,未见使用特别老旧或非标准 API,针对最新版 Chrome/Firefox/Safari/

                                          •   Edge 以及 iOS14+/Android10+ 一般是兼容的(7/7)。

                                          • 键盘操作:按钮都是 <button> 元素,Tab 可以聚焦,Enter 可触发点击;但回复输入框没有 Esc 关闭的键盘支持,这一点不

                                          •   符合要求(约 1/3)。

                                        • 五、代码质量(10/10)

                                          •     综合得分:约 84 / 100

                                          • 结构清晰:通过 ThemeContext、AuthContext、DataContext 分层管理主题、认证和数据状态,组件职责清楚;有少量中文注释        说明功能(3/3)。

                                          • 无明显冗余或错误:项目代码中未搜索到自定义的 console.log,逻辑简洁,没有明显死代码或重复实现(4/4)。

                                          • 复用良好:广泛复用 UserAvatar、PostCard 等组件和上下文方法,没有在多个地方重复实现类似逻辑(3/3)。


                                        示例3 BUG修改任务

                                        【项目信息】:

                                        1.仓库信息

                                        <repo> https://github.com/psf/black

                                        </repo>

                                        2.代码版本

                                        <base_commit>

                                        b1d17ef9a2579d10e5e31d3bb9e0a31dee95d7e9

                                        </base_commit>

                                        【prompt】:

                                        请你读取整个项目和问题描述,详细地进行分析并修复代码中的错误。

                                        输入信息

                                        1. 问题描述

                                        <problem_statement>

                                        blank_line_after_nested_stub_class若前一行是函数定义,则规则不生效描述该缺陷

                                        该问题与 blank_line_after_nested_stub_class 预览样式相关。如果类体以带省略号的函数定义结束,该规则无法识别需要添加空行的场景。

                                        复现步骤

                                        例如,将以下代码添加到 file.pyi 存根文件中:

                                        ```python

                                        class TopLevel:

                                        class Nested1:

                                        foo: int

                                        def bar(self): ...

                                        field = 1

                                        c...

                                        </problem_statement>

                                        产品
                                        Trae
                                        Trae_CN
                                        产品结果展示
                                        评价

                                        给项目增加产品预测的补丁,再重新运行测试用例,测试通过,说明产品给出的patch成功修复bug,得100分


                                        给项目增加产品预测的补丁,再重新运行测试用例,测试不通过,说明产品给出的patch未能成功修复bug,得0分



                                        测评邀请

                                        间规划

                                        1. 报名开始时间:2025年11月26日
                                        2. 测评结果发布:2025年12月26日

                                        拟测评AI编程工具列表

                                        说明:以测评结果发布文章为准。

                                        测评流程

                                        1.邮件申请

                                        2.意向沟通

                                        3.参测确认与协议流程

                                        4.提供测评测评使用方式

                                        5.获得测评报告

                                        申请评测地址
                                        邮件标题:AgentCLUE-AICodeKit「AI编程工具测评基准」测评申请,发送到contact@superclue.ai

                                        请使用单位邮箱,邮件内容包括:单位信息、产品简介、联系人和所属部门、联系方式
                                        # 交流合作

                                        【声明】内容源于网络
                                        0
                                        0
                                        CLUE中文语言理解测评基准
                                        精准量化AGI进展,定义人类迈向AGI的路线图
                                        内容 241
                                        粉丝 0
                                        CLUE中文语言理解测评基准 精准量化AGI进展,定义人类迈向AGI的路线图
                                        总阅读29
                                        粉丝0
                                        内容241