本评测基准专为中文开发环境设计,涵盖各种的真实中文问题。任务实例涉及中文开发者常用的编程框架,确保评测结果贴近中文开发者的实际需求。
2.核心任务聚焦
聚焦于 AI 编程工具在真实开发环境中解决实际问题的能力,评估不同产品在新项目开发、新功能应用、BUG修复等方面的表现。
3.科学量化评价体系
建立明确的量化评分标准,采用百分制对各项任务表现进行评估。确保评价结果客观、可对比,为AI编程工具性能提升提供明确的方向。
说明:BUG修复任务使用的数据,涵盖了开源项目中各种的真实 GitHub近两年来中文问题(issue)及其对应的拉取请求(PR)。参考文章中文「软件工程」测评基准方案发布!(SuperCLUE-SWE)。
# 测评体系
本方案 AgentCLUE-AICodeKit是 AI 编程工具测评的专项方案,旨在构建科学、全面的测评体系,精准评估 AI 编程工具的核心能力,填补行业内统一测评标准的空白,明确技术发展方向,为用户选择产品提供可靠依据,同时推动该领域技术的规范化、高质量发展。需要说明的是,本期测评主要考察 IDE 类编程工具,暂不涉及 CLI 类和插件类编程工具,在后续测评中会逐步完善纳入。
# 测评任务
(1)新项目开发任务:评估 AI 编程工具从需求拆解、架构设计到代码实现、调试优化的全流程自主开发能力。
(2)新功能应用任务:评估 AI 编程工具在已有项目基础上,实现功能设计、代码开发、兼容性适配及功能验证的高效落地能力。
(3)BUG 修复任务:评估 AI 编程工具识别语法错误、逻辑漏洞等各类缺陷,迭代优化修复方案直至功能验证通过的能力。
说明:本次测评仅针对 IDE 类编程工具。
# 评价标准
本次测评的三大任务均采用百分制进行评估,每个任务的评价标准如下:
新项目开发任务:
AI 编程工具的输出结果需满足评分标准各得分点的具体要求,评分将严格按照该标准逐项核算后得出。
说明:评分标准由gpt-5.1 medium根据需求文档,并经过人工校验合理性得到。
新功能应用任务:
AI 编程工具的输出结果需满足评分标准各得分点的具体要求,评分将严格按照该标准逐项核算后得出。
BUG修复任务:
将AI编程工具修复后的结果生成补丁(patch),执行该补丁,如果通过了测试用例,得100分,否则0分。
# 测评方法
(1)获得问题、产品回复--> (2)在codex中使用gpt-5.1 medium来依据评分标准评价每一题的分数-->(3)计算产品最终得分
1.2BUG修复任务评估流程:
(1)获得问题、产品回复--> (2)将产品回复后的结果生成补丁(patch)--> (3)执行该补丁-->(4)根据补丁能否通过测试用例,计算产品最终得分
总任务分为新项目开发任务、新功能应用任务和 BUG 修复任务。
总任务得分计算:
总任务得分 = 新项目开发任务得分*0.4+新功能应用任务得分*0.3+BUG修复任务得分*0.3
说明:具体的权重以测评结果发布文章为准。
绝版旧书借阅集合店需求文档
1. 网站概述
1.1 网站名称
绝版旧书借阅集合店
1.2 网站描述
本网站是一个专注于绝版旧书借阅的在线平台,连接藏书者和爱书人,促进文化传承。管理员可在后台配置旧书信息,用户可通过填写表单申请免费借阅珍稀书籍。
1.3 网站定位
建立垂直化的绝版旧书借阅平台
提供便捷的书籍管理和借阅流程
保护珍贵旧书资源,确保合理使用
2. 用户角色
2.1 管理员
管理后台所有功能
审核用户借阅申请
管理书籍和用户数据
2.2 普通用户
浏览绝版旧书列表
申请借阅感兴趣的书籍
查看借阅状态和历史记录
3. 网站功能
3.1 书籍管理(后台)
书籍信息录入:ISBN、书名、作者、出版社、出版年份、版次、印刷次数、书籍状态、稀缺程度
书籍图片上传:封面、内页样张
书籍分类管理:文学、历史、艺术、科技等
书籍状态管理:可借阅、已借出、维护中、已下架
书籍描述:内容简介、作者简介、书籍特色、保存状况
3.2 用户借阅流程
1.用户注册/登录
2.浏览书籍信息(可按分类、作者、出版年份等筛选)
3.查看书籍详情
4.填写借阅申请表单
5.提交申请等待审核
6.查看申请状态
7.借阅成功(获取取书方式/地址,若邮寄则运费到付)
8.归还书籍(可线上或线下)
3.3 借阅申请表单
必填信息:
姓名
手机号(需短信验证)
借阅目的(研究/收藏/阅读等)
预计归还日期
承诺书(保证爱护书籍等)
选填信息:
职业/研究领域
曾经借阅过的类似书籍
对本书的简要研究计划(研究用途时)
3.4 审核流程
管理员收到申请后审核
审核标准:借阅目的合理性、用户历史借阅记录、书籍稀缺程度、用户所在地区
审核结果通知(站内信)
3.5 借阅管理
借阅记录查询
逾期提醒
归还确认
损坏/丢失处理流程
3.6 用户系统
用户注册/登录
个人资料管理
借阅历史记录
收藏夹功能
信用评价体系
4. 主要页面
4.1 首页
搜索栏
书籍分类导航
推荐书籍展示
最新上架书籍
借阅排行榜
4.2 书籍详情页
书籍封面大图
书籍详细信息
借阅按钮/状态
书籍描述
借阅须知
4.3 借阅申请页
借阅申请表单
用户协议勾选
提交按钮
4.4 用户中心
个人资料
借阅记录
收藏夹
申请状态跟踪
4.5 后台管理
书籍管理
用户管理
借阅审核
5. 示例数据
初步生成的网站放置6本书做示例,确保图片生成可展示:
5.1《红楼梦》(民国版)
5.2《古文观止》(清代刻本)
5.3《鲁迅全集》(1938年初版)
5.4《唐诗三百首》(线装本)
5.5《资治通鉴》(民国石印本)
5.6《本草纲目》(清代版本)
6. 非功能需求
6.1 性能需求
页面加载时间小于3秒
支持1000+并发用户
数据安全可靠,定期备份
6.2 安全需求
用户数据加密存储
防止SQL注入和XSS攻击
敏感操作日志记录
6.3 合规需求
遵守版权法律法规
隐私政策声明
用户数据保护
7. 网站设计风格
配色方案:以复古棕色(#8B4513)为主色调,搭配米黄色(#F5DEB3)和深灰色(#4A4A4A),营造古朴典雅的氛围
视觉细节:采用圆角矩形卡片(圆角8px),添加柔和阴影(0 2px 8px rgba(0,0,0,0.1)),图标采用线性风格
整体布局:首页采用网格式布局展示书籍,详情页采用左右分栏式,左侧展示书籍图片,右侧展示详细信息
请你根据上面的需求文档,帮我在当前的空目录中,生成完整的项目。
一、核心功能模块(60 分)
1.书籍管理(后台)(15 分)
书籍信息完整录入(ISBN、出版信息等):4 分
书籍图片上传(封面 + 内页):3 分
分类管理与状态维护:3 分
书籍描述详情配置:3 分
稀缺程度标注功能:2 分
2.用户借阅流程(20 分)
用户注册 / 登录功能:3 分
书籍浏览与筛选(分类 / 作者 / 年份):4 分
借阅申请表单提交:5 分
审核流程闭环(申请 - 审核 - 通知):4 分
借阅 / 归还状态跟踪:4 分
3.借阅管理(15 分)
借阅记录查询(用户 + 管理员端):3 分
逾期提醒功能:3 分
归还确认机制:3 分
损坏 / 丢失处理流程:3 分
信用评价体系:3 分
4.用户系统(10 分)
个人资料管理:2 分
收藏夹功能:2 分
借阅历史可视化:3 分
站内信通知(审核结果 / 提醒):3 分
二、页面功能实现(20 分)
1.核心页面完整性(12 分)
首页(搜索 + 分类 + 推荐):3 分
书籍详情页(信息 + 借阅入口):3 分
借阅申请页(表单 + 协议):3 分
用户中心(全功能入口):3 分
2.后台管理页面(8 分)
书籍管理模块:3 分
用户管理模块:2 分
借阅审核模块:3 分
三、非功能需求(20 分)
1.性能需求(7 分)
页面加载≤3 秒:3 分
支持 1000 + 并发:2 分
数据定期备份:2 分
2.安全需求(7 分)
用户数据加密存储:2 分
防 SQL 注入 / XSS 攻击:3 分
敏感操作日志:2 分
3.合规与设计(6 分)
版权 / 隐私政策合规:3 分
复古风格设计还原(配色 + 布局):3 分
评分总结
总分:65.5/100分(65.5%)
各模块得分:
1.核心功能模块(60分):39.5分(65.8%)
书籍管理:11/15分
用户借阅流程:17/20分
借阅管理:8.5/15分
用户系统:3/10分
2.页面功能实现(20分):19分(95%)
核心页面完整性:12/12分
后台管理页面:7/8分
3.非功能需求(20分):7分(35%)
性能需求:2/7分
安全需求:2/7分
合规与设计:3/6分
总分:13 / 100(核心功能 4/60,页面 6/20,非功能 3/20)。大部分模块仍是占位页面,只有首页、书籍列表与详情页有较完整实现,整体完成度很低。
示例2: 新功能应用任务
【原始网页展示】:
【题目】:
请你读取整个项目,我现在想要新增: 1)对于每一条评论都有点赞评论和否定评论的按钮,并且点击之后有正常的交互效果。 2)对于每一条评论也有点击回复按钮,点击这个按钮之后,能够弹出回复框,对这条评论进行回复,支持删除自己发布的回复。当单条评论回复数的时候≥3 条时,自动显示 “展开回复” 入口,点击之后,可以参考当前这条评论的所有回复情况。
【评分标准】:
一、功能完整性(40 分)
1.点赞 / 否定评论功能(15 分)
每条评论均配备独立点赞、否定按钮,无遗漏(5 分,缺一个按钮扣 2 分,扣完为止);
点击点赞按钮后,点赞数实时递增,状态视觉区分(如按钮变色)(4 分,计数不实时扣 2 分,无状态区分扣 2 分);
点击否定按钮后,否定数实时递增,状态视觉区分(4 分,标准同点赞功能);
支持取消点赞 / 否定操作(点击已激活状态的按钮,计数回退、状态恢复)(2 分,缺少取消功能全扣)。
2.回复功能基础实现(15 分)
每条评论配备独立回复按钮,点击后弹出回复输入框(5 分,缺一个按钮扣 2 分,输入框不弹出全扣);
输入回复内容后,支持提交并实时显示在对应评论下方(4 分,提交失败扣 3 分,显示延迟扣 1 分);
回复内容关联原评论,层级关系清晰(3 分,无层级区分扣 2 分,关联错误全扣);
支持删除自己发布的回复(3 分,不支持删除全扣)。
3.展开回复功能(10 分)
当单条评论回复数≥3 条时,自动显示 “展开回复” 入口(4 分,未按数量触发扣 3 分,无入口全扣);
点击 “展开回复” 后,完整展示所有回复,入口切换为 “收起回复”(3 分,展示不全扣 2 分,无切换效果扣 1 分);
点击 “收起回复” 后,仅显示前 2 条回复,恢复 “展开回复” 入口(3 分,收起效果异常全扣)。
二、交互体验(25 分)
1.操作反馈(10 分)
点击点赞 / 否定 / 回复 / 展开 / 收起按钮时,有即时视觉反馈(如按钮高亮、震动提示)(4 分,无反馈扣 3 分);
回复提交过程中,有加载状态提示(如转圈动画)(3 分,无加载提示扣 2 分);
操作失败(如网络异常)时,有明确文字提示,支持重试(3 分,无提示扣 2 分)。
2.易用性(10 分)
输入框自动聚焦,支持回车提交、点击空白处取消(3 分,聚焦异常扣 1 分,提交 / 取消不便扣 2 分);
回复区与原评论视觉区分明显(如缩进、边框、背景色)(3 分,区分不清晰扣 2 分);
“展开回复” 入口位置显眼(如回复区底部居中),无遮挡(4 分,位置不合理扣 2 分,被遮挡全扣)。
3.性能表现(5 分)
点赞 / 否定计数更新无延迟(≤100ms)(2 分,延迟明显扣 1 分);
展开 / 收起回复无卡顿(≤200ms)(2 分,卡顿明显扣 1 分);
多回复(≥10 条)场景下,页面滚动流畅(1 分,滚动卡顿全扣)。
三、UI 设计合理性(15 分)
1.按钮设计(5 分)
点赞 / 否定 / 回复按钮图标直观(如点赞用 “👍”、回复用 “💬”),尺寸适中(可点击区域≥40px×40px)(3 分,图标不直观扣 1 分,尺寸过小扣 2 分);
按钮布局紧凑,不占用过多空间,与评论内容协调(2 分,布局杂乱扣 1 分)。
2.回复区设计(5 分)
输入框样式统一,高度自适应内容(单行≤60px,多行≤120px)(2 分,样式突兀扣 1 分,高度异常扣 1 分);
回复内容排版整齐,字体、字号与原评论一致(3 分,排版混乱扣 2 分,字体不一致扣 1 分)。
3.适配性(5 分)
在手机端(≤768px)、平板端(768px-1024px)、PC 端(≥1024px)均有良好显示效果,无布局错乱(3 分,单端错乱扣 1 分);
深色模式 / 浅色模式下,按钮、文字、背景色对比度符合规范(≥4.5:1)(2 分,对比度不达标扣 1 分)。
四、兼容性(10 分)
支持主流浏览器(Chrome、Firefox、Safari、Edge)最新 3 个版本(4 分,单个浏览器不兼容扣 1 分);
支持主流移动端系统(iOS 14+、Android 10+)(3 分,单个系统不兼容扣 1 分);
支持键盘操作(Tab 切换按钮、Enter 触发点击、Esc 取消回复)(3 分,不支持键盘操作扣 2 分)。
五、代码质量(10 分)
代码结构清晰,注释完整(如功能说明、参数解释)(3 分,结构混乱扣 2 分,无注释扣 1 分);
无冗余代码、无控制台报错(4 分,存在报错每条扣 1 分,冗余代码过多扣 2 分);
复用现有组件 / 工具函数,无重复开发(3 分,重复开发严重扣 2 分)。
cursor修改后的网页
【cursor测评结果详情】:
• 综合来看,这个项目在评论/回复核心功能上做得非常完整,主要扣分集中在交互细节和可用性上。按评分标准拆解如下:
一、功能完整性(40/40)
评论点赞/否定:每条评论都有独立的点赞/否定按钮;toggleCommentLike / toggleCommentDislike 实现计数实时更新、互斥
且可取消,按钮颜色和图标填充区分状态(15/15)。
回复功能:每条评论都有“回复”按钮,点击后显示输入框;addReply 将回复挂到对应 comment.replies 下,UI 使用缩进和边
框显示层级;仅自己发布的回复会显示“删除”按钮并通过 deleteReply 校验用户(15/15)。
展开/收起回复:当 replies.length >= 3 时显示“展开回复”入口;showAllReplies 控制显示全部或前 2 条,按钮文案在“展
开…条回复 / 收起回复”间切换,逻辑正确(10/10)。
二、交互体验(约 13/25)
空白处取消”的要求(这一项基本丢分);回复区与原评论通过 pl-4 + border-l-2 做了清晰区分(3/3);“展开回复”入口
在回复区域底部,字体高亮,未被遮挡,位置合理(4/4)。该大项约 7/10。
操作反馈:点赞/否定/回复/展开/收起都有明显的状态变化(颜色、内容区域变化),即时生效(4/4);但回复提交没有任
何“加载中”状态,也没有失败提示和重试逻辑(各保留 1 分,合计约 2/6)。
易用性:回复输入框没有自动聚焦,也不支持点击空白处关闭,只能靠“取消”按钮;虽支持回车提交,但整体不符合“自动聚焦
三、UI 设计合理性(约 13/15)
按钮设计:点赞/否定/回复按钮使用直观的图标路径,配合 px-2/py-1 等样式,点击区域和布局都比较合理(5/5)。
回复区设计:评论与回复输入框样式统一,但都是单行 input,没有随内容自动增高(在“高度自适应内容”上略有欠缺);回复 文本使用较小字号,排版整齐但与评论字号不完全一致(约 3/5)。
适配性:整体布局使用大量 md:hidden / hidden md:block 等 Tailwind 响应式类,在手机、平板和 PC 上理论布局良好;深/ 浅色模式通过 ThemeContext 配合 Tailwind 色板,文字与背景对比度基本达标(5/5)。
四、兼容性(约 8/10)
浏览器 & 移动端:使用 React + Vite + Tailwind,未见使用特别老旧或非标准 API,针对最新版 Chrome/Firefox/Safari/
Edge 以及 iOS14+/Android10+ 一般是兼容的(7/7)。
键盘操作:按钮都是 <button> 元素,Tab 可以聚焦,Enter 可触发点击;但回复输入框没有 Esc 关闭的键盘支持,这一点不
符合要求(约 1/3)。
五、代码质量(10/10)
综合得分:约 84 / 100
结构清晰:通过 ThemeContext、AuthContext、DataContext 分层管理主题、认证和数据状态,组件职责清楚;有少量中文注释 说明功能(3/3)。
无明显冗余或错误:项目代码中未搜索到自定义的 console.log,逻辑简洁,没有明显死代码或重复实现(4/4)。
复用良好:广泛复用 UserAvatar、PostCard 等组件和上下文方法,没有在多个地方重复实现类似逻辑(3/3)。
示例3 BUG修改任务
|
请你读取整个项目,我现在想要新增: 1)对于每一条评论都有点赞评论和否定评论的按钮,并且点击之后有正常的交互效果。 2)对于每一条评论也有点击回复按钮,点击这个按钮之后,能够弹出回复框,对这条评论进行回复,支持删除自己发布的回复。当单条评论回复数的时候≥3 条时,自动显示 “展开回复” 入口,点击之后,可以参考当前这条评论的所有回复情况。
一、功能完整性(40 分)
1.点赞 / 否定评论功能(15 分)
每条评论均配备独立点赞、否定按钮,无遗漏(5 分,缺一个按钮扣 2 分,扣完为止);
点击点赞按钮后,点赞数实时递增,状态视觉区分(如按钮变色)(4 分,计数不实时扣 2 分,无状态区分扣 2 分);
点击否定按钮后,否定数实时递增,状态视觉区分(4 分,标准同点赞功能);
支持取消点赞 / 否定操作(点击已激活状态的按钮,计数回退、状态恢复)(2 分,缺少取消功能全扣)。
2.回复功能基础实现(15 分)
每条评论配备独立回复按钮,点击后弹出回复输入框(5 分,缺一个按钮扣 2 分,输入框不弹出全扣);
输入回复内容后,支持提交并实时显示在对应评论下方(4 分,提交失败扣 3 分,显示延迟扣 1 分);
回复内容关联原评论,层级关系清晰(3 分,无层级区分扣 2 分,关联错误全扣);
支持删除自己发布的回复(3 分,不支持删除全扣)。
3.展开回复功能(10 分)
当单条评论回复数≥3 条时,自动显示 “展开回复” 入口(4 分,未按数量触发扣 3 分,无入口全扣);
点击 “展开回复” 后,完整展示所有回复,入口切换为 “收起回复”(3 分,展示不全扣 2 分,无切换效果扣 1 分);
点击 “收起回复” 后,仅显示前 2 条回复,恢复 “展开回复” 入口(3 分,收起效果异常全扣)。
二、交互体验(25 分)
1.操作反馈(10 分)
点击点赞 / 否定 / 回复 / 展开 / 收起按钮时,有即时视觉反馈(如按钮高亮、震动提示)(4 分,无反馈扣 3 分);
回复提交过程中,有加载状态提示(如转圈动画)(3 分,无加载提示扣 2 分);
操作失败(如网络异常)时,有明确文字提示,支持重试(3 分,无提示扣 2 分)。
2.易用性(10 分)
输入框自动聚焦,支持回车提交、点击空白处取消(3 分,聚焦异常扣 1 分,提交 / 取消不便扣 2 分);
回复区与原评论视觉区分明显(如缩进、边框、背景色)(3 分,区分不清晰扣 2 分);
“展开回复” 入口位置显眼(如回复区底部居中),无遮挡(4 分,位置不合理扣 2 分,被遮挡全扣)。
3.性能表现(5 分)
点赞 / 否定计数更新无延迟(≤100ms)(2 分,延迟明显扣 1 分);
展开 / 收起回复无卡顿(≤200ms)(2 分,卡顿明显扣 1 分);
多回复(≥10 条)场景下,页面滚动流畅(1 分,滚动卡顿全扣)。
三、UI 设计合理性(15 分)
1.按钮设计(5 分)
点赞 / 否定 / 回复按钮图标直观(如点赞用 “👍”、回复用 “💬”),尺寸适中(可点击区域≥40px×40px)(3 分,图标不直观扣 1 分,尺寸过小扣 2 分);
按钮布局紧凑,不占用过多空间,与评论内容协调(2 分,布局杂乱扣 1 分)。
2.回复区设计(5 分)
输入框样式统一,高度自适应内容(单行≤60px,多行≤120px)(2 分,样式突兀扣 1 分,高度异常扣 1 分);
回复内容排版整齐,字体、字号与原评论一致(3 分,排版混乱扣 2 分,字体不一致扣 1 分)。
3.适配性(5 分)
在手机端(≤768px)、平板端(768px-1024px)、PC 端(≥1024px)均有良好显示效果,无布局错乱(3 分,单端错乱扣 1 分);
深色模式 / 浅色模式下,按钮、文字、背景色对比度符合规范(≥4.5:1)(2 分,对比度不达标扣 1 分)。
四、兼容性(10 分)
支持主流浏览器(Chrome、Firefox、Safari、Edge)最新 3 个版本(4 分,单个浏览器不兼容扣 1 分);
支持主流移动端系统(iOS 14+、Android 10+)(3 分,单个系统不兼容扣 1 分);
支持键盘操作(Tab 切换按钮、Enter 触发点击、Esc 取消回复)(3 分,不支持键盘操作扣 2 分)。
五、代码质量(10 分)
代码结构清晰,注释完整(如功能说明、参数解释)(3 分,结构混乱扣 2 分,无注释扣 1 分);
无冗余代码、无控制台报错(4 分,存在报错每条扣 1 分,冗余代码过多扣 2 分);
复用现有组件 / 工具函数,无重复开发(3 分,重复开发严重扣 2 分)。
|
|
|
|
【cursor测评结果详情】:
• 综合来看,这个项目在评论/回复核心功能上做得非常完整,主要扣分集中在交互细节和可用性上。按评分标准拆解如下:
一、功能完整性(40/40)
评论点赞/否定:每条评论都有独立的点赞/否定按钮;toggleCommentLike / toggleCommentDislike 实现计数实时更新、互斥
且可取消,按钮颜色和图标填充区分状态(15/15)。
回复功能:每条评论都有“回复”按钮,点击后显示输入框;addReply 将回复挂到对应 comment.replies 下,UI 使用缩进和边
框显示层级;仅自己发布的回复会显示“删除”按钮并通过 deleteReply 校验用户(15/15)。
展开/收起回复:当 replies.length >= 3 时显示“展开回复”入口;showAllReplies 控制显示全部或前 2 条,按钮文案在“展
开…条回复 / 收起回复”间切换,逻辑正确(10/10)。
二、交互体验(约 13/25)
空白处取消”的要求(这一项基本丢分);回复区与原评论通过 pl-4 + border-l-2 做了清晰区分(3/3);“展开回复”入口
在回复区域底部,字体高亮,未被遮挡,位置合理(4/4)。该大项约 7/10。
操作反馈:点赞/否定/回复/展开/收起都有明显的状态变化(颜色、内容区域变化),即时生效(4/4);但回复提交没有任
何“加载中”状态,也没有失败提示和重试逻辑(各保留 1 分,合计约 2/6)。
易用性:回复输入框没有自动聚焦,也不支持点击空白处关闭,只能靠“取消”按钮;虽支持回车提交,但整体不符合“自动聚焦
三、UI 设计合理性(约 13/15)
按钮设计:点赞/否定/回复按钮使用直观的图标路径,配合 px-2/py-1 等样式,点击区域和布局都比较合理(5/5)。
回复区设计:评论与回复输入框样式统一,但都是单行 input,没有随内容自动增高(在“高度自适应内容”上略有欠缺);回复 文本使用较小字号,排版整齐但与评论字号不完全一致(约 3/5)。
适配性:整体布局使用大量 md:hidden / hidden md:block 等 Tailwind 响应式类,在手机、平板和 PC 上理论布局良好;深/ 浅色模式通过 ThemeContext 配合 Tailwind 色板,文字与背景对比度基本达标(5/5)。
四、兼容性(约 8/10)
浏览器 & 移动端:使用 React + Vite + Tailwind,未见使用特别老旧或非标准 API,针对最新版 Chrome/Firefox/Safari/
Edge 以及 iOS14+/Android10+ 一般是兼容的(7/7)。
键盘操作:按钮都是 <button> 元素,Tab 可以聚焦,Enter 可触发点击;但回复输入框没有 Esc 关闭的键盘支持,这一点不
符合要求(约 1/3)。
五、代码质量(10/10)
综合得分:约 84 / 100
结构清晰:通过 ThemeContext、AuthContext、DataContext 分层管理主题、认证和数据状态,组件职责清楚;有少量中文注释 说明功能(3/3)。
无明显冗余或错误:项目代码中未搜索到自定义的 console.log,逻辑简洁,没有明显死代码或重复实现(4/4)。
复用良好:广泛复用 UserAvatar、PostCard 等组件和上下文方法,没有在多个地方重复实现类似逻辑(3/3)。
【项目信息】:
1.仓库信息
<repo> https://github.com/psf/black
</repo>
2.代码版本
<base_commit>
b1d17ef9a2579d10e5e31d3bb9e0a31dee95d7e9
</base_commit>
请你读取整个项目和问题描述,详细地进行分析并修复代码中的错误。
输入信息
1. 问题描述
<problem_statement>
blank_line_after_nested_stub_class:若前一行是函数定义,则规则不生效描述该缺陷
该问题与 blank_line_after_nested_stub_class 预览样式相关。如果类体以带省略号的函数定义结束,该规则无法识别需要添加空行的场景。
复现步骤
例如,将以下代码添加到 file.pyi 存根文件中:
```python
class TopLevel:
class Nested1:
foo: int
def bar(self): ...
field = 1
c...
</problem_statement>
|
|
|
|
|
|
|
|
|
|
给项目增加产品预测的补丁,再重新运行测试用例,测试通过,说明产品给出的patch成功修复bug,得100分 |
给项目增加产品预测的补丁,再重新运行测试用例,测试不通过,说明产品给出的patch未能成功修复bug,得0分 |
时间规划
拟测评AI编程工具列表
说明:以测评结果发布文章为准。
测评流程
1.邮件申请
2.意向沟通
3.参测确认与协议流程
4.提供测评测评使用方式
5.获得测评报告



