新模型与评测背景
以下是 Code Arena WebDev 榜单截图,显示 Opus 4.8 与 Qwen3.7-Max 分列前两名:
对比实测:典型 Agent 任务挑战
本次测评选取了一个典型的中小型 Agent 任务,旨在检验各模型的智能体综合能力。为确保客观性,特邀 Gemini-3.5-Flash 和 GPT-5.5 担任“裁判”,对产出结果进行多维打分。测试任务提示词
开发一个单文件 HTML 网页,实现 Excel 数据分析与可视化工具。具体要求如下:- 支持上传 .xlsx/.xls 文件,利用 SheetJS 解析多 Sheet 数据,展示可搜索、分页及横向滚动的数据表格。
- 自动识别字段类型,统计行列数、缺失值、唯一值及最大/最小/平均/求和等指标,并生成中文数据分析报告。
- 基于 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化图表,支持用户自定义选择 X/Y 字段及图表类型。
- 仅输出完整可运行的单文件 HTML 代码,无需解释,不使用 Markdown,不依赖后端。
Qwen3.7-Max 实测表现
首先将任务发送给 Qwen3.7-Max:
Claude Opus 4.8 实测表现
同样任务发送给 Claude Opus 4.8,打开生成的 HTML 文件:
DeepSeek-V4-Pro 实测表现
将任务发送给 DeepSeek-V4-Pro,结果如下:
裁判打分与深度点评
为确保评估客观,首先由 Gemini-3.5-Flash 担任裁判进行评估:
裁判详细点评
针对这一反常结果,裁判给出了具体原因分析:
- DeepSeek 方案:采用了优秀的左右分栏布局,整体交互与视觉体验流畅,但在自动生成的中文数据分析报告深度上略显单薄。
- Claude 方案:虽然提供了实用的图表数据聚合功能,但遗憾地缺失了表格搜索与分页交互功能,且未能生成文本形式的分析报告,完成度较低。
- Qwen 方案:在数据分析深度上表现卓越,能够自动生成结构详尽的中文报告与多维度关联图表,仅在垂直布局的紧凑性上仍有优化空间。
总结与展望
模型能力的优劣不能仅凭榜单排名或品牌名气判断,必须结合实际生产场景的表现。GPT-5.5 也确认本次测试属于典型的中小型 Agent 任务:

