>

实测最新 Qwen3.7-Max，对比 Claude Opus 4.8，DeepSeek-V4，结果太意外了！

>

实测最新 Qwen3.7-Max，对比 Claude Opus 4.8，DeepSeek-V4，结果太意外了！

实测最新 Qwen3.7-Max，对比 Claude Opus 4.8，DeepSeek-V4，结果太意外了！

郭震AI

2026-05-31

14

近期，Qwen3.7-Max 与 Claude Opus 4.8 两款大模型相继发布。尽管在部分榜单中 Claude Opus 4.8 位居榜首，Qwen3.7-Max 紧随其后，但其在实际生产环境中的表现究竟如何？本文通过真实场景实测，为您揭示两者的真实能力差距。

新模型与评测背景

以下是 Code Arena WebDev 榜单截图，显示 Opus 4.8 与 Qwen3.7-Max 分列前两名：

该榜单专注于评估 AI 模型在页面实现、复杂交互、多步骤编码及工具调用等方面的能力。值得注意的是，智谱、Kimi、小米、DeepSeek、MiniMax 等国产大模型均榜上有名，彰显了国产力量的崛起。由于该榜单场景贴近真实开发，具有较高的参考价值。

对比实测：典型 Agent 任务挑战

本次测评选取了一个典型的中小型 Agent 任务，旨在检验各模型的智能体综合能力。为确保客观性，特邀 Gemini-3.5-Flash 和 GPT-5.5 担任“裁判”，对产出结果进行多维打分。

测试任务提示词

开发一个单文件 HTML 网页，实现 Excel 数据分析与可视化工具。具体要求如下：

支持上传 .xlsx/.xls 文件，利用 SheetJS 解析多 Sheet 数据，展示可搜索、分页及横向滚动的数据表格。
自动识别字段类型，统计行列数、缺失值、唯一值及最大/最小/平均/求和等指标，并生成中文数据分析报告。
基于 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化图表，支持用户自定义选择 X/Y 字段及图表类型。
仅输出完整可运行的单文件 HTML 代码，无需解释，不使用 Markdown，不依赖后端。

Qwen3.7-Max 实测表现

首先将任务发送给 Qwen3.7-Max：

保存为 HTML 文件并打开，界面展示正常：

导入 Excel 文件后，系统自动进行分页展示：

数据统计预览功能运行良好：

生成的各类可视化图表：

自动生成的部分数据报告：

Claude Opus 4.8 实测表现

同样任务发送给 Claude Opus 4.8，打开生成的 HTML 文件：

数据预览界面：

数据概览展示：

生成的柱状图：

生成的折线图：

生成的饼图：

DeepSeek-V4-Pro 实测表现

将任务发送给 DeepSeek-V4-Pro，结果如下：

双击打开 HTML 文件后的显示效果：

加载 Excel 后的数据预览、字段类型识别及统计信息：

生成的柱状图：

生成的折线图：

生成的饼图：

裁判打分与深度点评

为确保评估客观，首先由 Gemini-3.5-Flash 担任裁判进行评估：

Gemini-3.5-Flash 采用的三个核心打分维度：

最终得分结果：

结果显示令人意外：Claude Opus 4.8 得分仅为 6.8，垫底；而 Qwen3.7-Max 以 9.44 分高居榜首，甚至超过了 DeepSeek-V4-Pro。这与文章开头提到的榜单排名截然相反。

裁判详细点评

针对这一反常结果，裁判给出了具体原因分析：

DeepSeek 方案：采用了优秀的左右分栏布局，整体交互与视觉体验流畅，但在自动生成的中文数据分析报告深度上略显单薄。
Claude 方案：虽然提供了实用的图表数据聚合功能，但遗憾地缺失了表格搜索与分页交互功能，且未能生成文本形式的分析报告，完成度较低。
Qwen 方案：在数据分析深度上表现卓越，能够自动生成结构详尽的中文报告与多维度关联图表，仅在垂直布局的紧凑性上仍有优化空间。

由此可见，Claude Opus 4.8 因缺失多项关键功能导致得分偏低。为排除裁判偏差，再次邀请 GPT-5.5 进行复测：

GPT-5.5 的评测结果与前者一致：Qwen3.7-Max 第一，DeepSeek-V4-Pro 第二，Claude Opus 4.8 第三。

结论明确：在此类 Agent 任务中，Opus 4.8 的实际表现确实不尽如人意。

总结与展望

模型能力的优劣不能仅凭榜单排名或品牌名气判断，必须结合实际生产场景的表现。GPT-5.5 也确认本次测试属于典型的中小型 Agent 任务：

综上所述，在本次中小型 Agent 任务实测中，Qwen3.7-Max 位列第一，DeepSeek-V4-Pro 紧随其后，Claude Opus 4.8 排名第三。这一结果虽出人意料，但具有代表性。未来我们将尝试更复杂的 Agent 任务进行进一步验证。

【声明】内容源于网络

0

0

郭震AI

郭震，工作8年后到美读AI博士，努力分享一些最新且有料的AI。

内容 1447

粉丝 1

郭震AI 郭震，工作8年后到美读AI博士，努力分享一些最新且有料的AI。

总阅读52.1k

粉丝1

内容1.4k