大数跨境

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了!

实测最新 Qwen3.7-Max,对比 Claude Opus 4.8,DeepSeek-V4,结果太意外了! 郭震AI
2026-05-31
14
近期,Qwen3.7-Max 与 Claude Opus 4.8 两款大模型相继发布。尽管在部分榜单中 Claude Opus 4.8 位居榜首,Qwen3.7-Max 紧随其后,但其在实际生产环境中的表现究竟如何?本文通过真实场景实测,为您揭示两者的真实能力差距。

新模型与评测背景

以下是 Code Arena WebDev 榜单截图,显示 Opus 4.8 与 Qwen3.7-Max 分列前两名:
该榜单专注于评估 AI 模型在页面实现、复杂交互、多步骤编码及工具调用等方面的能力。值得注意的是,智谱、Kimi、小米、DeepSeek、MiniMax 等国产大模型均榜上有名,彰显了国产力量的崛起。由于该榜单场景贴近真实开发,具有较高的参考价值。

对比实测:典型 Agent 任务挑战

本次测评选取了一个典型的中小型 Agent 任务,旨在检验各模型的智能体综合能力。为确保客观性,特邀 Gemini-3.5-Flash 和 GPT-5.5 担任“裁判”,对产出结果进行多维打分。

测试任务提示词

开发一个单文件 HTML 网页,实现 Excel 数据分析与可视化工具。具体要求如下:
  • 支持上传 .xlsx/.xls 文件,利用 SheetJS 解析多 Sheet 数据,展示可搜索、分页及横向滚动的数据表格。
  • 自动识别字段类型,统计行列数、缺失值、唯一值及最大/最小/平均/求和等指标,并生成中文数据分析报告
  • 基于 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化图表,支持用户自定义选择 X/Y 字段及图表类型。
  • 仅输出完整可运行的单文件 HTML 代码,无需解释,不使用 Markdown,不依赖后端。

Qwen3.7-Max 实测表现

首先将任务发送给 Qwen3.7-Max:
保存为 HTML 文件并打开,界面展示正常:
导入 Excel 文件后,系统自动进行分页展示:
数据统计预览功能运行良好:
生成的各类可视化图表:
自动生成的部分数据报告:

Claude Opus 4.8 实测表现

同样任务发送给 Claude Opus 4.8,打开生成的 HTML 文件:
数据预览界面:
数据概览展示:
生成的柱状图:
生成的折线图:
生成的饼图:

DeepSeek-V4-Pro 实测表现

将任务发送给 DeepSeek-V4-Pro,结果如下:
双击打开 HTML 文件后的显示效果:
加载 Excel 后的数据预览、字段类型识别及统计信息:
生成的柱状图:
生成的折线图:
生成的饼图:

裁判打分与深度点评

为确保评估客观,首先由 Gemini-3.5-Flash 担任裁判进行评估:
Gemini-3.5-Flash 采用的三个核心打分维度:
最终得分结果:
结果显示令人意外:Claude Opus 4.8 得分仅为 6.8,垫底;而 Qwen3.7-Max 以 9.44 分高居榜首,甚至超过了 DeepSeek-V4-Pro。这与文章开头提到的榜单排名截然相反。

裁判详细点评

针对这一反常结果,裁判给出了具体原因分析:
  • DeepSeek 方案:采用了优秀的左右分栏布局,整体交互与视觉体验流畅,但在自动生成的中文数据分析报告深度上略显单薄。
  • Claude 方案:虽然提供了实用的图表数据聚合功能,但遗憾地缺失了表格搜索与分页交互功能,且未能生成文本形式的分析报告,完成度较低。
  • Qwen 方案:在数据分析深度上表现卓越,能够自动生成结构详尽的中文报告与多维度关联图表,仅在垂直布局的紧凑性上仍有优化空间。
由此可见,Claude Opus 4.8 因缺失多项关键功能导致得分偏低。为排除裁判偏差,再次邀请 GPT-5.5 进行复测:
GPT-5.5 的评测结果与前者一致:Qwen3.7-Max 第一,DeepSeek-V4-Pro 第二,Claude Opus 4.8 第三。
结论明确:在此类 Agent 任务中,Opus 4.8 的实际表现确实不尽如人意。

总结与展望

模型能力的优劣不能仅凭榜单排名或品牌名气判断,必须结合实际生产场景的表现。GPT-5.5 也确认本次测试属于典型的中小型 Agent 任务:
综上所述,在本次中小型 Agent 任务实测中,Qwen3.7-Max 位列第一,DeepSeek-V4-Pro 紧随其后,Claude Opus 4.8 排名第三。这一结果虽出人意料,但具有代表性。未来我们将尝试更复杂的 Agent 任务进行进一步验证。
【声明】内容源于网络
0
0
郭震AI
郭震,工作8年后到美读AI博士,努力分享一些最新且有料的AI。
内容 1447
粉丝 1
郭震AI 郭震,工作8年后到美读AI博士,努力分享一些最新且有料的AI。
总阅读52.1k
粉丝1
内容1.4k