>

实测最新 MiniMax-M3，对比 GPT-5.5，DeepSeek-V4，结果出人意料！

>

实测最新 MiniMax-M3，对比 GPT-5.5，DeepSeek-V4，结果出人意料！

实测最新 MiniMax-M3，对比 GPT-5.5，DeepSeek-V4，结果出人意料！

郭震AI

2026-06-05

6

MiniMax M3 近日正式发布，据称其代码生成能力已局部接近 Claude Opus 4.7。为验证其实际表现，本文通过三个典型中小型 Agent 任务进行实测，并与 GPT-5.5、DeepSeek-V4-Pro 进行对比评估。

1 新模型介绍

根据 AA Intelligence Index（简称 AA）榜单显示，MiniMax M3 排名全球第七，位列国产大模型第二。

AA 榜单是目前较受关注的综合模型能力评价体系，选取真实任务、智能体、代码、长上下文、知识幻觉抑制、科学推理等 10 项维度按固定权重合成总分。数据显示，MiniMax M3 总分为 54.7，接近 Claude Opus 4.7 的 57.3。该模型在综合智能、代码工程及智能体工具调用任务上已进入第一梯队，展现出较强的复杂任务处理能力。

2 对比实测

测评思路：选取三个典型的中小型 Agent 任务，重点考察智能体能力；邀请 Gemini-3.1-Pro 担任裁判，基于多维度打分给出客观评估结果。

任务一：Excel 数据分析与可视化工具

提示词要求：开发单文件 HTML 网页，支持上传解析 Excel，展示可搜索、分页表格，自动统计字段信息并生成中文分析报告，利用 ECharts 实现多种可视化图表，无需后端依赖。

MiniMax-M3 输出效果：

前端界面完整，数据表格、统计分析、报告及可视化图表生成效果良好：

GPT-5.5 输出效果：

DeepSeek-V4-Pro 输出效果：

任务二：3D 智能工厂能源管理场景

提示词要求：使用 Three.js 创建单文件 HTML 页面，构建包含厂房、光伏板、储能柜等设备的 3D 场景，实现能量流动动画、交互详情面板及工业科技感视觉，所有资源需代码生成。

MiniMax-M3 输出效果：生成了完整的动态场景。

GPT-5.5 与 DeepSeek-V4-Pro 输出效果：均完成了相应任务并录制了动态演示。

任务三：高保真 UI 截图复刻

提示词要求：根据提供的产品界面截图，开发响应式单文件 HTML 页面，高保真还原布局、样式及交互状态，补齐业务文案，实现 Tab 切换、弹窗等基础交互。

原始截图：

MiniMax-M3 复刻效果：

GPT-5.5 复刻效果：

DeepSeek-V4-Pro 复刻效果：

3 裁判打分

由 Gemini-3.1-Pro 作为裁判，对三个测试案例进行多维度评分。

案例一评分结果

最终排名：

MiniMax-M3 排名第一，DeepSeek-V4-Pro 排名第二，GPT-5.5 排名第三。

案例二评分结果

最终排名：

MiniMax-M3 排名第一，GPT-5.5 排名第二，DeepSeek-V4-Pro 以微弱劣势排第三。

案例三评分结果

最终排名：

GPT-5.5 与 MiniMax-M3 并列第一，DeepSeek-V4-Pro 排名第三。

4 总结

在 Excel 工具开发、3D 场景构建及 UI 截图复刻三项测试中，MiniMax-M3 均获得第一或并列第一的成绩。尤其在 3D 动画生成方面表现卓越，整体完成度超出预期，优于 GPT-5.5 和 DeepSeek-V4-Pro。

值得注意的是，GPT-5.5 在数据分析类任务中仅获第三，表现略逊于预期。

综上所述，MiniMax M3 在前端视觉呈现、复杂网页开发及 Agent 执行任务上，已稳居行业第一梯队。

【声明】内容源于网络

0

0

郭震AI

郭震，工作8年后到美读AI博士，努力分享一些最新且有料的AI。

内容 1454

粉丝 1

郭震AI 郭震，工作8年后到美读AI博士，努力分享一些最新且有料的AI。

总阅读55.0k

粉丝1

内容1.5k