大数跨境

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料! 郭震AI
2026-06-05
6

MiniMax M3 近日正式发布,据称其代码生成能力已局部接近 Claude Opus 4.7。为验证其实际表现,本文通过三个典型中小型 Agent 任务进行实测,并与 GPT-5.5、DeepSeek-V4-Pro 进行对比评估。

1 新模型介绍

根据 AA Intelligence Index(简称 AA)榜单显示,MiniMax M3 排名全球第七,位列国产大模型第二。

AA 榜单是目前较受关注的综合模型能力评价体系,选取真实任务、智能体、代码、长上下文、知识幻觉抑制、科学推理等 10 项维度按固定权重合成总分。数据显示,MiniMax M3 总分为 54.7,接近 Claude Opus 4.7 的 57.3。该模型在综合智能、代码工程及智能体工具调用任务上已进入第一梯队,展现出较强的复杂任务处理能力。

2 对比实测

测评思路:选取三个典型的中小型 Agent 任务,重点考察智能体能力;邀请 Gemini-3.1-Pro 担任裁判,基于多维度打分给出客观评估结果。

任务一:Excel 数据分析与可视化工具

提示词要求:开发单文件 HTML 网页,支持上传解析 Excel,展示可搜索、分页表格,自动统计字段信息并生成中文分析报告,利用 ECharts 实现多种可视化图表,无需后端依赖。

MiniMax-M3 输出效果:

前端界面完整,数据表格、统计分析、报告及可视化图表生成效果良好:

GPT-5.5 输出效果:

DeepSeek-V4-Pro 输出效果:

任务二:3D 智能工厂能源管理场景

提示词要求:使用 Three.js 创建单文件 HTML 页面,构建包含厂房、光伏板、储能柜等设备的 3D 场景,实现能量流动动画、交互详情面板及工业科技感视觉,所有资源需代码生成。

MiniMax-M3 输出效果:生成了完整的动态场景。

GPT-5.5 与 DeepSeek-V4-Pro 输出效果:均完成了相应任务并录制了动态演示。

任务三:高保真 UI 截图复刻

提示词要求:根据提供的产品界面截图,开发响应式单文件 HTML 页面,高保真还原布局、样式及交互状态,补齐业务文案,实现 Tab 切换、弹窗等基础交互。

原始截图:

MiniMax-M3 复刻效果:

GPT-5.5 复刻效果:

DeepSeek-V4-Pro 复刻效果:

3 裁判打分

由 Gemini-3.1-Pro 作为裁判,对三个测试案例进行多维度评分。

案例一评分结果

最终排名:

MiniMax-M3 排名第一,DeepSeek-V4-Pro 排名第二,GPT-5.5 排名第三。

案例二评分结果

最终排名:

MiniMax-M3 排名第一,GPT-5.5 排名第二,DeepSeek-V4-Pro 以微弱劣势排第三。

案例三评分结果

最终排名:

GPT-5.5 与 MiniMax-M3 并列第一,DeepSeek-V4-Pro 排名第三。

4 总结

在 Excel 工具开发、3D 场景构建及 UI 截图复刻三项测试中,MiniMax-M3 均获得第一或并列第一的成绩。尤其在 3D 动画生成方面表现卓越,整体完成度超出预期,优于 GPT-5.5 和 DeepSeek-V4-Pro。

值得注意的是,GPT-5.5 在数据分析类任务中仅获第三,表现略逊于预期。

综上所述,MiniMax M3 在前端视觉呈现、复杂网页开发及 Agent 执行任务上,已稳居行业第一梯队。

【声明】内容源于网络
0
0
郭震AI
郭震,工作8年后到美读AI博士,努力分享一些最新且有料的AI。
内容 1454
粉丝 1
郭震AI 郭震,工作8年后到美读AI博士,努力分享一些最新且有料的AI。
总阅读55.0k
粉丝1
内容1.5k