大数跨境

全行业都在忙着“吃虾”,MiniMax M2.7已经让虾自己拿起筷子了

全行业都在忙着“吃虾”,MiniMax M2.7已经让虾自己拿起筷子了 量子位
2026-03-18
10
导读:大模型自我进化时代来了
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

MiniMax在发布M2.5模型仅一个月后,正式推出全新升级版本M2.7。该模型显著强化了复杂任务处理能力与多智能体(Agent)协作能力,在推理、工程实践及自主进化层面实现质的跃升。

面对生产环境中的典型故障,如数据库CPU飙升,M2.7可自动关联监控日志、分析调用链、定位缺失索引,并生成安全可靠的非阻塞式修复脚本,已具备SRE(网站可靠性工程师)级实战能力。

更进一步,M2.7原生支持构建并迭代Agent Harness——即模型与真实计算环境交互的工具系统。结合OpenClaw长期记忆框架,它可在角色扮演、办公自动化等场景中保持身份稳定性与跨语言一致性,同时支撑高沉浸感的交互体验。

目前,M2.7已在MiniMax Agent平台及开放平台全量上线,面向开发者与企业用户开放使用。

最佳Cowork Agent模型

指令遵循与多智能体协作能力跃升

M2.7在复杂技能调度场景下表现稳健:在含40项复杂技能的测试中,指令遵循率达97%;在MM-Claw“龙虾测试”中准确率达62.7%,接近Claude Sonnet 4.6水平。

模型原生支持多智能体协作,无需依赖外部框架即可组建Agent Team。各智能体可稳定锚定身份、自主决策,并协同完成长流程任务拆解与执行。

代码能力进阶至工程级应用

M2.7已超越基础代码生成,覆盖代码重构、漏洞防护与复杂排障等高阶领域。在SWE-Pro评测中以56.22%正确率追平GPT-5.3-Codex;VIBE-Pro端到端项目交付基准亦获高分。

以SRE线上排障为例:告警触发后,模型自动关联监控推导根因,分析调用链并验证数据库状态,精准识别漏建索引问题,进而采用PostgreSQL CONCURRENTLY语法生成非阻塞建索引脚本,全程符合生产环境安全规范。

Office办公场景深度适配

M2.7支持Excel、Word、PPT三类文档的复杂多轮编辑。在GDPval-AA评测中ELO评分位列开源模型第一,超越GPT-5.3。

实际案例显示:输入上市公司年报与业绩沟通会资料后,模型可自主比对研报、构建营收预测模型;输出Excel透视表、撰写Word调研报告,并基于模板生成可用于汇报的PPT,整体能力达初级数据分析师水准。

角色扮演增强人设稳定性与交互沉浸感

M2.7原生支持10种语言,跨语言对话中保持人格统一;深度集成OpenClaw长期记忆框架后,在赛博养崽等持续交互场景中展现出强身份认同能力。

基于此能力,MiniMax开源OpenRoom交互系统,将AI嵌入Web GUI空间,实现对话实时视觉反馈与环境互动,显著提升沉浸感与可用性。

一个模型,带动整个“AI团队”

多Agent原生协作实测:“谁是卧底”游戏搭建

测试要求M2.7统筹1个主持人Agent与5个玩家Agent,为每个角色定制独立人设文件(SOUL.md),并开发后台服务与前端网页,完整呈现游戏流程。

该任务全面检验模型的指令遵循、多角色设定、统筹规划及全栈开发能力。M2.7快速输出结构清晰的完整方案,并响应界面优化需求,将初始界面升级为Minecraft风格UI,同步完成全部角色人设配置。

 上下滑动查看完整内容

点击启动后,六个原生Agent依据规则流畅交互,自主完成整局“谁是卧底”游戏并决出胜负。

SRE级故障排查实测:生产环境数据库性能优化

测试将四份模拟生产系统文档置于桌面,要求M2.7像资深后端架构师一样,定位故障触发事件与数据库CPU飙升的根本原因,并即时输出诊断命令与安全修复代码。

模型从庞杂日志中快速锁定性能瓶颈,提供的EXPLAIN命令直击核心。

 上下滑动查看完整内容

其修复脚本严格采用PostgreSQL CONCURRENTLY语法创建索引,规避锁表风险;并附带完整迁移文件与校验逻辑,可直接提交至CI/CD流程:

CREATE INDEX CONCURRENTLY IF NOT EXISTS
  idx_products_category_created_at
ON public.products (category, created_at DESC);
-- Verify the index was built successfully and is valid
-- (CONCURRENTLY-built indexes may show indisvalid=false until background build completes)
DO $$
BEGIN
  IF EXISTS (
    SELECT 1 FROM pg_indexes
    WHERE indexname = 'idx_products_category_created_at'
      AND tablename = 'products'
  ) THEN
    RAISE NOTICE 'Index idx_products_category_created_at created successfully on products table.';
  ELSE
    RAISE EXCEPTION 'Index creation failed or did not complete. Check pg_stat_progress_create_index.';
  END IF;
END $$;

全流程高效、严谨、可落地,充分体现M2.7在强工程场景下的综合推理与执行能力。

大模型开始自我进化了

M2.7的技术突破不仅体现于功能增强,更在于底层范式的演进:它已具备自我构建并持续优化Agent Harness的能力。

Agent Harness是模型连接现实计算环境的操作中枢,OpenClaw即为其典型实现。M2.7不再局限于被动调用工具,而是能主动设计、组装、调试并迭代自身工具链。

在强化学习实验中,研究员仅需提供初始目标,M2.7即可自主运行实验、监控状态、解析日志、修复异常、提交代码、执行冒烟测试,形成完整研发闭环。

在Harness自我优化测试中,模型通过多轮试错探索出有效改进路径,使内部评测集效果提升30%;在MLE Lite高难度机器学习竞赛中,经24小时自主训练优化,最终斩获9金5银1铜。

当前行业多聚焦于适配OpenClaw等开源框架,本质仍是教模型“用工具”。而MiniMax已率先迈入下一阶段——让模型成为工具的设计者与研发链的关键一环。

这种基于短时记忆、自反馈与自优化机制的主动进化能力,正构成下一代大模型的核心竞争力分水岭。MiniMax M2.7,已率先开启模型自我迭代的新纪元。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14883
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读152.6k
粉丝0
内容14.9k