Meta重组AI团队后首个模型来了：不是最强、不再开源、可能够用- 大数跨境

首页

Meta重组AI团队后首个模型来了：不是最强、不再开源、可能够用

DeepTech深科技

2026-04-09

216

导读：花了一年和上百亿美元重建 AI 团队，交出的第一份答卷既不是最强，也不再开源。

Meta发布Muse Spark：计算效率提升显著，专注垂直领域应用

4月8日，Meta正式推出Muse Spark，作为九个月来首款新模型及超级智能实验室（MSL）成立后的首个产品。公告后Meta股价盘中涨幅超10%。扎克伯格称其为“世界级助手”，但内部高管坦承该模型未代表技术前沿，仅部分任务具备竞争力。对Meta而言，此举标志着其重新回归AI竞争核心圈。

Muse Spark是AI团队大重组后的首个成果。其关键突破在于计算效率：达到Llama 4 Maverick同等性能的计算量减少10倍以上，预训练阶段的scaling law表现也优于DeepSeek-V3.1和Kimi-K2基座模型。

在基准测试中，Meta虽未数据造假，但通过视觉设计弱化竞品优势。重新标注后可见，Muse Spark在多模态视觉和健康任务领先：CharXiv Reasoning（图表理解）以86.4分居首；ScreenSpot Pro（截图定位）获84.1分；HealthBench Hard（开放式健康问答）得分42.8，达Gemini 3.1 Pro（20.6分）两倍以上。Meta透露已与超1000名医生合作构建健康训练数据。

图丨基准测试成果（来源：Meta）

但在编程、抽象推理及agentic任务等热门场景中，Muse Spark明显落后：ARC AGI 2（抽象推理）42.5分，显著低于Gemini 3.1 Pro的76.5分；LiveCodeBench Pro编程测试80分对GPT-5.4的87.5分；Terminal-Bench终端测试59分对75.1分。第三方机构Artificial Analysis综合评分52分，位居Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6之后。

图丨重新标注后的基准测试结果（来源：X）

差异化定位与战略价值

Muse Spark的差异化路径清晰：深度聚焦Meta产品生态。其强项支撑Instagram食物照片识别、Ray-Ban智能眼镜物体识别及健康问答功能。Meta配套推出“购物模式”，整合社交平台兴趣数据驱动个性化推荐，直接衔接广告电商变现链路。

图丨测试结果（来源：Ritesh Khanna）

闭源策略转向

与Llama系列不同，Muse Spark采用闭源模式，仅向“精选合作伙伴”开放私有API预览。此举反映Meta战略调整：优先补强自研产品AI能力，而非继续开源基础设施。Meta年资本支出预算达1150-1350亿美元，Muse Spark作为首项可见产出，验证MSL团队九个月重建技术栈的效率。沃顿商学院教授Ethan Mollick指出，闭源可能限制长期生态评估，但当前“产品优先”策略清晰。

尽管在Humanity's Last Exam（含工具）中沉思模式获50.2分小幅领先，Muse Spark在物理奥赛等硬核任务仍存差距。其发布正值Claude Mythos和智谱GLM-5.1等竞品涌现，Meta面临持续追赶压力。扎克伯格承诺未来将推出更先进开源模型，但现阶段核心任务已明：以产品落地驱动价值释放。

【声明】内容源于网络

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

内容 5418

粉丝 0

DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

总阅读55.8k

粉丝0

内容5.4k