大数跨境

Meta重组AI团队后首个模型来了:不是最强、不再开源、可能够用

Meta重组AI团队后首个模型来了:不是最强、不再开源、可能够用 DeepTech深科技
2026-04-09
216
导读:花了一年和上百亿美元重建 AI 团队,交出的第一份答卷既不是最强,也不再开源。

Meta发布Muse Spark:计算效率提升显著,专注垂直领域应用

4月8日,Meta正式推出Muse Spark,作为九个月来首款新模型及超级智能实验室(MSL)成立后的首个产品。公告后Meta股价盘中涨幅超10%。扎克伯格称其为“世界级助手”,但内部高管坦承该模型未代表技术前沿,仅部分任务具备竞争力。对Meta而言,此举标志着其重新回归AI竞争核心圈。

Muse Spark是AI团队大重组后的首个成果。其关键突破在于计算效率:达到Llama 4 Maverick同等性能的计算量减少10倍以上,预训练阶段的scaling law表现也优于DeepSeek-V3.1和Kimi-K2基座模型。

在基准测试中,Meta虽未数据造假,但通过视觉设计弱化竞品优势。重新标注后可见,Muse Spark在多模态视觉和健康任务领先:CharXiv Reasoning(图表理解)以86.4分居首;ScreenSpot Pro(截图定位)获84.1分;HealthBench Hard(开放式健康问答)得分42.8,达Gemini 3.1 Pro(20.6分)两倍以上。Meta透露已与超1000名医生合作构建健康训练数据。

图丨基准测试成果(来源:Meta)

但在编程、抽象推理及agentic任务等热门场景中,Muse Spark明显落后:ARC AGI 2(抽象推理)42.5分,显著低于Gemini 3.1 Pro的76.5分;LiveCodeBench Pro编程测试80分对GPT-5.4的87.5分;Terminal-Bench终端测试59分对75.1分。第三方机构Artificial Analysis综合评分52分,位居Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6之后。

图丨重新标注后的基准测试结果(来源:X)

差异化定位与战略价值

Muse Spark的差异化路径清晰:深度聚焦Meta产品生态。其强项支撑Instagram食物照片识别、Ray-Ban智能眼镜物体识别及健康问答功能。Meta配套推出“购物模式”,整合社交平台兴趣数据驱动个性化推荐,直接衔接广告电商变现链路。

图丨测试结果(来源:Ritesh Khanna)

闭源策略转向

与Llama系列不同,Muse Spark采用闭源模式,仅向“精选合作伙伴”开放私有API预览。此举反映Meta战略调整:优先补强自研产品AI能力,而非继续开源基础设施。Meta年资本支出预算达1150-1350亿美元,Muse Spark作为首项可见产出,验证MSL团队九个月重建技术栈的效率。沃顿商学院教授Ethan Mollick指出,闭源可能限制长期生态评估,但当前“产品优先”策略清晰。

尽管在Humanity's Last Exam(含工具)中沉思模式获50.2分小幅领先,Muse Spark在物理奥赛等硬核任务仍存差距。其发布正值Claude Mythos和智谱GLM-5.1等竞品涌现,Meta面临持续追赶压力。扎克伯格承诺未来将推出更先进开源模型,但现阶段核心任务已明:以产品落地驱动价值释放。

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 5418
粉丝 0
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读55.8k
粉丝0
内容5.4k