Meta发布Muse Spark:计算效率提升显著,专注垂直领域应用
4月8日,Meta正式推出Muse Spark,作为九个月来首款新模型及超级智能实验室(MSL)成立后的首个产品。公告后Meta股价盘中涨幅超10%。扎克伯格称其为“世界级助手”,但内部高管坦承该模型未代表技术前沿,仅部分任务具备竞争力。对Meta而言,此举标志着其重新回归AI竞争核心圈。
Muse Spark是AI团队大重组后的首个成果。其关键突破在于计算效率:达到Llama 4 Maverick同等性能的计算量减少10倍以上,预训练阶段的scaling law表现也优于DeepSeek-V3.1和Kimi-K2基座模型。
在基准测试中,Meta虽未数据造假,但通过视觉设计弱化竞品优势。重新标注后可见,Muse Spark在多模态视觉和健康任务领先:CharXiv Reasoning(图表理解)以86.4分居首;ScreenSpot Pro(截图定位)获84.1分;HealthBench Hard(开放式健康问答)得分42.8,达Gemini 3.1 Pro(20.6分)两倍以上。Meta透露已与超1000名医生合作构建健康训练数据。
图丨基准测试成果(来源:Meta)
但在编程、抽象推理及agentic任务等热门场景中,Muse Spark明显落后:ARC AGI 2(抽象推理)42.5分,显著低于Gemini 3.1 Pro的76.5分;LiveCodeBench Pro编程测试80分对GPT-5.4的87.5分;Terminal-Bench终端测试59分对75.1分。第三方机构Artificial Analysis综合评分52分,位居Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6之后。
图丨重新标注后的基准测试结果(来源:X)
差异化定位与战略价值
Muse Spark的差异化路径清晰:深度聚焦Meta产品生态。其强项支撑Instagram食物照片识别、Ray-Ban智能眼镜物体识别及健康问答功能。Meta配套推出“购物模式”,整合社交平台兴趣数据驱动个性化推荐,直接衔接广告电商变现链路。
图丨测试结果(来源:Ritesh Khanna)
闭源策略转向
与Llama系列不同,Muse Spark采用闭源模式,仅向“精选合作伙伴”开放私有API预览。此举反映Meta战略调整:优先补强自研产品AI能力,而非继续开源基础设施。Meta年资本支出预算达1150-1350亿美元,Muse Spark作为首项可见产出,验证MSL团队九个月重建技术栈的效率。沃顿商学院教授Ethan Mollick指出,闭源可能限制长期生态评估,但当前“产品优先”策略清晰。
尽管在Humanity's Last Exam(含工具)中沉思模式获50.2分小幅领先,Muse Spark在物理奥赛等硬核任务仍存差距。其发布正值Claude Mythos和智谱GLM-5.1等竞品涌现,Meta面临持续追赶压力。扎克伯格承诺未来将推出更先进开源模型,但现阶段核心任务已明:以产品落地驱动价值释放。

