Meta翻身！发布AI模型 Muse Spark，从垫底冲到全球前五！- 大数跨境

首页

Meta翻身！发布AI模型 Muse Spark，从垫底冲到全球前五！

AIGCLINK

2026-04-09

导读：今天Meta股价大涨，原因是Meta的新模型终于发布了

今天Meta股价大涨，原因是Meta的新模型终于发布了。

Alexandr Wang 在 X 上发了条推文，宣布了新模型Muse Spark 正式上线。

一年前的这个时候，Meta发布的Llama 4 Maverick 被业内集体唱衰，当时Artificial Analysis 智能指数给了 18 分，排在最底下。

Zuckerberg 随后花了 143 亿美元买下 Scale AI 近一半股权，把 29 岁的Alexandr Wang 挖过来当首席 AI 官，重组出 MSL（超级智能实验室）。在这期间Meta AI经历了砸钱招人的批量离职，大家都在等小扎这波操作着能掀出什么水花。

Muse Spark 现在就是答案。

它既没有像外界预期的那样全面反超，也没有再一次翻车。榜单上它冲进了全球前五，三个垂直方向上甚至拿到第一。

我们通过测评数据和用户实际反馈看看Meta的新模型到底怎么样！

它是一款什么模型

Muse Spark 是 Meta 押注"个人超级智能"方向的第一款原生多模态模型，主攻视觉理解、健康咨询和日常生活场景，不追求全能 SOTA。

具体能力分三块。

1、原生多模态

它不像早期模型那样把视觉模块拼在文本模型外面，而是从底层就同时接受文本、图像、音频输入。

你可以把冰箱里剩下的食材拍一张发给它让它算营养搭配，把瑜伽动作截图发给它让它指出姿势错在哪，或者直接丢一张 App UI 设计稿让它写出完整 HTML 代码，这些都是 Meta 官方博客和早期用户已经跑出来的实际场景。

2、两档推理模式

Instant 模式处理日常问答，秒级响应；Contemplating 模式则启动多代理并行自我精炼再聚合，相当于 Gemini Deep Think 和 GPT Pro 那种"极限推理"档位，专门啃复杂的科学、数学、医学问题。

3、Meta 生态的深度绑定

Muse Spark 目前已经接管 Meta AI app 和 meta.ai 网站的所有查询，未来几周会陆续进入 WhatsApp、Instagram、Facebook、Messenger 以及 Ray-Ban Meta 智能眼镜。

Meta 还专门为它做了一个 Shopping 模式，把模型和用户在 Meta 系产品里的兴趣与行为数据结合起来做购物推荐，这是 OpenAI、Anthropic、Google 都没有的差异化牌。

Introducing Muse Spark: MSL's First Model, Purpose-Built to Prioritize People

和 Llama 时代最大的不一样：Muse Spark 目前闭源，API 仅私测邀请制。Meta 的说法是"希望未来版本能开源"，但首发窗口是握得很紧的。

冲进了榜单前五

Artificial Analysis Intelligence Index v4.0 是目前业内引用最多的综合能力榜，涵盖博士级科学推理、终端编码、办公任务模拟、抽象推理等 10 项硬核评测。新模型Muse Spark 拿了 52 分，一年前Meta的开源模型Llama 4 Maverick 在同一张榜上只有 18 分。

Vals AI 的第三方独立评测给出了更细的画像：综合 Vals Index 上 Muse Spark 排第 3，税务推理直接拿了第一，把 Claude Sonnet 4.6 挤下去，金融代理任务排 2/41，终端编码 2.0 排 3/49。Vals AI 的结论是"Meta 在一年之后重新回到前沿"。

再看 Meta 官方给出的三项关键对比，都是 Thinking 模式对位三家头部旗舰：

复杂科学图表理解。考的是模型能不能同时看懂一张论文里的数据图和旁边那段话的关系。Muse Spark 86.4，GPT-5.4 xhigh 82.8，Gemini 3.1 Pro 80.2，Claude Opus 4.6 65.3。领先明显。

开放式健康问答。考的是面对模糊的真实健康咨询，模型能不能给出准确、全面、有同理心的回答。Muse Spark 42.8，GPT-5.4 40.1，Gemini 20.6，Claude 14.8。和另外两家的差距已经不是小数点后的问题，是量级差。Meta 说他们和 1000 多位医生合作做了数据精选，从结果看这条路走通了。

多模态医学影像问答。把 X 光片或化验单丢过去让它解读：Muse Spark 78.4，GPT-5.4 77.1，Claude 64.8。目前最稳的那一档。

Epoch AI 也独立做了一轮评测。他们拿到早期访问权限之后在 FrontierMath 数学推理榜上跑分，Tiers 1-3 得 39%，Tier 4 得 15%。这个成绩和 Claude Opus 4.6、Gemini 3.1 Pro 在同一梯队，落后 GPT-5.4 Pro 的 50%/38%，但已经是前沿水平。

一些不足

Muse Spark 不是一个全能型模型。

Meta 官方在博客里直接写了"我们继续投入存在性能差距的领域，具体来说是长时程 agentic 系统和编码工作流"。

翻译成大白话就是：编程和长任务代理目前还打不过人家。

ARC AGI 2（抽象推理）：Muse Spark 42.5，Gemini 3.1 Pro 76.5，GPT-5.4 76.1。差了整整一倍。

SWE-Bench Verified（软件工程编码）：Muse Spark 77.4，Claude Opus 4.6 80.8，Gemini 3.1 Pro 80.6。差距不大但明确落后。

Terminal-Bench 2.0（终端编码代理任务）：Muse Spark 59.0，GPT-5.4 75.1，Gemini 3.1 Pro 68.5。这项差距很明显。

GDPval-AA（Artificial Analysis 的办公任务模拟）：Muse Spark 的 Elo 是 1444，GPT-5.4 是 1672，Opus 4.6 是 1606。落后二线位置。

抽象推理和长时程编码任务，恰好是过去半年头部模型竞争最激烈的两个战场。Muse Spark 选择了视觉、健康、多模态推理作为主战场，把资源压到这三条线上，结果在用户比较关注的能力上留下了较为明显的短板。

它是怎么做到又快又强的

Muse Spark 最让 AI infra 圈人眼前一亮的地方不是跑分，是计算效率。

Meta 技术博客里给出了一张"Held Out Codebase Perplexity"的图，横轴是 log(计算量)，纵轴是 bits per byte（越低越好）。

Our focus has been establishing scientific and infrastructure fundamentals that support a very ambitious scaling roadmap + research to break into new paradigms. I've had a lot of fun working with some

按照官方给到的数据，Llama 4 Maverick 需要 10.3 倍的算力才能追平 Muse Spark 的同等 loss，DeepSeek-V3.1 是 8.2 倍，Kimi-K2 是 3.3 倍。

用大白话说：Muse Spark 在达到相同水平的前提下，比自家上一代 Llama 4 省了十倍以上的训练算力。

这就是为什么前 xAI 和 Databricks 工程师 Yuchen Jin 在 X 上说："我仍然认为基础设施才是 AI 实验室真正的护城河。有了好的基础设施，你可以更快地训练模型，研究人员也能更快地尝试更多想法。"

这话的潜台词是：Meta 这次真正重建的不是某个模型，而是整套训练栈。Wang 加入后这 9 个月，新基础设施、新架构、新数据管线全部推倒重来。Muse Spark 只是这套新地基上的第一个产物。

Artificial Analysis 也做了独立观察：Muse Spark 在 Intelligence Index 评测里只用了 5800 万输出 token 就跑完了全部项目，是目前 token 效率最突出的前沿模型之一。小而快的定位背后是一整套训练效率上的突破，不是靠堆参数堆出来的。

用户的亲测环节

榜单漂亮归漂亮，真实手感才是所有人想看的。

Wharton 商学院的 Ethan Mollick 教授是业内公认最勤奋的"模型对比实测人"之一，每有新模型必做横评。4 月 9 日凌晨他在 X 上发了一条测试：用 Thinking 模式生成一个能在 twigl.app 运行的 shader，主题是"无限新哥特式塔楼被暴风雨海洋淹没"。

Muse Spark 的输出是一段带条纹纹理的视频：雾气笼罩的暗黑尖塔在波涛起伏的"海洋"中若隐若现，整体艺术感挺强，但画面有轻微畸变，气氛略诡异。

Mollick 的评价原话是："玩了一会儿，Muse Spark Thinking 模式目前还行，但真的赶不上当前 Big Three。它还有点……奇怪，语言和语气诡异，事实也略松散。"

前OpanAI员工 Pietro Schirano 的案例比较有意思。他把一张 iOS 播放器 UI 截图丢给 Muse Spark 要求转成代码，模型不仅还原了界面，还主动把图里的资源裁剪出来再用到代码里。Schirano 的原话是："这其实相当令人印象深刻，我真的没见过任何模型之前做过这个，或者能做到这种程度。"

还有人测试通过上传一张图移动端收音机的前端界面，Muse Spark就能完整地复制出来，还会给到他理解的动效。

Meta 为什么这次要走闭源

Llama 系列是 Meta 过去几年的金字招牌，也是 Zuckerberg 本人多次在采访里公开捍卫的"AI 开源路线"。Muse Spark 这次直接转闭源，意味着 Meta 在旗舰模型的首发窗口已经不打算再让出去了。

商业逻辑其实很清楚。

Scale AI 的核心能力是高质量数据策展和模型评估，这恰恰是闭源前沿模型需要的东西。Meta 这次为 Muse Spark 重建的整套训练栈、Wang 带入的数据方法论、MSL 的资源投入，都更适合往闭源方向跑。开源 Llama 的意义在于抢生态位，闭源 Muse 的意义在于守住商业入口。

这条路径的直接代价是什么？

Techmeme 和一些业内评论员已经指出：Meta 现在同时维护 Llama 开源和 Muse 闭源两条线，对企业用户会造成"选哪个"的困扰。Microsoft、Google、Anthropic 都只有一条主模型线，清晰的单一路径对企业决策更友好。Meta 的双轨策略是在赌"既要又要"，赌未来 6-12 个月 Muse 能跑出差异化，Llama 继续守生态。

股价当天上涨说明华尔街暂时愿意给这个赌注投票。