

运行超级快速的大语言模型工具Mercury

路上侠客

2025-07-18

导读：今天我们来关注一款据称运行速度相当快的大语言模型工具——Mercury。

今天我们来关注一款据称运行速度相当快的大语言模型工具——Mercury。

官方网址：https://chat.inceptionlabs.ai/

平台支持两种模式：聊天 (Chat) 和编程 (Code)。

功能体验

聊天模式

我们先来看聊天模式。输入一个复杂的提示词，要求生成一份市场调研报告的 PPT 演示页面：

“给我一个北美房车板材市场B2B和B2B2C市场的调研报告。需要覆盖如何运营的策略和具体操作步骤。需要输出一个HTML实现的PPT演示页面。动效华丽精致。图文并茂。形象生动。最后输出一个完整的HTML。中文输出。”

Mercury 的响应速度几乎是瞬时的，并给出了结果。它不仅生成了报告内容，还提供了一个自动演示的 PPT HTML 文档。不过，从视觉效果上看，页面设计比较单调，不够突出。

编程模式 (Mercury Coder)

接下来我们试试它的编程功能。使用相同的提示词，编程模式的响应速度同样极快。

编程模式生成的结果在代码结构和样式上比纯聊天模式要好很多，但仍然不够完美，例如报告内容可能比较稀薄。这可能是因为模型没有联网功能，无法对“北美房车板材市场”这个具体主题进行网络内容的检索和收集，只能基于其内部知识库生成通用性内容。

补充知识：Inception Labs 与 Mercury Coder 模型

https://chat.inceptionlabs.ai/ 是 Inception Labs 公司上线的 Mercury Coder 模型的公开试用地址。Mercury Coder 是 Mercury 系列模型中的编程专用模型。Inception Labs 的创始人之一 Stefano Ermon 是深度学习领域著名技术“扩散模型”(diffusion model) 的发明者之一，同时也是 FlashAttention 原始论文的作者之一，技术背景深厚。

Mercury Coder 模型特点

新的语言生成方法：
该模型引入了一种受图像和视频生成系统（如 MidJourney, Sora）启发的全新语言生成方法。与现有的大多数自回归大语言模型 (LLM) 相比，这种新方法的运行效率显著更高，从而实现了更快的速度和更低的成本（据称可将推理成本降低 10 倍）。
性能比肩前沿模型：
在性能表现上，Mercury Coder 可以与 Claude Haiku 和 GPT-4o-mini 等专为速度优化的前沿模型相提并论。
高硬件效率与吞吐量：
Mercury Coder 充分利用了 GPU 的并行生成机制，能够在商用硬件（如 NVIDIA H100）上以每秒超过 1000 个 token 的高吞吐量提供服务，与一些前沿模型相比，加速超过 20 倍。