大模型推理成本即将崩盘？这家神秘公司要让算力效率飙升10倍！- 大数跨境

首页

大模型推理成本即将崩盘？这家神秘公司要让算力效率飙升10倍！

洞见畏来

2026-03-24

导读：🔥 大模型推理成本即将崩盘？这家神秘公司要让算力效率飙升10倍！当所有人都在疯狂囤GPU、建数据中心时

当所有人都在疯狂囤GPU、建数据中心时，一个扎心的事实是：你花几百亿买的硬件，70%的时间都在"摸鱼"。斯坦福教授带领的团队，用一行代码改写了AI基础设施的游戏规则。

一场价值7万亿美元的"算力焦虑"

你有没有想过，ChatGPT每回复你一句话，背后到底烧掉了多少钱？

根据麦肯锡的预测，如果AI行业继续按照现在的"堆算力"模式发展下去，到2030年，全球数据中心建设投入将高达近7万亿美元。这个数字是什么概念？差不多是全球前十大经济体的GDP总和。

但比这更让人心疼的是另一组数据：斯坦福教授Zain Asgar和他的团队发现，目前部署在全球各地的AI硬件，实际利用率只有15%到30%。也就是说，你花大钱买的GPU、CPU、内存，有70%以上的时间都在"躺平"。

"换个角度想，这意味着全球正在浪费数千亿美元，仅仅因为资源被闲置了。"

Asgar的语气里带着一丝无奈。他是斯坦福大学兼职教授，也是连续创业者——此前创立的Pixie在2020年被New Relic收购。现在，他带领的Gimlet Labs刚刚完成了8000万美元的A轮融资，由Menlo Ventures领投。

这轮融资让Gimlet Labs的总融资额达到9200万美元，估值虽未公开，但考虑到他们已经手握8位数美元的年收入（至少1000万美元），且客户数量在过去4个月翻了一番，这个数字恐怕相当可观。

为什么你的GPU总是在"摸鱼"？

要理解Gimlet Labs在解决什么问题，得先搞清楚AI推理到底是怎么一回事。

想象你在和ChatGPT对话。从输入问题到得到回答，这个过程其实可以拆分成多个步骤：

阶段	主要任务	瓶颈类型	最适合的硬件
推理（Inference）	理解问题、生成初步响应	计算密集型	GPU
解码（Decode）	把生成的结果转换成可读文本	内存密集型	高内存系统
工具调用（Tool Calls）	调用搜索引擎、数据库等外部资源	网络密集型	高带宽网络架构

Menlo Ventures合伙人Tim Tully精辟地总结了这个问题："没有一颗芯片能同时做好这三件事。"

这就像你雇了一个数学天才、一个记忆大师和一个社交达人，结果每次有任务都把他们三个绑在一起干活。数学天才算题的时候，记忆大师只能干等着；记忆大师检索资料的时候，社交达人也插不上手。

现在的AI基础设施就是这么运作的：不管任务是什么，都往GPU里塞。结果就是，大部分时间要么算力闲置，要么内存不够用，要么网络卡成PPT。

一石三鸟：让算力像水一样流动

Gimlet Labs的解决方案听起来很简洁——让AI任务在多种硬件上同时运行。

但这背后是一套极其复杂的编排系统。他们的"多硅基推理云"（Multi-silicon Inference Cloud）能把一个AI任务切成碎片，哪块适合CPU就在CPU上跑，哪块适合GPU就丢给GPU，需要大量内存的部分就发到高内存服务器。

"我们基本上能在任何可用的硬件上运行。"Asgar说得轻描淡写，但这背后的技术挑战可不小。

举个例子：一个AI模型通常有几千亿甚至上万亿参数。传统的做法是把整个模型塞进一块或几块GPU里。但Gimlet Labs能把模型本身都切开，让不同架构的芯片各负责一部分。

这就像是把一道复杂的数学题拆给几个不同专长的专家：代数部分给代数专家，几何部分给几何专家，统计部分给统计专家。每个人都有自己的"舒适区"，效率自然蹭蹭往上涨。

根据Gimlet Labs的官方数据，这套系统能让AI推理速度提升3到10倍，而成本和能耗保持不变。如果这是真的，意味着同样的算力预算，你可以支撑3到10倍的用户量。

巨头们已经悄悄入场

Gimlet Labs的野心不小。他们不打算服务普通的AI应用开发者，而是瞄准了最大的AI模型实验室和数据中心。

这种定位很明智。小团队用几个GPU就能跑起来，没必要引入复杂的异构计算；但当你的服务器数量以万台计时，哪怕10%的效率提升也意味着每年省下来的电费就能买几套房。

目前，Gimlet Labs已经和NVIDIA、AMD、Intel、ARM、Cerebras、d-Matrix等芯片巨头建立了合作关系。这个名单很有意思——既有传统霸主，也有新兴挑战者，甚至还有专注特定架构的创业公司。

这说明Gimlet Labs确实做到了"多硅基"，而不是挂在某一家芯片厂商的战车上。

更值得关注的是他们的客户名单。Asgar透露，客户群包括一家主要的大模型制造商和一家规模极大的云计算公司。虽然没有点名，但能让Asgar用上"extremely large"这种形容词的云计算公司，全球也就那么几家。

公司去年10月才正式公开亮相，但已经实现了8位数的收入（至少1000万美元）。对于一家成立不久的B2B基础设施公司来说，这个开局相当亮眼。

为什么是这支团队？

Gimlet Labs的四位创始人——Zain Asgar、Michelle Nguyen、Omid Azizi和Natalie Serrino——此前都在同一家公司共事过：Pixie。

Pixie做的是Kubernetes的可观测性工具，2020年被New Relic收购，距离完成900万美元A轮融资仅隔两个月。有意思的是，Pixie的技术现在已经成为开源Kubernetes项目的一部分，可见其技术实力。

这段经历给他们留下了什么？

第一，他们对大规模分布式系统有深刻的理解。 Kubernetes本身就是用来管理成千上万台服务器的，这和Gimlet Labs要做的事情本质上是一脉相承的。

第二，他们证明过自己。 从创立到被收购只花了两个月，这种执行力和产品市场契合度的把握，是投资人最看重的。

第三，他们有人脉。 Asgar在斯坦福任教，天使投资人里既有红杉资本的前合伙人Bill Coughran，也有斯坦福教授Nick McKeown，还有VMware前CEO Raghu Raghuram和Intel现任CEO Lip-Bu Tan。这种阵容在A轮阶段相当罕见。

Menlo的Tim Tully大约一年前偶然遇到Asgar，聊完之后很快决定投资。消息传出后，"我们收到了一大波投资意向"，Asgar回忆道，"轮次很快被超额认购了。"

一场关于AI基础设施的重新思考

Gimlet Labs的故事其实指向了一个更深层次的问题：我们过去几年的AI军备竞赛，是不是走偏了？

当所有人都在抢购H100、建设超大规模数据中心时，很少有人停下来问一句：现有的硬件是不是已经被充分利用了？

Asgar给出的答案是残酷的——15%到30%的利用率意味着，即使明天开始不再购买任何新硬件，AI行业现有的算力也足以支撑数倍的业务增长。

这就像你家的WiFi路由器明明能支持100台设备，但你只连了20台，却天天喊着"网速不够要升级"。

Gimlet Labs的出现，可能会改变整个AI基础设施的投资逻辑。如果软件层面的优化真的能让现有硬件效率提升3到10倍，那么过去那种"买更多GPU=更强AI能力"的简单等式就不成立了。

对于芯片厂商来说，这可能是个坏消息——需求量可能会下降。但对于AI应用开发者和最终用户来说，这绝对是福音。推理成本的大幅下降，意味着更多创新应用会变得经济上可行。

想象一下，如果运行一个AI助手的成本从每天10美元降到1美元，会有多少新的商业模式涌现？

最后

Gimlet Labs的30名员工正在做一件 potentially 改变行业格局的事情。他们不是在做芯片，也不是在做模型，而是在做那个让一切高效运转的编排层。

在计算机历史上，类似的角色往往最终成为最重要的那个——就像操作系统之于硬件，就像浏览器之于互联网。

Asgar说他们的小目标是让AI工作负载的效率提升10倍。但如果他们真的做到了，影响可能远不止于此。这可能意味着AI行业的准入门槛大幅降低，意味着更多创业公司有机会和大厂同台竞技，意味着我们离真正的AI普惠又近了一步。

当然，这一切还取决于Gimlet Labs能否持续交付、能否在大客户的严苛要求下保持稳定性、能否在芯片厂商的博弈中保持中立。

但至少，他们提出了一个值得所有人思考的问题：在追求更大、更快、更强的路上，我们是不是忽略了眼前已经拥有的东西？

有时候，真正的创新不是造出更强大的机器，而是让现有的机器发挥出它们本该拥有的力量。

【声明】内容源于网络

洞见畏来

专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

内容 633

粉丝 0

洞见畏来专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

总阅读228

粉丝0

内容633