
当所有人都在疯狂囤GPU、建数据中心时,一个扎心的事实是:你花几百亿买的硬件,70%的时间都在"摸鱼"。斯坦福教授带领的团队,用一行代码改写了AI基础设施的游戏规则。
一场价值7万亿美元的"算力焦虑"
你有没有想过,ChatGPT每回复你一句话,背后到底烧掉了多少钱?
根据麦肯锡的预测,如果AI行业继续按照现在的"堆算力"模式发展下去,到2030年,全球数据中心建设投入将高达近7万亿美元。这个数字是什么概念?差不多是全球前十大经济体的GDP总和。
但比这更让人心疼的是另一组数据:斯坦福教授Zain Asgar和他的团队发现,目前部署在全球各地的AI硬件,实际利用率只有15%到30%。也就是说,你花大钱买的GPU、CPU、内存,有70%以上的时间都在"躺平"。
"换个角度想,这意味着全球正在浪费数千亿美元,仅仅因为资源被闲置了。"
Asgar的语气里带着一丝无奈。他是斯坦福大学兼职教授,也是连续创业者——此前创立的Pixie在2020年被New Relic收购。现在,他带领的Gimlet Labs刚刚完成了8000万美元的A轮融资,由Menlo Ventures领投。
这轮融资让Gimlet Labs的总融资额达到9200万美元,估值虽未公开,但考虑到他们已经手握8位数美元的年收入(至少1000万美元),且客户数量在过去4个月翻了一番,这个数字恐怕相当可观。
为什么你的GPU总是在"摸鱼"?
要理解Gimlet Labs在解决什么问题,得先搞清楚AI推理到底是怎么一回事。
想象你在和ChatGPT对话。从输入问题到得到回答,这个过程其实可以拆分成多个步骤:
| 阶段 | 主要任务 | 瓶颈类型 | 最适合的硬件 |
|---|---|---|---|
| 推理(Inference) | 理解问题、生成初步响应 | 计算密集型 | GPU |
| 解码(Decode) | 把生成的结果转换成可读文本 | 内存密集型 | 高内存系统 |
| 工具调用(Tool Calls) | 调用搜索引擎、数据库等外部资源 | 网络密集型 | 高带宽网络架构 |
Menlo Ventures合伙人Tim Tully精辟地总结了这个问题:"没有一颗芯片能同时做好这三件事。"
这就像你雇了一个数学天才、一个记忆大师和一个社交达人,结果每次有任务都把他们三个绑在一起干活。数学天才算题的时候,记忆大师只能干等着;记忆大师检索资料的时候,社交达人也插不上手。
现在的AI基础设施就是这么运作的:不管任务是什么,都往GPU里塞。结果就是,大部分时间要么算力闲置,要么内存不够用,要么网络卡成PPT。
一石三鸟:让算力像水一样流动
Gimlet Labs的解决方案听起来很简洁——让AI任务在多种硬件上同时运行。
但这背后是一套极其复杂的编排系统。他们的"多硅基推理云"(Multi-silicon Inference Cloud)能把一个AI任务切成碎片,哪块适合CPU就在CPU上跑,哪块适合GPU就丢给GPU,需要大量内存的部分就发到高内存服务器。
"我们基本上能在任何可用的硬件上运行。"Asgar说得轻描淡写,但这背后的技术挑战可不小。
举个例子:一个AI模型通常有几千亿甚至上万亿参数。传统的做法是把整个模型塞进一块或几块GPU里。但Gimlet Labs能把模型本身都切开,让不同架构的芯片各负责一部分。
这就像是把一道复杂的数学题拆给几个不同专长的专家:代数部分给代数专家,几何部分给几何专家,统计部分给统计专家。每个人都有自己的"舒适区",效率自然蹭蹭往上涨。
根据Gimlet Labs的官方数据,这套系统能让AI推理速度提升3到10倍,而成本和能耗保持不变。如果这是真的,意味着同样的算力预算,你可以支撑3到10倍的用户量。
巨头们已经悄悄入场
Gimlet Labs的野心不小。他们不打算服务普通的AI应用开发者,而是瞄准了最大的AI模型实验室和数据中心。
这种定位很明智。小团队用几个GPU就能跑起来,没必要引入复杂的异构计算;但当你的服务器数量以万台计时,哪怕10%的效率提升也意味着每年省下来的电费就能买几套房。
目前,Gimlet Labs已经和NVIDIA、AMD、Intel、ARM、Cerebras、d-Matrix等芯片巨头建立了合作关系。这个名单很有意思——既有传统霸主,也有新兴挑战者,甚至还有专注特定架构的创业公司。
这说明Gimlet Labs确实做到了"多硅基",而不是挂在某一家芯片厂商的战车上。
更值得关注的是他们的客户名单。Asgar透露,客户群包括一家主要的大模型制造商和一家规模极大的云计算公司。虽然没有点名,但能让Asgar用上"extremely large"这种形容词的云计算公司,全球也就那么几家。
公司去年10月才正式公开亮相,但已经实现了8位数的收入(至少1000万美元)。对于一家成立不久的B2B基础设施公司来说,这个开局相当亮眼。
为什么是这支团队?
Gimlet Labs的四位创始人——Zain Asgar、Michelle Nguyen、Omid Azizi和Natalie Serrino——此前都在同一家公司共事过:Pixie。
Pixie做的是Kubernetes的可观测性工具,2020年被New Relic收购,距离完成900万美元A轮融资仅隔两个月。有意思的是,Pixie的技术现在已经成为开源Kubernetes项目的一部分,可见其技术实力。
这段经历给他们留下了什么?
第一,他们对大规模分布式系统有深刻的理解。 Kubernetes本身就是用来管理成千上万台服务器的,这和Gimlet Labs要做的事情本质上是一脉相承的。
第二,他们证明过自己。 从创立到被收购只花了两个月,这种执行力和产品市场契合度的把握,是投资人最看重的。
第三,他们有人脉。 Asgar在斯坦福任教,天使投资人里既有红杉资本的前合伙人Bill Coughran,也有斯坦福教授Nick McKeown,还有VMware前CEO Raghu Raghuram和Intel现任CEO Lip-Bu Tan。这种阵容在A轮阶段相当罕见。
Menlo的Tim Tully大约一年前偶然遇到Asgar,聊完之后很快决定投资。消息传出后,"我们收到了一大波投资意向",Asgar回忆道,"轮次很快被超额认购了。"
一场关于AI基础设施的重新思考
Gimlet Labs的故事其实指向了一个更深层次的问题:我们过去几年的AI军备竞赛,是不是走偏了?
当所有人都在抢购H100、建设超大规模数据中心时,很少有人停下来问一句:现有的硬件是不是已经被充分利用了?
Asgar给出的答案是残酷的——15%到30%的利用率意味着,即使明天开始不再购买任何新硬件,AI行业现有的算力也足以支撑数倍的业务增长。
这就像你家的WiFi路由器明明能支持100台设备,但你只连了20台,却天天喊着"网速不够要升级"。
Gimlet Labs的出现,可能会改变整个AI基础设施的投资逻辑。如果软件层面的优化真的能让现有硬件效率提升3到10倍,那么过去那种"买更多GPU=更强AI能力"的简单等式就不成立了。
对于芯片厂商来说,这可能是个坏消息——需求量可能会下降。但对于AI应用开发者和最终用户来说,这绝对是福音。推理成本的大幅下降,意味着更多创新应用会变得经济上可行。
想象一下,如果运行一个AI助手的成本从每天10美元降到1美元,会有多少新的商业模式涌现?
最后
Gimlet Labs的30名员工正在做一件 potentially 改变行业格局的事情。他们不是在做芯片,也不是在做模型,而是在做那个让一切高效运转的编排层。
在计算机历史上,类似的角色往往最终成为最重要的那个——就像操作系统之于硬件,就像浏览器之于互联网。
Asgar说他们的小目标是让AI工作负载的效率提升10倍。但如果他们真的做到了,影响可能远不止于此。这可能意味着AI行业的准入门槛大幅降低,意味着更多创业公司有机会和大厂同台竞技,意味着我们离真正的AI普惠又近了一步。
当然,这一切还取决于Gimlet Labs能否持续交付、能否在大客户的严苛要求下保持稳定性、能否在芯片厂商的博弈中保持中立。
但至少,他们提出了一个值得所有人思考的问题:在追求更大、更快、更强的路上,我们是不是忽略了眼前已经拥有的东西?
有时候,真正的创新不是造出更强大的机器,而是让现有的机器发挥出它们本该拥有的力量。

