引子:黄仁勋的回应,平台与专用之争
大摩预测谷歌在2027-2028年将销售约1200万片TPU,每50万片可带来130亿美元收入,英伟达面临挑战。对此,黄仁勋回应称,英伟达长期与ASIC类专用芯片竞争,谷歌TPU正是典型代表。但ASIC作为“专才”,仅擅长特定任务,无法跨场景应用;而英伟达凭借CUDA架构,构建了类似操作系统的开放生态,广泛覆盖聊天机器人、工业设计、药物研发等领域,形成不可替代的“通才”优势。
这种差异本质上是平台与封闭体系的较量。英伟达如同开放的军火库,被全球云厂商、服务器企业及边缘计算系统广泛采用;谷歌TPU则更像服务于自身业务的“御用作坊”。尽管谷歌试图打造从芯片到应用的全栈闭环,但在开放生态的历史胜率面前,其路径仍存疑问。
更重要的是,这场争论背后正凸显一个深层趋势:AI计算重心已从训练转向推理,推理市场的爆发正在重塑整个AI基础设施格局。
趋势一:从百万卡到千万卡,推理需求的指数级爆发
训练市场收敛,推理市场爆发
过去两年,行业焦点集中于模型训练,Meta、OpenAI、Google等投入数十亿美元构建大规模GPU集群。Meta截至2024年底拥有超50万张H100等效GPU,OpenAI最大训练集群约10万张H100,Google TPU可扩展至9216芯片的超级集群。然而,头部厂商训练能力趋于饱和,中小厂商依赖开源模型,训练市场正由增量进入存量阶段。
与此同时,推理市场迅速崛起。据Fortune Business Insights数据,2024年全球AI推理市场规模达914亿美元,预计2025年增至1037亿美元,2032年将达到3494亿美元,年复合增长率超19%,成为高增长黄金赛道。
更关键的是,推理对GPU的需求量已超越训练。以一个需10万张H100训练3个月的模型为例,部署后若每日处理10亿次推理请求,需约5万张GPU常驻运行。若扩展至百个同类模型,则推理需求高达500万张GPU。
图1:AI推理市场规模增长预测(2024-2032),年复合增长率19.2%
图2:训练vs推理的GPU需求增长趋势(2023-2028),推理需求在2024年超越训练
从固定集群到弹性资源:基础设施变革
训练任务具有批量、长时间、多卡互联的特点,适合固定集群部署;而推理则是单次、实时、低延迟的高并发任务,对多卡互联要求低,但流量波动剧烈。例如ChatGPT日活超2亿,若每人每天发起10次对话,需约10万张GPU常驻支持,但在凌晨利用率可能不足10%,晚间却严重排队,导致资源利用效率极低。
因此,推理不再适用传统固定资源模式,必须转向面向波动需求的弹性资源体系。Morgan Stanley预测,2025-2028年全球数据中心基础设施投资将达3万亿美元,其中大量资金将用于建设支持弹性推理的新型架构。
这标志着AI基础设施正经历一次范式转移:从百万级训练集群迈向千万级推理资源池。
趋势二:从通用GPU到异构算力,成本优化的军备竞赛
推理成本成为AI公司生死线
随着推理规模扩大,成本问题日益突出。以H100执行视频生成推理为例,单次成本约0.5美元,日均百万请求即耗费50万美元,年支出达1.8亿美元。且多数推理任务无需H100级别的高性能,其高带宽、大显存和多卡互联能力往往被闲置浪费。
这一现状催生了异构算力的发展机遇。
谷歌TPU野心:自研芯片的成本博弈
谷歌TPU战略本质是一场基于成本优化的大规模押注。据Morgan Stanley预测,其TPU年产量将在2028年达到约700万片(累计出货量为1200万片),远超英伟达2024年H100约150-200万片的出货规模。
尽管TPU主要自用,但其在特定推理场景下的性价比可达GPU的2-3倍。若谷歌每日处理10亿次推理请求(涵盖搜索、YouTube推荐、Gemini等),使用TPU相较GPU每年可节省约30亿美元。
此举逻辑清晰:通过垂直整合实现成本优势,构建结构性竞争壁垒。
图4:主要AI玩家的GPU/TPU部署规模对比
云厂商的异构算力布局
除谷歌外,AWS推出Inferentia和Trainium芯片,宣称Inferentia推理成本较GPU降低60%;微软Azure联合AMD开发Instinct GPU实例,并推进自研AI芯片。这些举措背后共同逻辑明确:在推理场景中,专用芯片比通用GPU更具成本优势。
然而,专用芯片生态成熟度远不及CUDA,开发者需重构代码、重新优化,迁移成本可能抵消硬件节约。因此,未来趋势并非“GPU vs ASIC”的对立,而是走向异构算力的混合调度。
图5:不同芯片的推理成本对比(以视频生成为例)
异构算力混合调度:未来的标准架构
未来的AI推理平台将根据任务特征动态选择最优算力资源,实现GPU、TPU、ASIC等多种芯片的统一调度。该模式兼顾性能与成本,将成为主流技术方向。
图6:AI推理硬件全景图
趋势三:从常驻集群到Serverless,这是效率革命的终局
云厂商困局:资源昂贵但利用率低下
当前云厂商面临核心矛盾:GPU资源稀缺昂贵,但平均利用率仅30%-50%。流量高峰差异显著——电商平台集中在双十一大促,内容创作者活跃于下午,企业客户集中于工作日,若为每个客户配置固定资源,将进一步拉低整体利用率。
这一困境源于固定集群无法弹性伸缩,难以应对波动性需求。
Serverless:按需付费的效率跃迁
Serverless推理的核心理念是“用多少付多少,不用不付费”。尽管概念早现于AWS Lambda,但在AI领域因GPU冷启动问题长期受限——传统冷启动需30-60秒,无法满足实时性要求。
如今,通过预热池、智能预测与分层启动等技术,GPU冷启动时间已缩短至5秒以内,Serverless推理具备落地可行性。
图7:GPU冷启动时间优化对比,从45秒降至5秒以内
图8:固定集群vs Serverless的流量模式和GPU利用率对比
Serverless推理市场快速增长
RunPod、Modal等Serverless推理平台在过去一年增长超300%。其核心价值在于:开发者无需管理底层集群,只需提交任务,系统自动完成资源分配、执行与释放。
优势体现在三方面:
- 成本优化:非使用时段零费用,利用率可达80%以上
- 弹性扩展:自动响应流量变化,应对突发负载
- 开发者友好:屏蔽复杂性,聚焦业务逻辑
图9:主要Serverless推理平台增长趋势(2023-2024),年增长率超过300%
图10:固定集群vs Serverless在不同流量场景下的成本对比,Serverless可节省25%-85%
当前技术挑战仍存,包括冷启动速度、异构资源调度与高并发任务编排,但已有开源与商业项目逐步攻克。
从封闭平台到开放生态
RunPod、Modal等商业平台虽表现优异,但属于封闭系统,限制了定制化能力与数据自主权。相比之下,开源Serverless推理系统正快速兴起,具备以下特征:
- 支持异构算力:兼容GPU、TPU、ASIC
- Kubernetes原生:易于部署与运维
- 自动扩缩容:基于队列深度动态调整资源
这标志着第三大趋势成型:AI推理正从常驻集群迈向Serverless,从封闭走向开放,迎来一场深层次的效率革命。
图11:开源vs商业Serverless平台特性对比,各有优势
结语:Serverless推理,是AI基础设施的终局
回到初始问题:谷歌TPU能否撼动英伟达地位?答案并非零和博弈。英伟达CUDA代表开放平台,谷歌TPU体现垂直整合,二者各有价值。真正的赢家将是那些能灵活调度异构算力、提供Serverless体验、降低开发门槛的平台。
AI推理的未来,不是单一芯片的胜利,而是Serverless架构与开放生态的胜利。
从百万卡到千万卡,从通用GPU到异构算力,从常驻集群到Serverless——三大趋势正深刻重塑AI基础设施格局。谁能构建最高效、灵活、开放的Serverless推理平台,谁就将赢得这场终极竞争。
图12:AI基础设施演进路线图,从训练时代到Serverless时代
算力应该像水电煤一样:从资源竞争到效用革命
未来,算力应如水、电、煤一般,成为随时可用的公共服务。回顾电力发展史,普及的关键并非发电厂数量,而是电网建设使能源可即插即用。今天,无人再为用电自建电厂,AI算力亦将如此。
Serverless推理正在终结“GPU焦虑”——开发者不再需要纠结是否自建集群、购买多少显卡或如何应对流量峰值。
它带来四大转变:
- 无需拥有:无需采购GPU,通过API调用即可获取算力
- 按需付费:用量计费,避免资源闲置
- 随时可用:像开水龙头般即时启用
- 无限弹性:从1张到上万张GPU自动扩缩
这不仅是技术进步,更是商业模式的根本变革。
谷歌与英伟达仍在争夺“发电厂”规模,但真正的未来属于构建“算力电网”的角色——让算力成为标准化、按需供给的公共基础设施。
Serverless推理的终极意义,正是推动算力从稀缺资源向公共服务转型,实现从资源竞争到效用革命的跨越。而开放生态将是实现这一愿景的关键。

