

不卷模型卷落地：TPU与英伟达的算力之争下，大模型推理层的万亿创业机会

Linkloud精选

2025-12-07

导读：AI的未来，不应该被少数巨头垄断，它应该属于每一个开发者，每一个创业者，每一个有想法的人。

引子：黄仁勋的回应，平台与专用之争

大摩预测谷歌在2027-2028年将销售约1200万片TPU，每50万片可带来130亿美元收入，英伟达面临挑战。对此，黄仁勋回应称，英伟达长期与ASIC类专用芯片竞争，谷歌TPU正是典型代表。但ASIC作为“专才”，仅擅长特定任务，无法跨场景应用；而英伟达凭借CUDA架构，构建了类似操作系统的开放生态，广泛覆盖聊天机器人、工业设计、药物研发等领域，形成不可替代的“通才”优势。

这种差异本质上是平台与封闭体系的较量。英伟达如同开放的军火库，被全球云厂商、服务器企业及边缘计算系统广泛采用；谷歌TPU则更像服务于自身业务的“御用作坊”。尽管谷歌试图打造从芯片到应用的全栈闭环，但在开放生态的历史胜率面前，其路径仍存疑问。

更重要的是，这场争论背后正凸显一个深层趋势：AI计算重心已从训练转向推理，推理市场的爆发正在重塑整个AI基础设施格局。

趋势一：从百万卡到千万卡，推理需求的指数级爆发

训练市场收敛，推理市场爆发

过去两年，行业焦点集中于模型训练，Meta、OpenAI、Google等投入数十亿美元构建大规模GPU集群。Meta截至2024年底拥有超50万张H100等效GPU，OpenAI最大训练集群约10万张H100，Google TPU可扩展至9216芯片的超级集群。然而，头部厂商训练能力趋于饱和，中小厂商依赖开源模型，训练市场正由增量进入存量阶段。

与此同时，推理市场迅速崛起。据Fortune Business Insights数据，2024年全球AI推理市场规模达914亿美元，预计2025年增至1037亿美元，2032年将达到3494亿美元，年复合增长率超19%，成为高增长黄金赛道。

更关键的是，推理对GPU的需求量已超越训练。以一个需10万张H100训练3个月的模型为例，部署后若每日处理10亿次推理请求，需约5万张GPU常驻运行。若扩展至百个同类模型，则推理需求高达500万张GPU。

图1：AI推理市场规模增长预测（2024-2032），年复合增长率19.2%

图2：训练vs推理的GPU需求增长趋势（2023-2028），推理需求在2024年超越训练

从固定集群到弹性资源：基础设施变革

训练任务具有批量、长时间、多卡互联的特点，适合固定集群部署；而推理则是单次、实时、低延迟的高并发任务，对多卡互联要求低，但流量波动剧烈。例如ChatGPT日活超2亿，若每人每天发起10次对话，需约10万张GPU常驻支持，但在凌晨利用率可能不足10%，晚间却严重排队，导致资源利用效率极低。

因此，推理不再适用传统固定资源模式，必须转向面向波动需求的弹性资源体系。Morgan Stanley预测，2025-2028年全球数据中心基础设施投资将达3万亿美元，其中大量资金将用于建设支持弹性推理的新型架构。

这标志着AI基础设施正经历一次范式转移：从百万级训练集群迈向千万级推理资源池。

趋势二：从通用GPU到异构算力，成本优化的军备竞赛

推理成本成为AI公司生死线

随着推理规模扩大，成本问题日益突出。以H100执行视频生成推理为例，单次成本约0.5美元，日均百万请求即耗费50万美元，年支出达1.8亿美元。且多数推理任务无需H100级别的高性能，其高带宽、大显存和多卡互联能力往往被闲置浪费。

这一现状催生了异构算力的发展机遇。

谷歌TPU野心：自研芯片的成本博弈

谷歌TPU战略本质是一场基于成本优化的大规模押注。据Morgan Stanley预测，其TPU年产量将在2028年达到约700万片（累计出货量为1200万片），远超英伟达2024年H100约150-200万片的出货规模。

尽管TPU主要自用，但其在特定推理场景下的性价比可达GPU的2-3倍。若谷歌每日处理10亿次推理请求（涵盖搜索、YouTube推荐、Gemini等），使用TPU相较GPU每年可节省约30亿美元。

此举逻辑清晰：通过垂直整合实现成本优势，构建结构性竞争壁垒。

图4：主要AI玩家的GPU/TPU部署规模对比

云厂商的异构算力布局

除谷歌外，AWS推出Inferentia和Trainium芯片，宣称Inferentia推理成本较GPU降低60%；微软Azure联合AMD开发Instinct GPU实例，并推进自研AI芯片。这些举措背后共同逻辑明确：在推理场景中，专用芯片比通用GPU更具成本优势。

然而，专用芯片生态成熟度远不及CUDA，开发者需重构代码、重新优化，迁移成本可能抵消硬件节约。因此，未来趋势并非“GPU vs ASIC”的对立，而是走向异构算力的混合调度。

图5：不同芯片的推理成本对比（以视频生成为例）

异构算力混合调度：未来的标准架构

未来的AI推理平台将根据任务特征动态选择最优算力资源，实现GPU、TPU、ASIC等多种芯片的统一调度。该模式兼顾性能与成本，将成为主流技术方向。

图6：AI推理硬件全景图

趋势三：从常驻集群到Serverless，这是效率革命的终局

云厂商困局：资源昂贵但利用率低下

当前云厂商面临核心矛盾：GPU资源稀缺昂贵，但平均利用率仅30%-50%。流量高峰差异显著——电商平台集中在双十一大促，内容创作者活跃于下午，企业客户集中于工作日，若为每个客户配置固定资源，将进一步拉低整体利用率。

这一困境源于固定集群无法弹性伸缩，难以应对波动性需求。

Serverless：按需付费的效率跃迁

Serverless推理的核心理念是“用多少付多少，不用不付费”。尽管概念早现于AWS Lambda，但在AI领域因GPU冷启动问题长期受限——传统冷启动需30-60秒，无法满足实时性要求。

如今，通过预热池、智能预测与分层启动等技术，GPU冷启动时间已缩短至5秒以内，Serverless推理具备落地可行性。

图7：GPU冷启动时间优化对比，从45秒降至5秒以内

图8：固定集群vs Serverless的流量模式和GPU利用率对比

Serverless推理市场快速增长

RunPod、Modal等Serverless推理平台在过去一年增长超300%。其核心价值在于：开发者无需管理底层集群，只需提交任务，系统自动完成资源分配、执行与释放。

优势体现在三方面：

成本优化：非使用时段零费用，利用率可达80%以上
弹性扩展：自动响应流量变化，应对突发负载
开发者友好：屏蔽复杂性，聚焦业务逻辑

图9：主要Serverless推理平台增长趋势（2023-2024），年增长率超过300%

图10：固定集群vs Serverless在不同流量场景下的成本对比，Serverless可节省25%-85%

当前技术挑战仍存，包括冷启动速度、异构资源调度与高并发任务编排，但已有开源与商业项目逐步攻克。

从封闭平台到开放生态

RunPod、Modal等商业平台虽表现优异，但属于封闭系统，限制了定制化能力与数据自主权。相比之下，开源Serverless推理系统正快速兴起，具备以下特征：

支持异构算力：兼容GPU、TPU、ASIC
Kubernetes原生：易于部署与运维
自动扩缩容：基于队列深度动态调整资源

这标志着第三大趋势成型：AI推理正从常驻集群迈向Serverless，从封闭走向开放，迎来一场深层次的效率革命。

图11：开源vs商业Serverless平台特性对比，各有优势

结语：Serverless推理，是AI基础设施的终局

回到初始问题：谷歌TPU能否撼动英伟达地位？答案并非零和博弈。英伟达CUDA代表开放平台，谷歌TPU体现垂直整合，二者各有价值。真正的赢家将是那些能灵活调度异构算力、提供Serverless体验、降低开发门槛的平台。

AI推理的未来，不是单一芯片的胜利，而是Serverless架构与开放生态的胜利。

从百万卡到千万卡，从通用GPU到异构算力，从常驻集群到Serverless——三大趋势正深刻重塑AI基础设施格局。谁能构建最高效、灵活、开放的Serverless推理平台，谁就将赢得这场终极竞争。

图12：AI基础设施演进路线图，从训练时代到Serverless时代

算力应该像水电煤一样：从资源竞争到效用革命

未来，算力应如水、电、煤一般，成为随时可用的公共服务。回顾电力发展史，普及的关键并非发电厂数量，而是电网建设使能源可即插即用。今天，无人再为用电自建电厂，AI算力亦将如此。

Serverless推理正在终结“GPU焦虑”——开发者不再需要纠结是否自建集群、购买多少显卡或如何应对流量峰值。

它带来四大转变：

无需拥有：无需采购GPU，通过API调用即可获取算力
按需付费：用量计费，避免资源闲置
随时可用：像开水龙头般即时启用
无限弹性：从1张到上万张GPU自动扩缩

这不仅是技术进步，更是商业模式的根本变革。

谷歌与英伟达仍在争夺“发电厂”规模，但真正的未来属于构建“算力电网”的角色——让算力成为标准化、按需供给的公共基础设施。

Serverless推理的终极意义，正是推动算力从稀缺资源向公共服务转型，实现从资源竞争到效用革命的跨越。而开放生态将是实现这一愿景的关键。

【声明】内容源于网络

Linkloud精选

各类跨境出海行业相关资讯

内容 226

粉丝 0

Linkloud精选各类跨境出海行业相关资讯

总阅读1.7k

粉丝0

内容226