大数跨境
0
0

不卷模型卷落地:TPU与英伟达的算力之争下,大模型推理层的万亿创业机会

不卷模型卷落地:TPU与英伟达的算力之争下,大模型推理层的万亿创业机会 Linkloud精选
2025-12-07
0
导读:AI的未来,不应该被少数巨头垄断,它应该属于每一个开发者,每一个创业者,每一个有想法的人。

引子:黄仁勋的回应,平台与专用之争

大摩预测谷歌在2027-2028年将销售约1200万片TPU,每50万片可带来130亿美元收入,英伟达面临挑战。对此,黄仁勋回应称,英伟达长期与ASIC类专用芯片竞争,谷歌TPU正是典型代表。但ASIC作为“专才”,仅擅长特定任务,无法跨场景应用;而英伟达凭借CUDA架构,构建了类似操作系统的开放生态,广泛覆盖聊天机器人、工业设计、药物研发等领域,形成不可替代的“通才”优势。

这种差异本质上是平台与封闭体系的较量。英伟达如同开放的军火库,被全球云厂商、服务器企业及边缘计算系统广泛采用;谷歌TPU则更像服务于自身业务的“御用作坊”。尽管谷歌试图打造从芯片到应用的全栈闭环,但在开放生态的历史胜率面前,其路径仍存疑问。

更重要的是,这场争论背后正凸显一个深层趋势:AI计算重心已从训练转向推理,推理市场的爆发正在重塑整个AI基础设施格局。

趋势一:从百万卡到千万卡,推理需求的指数级爆发

训练市场收敛,推理市场爆发

过去两年,行业焦点集中于模型训练,Meta、OpenAI、Google等投入数十亿美元构建大规模GPU集群。Meta截至2024年底拥有超50万张H100等效GPU,OpenAI最大训练集群约10万张H100,Google TPU可扩展至9216芯片的超级集群。然而,头部厂商训练能力趋于饱和,中小厂商依赖开源模型,训练市场正由增量进入存量阶段。

与此同时,推理市场迅速崛起。据Fortune Business Insights数据,2024年全球AI推理市场规模达914亿美元,预计2025年增至1037亿美元,2032年将达到3494亿美元,年复合增长率超19%,成为高增长黄金赛道。

更关键的是,推理对GPU的需求量已超越训练。以一个需10万张H100训练3个月的模型为例,部署后若每日处理10亿次推理请求,需约5万张GPU常驻运行。若扩展至百个同类模型,则推理需求高达500万张GPU。

图1:AI推理市场规模增长预测(2024-2032),年复合增长率19.2%

图2:训练vs推理的GPU需求增长趋势(2023-2028),推理需求在2024年超越训练

从固定集群到弹性资源:基础设施变革

训练任务具有批量、长时间、多卡互联的特点,适合固定集群部署;而推理则是单次、实时、低延迟的高并发任务,对多卡互联要求低,但流量波动剧烈。例如ChatGPT日活超2亿,若每人每天发起10次对话,需约10万张GPU常驻支持,但在凌晨利用率可能不足10%,晚间却严重排队,导致资源利用效率极低。

因此,推理不再适用传统固定资源模式,必须转向面向波动需求的弹性资源体系。Morgan Stanley预测,2025-2028年全球数据中心基础设施投资将达3万亿美元,其中大量资金将用于建设支持弹性推理的新型架构。

这标志着AI基础设施正经历一次范式转移:从百万级训练集群迈向千万级推理资源池。

趋势二:从通用GPU到异构算力,成本优化的军备竞赛

推理成本成为AI公司生死线

随着推理规模扩大,成本问题日益突出。以H100执行视频生成推理为例,单次成本约0.5美元,日均百万请求即耗费50万美元,年支出达1.8亿美元。且多数推理任务无需H100级别的高性能,其高带宽、大显存和多卡互联能力往往被闲置浪费。

这一现状催生了异构算力的发展机遇。

谷歌TPU野心:自研芯片的成本博弈

谷歌TPU战略本质是一场基于成本优化的大规模押注。据Morgan Stanley预测,其TPU年产量将在2028年达到约700万片(累计出货量为1200万片),远超英伟达2024年H100约150-200万片的出货规模。

尽管TPU主要自用,但其在特定推理场景下的性价比可达GPU的2-3倍。若谷歌每日处理10亿次推理请求(涵盖搜索、YouTube推荐、Gemini等),使用TPU相较GPU每年可节省约30亿美元。

此举逻辑清晰:通过垂直整合实现成本优势,构建结构性竞争壁垒。

图4:主要AI玩家的GPU/TPU部署规模对比

云厂商的异构算力布局

除谷歌外,AWS推出Inferentia和Trainium芯片,宣称Inferentia推理成本较GPU降低60%;微软Azure联合AMD开发Instinct GPU实例,并推进自研AI芯片。这些举措背后共同逻辑明确:在推理场景中,专用芯片比通用GPU更具成本优势。

然而,专用芯片生态成熟度远不及CUDA,开发者需重构代码、重新优化,迁移成本可能抵消硬件节约。因此,未来趋势并非“GPU vs ASIC”的对立,而是走向异构算力的混合调度。

图5:不同芯片的推理成本对比(以视频生成为例)

异构算力混合调度:未来的标准架构

未来的AI推理平台将根据任务特征动态选择最优算力资源,实现GPU、TPU、ASIC等多种芯片的统一调度。该模式兼顾性能与成本,将成为主流技术方向。

图6:AI推理硬件全景图

趋势三:从常驻集群到Serverless,这是效率革命的终局

云厂商困局:资源昂贵但利用率低下

当前云厂商面临核心矛盾:GPU资源稀缺昂贵,但平均利用率仅30%-50%。流量高峰差异显著——电商平台集中在双十一大促,内容创作者活跃于下午,企业客户集中于工作日,若为每个客户配置固定资源,将进一步拉低整体利用率。

这一困境源于固定集群无法弹性伸缩,难以应对波动性需求。

Serverless:按需付费的效率跃迁

Serverless推理的核心理念是“用多少付多少,不用不付费”。尽管概念早现于AWS Lambda,但在AI领域因GPU冷启动问题长期受限——传统冷启动需30-60秒,无法满足实时性要求。

如今,通过预热池、智能预测与分层启动等技术,GPU冷启动时间已缩短至5秒以内,Serverless推理具备落地可行性。

图7:GPU冷启动时间优化对比,从45秒降至5秒以内

图8:固定集群vs Serverless的流量模式和GPU利用率对比

Serverless推理市场快速增长

RunPod、Modal等Serverless推理平台在过去一年增长超300%。其核心价值在于:开发者无需管理底层集群,只需提交任务,系统自动完成资源分配、执行与释放。

优势体现在三方面:

  • 成本优化:非使用时段零费用,利用率可达80%以上
  • 弹性扩展:自动响应流量变化,应对突发负载
  • 开发者友好:屏蔽复杂性,聚焦业务逻辑

图9:主要Serverless推理平台增长趋势(2023-2024),年增长率超过300%

图10:固定集群vs Serverless在不同流量场景下的成本对比,Serverless可节省25%-85%

当前技术挑战仍存,包括冷启动速度、异构资源调度与高并发任务编排,但已有开源与商业项目逐步攻克。

从封闭平台到开放生态

RunPod、Modal等商业平台虽表现优异,但属于封闭系统,限制了定制化能力与数据自主权。相比之下,开源Serverless推理系统正快速兴起,具备以下特征:

  • 支持异构算力:兼容GPU、TPU、ASIC
  • Kubernetes原生:易于部署与运维
  • 自动扩缩容:基于队列深度动态调整资源

这标志着第三大趋势成型:AI推理正从常驻集群迈向Serverless,从封闭走向开放,迎来一场深层次的效率革命。

图11:开源vs商业Serverless平台特性对比,各有优势

结语:Serverless推理,是AI基础设施的终局

回到初始问题:谷歌TPU能否撼动英伟达地位?答案并非零和博弈。英伟达CUDA代表开放平台,谷歌TPU体现垂直整合,二者各有价值。真正的赢家将是那些能灵活调度异构算力、提供Serverless体验、降低开发门槛的平台。

AI推理的未来,不是单一芯片的胜利,而是Serverless架构与开放生态的胜利。

从百万卡到千万卡,从通用GPU到异构算力,从常驻集群到Serverless——三大趋势正深刻重塑AI基础设施格局。谁能构建最高效、灵活、开放的Serverless推理平台,谁就将赢得这场终极竞争。

图12:AI基础设施演进路线图,从训练时代到Serverless时代

算力应该像水电煤一样:从资源竞争到效用革命

未来,算力应如水、电、煤一般,成为随时可用的公共服务。回顾电力发展史,普及的关键并非发电厂数量,而是电网建设使能源可即插即用。今天,无人再为用电自建电厂,AI算力亦将如此。

Serverless推理正在终结“GPU焦虑”——开发者不再需要纠结是否自建集群、购买多少显卡或如何应对流量峰值。

它带来四大转变:

  • 无需拥有:无需采购GPU,通过API调用即可获取算力
  • 按需付费:用量计费,避免资源闲置
  • 随时可用:像开水龙头般即时启用
  • 无限弹性:从1张到上万张GPU自动扩缩

这不仅是技术进步,更是商业模式的根本变革。

谷歌与英伟达仍在争夺“发电厂”规模,但真正的未来属于构建“算力电网”的角色——让算力成为标准化、按需供给的公共基础设施。

Serverless推理的终极意义,正是推动算力从稀缺资源向公共服务转型,实现从资源竞争到效用革命的跨越。而开放生态将是实现这一愿景的关键。

【声明】内容源于网络
0
0
Linkloud精选
各类跨境出海行业相关资讯
内容 226
粉丝 0
Linkloud精选 各类跨境出海行业相关资讯
总阅读1.7k
粉丝0
内容226