大数跨境
0
0

TPU 订单狂增,谷歌扩产新一代芯片!谷歌首席科学家:我们使用 10 多年了,一直非常满意

TPU 订单狂增,谷歌扩产新一代芯片!谷歌首席科学家:我们使用 10 多年了,一直非常满意 AI前线
2025-12-20
2
导读:“我们2013年开始进行这个思想实验,2015年这些芯片才部署到我们的数据中心。”

作者 | 褚杏娟

据最新报道,谷歌TPU芯片需求激增,已大幅扩大与联发科的合作,定制新一代TPU v7e芯片的订单量较原计划增长数倍。消息称,联发科为谷歌设计的首款TPU v7e将于下季度末进入风险试产阶段,并已获得下一代TPU v8e的订单。该项目获得台积电先进封装技术支持,预计到2027年,台积电为该合作项目提供的CoWoS产能将增长7倍以上。

尽管英伟达承认谷歌在过去十年中取得显著进展,但仍认为其在AI加速器领域领先谷歌TPU约两年。由于AI模型迭代迅速,英伟达指出TPU针对特定模型优化,通用性不足,难以被广泛采用。相比之下,英伟达强调其平台具备更高的灵活性和可编程性,仍是构建大规模云端AI基础设施的首选方案。

然而,谷歌TPU的发展已对行业格局产生影响。在NeurIPS大会期间,谷歌DeepMind与谷歌研究院首席科学家、Gemini项目联合技术负责人Jeff Dean在接受访谈时,详细介绍了TPU的技术演进路径及战略意义。

第七代TPU性能大幅提升

主持人: 谷歌近期发布了新型TPU芯片,第七代TPU有何特别之处?

Jeff Dean: 每一代TPU都在前代基础上实现显著提升。第七代TPU支持更高效的低精度浮点格式(如FP4),在大模型训练与推理方面表现突出。这些芯片可组成大型集群(Pods),单个集群包含约9216块芯片,整体性能实现跨越式升级,我们对此非常期待。

从内部需求到开放生态

主持人: 谷歌最初开发TPU是出于内部需求,后来逐步对外开放使用。您如何平衡内部应用与外部市场竞争之间的关系?

Jeff Dean: TPU项目最初确实聚焦于满足谷歌自身的计算需求,尤其是推理任务。早在2013年,我们就预见到深度学习将带来巨大计算压力。例如,若将一个高性能语音模型推送给1亿用户,使用CPU处理将需翻倍数据中心规模。

为此,我们设计了专用于机器学习密集型计算的硬件,重点优化低精度线性代数运算效率。实践证明,第一代TPU在能效上比同期CPU或GPU高出30至70倍,速度提升15至30倍。

2015年,TPU正式部署于谷歌数据中心,并发表相关论文,彼时正处于Transformer架构出现之前。初代TPU主要用于语音识别和视觉卷积模型,在设计末期增加了对长短期记忆网络(LSTM)的支持,从而扩展至语言翻译等任务。

协同设计驱动长期竞争力

主持人: Transformer架构诞生于谷歌,而TPU早于其存在。两者是否存在协同设计的偶然性?

Jeff Dean: 实际上,每一代TPU的研发都高度重视软硬件协同设计。我们的团队会前瞻性地研究未来2.5到6年内可能主流的机器学习计算模式。

尽管预测快速发展的AI领域极具挑战,但我们会在芯片中预留部分硬件功能以应对潜在重要方向。即使某些设计未被广泛应用,也仅占用少量芯片面积;一旦某项技术成为关键路径,我们的硬件即可迅速适配。这种策略使TPU能够持续支撑前沿AI研究。

TPU迈向规模化开放应用

主持人: 从MapReduce到GFS,再到TPU,谷歌多项核心技术由内而外走向开放。随着Ironwood等新架构发布,是否意味着外部用户也将迎来类似谷歌的技术拐点?

Jeff Dean: 我们已使用TPU超过十年,其协同设计优势显著。通过Cloud TPU项目,我们已向外部客户提供服务,广泛应用于各类AI任务。

在TPU之上,我们构建了完整的软件栈:基于XLA编译器(支持TPU后端),运行Pathways系统,上层支持JAX框架。其中,Pathways是一个自研分布式系统,可提供跨数千甚至上万个芯片的“单一系统映像”体验。

研究人员只需运行一个Python进程,即可透明访问多达2万个设备。系统自动调度底层通信机制——在TPU Pod内部使用高速互联,在跨Pod或跨城市场景下切换至数据中心网络或长距离链路。目前,已有大规模训练任务跨越多个城市的TPU集群协同执行。

声明:本文为InfoQ翻译整理,未经许可禁止转载。

【声明】内容源于网络
0
0
AI前线
面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
内容 8002
粉丝 0
AI前线 面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
总阅读50.6k
粉丝0
内容8.0k