AI发展的谷歌视角，从算力到架构的深度洞察- 大数跨境

元龙数字智能科技

2025-02-15

AI发展的谷歌视角

从算力到架构的深度洞察

2025 年 2 月 13 日，一场备受瞩目的对话在谷歌两位重量级人物之间展开。现任首席科学家Jeff Dean与出走又回归的Transformer作者Noam Shazeer，在知名播客主持人Dwarkesh Patel的引导下，深入探讨了AI领域的诸多关键议题，吸引了超20万网友在线围观。这场对话宛如一扇窗口，让我们得以窥见AI发展的前沿动态与未来走向。

AI算力正经历深刻变革。随着模型规模与复杂度提升，单个数据中心已无法满足需求，Gemini率先开启跨多个大城市数据中心的异步训练模式，通过高速网络同步计算结果。Jeff Dean指出，当今先进语言模型运算成本极低，一美元可处理百万个token，与大模型对话比读书便宜约100倍，这为提升推理算力提供广阔空间。从基础设施看，推理重要性增加将促使数据中心规划调整，或催生专为推理定制的硬件，推动计算向分布式、异步方向发展。

模型训练中，bug并非总是有害。Noam Shazeer称，因模型对噪音有容忍度，某些bug可能产生意想不到的效果，甚至带来积极影响，助研究人员发现突破点。调试bug时，他们常采用小规模大量实验的策略，快速验证假设。同时，确保训练可重复性至关重要，Jeff Dean提出记录操作日志，特别是梯度更新和数据批次的同步记录，以便复现结果，让调试更可控。

AI模型正从单一结构向模块化架构转型。以Gemini 1.5Pro的专家混合架构为例，虽能依任务激活相应组件，但现有结构仍有局限，各模块大小趋同，缺乏弹性。Jeff Dean设想未来模型应具更有机结构，允许不同团队独立开发或改进不同部分，如特定领域团队分别优化语言或代码理解模块。这种模块化可提升开发效率，汇聚全球智慧。实现上，可通过蒸馏技术优化模块，路由器依任务复杂度调用合适版本，平衡性能与效率。当然，这对基础设施要求更高，需强大TPU集群和充足高带宽内存。

回顾AI发展，2007年谷歌训练的N - gram模型用于机器翻译，却因磁盘存储导致高延迟。后经内存压缩、分布式架构及批处理API优化等手段解决问题，借助摩尔定律，2008年末神经网络开始崭露头角。谷歌早期通过分布式训练实现大规模无监督学习，让模型从视频帧学习高级特征，在ImageNet监督任务中性能提升60%，堪称“Holy Shit时刻”，证明规模化训练和无监督学习的潜力。如今，AI功能远超信息检索，谷歌内部25%代码已由AI完成，且正探索将谷歌与开源源代码整合到开发者上下文，提升模型能力与实用性。

对话中，Noam Shazeer分享加入谷歌的有趣初衷。他起初无意进大公司，看到谷歌每日搜索量指数图表后改变想法，想挣笔钱后投身感兴趣的AI研究。加入后结识导师Jeff Dean，二人合作紧密，谷歌对RM愿景的广泛授权，让他选择长期留下。Jeff Dean的本科论文探讨平行训练神经网络的方法，虽受计算能力限制，但为后来研究奠定基础。他们也担忧AI潜在风险，如“智能爆炸”可能导致AI不可控。谈及在谷歌最快乐的时光，Jeff回忆早期搜索流量增长及近期Gemini团队成果的喜悦，Noam则钟情于“微型厨房区域”的思想碰撞。

这场谷歌大佬间的深度对话，回顾AI发展历程，展望未来方向，为AI行业注入新思考与动力。

【声明】内容源于网络

元龙数字智能科技

永做第一使命第一向善第一

内容 901

粉丝 0

元龙数字智能科技永做第一使命第一向善第一

总阅读730

粉丝0

内容901