


AI发展的谷歌视角
从算力到架构的深度洞察
2025 年 2 月 13 日,一场备受瞩目的对话在谷歌两位重量级人物之间展开。现任首席科学家Jeff Dean与出走又回归的Transformer作者Noam Shazeer,在知名播客主持人Dwarkesh Patel的引导下,深入探讨了AI领域的诸多关键议题,吸引了超20万网友在线围观。这场对话宛如一扇窗口,让我们得以窥见AI发展的前沿动态与未来走向。
AI算力正经历深刻变革。随着模型规模与复杂度提升,单个数据中心已无法满足需求,Gemini率先开启跨多个大城市数据中心的异步训练模式,通过高速网络同步计算结果。Jeff Dean指出,当今先进语言模型运算成本极低,一美元可处理百万个token,与大模型对话比读书便宜约100倍,这为提升推理算力提供广阔空间。从基础设施看,推理重要性增加将促使数据中心规划调整,或催生专为推理定制的硬件,推动计算向分布式、异步方向发展。


模型训练中,bug并非总是有害。Noam Shazeer称,因模型对噪音有容忍度,某些bug可能产生意想不到的效果,甚至带来积极影响,助研究人员发现突破点。调试bug时,他们常采用小规模大量实验的策略,快速验证假设。同时,确保训练可重复性至关重要,Jeff Dean提出记录操作日志,特别是梯度更新和数据批次的同步记录,以便复现结果,让调试更可控。


AI模型正从单一结构向模块化架构转型。以Gemini 1.5Pro的专家混合架构为例,虽能依任务激活相应组件,但现有结构仍有局限,各模块大小趋同,缺乏弹性。Jeff Dean设想未来模型应具更有机结构,允许不同团队独立开发或改进不同部分,如特定领域团队分别优化语言或代码理解模块。这种模块化可提升开发效率,汇聚全球智慧。实现上,可通过蒸馏技术优化模块,路由器依任务复杂度调用合适版本,平衡性能与效率。当然,这对基础设施要求更高,需强大TPU集群和充足高带宽内存。


回顾AI发展,2007年谷歌训练的N - gram模型用于机器翻译,却因磁盘存储导致高延迟。后经内存压缩、分布式架构及批处理API优化等手段解决问题,借助摩尔定律,2008年末神经网络开始崭露头角。谷歌早期通过分布式训练实现大规模无监督学习,让模型从视频帧学习高级特征,在ImageNet监督任务中性能提升60%,堪称“Holy Shit时刻”,证明规模化训练和无监督学习的潜力。如今,AI功能远超信息检索,谷歌内部25%代码已由AI完成,且正探索将谷歌与开源源代码整合到开发者上下文,提升模型能力与实用性。


对话中,Noam Shazeer分享加入谷歌的有趣初衷。他起初无意进大公司,看到谷歌每日搜索量指数图表后改变想法,想挣笔钱后投身感兴趣的AI研究。加入后结识导师Jeff Dean,二人合作紧密,谷歌对RM愿景的广泛授权,让他选择长期留下。Jeff Dean的本科论文探讨平行训练神经网络的方法,虽受计算能力限制,但为后来研究奠定基础。他们也担忧AI潜在风险,如“智能爆炸”可能导致AI不可控。谈及在谷歌最快乐的时光,Jeff回忆早期搜索流量增长及近期Gemini团队成果的喜悦,Noam则钟情于“微型厨房区域”的思想碰撞。


这场谷歌大佬间的深度对话,回顾AI发展历程,展望未来方向,为AI行业注入新思考与动力。




