算力觉醒:从本科论文到 AlexNet 的诞生
如果把现代 AI 的演进比作一场长跑,那么 Geoffrey Hinton 和 Jeff Dean 就是两位关键奠基者:一位在神经网络被视为“炼金术”的年代点燃火种,另一位则亲手打造支撑万亿参数的“算力基座”。
Hinton 的学生 Alex Krizhevsky 为逃避写毕业论文,被要求每周在 ImageNet 上提升 1% 的识别准确率,最终催生了震惊业界的 AlexNet;而时年 64 岁的 Hinton 加入 Google 时,竟戴着绿色“实习生小豆帽”,因不熟悉 LDAP/OTP 登录系统被天才实习生侧目——这些细节映射出 AI 萌芽期的真实与炽热。
这场跨越 40 年的对话揭示了一个核心真相:AI 的进化史,本质上就是一场关于算力的赌博。Jeff Dean 回顾,Google 早在 2013 年就通过“信封背面的草算”预判 CPU 时代的终结,并顶住压力豪掷 5000 万美元自研 TPU。这种软硬协同的结构性优势,至今仍是 Gemini 技术壁垒的关键。
对于“Scaling Law(规模法则)”,Hinton 直言自己直到 2014 年才真正开悟:只要算力与数据足够庞大,模型可通过极致压缩涌现真正创造力。他强调,大模型绝非概率复读机,而是在人类未曾察觉的领域——如希腊文学与量子力学之间——建立深层逻辑类比。
图片来源:Radical Ventures
Google Brain 的黄金时代:Scaling Law 与 NIPS 拍卖风云
Jeff Dean 在本科阶段就尝试用 32 处理器 Hypercube 机器训练神经网络,虽因未同步扩大模型规模导致加速效果不佳,却已实践了如今的数据并行(Data Parallel)与模型并行(Model Parallel)雏形 [2] 。而 Hinton 则坦言,早在 1980 年代末,伯克利与剑桥团队利用并行计算提升语音识别性能的成果,就已暗示“规模即效果”,但受限于硬件成本与编程复杂度,这一洞见被长期忽视 [2] 。
2012 年,Google Brain 团队用 16,000 个 CPU 核心训练出当时最大神经网络,在 ImageNet 22K 数据集上将相对误差降低 70% [2] 。他们尚未命名“Scaling Laws”,但已笃信一句朴素准则:“更大的模型,更多的数据,更强的算力” [2] 。
当 AlexNet 在卧室双 GPU 上一鸣惊人时,Google Brain 已是唯一不感意外的团队——因为他们早已验证:算法 × 数据 × 算力 = 革命性突破 [2] 。
Hinton 以“64 岁实习生”身份加入 Google 后,在 Palo Alto 餐馆与 Jeff Dean 初次会面,随后共同创立 DNN Research,并在 NIPS 大会期间于南太浩湖赌场举行拍卖。这场百万级加价的“学术收购战”,最终由 Google 以压倒性诚意胜出 [2] 。
Transformer 革命:从被忽视的论文到 ChatGPT 时刻
Transformer 的诞生源于对 LSTM 的瓶颈反思:串行计算限制速度,单向量压缩牺牲信息密度 [3] 。其本质是保存全部状态并进行注意力(Attention)计算,实现“少 10–100 倍算力达成同等质量”或“同等算力获得更高性能”的跃迁 [3] 。
Google 内部早有高使用率的聊天机器人,疫情期间约 8 万名员工日常依赖它处理工作事务 [3] 。但受限于幻觉与事实性错误,团队未能将其及时产品化——搜索业务对“精准真实”的苛刻标准,一度遮蔽了其在教育、创作、医疗辅助等场景的巨大潜力 [3] 。
ChatGPT 发布后一周内,Jeff Dean 即撰写一页备忘录,推动整合 Brain 与 DeepMind 力量,启动统一的多模态模型项目——Gemini 由此诞生 [3] 。Google 坚持开放 Transformer 论文,也持续在 NeurIPS 等顶会发表超百篇研究成果,仅对 Gemini 等核心商业模型的训练细节保持审慎 [3] 。
TPU 的前瞻性豪赌:软硬协同的结构性优势
2013 年,Jeff Dean 的“信封草算”显示:若用 CPU 支持亿级用户实时语音识别,算力需求将迫使 Google 数据中心规模翻倍——不可持续 [4] 。他据此判断:神经网络运算特性(操作类型少、容忍低精度)天然适配定制芯片,并力推 TPU 自研 [4] 。
首代 TPU v1 专攻推理,部署价值 5000 万美元设备;后续迭代转向训练,发展为支持超高速互连的“机器学习超级计算机” [4] 。ISCA 论文证实:TPU 性能较同期 CPU/GPU 提升 15–30 倍,每瓦特性能领先 30–80 倍 [4] 。
软硬协同的 Co-design 能力成为 Google 核心壁垒:ML 研究员与芯片工程师深度协作,甚至用强化学习优化芯片布局布线,已应用于三代 TPU 及其他芯片,兼具质量提升与研发加速 [4] 。
未来展望:科学发现、教育变革与 AI 的创造力
Jeff Dean 关注三大方向:突破上下文长度限制以接入数十亿 Token 级语料;构建更类脑的动态连接架构,替代当前静态 MOE 结构;以及研发更高能效的推理硬件 [5] 。
Hinton 强调大模型的创造性本质:为压缩海量知识,模型必须在表面无关领域间建立隐性关联——如希腊文学与量子力学——这种“长远类比能力”远超个体专家认知边界 [5] 。
两人一致认为,医疗与教育最具颠覆潜力:AI 将使顶级医生与私人导师人人可得,但社会需直面生产力爆炸带来的政治与分配挑战——这并非纯技术问题,而是文明级命题 [5] 。

