大数跨境
0
0

AI教父Hinton首爆十年前拍卖:我早已内定谷歌必赢!

AI教父Hinton首爆十年前拍卖:我早已内定谷歌必赢! 新智元
2025-12-21
3
导读:赢在全局掌控

AI教父Hinton与Jeff Dean NeurIPS 2025炉边对话实录

NeurIPS 2025那场备受瞩目的Hinton与Jeff Dean炉边对话视频正式发布。两位AI领域奠基性人物,以坦诚、幽默又极具洞见的方式,回顾了深度学习从萌芽到爆发的关键节点,系统梳理了Scaling定律的觉醒历程、AlexNet诞生内幕、Google Brain创立始末、Transformer技术演进,以及对AGI未来的深度思考。

AI教父Scaling顿悟,来自Ilya

对话始于二人对反向传播(backpropagation)的共同痴迷。该理论虽于1986年在《Nature》发表,实则早在1982年已提出。

Jeff Dean回忆其1990年本科荣誉论文:在明尼苏达大学Vipin Kumar指导下,他尝试用32处理器超立方体计算机训练神经网络,主题为“用于训练神经网络的并行算法”。但因仅将10神经元层粗暴拆分至32处理器,未同步扩大模型规模,性能惨淡。他也因此最早提出“数据并行”与“模型并行”雏形(当时称“模式划分”)。

Hinton坦言,自己本应在80年代末就意识到算力的关键作用。彼时伯克利ICSI与剑桥团队已用并行计算构建出超越常规方法的语音声学模型,却因编程与硬件复杂度陡增而中止探索。直到2014年听取Ilya Sutskever报告,他才真正醒悟:Scaling至关重要,且这一趋势将持续演进。

AlexNet出世:ML一夜征服图像识别

2012年AlexNet是AI爆发的转折点。Hinton指出,学生Vlad Nair早先用英伟达GPU在道路识别与航拍图像上验证了多层网络的压倒性优势。

AlexNet是一个8层神经网络。项目续资申请曾被评审驳回,理由是“不可能产生任何工业影响”。Hinton笑称:“这项技术去年贡献了美国股市80%的增长。”

学生Alex Krizhevsky在MNIST上失败后,Hinton发现权重衰减参数设置错误并及时纠正。Ilya建议直接挑战ImageNet:“这么大数据集肯定可以,我们得在Yann LeCun之前做。” LeCun当时亦推动团队将CNN应用于ImageNet,但被视作“非优先事项”。

Ilya负责统一图像尺寸等预处理工作,效果显著。Hinton称其“最成功的一次管理决策”是:允许Alex每周延迟论文综述撰写,条件是在ImageNet上持续提升1%准确率——结果连续数周成功迭代。

AlexNet最终由Alex Krizhevsky在其卧室中,使用两块英伟达GTX 580 GPU完成训练。Hinton幽默表示:“GPU我们买单,电费Alex父母付——纯属为多伦多大学省钱。”

茶水间一次闲聊催生谷歌大脑

Google Brain的雏形源于一次谷歌茶水间偶遇。当时斯坦福教授Andrew Ng每周赴谷歌一天,偶然提及“学生用神经网络已做出不错成果”,立即触发Jeff Dean思考:谷歌拥有海量CPU,为何不训练超大规模神经网络?

团队迅速开发支持模型并行+数据并行的系统,并扩展至千台机器。标志性实验是在1000万YouTube视频帧上无监督学习识别“猫”:采用局部连接而非卷积,参数达20亿,动用16000个CPU核心。

Jeff Dean表示:“我们已观察到模型越大效果越好,只是尚未将其总结为Scaling Laws。”其内部口头禅正是:“更大的模型、更多的数据、更多的算力。”这意味着,在AlexNet问世前一年,Google Brain已实质验证Scaling定律。

64岁实习生,加入谷歌

2012年夏,Andrew Ng转向Coursera,推荐Hinton接棒。Hinton本拟任访问科学家,但需满职6个月方可领薪,于是以64岁高龄成为谷歌“实习生”,且直属上司正是Jeff Dean。

入职培训首日,讲师要求“用LDAP和OTP登录”,Hinton当场困惑。十分钟后,助教被指定专人协助;其他学员环顾四周,看着这位年纪三倍于己、明显“什么都不会”的新同事,场面一度尴尬。

入职次日,Hinton与Jeff Dean在Palo Alto一家越南餐厅初见。这段经历也成为后续关键决策的情感基础。

赌场拍卖,谷歌必赢

AlexNet爆火后,Hinton团队成抢手标的。他们成立DNN Research,并在南太浩湖赌场举办拍卖会,谷歌、微软、百度等参与竞标。规则为每次加价至少100万美元,楼下老虎机声不绝于耳。

Hinton坦言:“我心里早已决定谷歌必须赢。”临近结束时,当两拨竞标者离场、局面可能失控,拍卖被主动中止。

并入谷歌后,Hinton参与多项工作,包括失败的Capsules(胶囊网络)项目,以及后来成为LLM核心技术之一的“模型蒸馏”(distillation)。该论文曾被NeurIPS拒稿,审稿人完全不解其价值。他还曾与Abdelrahman Mohamed合作开发语音声学模型,推销黑莓遭拒,理由竟是“因为我们有键盘”;后由Navdeep Jaitly在谷歌用GPU验证其巨大价值。

从Transformer到Gemini

若论Google Brain对世界影响最深远的研究,当属Transformer。其灵感源自Ilya Sutskever、Oriol Vinyals与Quoc Le的seq2seq工作——深层LSTM在机器翻译中表现优异,但受限于顺序依赖与状态压缩。

Jeff Dean指出:若将所有状态完整保留,再施加注意力(attention),将是更优路径。Bahdanau等人早期引入注意力机制,保留全部上下文;后整合进seq2seq,最终演化为Transformer——即保存所有状态并进行注意力计算。

Transformer被证明极为优雅:可并行计算所有状态,摆脱严格顺序依赖;同时支持回溯全部历史状态,大幅提升解码与编码能力。

Hinton坦言最初并未重视Transformer,因其更关注生物启发机制;但很快意识到其革命性——仅需1/10至1/100算力即可达成同等甚至更优效果。

Jeff Dean解释,ChatGPT问世前,谷歌内部已有强大聊天机器人,但受限于幻觉与事实性问题,难以面向公众发布。搜索业务的核心是准确,“红色警报”拉响后,他撰写备忘录指出:“我们现在有点‘自己犯傻’了——明明深知算力、数据与模型质量强相关。”

问题在于研究力量与算力被过度切碎。随即启动重大重组:Google Brain与DeepMind合并为Google DeepMind,实现团队整合与算力共享,直接催生多模态大模型Gemini。

现场Hinton提问:“谷歌是否后悔发表Transformer论文?” Jeff Dean坚定回应:“不后悔!因为它对世界产生了巨大的影响。”针对“此后谷歌论文变少”的质疑,他澄清:“今年NeurIPS投稿超百篇。对于最大规模模型等核心商业方向,我们更谨慎发布——公开是竞争优势,可吸引人才、获取社区反馈。”

谷歌Gemini连发背后,是TPU硬件优势与软硬协同设计(co-design)能力。研究人员与硬件团队提前2–6年布局趋势,甚至用强化学习优化芯片布局布线,显著提升研发效率与芯片质量。

下一个20年

面对“Transformer会被取代吗?20年后世界如何?”之问,Jeff Dean最关注拓展注意力机制的触达范围——从百万Token迈向数万亿,让模型直接访问全部科学论文与视频,而非将信息强行压缩进千亿级权重中。

他指出当前模型缺乏持续学习能力,训练后即固化;MoE结构也显僵化。未来将探索更动态、更接近脑启发的新型架构。

Hinton总结:“如果真有人造出强人工智能,结果只有两种:要么我们从此幸福快乐地生活下去,要么我们全部灭亡。”他强调社会影响不可预测:“很多工作会消失,但新岗位能否充分替代仍存疑问。”

Jeff Dean持科学加速乐观论:“AI将连接不同学科、自动化科研闭环,大幅加快突破速度。”双方一致认为,医疗与教育将迎来最剧烈变革。Hinton补充:“大模型压缩巨量知识,发现人类未曾察觉的共通性,创造力将远超预期——比如揭示希腊文学与量子力学的深层类比。”

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14628
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读79.8k
粉丝0
内容14.6k