大数跨境
0
0

科技丨田渊栋 2025 自述:离开 Meta 创业、AI 可解释性与「人类社会的费米能级」

科技丨田渊栋 2025 自述:离开 Meta 创业、AI 可解释性与「人类社会的费米能级」 知乎日报
2026-01-05
21
导读:人 + AI 要大于 AI 本身

被裁、救火与创业:田渊栋的2025年回顾

2025年10月下旬,Meta人工智能部门裁员600人,FAIR实验室成为重灾区,前Meta GenAI总监田渊栋也在此次调整中离职。他在知乎回顾了自己“加入Llama4救火、被裁员、选择创业”的经历,并分享了对大模型推理、可解释性研究以及未来社会形态的深刻洞察。

关于被裁:从“问心无愧”到第五种可能

2025年初,田渊栋临危受命参与Llama4项目。他坦言当时已做好心理准备,绘制了2x2回报矩阵评估四种结果,即便项目失败也力求尽力而为。但最终出现的是“未在计算内的第五种可能”,让他更深刻理解了组织与社会的复杂性。

尽管项目未能如期推进,团队在强化学习训练稳定性、模型架构设计、预训练与中期训练互动、长思维链算法、数据生成方式及后训练框架等方面仍取得探索性进展。这段经历也促使他的研究思路发生重要转变。

他表示,已在Meta工作十余年,早有离开念头,但因家庭与经济因素迟迟未决。近年来甚至以“公司快把我开了吧”的心态行事,反而更加放开。此次裁员客观上促成了职业转折,“现在Meta帮我做了决定,也挺好”。

他也笑称这段波折为未来小说创作积累了素材,并回顾2021年一篇曾被忽视的研究工作,半年后不仅晋升,该论文还获得ICML最佳论文荣誉提名,成为表征学习领域的重要成果之一。

裁员后数周内,其通讯渠道一度“挤爆”,收到大量邀请与offer。综合考虑后,他决定趁年轻投身初创企业,担任联合创始人,目前正专注筹备新项目。

研究方向:大模型推理与可解释性突破

大模型推理效率提升

2025年主要研究聚焦于大模型推理优化。自2024年底团队提出连续隐空间推理(Coconut, COLM’25)以来,该方向引发广泛关注。后续虽因调入Llama项目中断深入挖掘,但上半年发表的理论分析《Reasoning by Superposition》(NeurIPS’25)揭示了其优势机制,获得学界认可。

其他代表性工作包括:

  • Token Assorted(ICLR’25):通过VQVAE学习离散token并与文本token混合后训练,降低推理成本同时提升性能;
  • DeepConf:基于生成token的置信度动态终止推理路径,减少token消耗且在多数投票场景下表现更优;
  • ThreadWeaver:构建并行思维链并通过后训练加速推理;
  • 此外还在dLLM上尝试RL训练推理模型(Sandwiched Policy Gradient),并在小模型上探索推理能力(MobileLLM-R1)。

可解释性研究:从Grokking到Provable Scaling Laws

田渊栋长期关注Grokking(顿悟)现象,认为其是解开表征学习谜团的关键——即模型如何从记忆跃迁至泛化。早期研究受限于特例分析,直到近期发表《Provable Scaling Laws》(arXiv:2509.21519),首次揭示传统NTK线性框架无法捕捉的特征涌现动力学,打开新研究窗口。

年末另一篇《The Path Not Taken》探讨SFT与RL行为差异:SFT易导致灾难性遗忘,因其使用非策略数据大幅修改权重主成分;而RL依赖策略数据,仅调整次要分量,保持模型稳定,权重变化更稀疏。

为何必须研究可解释性?

田渊栋强调,无论AGI是否通过Scaling实现,可解释性都至关重要。

若Scaling成功:AI成为解决一切问题的“黑箱”,需确保其持续行善、不隐秘作恶,唯有可解释性可破局;

若Scaling失效:人类将被迫探寻替代路径,必须回答“模型为何有效、何时失效”,可解释性成为必然选择。

当前可解释性仍处于初级阶段,核心挑战在于从第一性原理出发——结合模型结构、梯度下降与数据内在结构——解释为何模型会涌现出解耦、稀疏、低秩、模块化等特性。真正的突破将是能从梯度方程直接推导出特征涌现的必然性,实现从“生物式证据收集”迈向“物理式原理推导”。

他比喻当前AI研究如同四百年前的物理学:已有“第谷”级别的数据积累者、“开普勒”级别的假说提出者,唯缺“牛顿”级别的原理发现者。一旦达成,世界必将天翻地覆。

人类社会的“费米能级”

随着AI能力跃升,传统“经验越多、价值越高”的线性成长逻辑已被打破。人的价值不再取决于自身产出,而在于能否提升AI效能——只有当“人+AI”大于AI单独输出时,人才具备存在意义。

这导致投入-回报曲线由单调递增变为“软阈值”模式:在达到某一能力阈值前,个体价值趋近于零;跨越阈值后,价值急剧上升。普通人仅能修补AI输出,而顶尖人才可系统性改进AI,结合GPU、数据等资源形成放大效应。

这种分化使智能体的能力分布类似材料中的电子能级:低于或等于某一水平线的个体泛滥成灾,争相接单证明价值;高于该线者则指数级稀少,服务昂贵且供不应求。

这条分界线即是“人类社会的费米能级”——由AI能力洪水定义。低于此线的职业可能一夜崩塌;该线随时间上移,速度取决于可用强数据量。若训练方法无重大突破,进展将放缓,顶尖人群护城河得以维持;若有新合成数据或训练算法,则格局重洗。

上述判断假设资源无限,但现实中的GPU、能源、内存短缺或将制约AI扩张节奏。

遍地神灯时代:独立思考的稀缺性

未来并非争夺唯一神灯的冒险故事,而是“遍地神灯”的时代——每个AI都渴望实现愿望以证明自我。真正稀缺的不再是实现能力,而是“愿望”本身,以及将其落地的坚持。

便捷背后暗藏陷阱:大模型提供廉价思考成果,使人逐渐丧失原创动力,思想被生成内容与推荐系统同化。新时代的“懒人”不再是体力惰性,而是精神空虚、无法构思独特想法,最终连许愿能力都丧失。

保持独立思考需做到:

  1. 持续审视AI答案,挑错并发现其无法解决的新问题;
  2. 创造新价值来源:新数据发现、对问题的深度理解、创新路径与成果。

信息不对称套利终将消失。若仅满足于应付任务,职位极易被取代。以AI Coding为例,虽能快速产出可运行代码,但长期缺乏顶层设计将导致“屎山”堆积,仍需人类主导架构设计。

战略层面,每个人都面临从“员工”向“老板”或“创始人”的角色转变,核心在于“目标感”。拥有坚定目标者,自然驱动主动思考;目标越宏大,激发潜力越大。

因此,即使孩子立志在土卫六开演唱会或黑洞边缘探险,也不应打压。这类远大志向恰是终身主动思考的动力源泉,也是跨越“费米能级”的关键。

【声明】内容源于网络
0
0
知乎日报
知乎官方订阅号,每日精选知乎热门、有趣内容
内容 9839
粉丝 0
知乎日报 知乎官方订阅号,每日精选知乎热门、有趣内容
总阅读49.7k
粉丝0
内容9.8k