“回头看,我们应该更早聚焦代码,这点我不否认。”谷歌联合创始人谢尔盖·布林(Sergey Brin)在回归两年后的首次公开亮相中坦言。在这场硅谷 AGI House 活动上,布林就竞争格局、AGI 定义及谷歌技术路线进行了深度剖析。
此次问答不仅折射出谷歌的现状,更揭示了整个 AI 行业的核心分歧:一场关于 AGI 定义的争论正在悄然发生,其结果将直接决定通用人工智能的下一步走向。
代码之争:自我加速的飞轮效应
面对当前竞争格局,布林指出:“大家都专注于代码编程,其他实验室在该领域已取得显著进步。尽管 GPT-5.5 占据优势,但 Gemini 3.5 Flash 在速度上仍具备明显竞争力。”他承认谷歌在代码领域的布局稍显滞后。
代码能力之所以成为兵家必争之地,深层逻辑在于“用工具构建工具”。当模型具备强大的代码能力时,它能编写更高效的训练脚本,进而训练出更强的下一代模型;更强的模型又能生成更优的脚本。这是一个自我加速的正反馈飞轮:代码能力越强,自我迭代越快。谷歌此前在这一入口的抢占上慢了一步。
AGI 定义之争:从语言智能到物理世界
竞争的终点取决于如何定义 AGI。布林提出了两种截然不同的观点:一是 AI 能够真正自我提升的节点;二是 AI 能完成任何人类能做的事。布林表示,虽然曾倾向于前者,但现在他认为后者更为准确。
若以“全能人类”为标准,当前大模型仍存在结构性缺失:缺乏对物理世界的理解、交互能力以及在无文字描述场景下的判断力。这一判断直接奠定了谷歌的技术赌注:仅做好语言处理不够,必须覆盖物理世界。
世界模型:预测即理解?
主流 Transformer 架构擅长处理序列信息,却与物理世界脱节。谷歌的策略是利用多模态数据(文本、图像、视频)进行训练,期望通过规模效应让物理直觉自然“涌现”。视频作为物理世界最密集的记录媒介,蕴含丰富的物理规律。谷歌假设:如果模型学会预测视频下一帧的变化,便能像掌握算术一样掌握物理常识。
这正是“世界模型”(World Model)成为谷歌核心战略的原因。此类系统旨在内部构建物理仿真器,理解物体运动、力学传导及动作后果。DeepMind 发布的 Genie 3 能根据指令生成可交互的三维世界,而 Gemini Robotics 系列则将此能力延伸至真实空间,赋能机器人自主规划复杂任务。这一切皆为通向 ASI(超级智能)铺路——即在所有认知任务上全面超越人类。
潜在风险:预测与理解的鸿沟
谷歌的逻辑链依赖一个未经理论证明的假设:极致的预测等于理解。然而,这一假设面临内外双重挑战。
外部质疑:中文房间悖论
哲学家约翰·塞尔的“中文房间”思想实验指出,完美的输入输出匹配不等于理解。当前 AI 可能只是记住了“玻璃杯落地会碎”的结果,而非理解重力、材料脆性等因果规律。图灵奖得主杨立昆(Yann LeCun)强调,语言和 video 只是世界的投影,缺乏物理交互的因果理解是统计学习无法跨越的鸿沟。
内部隐患:模型坍缩
布林提及的"AI 生成数据训练 AI"模式,可能引发“模型坍缩”(Model Collapse)。如同复印机的多次复制会导致图像模糊,若每一代模型都使用上一代生成的数据进行训练,信息损失将在循环中累积,导致模型在某些维度悄悄退化且难以察觉。这将是验证自我改进飞轮可行性的关键指标。
纵观整场问答,布林频繁使用“猜测”、“感觉”等词汇,折射出该领域的高度不确定性。无人确知预测能否转化为理解,也无人知晓涌现的边界何在。这场对话的价值不在于给出了答案,而在于厘清了那些尚未被解答、却值得全行业押注的关键问题。
注:封面/首图由 AI 辅助生成

