谷歌创始人承认：入场代码编程晚了，但押注AI的自我改进飞轮- 大数跨境

首页

谷歌创始人承认：入场代码编程晚了，但押注AI的自我改进飞轮

DeepTech深科技

2026-06-13

导读：从语言到物理世界，这条路能否走通？

“回头看，我们应该更早聚焦代码，这点我不否认。”谷歌联合创始人谢尔盖·布林（Sergey Brin）在回归两年后的首次公开亮相中坦言。在这场硅谷 AGI House 活动上，布林就竞争格局、AGI 定义及谷歌技术路线进行了深度剖析。

此次问答不仅折射出谷歌的现状，更揭示了整个 AI 行业的核心分歧：一场关于 AGI 定义的争论正在悄然发生，其结果将直接决定通用人工智能的下一步走向。

代码之争：自我加速的飞轮效应

面对当前竞争格局，布林指出：“大家都专注于代码编程，其他实验室在该领域已取得显著进步。尽管 GPT-5.5 占据优势，但 Gemini 3.5 Flash 在速度上仍具备明显竞争力。”他承认谷歌在代码领域的布局稍显滞后。

代码能力之所以成为兵家必争之地，深层逻辑在于“用工具构建工具”。当模型具备强大的代码能力时，它能编写更高效的训练脚本，进而训练出更强的下一代模型；更强的模型又能生成更优的脚本。这是一个自我加速的正反馈飞轮：代码能力越强，自我迭代越快。谷歌此前在这一入口的抢占上慢了一步。

AGI 定义之争：从语言智能到物理世界

竞争的终点取决于如何定义 AGI。布林提出了两种截然不同的观点：一是 AI 能够真正自我提升的节点；二是 AI 能完成任何人类能做的事。布林表示，虽然曾倾向于前者，但现在他认为后者更为准确。

若以“全能人类”为标准，当前大模型仍存在结构性缺失：缺乏对物理世界的理解、交互能力以及在无文字描述场景下的判断力。这一判断直接奠定了谷歌的技术赌注：仅做好语言处理不够，必须覆盖物理世界。

世界模型：预测即理解？

主流 Transformer 架构擅长处理序列信息，却与物理世界脱节。谷歌的策略是利用多模态数据（文本、图像、视频）进行训练，期望通过规模效应让物理直觉自然“涌现”。视频作为物理世界最密集的记录媒介，蕴含丰富的物理规律。谷歌假设：如果模型学会预测视频下一帧的变化，便能像掌握算术一样掌握物理常识。

这正是“世界模型”（World Model）成为谷歌核心战略的原因。此类系统旨在内部构建物理仿真器，理解物体运动、力学传导及动作后果。DeepMind 发布的 Genie 3 能根据指令生成可交互的三维世界，而 Gemini Robotics 系列则将此能力延伸至真实空间，赋能机器人自主规划复杂任务。这一切皆为通向 ASI（超级智能）铺路——即在所有认知任务上全面超越人类。

潜在风险：预测与理解的鸿沟

谷歌的逻辑链依赖一个未经理论证明的假设：极致的预测等于理解。然而，这一假设面临内外双重挑战。

外部质疑：中文房间悖论

哲学家约翰·塞尔的“中文房间”思想实验指出，完美的输入输出匹配不等于理解。当前 AI 可能只是记住了“玻璃杯落地会碎”的结果，而非理解重力、材料脆性等因果规律。图灵奖得主杨立昆（Yann LeCun）强调，语言和 video 只是世界的投影，缺乏物理交互的因果理解是统计学习无法跨越的鸿沟。

内部隐患：模型坍缩

布林提及的"AI 生成数据训练 AI"模式，可能引发“模型坍缩”（Model Collapse）。如同复印机的多次复制会导致图像模糊，若每一代模型都使用上一代生成的数据进行训练，信息损失将在循环中累积，导致模型在某些维度悄悄退化且难以察觉。这将是验证自我改进飞轮可行性的关键指标。

纵观整场问答，布林频繁使用“猜测”、“感觉”等词汇，折射出该领域的高度不确定性。无人确知预测能否转化为理解，也无人知晓涌现的边界何在。这场对话的价值不在于给出了答案，而在于厘清了那些尚未被解答、却值得全行业押注的关键问题。

注：封面/首图由 AI 辅助生成

【声明】内容源于网络

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

内容 5517

粉丝 2

DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

总阅读74.3k

粉丝2

内容5.5k