大数跨境

谷歌创始人承认:入场代码编程晚了,但押注AI的自我改进飞轮

谷歌创始人承认:入场代码编程晚了,但押注AI的自我改进飞轮 DeepTech深科技
2026-06-13
6
导读:从语言到物理世界,这条路能否走通?

“回头看,我们应该更早聚焦代码,这点我不否认。”谷歌联合创始人谢尔盖·布林(Sergey Brin)在回归两年后的首次公开亮相中坦言。在这场硅谷 AGI House 活动上,布林就竞争格局、AGI 定义及谷歌技术路线进行了深度剖析。

此次问答不仅折射出谷歌的现状,更揭示了整个 AI 行业的核心分歧:一场关于 AGI 定义的争论正在悄然发生,其结果将直接决定通用人工智能的下一步走向。

代码之争:自我加速的飞轮效应

面对当前竞争格局,布林指出:“大家都专注于代码编程,其他实验室在该领域已取得显著进步。尽管 GPT-5.5 占据优势,但 Gemini 3.5 Flash 在速度上仍具备明显竞争力。”他承认谷歌在代码领域的布局稍显滞后。

代码能力之所以成为兵家必争之地,深层逻辑在于“用工具构建工具”。当模型具备强大的代码能力时,它能编写更高效的训练脚本,进而训练出更强的下一代模型;更强的模型又能生成更优的脚本。这是一个自我加速的正反馈飞轮:代码能力越强,自我迭代越快。谷歌此前在这一入口的抢占上慢了一步。

AGI 定义之争:从语言智能到物理世界

竞争的终点取决于如何定义 AGI。布林提出了两种截然不同的观点:一是 AI 能够真正自我提升的节点;二是 AI 能完成任何人类能做的事。布林表示,虽然曾倾向于前者,但现在他认为后者更为准确。

若以“全能人类”为标准,当前大模型仍存在结构性缺失:缺乏对物理世界的理解、交互能力以及在无文字描述场景下的判断力。这一判断直接奠定了谷歌的技术赌注:仅做好语言处理不够,必须覆盖物理世界。

世界模型:预测即理解?

主流 Transformer 架构擅长处理序列信息,却与物理世界脱节。谷歌的策略是利用多模态数据(文本、图像、视频)进行训练,期望通过规模效应让物理直觉自然“涌现”。视频作为物理世界最密集的记录媒介,蕴含丰富的物理规律。谷歌假设:如果模型学会预测视频下一帧的变化,便能像掌握算术一样掌握物理常识。

这正是“世界模型”(World Model)成为谷歌核心战略的原因。此类系统旨在内部构建物理仿真器,理解物体运动、力学传导及动作后果。DeepMind 发布的 Genie 3 能根据指令生成可交互的三维世界,而 Gemini Robotics 系列则将此能力延伸至真实空间,赋能机器人自主规划复杂任务。这一切皆为通向 ASI(超级智能)铺路——即在所有认知任务上全面超越人类。

潜在风险:预测与理解的鸿沟

谷歌的逻辑链依赖一个未经理论证明的假设:极致的预测等于理解。然而,这一假设面临内外双重挑战。

外部质疑:中文房间悖论

哲学家约翰·塞尔的“中文房间”思想实验指出,完美的输入输出匹配不等于理解。当前 AI 可能只是记住了“玻璃杯落地会碎”的结果,而非理解重力、材料脆性等因果规律。图灵奖得主杨立昆(Yann LeCun)强调,语言和 video 只是世界的投影,缺乏物理交互的因果理解是统计学习无法跨越的鸿沟。

内部隐患:模型坍缩

布林提及的"AI 生成数据训练 AI"模式,可能引发“模型坍缩”(Model Collapse)。如同复印机的多次复制会导致图像模糊,若每一代模型都使用上一代生成的数据进行训练,信息损失将在循环中累积,导致模型在某些维度悄悄退化且难以察觉。这将是验证自我改进飞轮可行性的关键指标。

纵观整场问答,布林频繁使用“猜测”、“感觉”等词汇,折射出该领域的高度不确定性。无人确知预测能否转化为理解,也无人知晓涌现的边界何在。这场对话的价值不在于给出了答案,而在于厘清了那些尚未被解答、却值得全行业押注的关键问题。

注:封面/首图由 AI 辅助生成

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 5517
粉丝 2
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读74.3k
粉丝2
内容5.5k