Scaling已死？不，它只是累了——AI的下一站，是“科学探索”而非“算力堆叠”



Scaling已死？不，它只是累了——AI的下一站，是“科学探索”而非“算力堆叠”

中智凯灵

2025-11-29

导读：不，低垂的果实摘完了，AI 正小步探深谷

—— 当 AI 不再靠规模取胜，真正的智能才开始生长

▼

你有没有这样的时刻？

AI刚刚帮你写完一段干净利落的代码，你正要点赞，它转头又把三个月前你亲手修掉的 bug 偷偷塞了回来。

你问它“地球是圆的吗？”，它用三段学术引用论证“在某些文化语境下，地球可以是平的”。

你甚至开始怀疑：它到底是在思考，还是在玩一场精致的跳房子游戏——在错误之间来回蹦跶，就是不落地？

过去五年，我们笃信一个简单的公式：喂更多数据、堆更多算力，模型就会更聪明。

这招确实管用——直到它不管用了。

几天前，Ilya Sutskever 与 Dwarkesh Patel 的一段访谈视频上线，数小时内 X 平台浏览量破百万，引发全球 AI 社区热议。Ilya 平静地说出几句话，却像往平静湖面扔了块石头：

“Scaling Law 的技术扩展期正在接近尾声。” 

“我们已经摘完了最容易摘的果子。”

 “扩展仍能带来进步，但它不是全部——有些至关重要的东西仍是缺失的。”

AI 圈瞬间炸锅。 有人惊呼“泡沫要破”，有人暗喜“研究者的机会来了”。

几天后，他又补了一句，语气依旧克制，却更值得玩味：

“扩展确实还能带来进步，但它不是全部。”

这不是终结宣言，而是一次转向——

 从“大力出奇迹”的狂飙， 

回到“小步探深谷”的沉静。

高分低能？不是AI不行，是我们考错了题

2020到2025年，是AI的“黄金五年”，也是 Scaling Law 的全盛时代。全世界信奉一个简单粗暴的真理：只要堆得够多，AI就变强。

更多数据？加！ 

更多算力？买！

 更大模型？上！

这套“大力出奇迹”的逻辑，本质上是一种刷题战术——把海量题库喂给模型，用强化学习反复调优，只为让它在标准评测集上拿高分。结果很成功：AI 在 LeetCode、HumanEval、MATH 等基准测试中碾压人类，看起来无所不能。

但一旦进入真实开发场景，问题就暴露了：

 你让它修一个 bug，它修完你刚松一口气，结果它又把三个月前修掉的老 bug 悄悄带回了代码里。 你指出问题，它立刻道歉并修正——可下一轮又把第一个 bug 原样复刻。

它不是笨，而是从未被教会“判断对错”，只学会了“猜出标准答案”。

Ilya 用一个极其生动的比喻点破了症结：

有两个学生。 

A 刷了 1 万小时竞赛题，样样高分，但换个场景就懵；

 B 只练了 400 小时，却能举一反三、触类旁通。

 你愿意雇谁？

答案不言而喻。 

可过去几年，我们却在拼命训练“学生A”——一个在考试中闪闪发光、在现实中频频摔跤的“刷题冠军”。

为什么？因为“Scaling”太香了：它可量化、可复制、可融资。 

投资人一看：“哦，你明年 GPU 预算翻倍？那我投！”

 老板一听：“哦，模型参数再大十倍？那 KPI 稳了！”

但 Ilya 冷静指出：预训练的数据金矿快挖空了，算力的边际收益正在断崖式下跌。 你再投 100 倍资源，可能只换来 1% 的能力提升。

更关键的是——我们训练出的不是“会思考的工程师”，而是一个“高分低能”的模仿者。 

它不知道“这段逻辑不合理”，它只知道“这段代码看起来像人类写过的”。

而人类靠的，是一种内置的“直觉判断”：哪怕没看过答案，也能感知“这事不太对劲”。

 这种能力，Ilya 称之为 “情绪价值函数”——它不是噪音，而是智能的底层操作系统。

这不是技术停滞，而是范式到了临界点。

AI 正从“刷题时代”走向“理解时代”；

从“大力出奇迹”，回到“小步探深谷”。

情绪即价值函数：智能的底层操作系统

很多人以为情绪是理性的敌人，但 Ilya 说：情绪，是人类智能的“操作系统”。

神经科学早已发现：一个因脑损伤失去情绪能力的人，智力、逻辑、语言毫发无损，却连“今天穿哪双袜子”都做不了决定。

 因为情绪不是噪音，而是价值信号 ——它实时告诉你：“这条路危险”“这个方向靠谱”“刚才那个操作太蠢了”。

人类学开车只需几小时，自动驾驶却要跑几亿英里， 

差别就在于：人类有情绪反馈，AI 只有稀疏奖励。

今天的 AI，直到任务失败才收到一个“-1”； 

而人类在思考中途就能自我修正——这种“推理中的自我评分”，正是未来 AI 必须掌握的能力。

没有它，AI 永远是“事后诸葛亮”； 

有了它，AI 才可能成为“过程中的智者”。

从 Copilot 到 Agent：自主开发的真实边界

那么，我们离“AI 自主开发”还有多远？

在刚刚结束的2025第8届 AiDD 峰会Keynote Panel中：百度、极狐、腾讯、阿里、快手的一线实践者达成惊人共识： “AI 自主开发”不是非黑即白，而是一个光谱。（原文参考：硬核对话：从Copilot到Coding Agent——我们离“AI自主开发”还有多远？）

• 在短程、确定性高、边界清晰的任务中（如单元测试生成、简单函数编写、明确 SPEC 下的模块开发），AI 已进入“准自主开发”阶段——人类只需输入需求、验收结果，中间过程全自动。

• 但在长程、跨系统、需历史上下文理解的复杂场景中（如重构老旧架构、设计高并发系统），AI 仍需人类深度引导。

腾讯 CodeBuddy 团队的做法极具启发：他们要求 PRD 不仅是需求文档，更是“可执行的上下文”——AI 依此生成代码，若结果不符，人工介入反馈，形成“问题→修正→优化”的闭环。 这不再是“人写代码，AI 辅助”，而是“人定义目标，AI 执行探索”。

而真正的卡点，不在模型能力，而在组织信任与技能鸿沟： 有的团队 AI 生成代码占比达 80%，有的仅 20%——差异不在意愿，而在“是否会构建上下文”“是否懂 Agent 协作逻辑”。

换言之，AI 的瓶颈，正在从“技术”转向“认知”。

研究回归：小步快跑，比盲目堆料更有力

Scaling 没死，但它累了。

 当数据金矿见底、算力边际收益断崖，行业正从“扩展时代”回归“研究时代”。

这意味着：

• 不再迷信“更大模型”，而要思考“更聪明的架构”；

• 不再追求“全链路自主”，而要深耕“高确定性场景的闭环”；

• 不再只比参数，而要比“谁更懂用户、更懂业务、更懂协作”。

Ilya 创立 SSI 时明确表示：不发中间产品，直奔超级智能。 

因为他相信，解决泛化与对齐的核心问题，比堆砌一堆“有用但脆弱”的工具更重要。

这看似理想主义，实则是清醒—— 

就像当年 AlexNet 只用 2 块 GPU 就开启深度学习革命，

 下一次范式跃迁，可能也来自一个“不够大”却“足够美”的实验。

结语

Ilya 说，他现在“不再感受 AGI”了。 

不是不信，而是 AGI 不再是遥不可及的神话。

Scaling 的狂热退潮后，AI 才真正开始呼吸。 

它不再是一个被夸大的预言，而是一道需要我们亲手解开的谜题。

海啸或许将至，但这一次， 

我们不是站在岸边观望，

 而是正一起造船。

参考资料：
Ilya Sutskever 与 Dwarkesh Patel 对话实录
新智元：《Scaling已死吓坏硅谷，Ilya紧急辟谣！》
JuMeng：《这是Scaling时代的落幕，也是纯粹研究时代的回归》
硬核对话：从Copilot到Coding Agent——我们离“AI自主开发”还有多远？

AiDD发布：软件研发应用大模型国内现状调研报告（2023-2025）

AiDD发布：中国AI+研发进化图谱 V2.0修订版

本文为原创解读，未经授权禁止转载。
欢迎转发、点赞、在看——让更多人看清AI的真相。

下一站预告

备受赞誉的AiDD峰会组委会和K+峰会组委会联合发起的“AI+产品创新峰会”，即将于2026年1月16-17日在上海举办，峰会旨在以AI为引擎，以产品为载体，打通从技术创新到商业落地的全链路，探索“AI+产品”的融合范式，形成从战略思考到技术实现，从产品创新到商业成功的完整闭环。

点这里↓↓↓记得关注标星哦~

【声明】内容源于网络

中智凯灵

中智凯灵（KeyLink）是国内领先的专业数字人才发展平台，面向科技研发型企业和组织提供数字化人才培养的专属成长地图，数字化转型的方法 + 智库。

内容 425

粉丝 0

中智凯灵中智凯灵（KeyLink）是国内领先的专业数字人才发展平台，面向科技研发型企业和组织提供数字化人才培养的专属成长地图，数字化转型的方法 + 智库。

总阅读63

粉丝0

内容425