
—— 当 AI 不再靠规模取胜,真正的智能才开始生长
你有没有这样的时刻?
AI刚刚帮你写完一段干净利落的代码,你正要点赞,它转头又把三个月前你亲手修掉的 bug 偷偷塞了回来。
你问它“地球是圆的吗?”,它用三段学术引用论证“在某些文化语境下,地球可以是平的”。
你甚至开始怀疑:它到底是在思考,还是在玩一场精致的跳房子游戏——在错误之间来回蹦跶,就是不落地?
过去五年,我们笃信一个简单的公式:喂更多数据、堆更多算力,模型就会更聪明。
这招确实管用——直到它不管用了。
几天前,Ilya Sutskever 与 Dwarkesh Patel 的一段访谈视频上线,数小时内 X 平台浏览量破百万,引发全球 AI 社区热议。Ilya 平静地说出几句话,却像往平静湖面扔了块石头:
“Scaling Law 的技术扩展期正在接近尾声。”
“我们已经摘完了最容易摘的果子。”
“扩展仍能带来进步,但它不是全部——有些至关重要的东西仍是缺失的。”
AI 圈瞬间炸锅。 有人惊呼“泡沫要破”,有人暗喜“研究者的机会来了”。
几天后,他又补了一句,语气依旧克制,却更值得玩味:
“扩展确实还能带来进步,但它不是全部。”
这不是终结宣言,而是一次转向——
从“大力出奇迹”的狂飙,
回到“小步探深谷”的沉静。
01
高分低能?不是AI不行,是我们考错了题
2020到2025年,是AI的“黄金五年”,也是 Scaling Law 的全盛时代。全世界信奉一个简单粗暴的真理:只要堆得够多,AI就变强。
更多数据?加!
更多算力?买!
更大模型?上!
这套“大力出奇迹”的逻辑,本质上是一种刷题战术——把海量题库喂给模型,用强化学习反复调优,只为让它在标准评测集上拿高分。结果很成功:AI 在 LeetCode、HumanEval、MATH 等基准测试中碾压人类,看起来无所不能。
但一旦进入真实开发场景,问题就暴露了:
你让它修一个 bug,它修完你刚松一口气,结果它又把三个月前修掉的老 bug 悄悄带回了代码里。 你指出问题,它立刻道歉并修正——可下一轮又把第一个 bug 原样复刻。
它不是笨,而是从未被教会“判断对错”,只学会了“猜出标准答案”。
Ilya 用一个极其生动的比喻点破了症结:
有两个学生。
A 刷了 1 万小时竞赛题,样样高分,但换个场景就懵;
B 只练了 400 小时,却能举一反三、触类旁通。
你愿意雇谁?
答案不言而喻。
可过去几年,我们却在拼命训练“学生A”——一个在考试中闪闪发光、在现实中频频摔跤的“刷题冠军”。
为什么?因为“Scaling”太香了:它可量化、可复制、可融资。
投资人一看:“哦,你明年 GPU 预算翻倍?那我投!”
老板一听:“哦,模型参数再大十倍?那 KPI 稳了!”
但 Ilya 冷静指出:预训练的数据金矿快挖空了,算力的边际收益正在断崖式下跌。 你再投 100 倍资源,可能只换来 1% 的能力提升。
更关键的是——我们训练出的不是“会思考的工程师”,而是一个“高分低能”的模仿者。
它不知道“这段逻辑不合理”,它只知道“这段代码看起来像人类写过的”。
而人类靠的,是一种内置的“直觉判断”:哪怕没看过答案,也能感知“这事不太对劲”。
这种能力,Ilya 称之为 “情绪价值函数”——它不是噪音,而是智能的底层操作系统。
这不是技术停滞,而是范式到了临界点。
AI 正从“刷题时代”走向“理解时代”;
从“大力出奇迹”,回到“小步探深谷”。
02
情绪即价值函数:智能的底层操作系统
很多人以为情绪是理性的敌人,但 Ilya 说:情绪,是人类智能的“操作系统”。
神经科学早已发现:一个因脑损伤失去情绪能力的人,智力、逻辑、语言毫发无损,却连“今天穿哪双袜子”都做不了决定。
因为 情绪不是噪音,而是价值信号 ——它实时告诉你:“这条路危险”“这个方向靠谱”“刚才那个操作太蠢了”。
人类学开车只需几小时,自动驾驶却要跑几亿英里,
差别就在于:人类有情绪反馈,AI 只有稀疏奖励。
今天的 AI,直到任务失败才收到一个“-1”;
而人类在思考中途就能自我修正——这种“推理中的自我评分”,正是未来 AI 必须掌握的能力。
没有它,AI 永远是“事后诸葛亮”;
有了它,AI 才可能成为“过程中的智者”。
03
从 Copilot 到 Agent:自主开发的真实边界
那么,我们离“AI 自主开发”还有多远?
在刚刚结束的2025第8届 AiDD 峰会Keynote Panel中:百度、极狐、腾讯、阿里、快手的一线实践者达成惊人共识: “AI 自主开发”不是非黑即白,而是一个光谱。(原文参考:硬核对话:从Copilot到Coding Agent——我们离“AI自主开发”还有多远?)
• 在 短程、确定性高、边界清晰 的任务中(如单元测试生成、简单函数编写、明确 SPEC 下的模块开发),AI 已进入“准自主开发”阶段——人类只需输入需求、验收结果,中间过程全自动。
• 但在 长程、跨系统、需历史上下文理解 的复杂场景中(如重构老旧架构、设计高并发系统),AI 仍需人类深度引导。
腾讯 CodeBuddy 团队的做法极具启发:他们要求 PRD 不仅是需求文档,更是“可执行的上下文”——AI 依此生成代码,若结果不符,人工介入反馈,形成“问题→修正→优化”的闭环。 这不再是“人写代码,AI 辅助”,而是“人定义目标,AI 执行探索”。
而真正的卡点,不在模型能力,而在 组织信任 与 技能鸿沟: 有的团队 AI 生成代码占比达 80%,有的仅 20%——差异不在意愿,而在“是否会构建上下文”“是否懂 Agent 协作逻辑”。
换言之,AI 的瓶颈,正在从“技术”转向“认知”。
04
研究回归:小步快跑,比盲目堆料更有力
Scaling 没死,但它累了。
当数据金矿见底、算力边际收益断崖,行业正从“扩展时代”回归“研究时代”。
这意味着:
• 不再迷信“更大模型”,而要思考“更聪明的架构”;
• 不再追求“全链路自主”,而要深耕“高确定性场景的闭环”;
• 不再只比参数,而要比“谁更懂用户、更懂业务、更懂协作”。
Ilya 创立 SSI 时明确表示:不发中间产品,直奔超级智能。
因为他相信,解决泛化与对齐的核心问题,比堆砌一堆“有用但脆弱”的工具更重要。
这看似理想主义,实则是清醒——
就像当年 AlexNet 只用 2 块 GPU 就开启深度学习革命,
下一次范式跃迁,可能也来自一个“不够大”却“足够美”的实验。
结语
Ilya 说,他现在“不再感受 AGI”了。
不是不信,而是 AGI 不再是遥不可及的神话。
Scaling 的狂热退潮后,AI 才真正开始呼吸。
它不再是一个被夸大的预言,而是一道需要我们亲手解开的谜题。
海啸或许将至,但这一次,
我们不是站在岸边观望,
而是正一起造船。
参考资料:
Ilya Sutskever 与 Dwarkesh Patel 对话实录
新智元:《Scaling已死吓坏硅谷,Ilya紧急辟谣!》
JuMeng:《这是Scaling时代的落幕,也是纯粹研究时代的回归》
硬核对话:从Copilot到Coding Agent——我们离“AI自主开发”还有多远?AiDD发布:软件研发应用大模型国内现状调研报告(2023-2025)
AiDD发布:中国AI+研发进化图谱 V2.0修订版
本文为原创解读,未经授权禁止转载。
欢迎转发、点赞、在看——让更多人看清AI的真相。
下一站预告
点这里↓↓↓记得关注标星哦~

