【AI】Ilya警告、LeCun冷嘲、奥特曼沉默：ScalingLaw时代还能走多远？- 大数跨境

首页

【AI】Ilya警告、LeCun冷嘲、奥特曼沉默：ScalingLaw时代还能走多远？

人工智能产业链union

2025-12-31

【导读】过去10年，AI大模型的技术本质，是把电力能源通过计算过程转化为可复用的智能。2026年，我们需要让AI模型在单位时间内「吃下」更多能源，并真正将其转化为智能。

自2022年底ChatGPT问世以来，AI领域的发展始终围绕一个核心机制——Scaling Law（规模扩展定律）。从DeepSeek到Gemini 3、GPT-5.2，所有顶级模型的进步都依赖于算力与数据的持续扩大。然而，行业正面临前所未有的焦虑：这一增长范式是否已接近“撞墙”？

Ilya Sutskever指出，单纯增加预训练算力的时代正在进入平台期；Yann LeCun则认为当前大模型无论怎样扩展都无法通向真正的通用人工智能（AGI）；Sam Altman也含蓄承认，仅靠更多GPU已无法带来同比例的智能跃迁。

当“数据枯竭”与“算力报酬递减”成为普遍难题时，一个根本问题浮现：为何算力持续增长，智能提升却趋于缓慢？

新加坡国立大学校长青年教授、潞晨科技创始人尤洋在其深度文章《智能增长的瓶颈》中提出新视角：AI的本质是将电力能源通过计算转化为可复用的智能。而当前瓶颈并非来自硬件不足，而是现有技术范式无法高效“消化”不断增长的算力。

一、智能从哪里来？

尤洋将智能定义为模型的预测与创作能力，并总结过去十年大模型成功背后的三大关键共识：

预训练是智能的主要来源
微调和强化学习贡献有限，根本原因在于其算力投入远低于预训练阶段。
Next-Token Prediction是最有效的Loss函数设计
该任务几乎无需人工标注，可利用海量文本进行自监督学习，极大提升了训练效率。
Transformer本质上是一台并行计算机
其结构高度适配GPU的并行架构，而非模仿人脑。正如Ilya Sutskever所言：“Transformers are parallel computers in disguise.”

这三项要素共同推动了从GPT-1到Gemini等系列模型的持续进化，实现了算力向智能的有效转化。

二、真正的瓶颈：算力“转化率”下降

尤洋强调，当前面临的不是“算力不够”，而是“现有范式无法充分利用持续增长的算力”。

他区分了两类技术进展：

效率提升：如模型剪枝、知识蒸馏、低精度训练等，虽有助于部署落地，但不改变智能上限；
智能上限提升：在相同浮点运算总量下，能否训练出更强、泛化更好的模型，才是决定未来的关键。

问题核心在于：模型、损失函数与优化算法对算力的“消化能力”正在减弱。即便算力持续增长，若无法有效转化为参数更新中的智能增益，智能跃迁仍将停滞。

三、未来方向：不是“省算力”，而是“吃更多算力”

尤洋认为，未来突破应聚焦于如何让模型在单位时间内吸收并转化更多能源，而非一味追求效率优化。他提出四个潜在方向：

更高数值精度
尽管FP16至FP64尚未带来明显跃升，但这可能因探索不足所致。更高精度或能提升梯度稳定性与计算可靠性。
更高阶优化器
超越Adam类一阶梯度方法，采用二阶甚至更高阶优化器，理论上可提供更优参数更新路径，但实现成本较高。
更具扩展性的模型架构或Loss函数
不再以吞吐量或推理速度为目标，而是评估其在极限算力下能否训出更强模型。
更充分的训练与超参数搜索
当前受限于成本，许多模型并未经历充分训练或调优。更多Epoch、更精细的数据-参数匹配，可能是释放潜力的关键。

尤洋明确指出，推理加速、量化、蒸馏等技术属于“落地层面”，与“智能上限”属于不同技术曲线。

结语：重新审视智能增长的本质

如果过去十年的核心命题是“如何获得更多算力”，那么接下来的问题则是：“我们是否真的知道如何把这些算力变成智能？”

《智能增长的瓶颈》提醒从业者：当算力仍在增长但智能不再自动升级时，必须回归底层，重新审视哪些变量真正决定智能上限——是模型结构？Loss设计？优化机制？还是整个训练范式的根本变革？

正如Richard Sutton所言：“人工智能70年的最大教训是，依托计算能力的通用方法终将胜出。”

作者：尤洋，新加坡国立大学校长青年教授，潞晨科技创始人。

智能的现状

目前尚无统一的智能定义。尤洋认为，智能的核心是预测与创作能力。若未来人们愿意完全信赖AI做出职业选择、健康治疗、金融决策或艺术创作，则意味着AGI已近在咫尺。

智能发展的瓶颈

过去十年，AI大模型的本质是将电力能源通过计算转化为智能。其中，预训练消耗最多算力，也是智能的主要来源。

英伟达GPU的设计逻辑是在有限空间内堆叠更多HBM内存，从而支持大规模并行计算。因此，算法必须具备高并行性才能最大化利用算力。

Transformer之所以胜出，正是因其结构本身就是一种并行计算系统，完美契合GPU特性。同时，Next-Token Prediction提供了近乎无限的训练信号，且任务难度高于传统完形填空，更贴近真实预测能力。

OpenAI坚持使用GPT路线而非转向BERT，在当时看似非主流，但最终证明了其长期价值。

然而，随着模型规模扩大，现有范式对算力的利用率开始下降。即使浮点运算总量大幅提升，模型性能的增长却未同步显现。

未来的方法探讨

要突破瓶颈，需从软硬件协同角度出发：

硬件层面：构建更大规模的计算集群，保持“计算开销/通信开销”比值稳定，提升整体算力利用率；
算法层面：探索更高精度计算、高阶优化器、更可扩展的模型架构与Loss函数；
训练策略：摆脱成本束缚，深入挖掘Epoch、超参数、数据配比等维度的潜力，真正“吃下”更多能源。

尤洋相信，随着问题复杂度上升（如地震预测），传统方法难以应对，AI将在高维动态系统建模中发挥关键作用。

尽管当前存在困难，但他对未来的算力利用效率持乐观态度——人类一直在寻找更高效的计算方式，从SVM到CNN、LSTM、Transformer、MoE，这条演进之路仍将继续。

【声明】内容源于网络

人工智能产业链union

人工智能产业链联盟，旨在汇聚全球人工智能领域的创新力量，共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心，打造了一个完整、高效、协同的人工智能生态链。

内容 589

粉丝 0

人工智能产业链union 人工智能产业链联盟，旨在汇聚全球人工智能领域的创新力量，共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心，打造了一个完整、高效、协同的人工智能生态链。

总阅读15.2k

粉丝0

内容589