【导读】过去10年,AI大模型的技术本质,是把电力能源通过计算过程转化为可复用的智能。2026年,我们需要让AI模型在单位时间内「吃下」更多能源,并真正将其转化为智能。
自2022年底ChatGPT问世以来,AI领域的发展始终围绕一个核心机制——Scaling Law(规模扩展定律)。从DeepSeek到Gemini 3、GPT-5.2,所有顶级模型的进步都依赖于算力与数据的持续扩大。然而,行业正面临前所未有的焦虑:这一增长范式是否已接近“撞墙”?
Ilya Sutskever指出,单纯增加预训练算力的时代正在进入平台期;Yann LeCun则认为当前大模型无论怎样扩展都无法通向真正的通用人工智能(AGI);Sam Altman也含蓄承认,仅靠更多GPU已无法带来同比例的智能跃迁。
当“数据枯竭”与“算力报酬递减”成为普遍难题时,一个根本问题浮现:为何算力持续增长,智能提升却趋于缓慢?
新加坡国立大学校长青年教授、潞晨科技创始人尤洋在其深度文章《智能增长的瓶颈》中提出新视角:AI的本质是将电力能源通过计算转化为可复用的智能。而当前瓶颈并非来自硬件不足,而是现有技术范式无法高效“消化”不断增长的算力。
一、智能从哪里来?
尤洋将智能定义为模型的预测与创作能力,并总结过去十年大模型成功背后的三大关键共识:
- 预训练是智能的主要来源
微调和强化学习贡献有限,根本原因在于其算力投入远低于预训练阶段。 - Next-Token Prediction是最有效的Loss函数设计
该任务几乎无需人工标注,可利用海量文本进行自监督学习,极大提升了训练效率。 - Transformer本质上是一台并行计算机
其结构高度适配GPU的并行架构,而非模仿人脑。正如Ilya Sutskever所言:“Transformers are parallel computers in disguise.”
这三项要素共同推动了从GPT-1到Gemini等系列模型的持续进化,实现了算力向智能的有效转化。
二、真正的瓶颈:算力“转化率”下降
尤洋强调,当前面临的不是“算力不够”,而是“现有范式无法充分利用持续增长的算力”。
他区分了两类技术进展:
- 效率提升:如模型剪枝、知识蒸馏、低精度训练等,虽有助于部署落地,但不改变智能上限;
- 智能上限提升:在相同浮点运算总量下,能否训练出更强、泛化更好的模型,才是决定未来的关键。
问题核心在于:模型、损失函数与优化算法对算力的“消化能力”正在减弱。即便算力持续增长,若无法有效转化为参数更新中的智能增益,智能跃迁仍将停滞。
三、未来方向:不是“省算力”,而是“吃更多算力”
尤洋认为,未来突破应聚焦于如何让模型在单位时间内吸收并转化更多能源,而非一味追求效率优化。他提出四个潜在方向:
- 更高数值精度
尽管FP16至FP64尚未带来明显跃升,但这可能因探索不足所致。更高精度或能提升梯度稳定性与计算可靠性。 - 更高阶优化器
超越Adam类一阶梯度方法,采用二阶甚至更高阶优化器,理论上可提供更优参数更新路径,但实现成本较高。 - 更具扩展性的模型架构或Loss函数
不再以吞吐量或推理速度为目标,而是评估其在极限算力下能否训出更强模型。 - 更充分的训练与超参数搜索
当前受限于成本,许多模型并未经历充分训练或调优。更多Epoch、更精细的数据-参数匹配,可能是释放潜力的关键。
尤洋明确指出,推理加速、量化、蒸馏等技术属于“落地层面”,与“智能上限”属于不同技术曲线。
结语:重新审视智能增长的本质
如果过去十年的核心命题是“如何获得更多算力”,那么接下来的问题则是:“我们是否真的知道如何把这些算力变成智能?”
《智能增长的瓶颈》提醒从业者:当算力仍在增长但智能不再自动升级时,必须回归底层,重新审视哪些变量真正决定智能上限——是模型结构?Loss设计?优化机制?还是整个训练范式的根本变革?
正如Richard Sutton所言:“人工智能70年的最大教训是,依托计算能力的通用方法终将胜出。”
智能的现状
目前尚无统一的智能定义。尤洋认为,智能的核心是预测与创作能力。若未来人们愿意完全信赖AI做出职业选择、健康治疗、金融决策或艺术创作,则意味着AGI已近在咫尺。
智能发展的瓶颈
过去十年,AI大模型的本质是将电力能源通过计算转化为智能。其中,预训练消耗最多算力,也是智能的主要来源。
英伟达GPU的设计逻辑是在有限空间内堆叠更多HBM内存,从而支持大规模并行计算。因此,算法必须具备高并行性才能最大化利用算力。
Transformer之所以胜出,正是因其结构本身就是一种并行计算系统,完美契合GPU特性。同时,Next-Token Prediction提供了近乎无限的训练信号,且任务难度高于传统完形填空,更贴近真实预测能力。
OpenAI坚持使用GPT路线而非转向BERT,在当时看似非主流,但最终证明了其长期价值。
然而,随着模型规模扩大,现有范式对算力的利用率开始下降。即使浮点运算总量大幅提升,模型性能的增长却未同步显现。
未来的方法探讨
要突破瓶颈,需从软硬件协同角度出发:
- 硬件层面:构建更大规模的计算集群,保持“计算开销/通信开销”比值稳定,提升整体算力利用率;
- 算法层面:探索更高精度计算、高阶优化器、更可扩展的模型架构与Loss函数;
- 训练策略:摆脱成本束缚,深入挖掘Epoch、超参数、数据配比等维度的潜力,真正“吃下”更多能源。
尤洋相信,随着问题复杂度上升(如地震预测),传统方法难以应对,AI将在高维动态系统建模中发挥关键作用。
尽管当前存在困难,但他对未来的算力利用效率持乐观态度——人类一直在寻找更高效的计算方式,从SVM到CNN、LSTM、Transformer、MoE,这条演进之路仍将继续。

