大数跨境
0
0

【AI】Ilya警告、LeCun冷嘲、奥特曼沉默:ScalingLaw时代还能走多远?

【AI】Ilya警告、LeCun冷嘲、奥特曼沉默:ScalingLaw时代还能走多远? 人工智能产业链union
2025-12-31
11
【导读】过去10年,AI大模型的技术本质,是把电力能源通过计算过程转化为可复用的智能。2026年,我们需要让AI模型在单位时间内「吃下」更多能源,并真正将其转化为智能。

自2022年底ChatGPT问世以来,AI领域的发展始终围绕一个核心机制——Scaling Law(规模扩展定律)。从DeepSeek到Gemini 3、GPT-5.2,所有顶级模型的进步都依赖于算力与数据的持续扩大。然而,行业正面临前所未有的焦虑:这一增长范式是否已接近“撞墙”?

Ilya Sutskever指出,单纯增加预训练算力的时代正在进入平台期;Yann LeCun则认为当前大模型无论怎样扩展都无法通向真正的通用人工智能(AGI);Sam Altman也含蓄承认,仅靠更多GPU已无法带来同比例的智能跃迁。

当“数据枯竭”与“算力报酬递减”成为普遍难题时,一个根本问题浮现:为何算力持续增长,智能提升却趋于缓慢?

新加坡国立大学校长青年教授、潞晨科技创始人尤洋在其深度文章《智能增长的瓶颈》中提出新视角:AI的本质是将电力能源通过计算转化为可复用的智能。而当前瓶颈并非来自硬件不足,而是现有技术范式无法高效“消化”不断增长的算力。

一、智能从哪里来?

尤洋将智能定义为模型的预测与创作能力,并总结过去十年大模型成功背后的三大关键共识:

  1. 预训练是智能的主要来源
    微调和强化学习贡献有限,根本原因在于其算力投入远低于预训练阶段。
  2. Next-Token Prediction是最有效的Loss函数设计
    该任务几乎无需人工标注,可利用海量文本进行自监督学习,极大提升了训练效率。
  3. Transformer本质上是一台并行计算机
    其结构高度适配GPU的并行架构,而非模仿人脑。正如Ilya Sutskever所言:“Transformers are parallel computers in disguise.”

这三项要素共同推动了从GPT-1到Gemini等系列模型的持续进化,实现了算力向智能的有效转化。

二、真正的瓶颈:算力“转化率”下降

尤洋强调,当前面临的不是“算力不够”,而是“现有范式无法充分利用持续增长的算力”。

他区分了两类技术进展:

  • 效率提升:如模型剪枝、知识蒸馏、低精度训练等,虽有助于部署落地,但不改变智能上限;
  • 智能上限提升:在相同浮点运算总量下,能否训练出更强、泛化更好的模型,才是决定未来的关键。

问题核心在于:模型、损失函数与优化算法对算力的“消化能力”正在减弱。即便算力持续增长,若无法有效转化为参数更新中的智能增益,智能跃迁仍将停滞。

三、未来方向:不是“省算力”,而是“吃更多算力”

尤洋认为,未来突破应聚焦于如何让模型在单位时间内吸收并转化更多能源,而非一味追求效率优化。他提出四个潜在方向:

  1. 更高数值精度
    尽管FP16至FP64尚未带来明显跃升,但这可能因探索不足所致。更高精度或能提升梯度稳定性与计算可靠性。
  2. 更高阶优化器
    超越Adam类一阶梯度方法,采用二阶甚至更高阶优化器,理论上可提供更优参数更新路径,但实现成本较高。
  3. 更具扩展性的模型架构或Loss函数
    不再以吞吐量或推理速度为目标,而是评估其在极限算力下能否训出更强模型。
  4. 更充分的训练与超参数搜索
    当前受限于成本,许多模型并未经历充分训练或调优。更多Epoch、更精细的数据-参数匹配,可能是释放潜力的关键。

尤洋明确指出,推理加速、量化、蒸馏等技术属于“落地层面”,与“智能上限”属于不同技术曲线。

结语:重新审视智能增长的本质

如果过去十年的核心命题是“如何获得更多算力”,那么接下来的问题则是:“我们是否真的知道如何把这些算力变成智能?”

《智能增长的瓶颈》提醒从业者:当算力仍在增长但智能不再自动升级时,必须回归底层,重新审视哪些变量真正决定智能上限——是模型结构?Loss设计?优化机制?还是整个训练范式的根本变革?

正如Richard Sutton所言:“人工智能70年的最大教训是,依托计算能力的通用方法终将胜出。”

作者:尤洋,新加坡国立大学校长青年教授,潞晨科技创始人。

智能的现状

目前尚无统一的智能定义。尤洋认为,智能的核心是预测与创作能力。若未来人们愿意完全信赖AI做出职业选择、健康治疗、金融决策或艺术创作,则意味着AGI已近在咫尺。

智能发展的瓶颈

过去十年,AI大模型的本质是将电力能源通过计算转化为智能。其中,预训练消耗最多算力,也是智能的主要来源。

英伟达GPU的设计逻辑是在有限空间内堆叠更多HBM内存,从而支持大规模并行计算。因此,算法必须具备高并行性才能最大化利用算力。

Transformer之所以胜出,正是因其结构本身就是一种并行计算系统,完美契合GPU特性。同时,Next-Token Prediction提供了近乎无限的训练信号,且任务难度高于传统完形填空,更贴近真实预测能力。

OpenAI坚持使用GPT路线而非转向BERT,在当时看似非主流,但最终证明了其长期价值。

然而,随着模型规模扩大,现有范式对算力的利用率开始下降。即使浮点运算总量大幅提升,模型性能的增长却未同步显现。

未来的方法探讨

要突破瓶颈,需从软硬件协同角度出发:

  • 硬件层面:构建更大规模的计算集群,保持“计算开销/通信开销”比值稳定,提升整体算力利用率;
  • 算法层面:探索更高精度计算、高阶优化器、更可扩展的模型架构与Loss函数;
  • 训练策略:摆脱成本束缚,深入挖掘Epoch、超参数、数据配比等维度的潜力,真正“吃下”更多能源。

尤洋相信,随着问题复杂度上升(如地震预测),传统方法难以应对,AI将在高维动态系统建模中发挥关键作用。

尽管当前存在困难,但他对未来的算力利用效率持乐观态度——人类一直在寻找更高效的计算方式,从SVM到CNN、LSTM、Transformer、MoE,这条演进之路仍将继续。

【声明】内容源于网络
0
0
人工智能产业链union
人工智能产业链联盟,旨在汇聚全球人工智能领域的创新力量,共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心,打造了一个完整、高效、协同的人工智能生态链。
内容 589
粉丝 0
人工智能产业链union 人工智能产业链联盟,旨在汇聚全球人工智能领域的创新力量,共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心,打造了一个完整、高效、协同的人工智能生态链。
总阅读15.2k
粉丝0
内容589