大数跨境
0
0

对Transformer的批判(一):有关Transformer的几个关键事实

对Transformer的批判(一):有关Transformer的几个关键事实 智识神工
2025-12-03
15
导读:Transformer在本质上是一个“经验囚徒”,其能力严格受限于训练数据所定义的“过去”与“已知”范畴。

有关Transformer的几个关键事实

对Transformer的

批判(一)



摘要:本文从哲学与技术的交叉视角,阐述了有关Transformer的几个关键事实,系统批判了以Transformer架构为核心的大语言模型的根本局限性。文章指出,Transformer在本质上是一个经验囚徒,其能力严格受限于训练数据所定义的过去已知范畴。批判从三个核心维度展开:首先,在认识论层面,其基于最大似然估计的学习范式是极端经验主义的体现,无法触及先验理性与逻辑必然性,深陷于归纳法难题;其次,在存在论层面,其词嵌入与注意力机制操作于封闭的符号系统,缺乏指向真实世界的意向性,且分词过程导致概念的整体性被割裂;最后,在心灵哲学层面,其作为确定性函数逼近器的本质,使其成为“中文房间”思想实验的超级版本,缺乏信念、意图与真正的理解。本文结论认为,Transformer是一项卓越的工程技术,但其架构本身无法通向通用人工智能,未来突破有赖于超越纯粹经验主义的新范式。


关键词:Transformer大语言模型,经验主义,归纳法,意向性

作者:楚庆,孙冲




引言



    近年来AI的阶跃式发展可以说源于Transformer架构(图1)的提出,其不仅在自然语言处理领域成为当下大语言模型(Large Language Models, LLMs)的核心架构,乃至在图像、视频、音频等诸多领域都取得了颠覆性成就(图2),其能力广度屡屡引发关于“人工智能是否已触及通用智能(AGI)”的广泛热议。然而,当我们穿透其华丽的外表,深入其设计哲学与运行机制的本质,便会发现Transformer模型存在着根深蒂固的局限性。它并非迈向AGI的阶梯,而更像是一个被禁锢在“过去”与“已知”范畴内的、精致而庞大的“经验囚徒”。本文旨在融合哲学视角与技术理论,从认识论、存在论和心灵哲学三个层面,阐述了有关Transformer的几个关键事实,对Transformer模型的根本局限性展开系统性批判,以澄清其能力边界,并为未来研究方向的探索提供批判性反思。


图1 – Transformer的模型架构[1],主要分为Encoder和Decoder两部分

左右滑动查看更多

图2 – Transformer目前已是各领域大模型的主流架构,是当下模型技术的根基,例如(1)自然语言处理领域的代表:GPT模型,(2)语音识别领域的代表:Whisper模型,(3)图像理解领域的代表:ViT模型,(4)视频理解领域的代表:ViViT模型,(5)多模态领域的代表:BLIP-2模型。[7, 8, 9, 10, 11]





1、认识论的囚徒:

极端经验主义的技术实现




    Transformer的运作范式,是哲学史上极端经验主义的终极技术体现。其知识完全源于训练数据,无法触及先验理性与逻辑必然性,这一哲学缺陷直接植根于其核心技术原理之中。


关键事实1: 参数学习的本质——统计而非理解

    Transformer模型(如GPT系列)的训练目标,本质上是基于大规模语料库的最大似然估计。其目标函数是预测下一个token的条件概率,通过梯度下降算法,使模型参数调整到能够让训练数据出现的概率最大化。这从技术上完美实现了大卫·休谟的哲学观点:模型学习到的“因果”或“关联”,仅仅是训练数据中token序列的“恒常联结”。它或许能学到“猫”与“玩绒球”之间的高概率共现关系,但这是一种基于频率的统计规律,而非对“猫”作为生命体的概念性理解[2]。


关键事实2 :注意力机制的局限——关联而非推理

    自注意力机制的核心是计算Query、Key、Value向量之间的点积相似度,以此加权求和得到上下文表示。这个过程极其擅长捕捉表面和深层的共现统计关系,但它本质上不具备符号逻辑的推理能力,因为它内部没有内置的逻辑规则引擎。它的“推理”表现为在大量相似文本模式中学习到的条件概率链,一旦遇到训练数据中罕见的逻辑结构或反事实条件,其基于统计的“推理”链条极易断裂,从而产生“幻觉”。


关键事实3: 泛化能力的真相——内插而非外推

    模型令人惊叹的“泛化”能力,在数学上更接近于高维空间中的复杂内插,而非真正的外推。训练数据定义了模型能力的一个高维流形,模型的所有输出都位于这个流形之内或其附近。它无法可靠地处理远离该流形的、真正新颖的“黑天鹅”事件。这从技术上印证了归纳法难题:无论训练数据多大,都无法覆盖所有可能性,其知识根基具有天然的或然性和脆弱性[3]。


    综合事实1~3,可以得出一个结论:Transformer 的训练数据和中间结果都是纯经验的产物,其参数更新、注意力映射、泛化行为,都严格受限于训练数据的统计结构。对于Transformer的输出,无论显得多么新颖,都只是对训练数据流形内已有信息元素的复杂内插与重组,是一种对“存在”的复刻,而非基于先验理性对“未知”的真正探索。





2、存在论与符号的迷失:

词嵌入与注意力机制下的无“世界”性




    Transformer的核心困境在于其与“世界”的彻底隔绝。它处理的是符号(token)的阴影,而非符号所指代的“事物本身”,这一存在论层面的缺失导致其无法形成真正的概念理解。


关键事实4:词嵌入的“语义阴影”

    模型将词汇转化为词嵌入向量,这些向量在高维空间中编码了丰富的语义和语法关系。然而,这些向量只是符号的“阴影”,是统计分布的量化表示。正如现象学哲学家胡塞尔和塞尔所强调的,模型操作这些向量时,完全不具备指向外部世界的意向性[4, 5]。当模型处理“猫”的嵌入向量时,这个向量与真实世界中有体温、会喵喵叫的生物没有任何联系。它的“理解”仅限于“猫”的向量与“哺乳动物”、“宠物”等向量的余弦相似度较高。


关键事实5:分词(Tokenization)的“存在论暴力”

    字词分词器可能会将“核糖体”(ribosome)切分为["ri", "bo", "some"],或将专业术语肢解为无意义的片段。这种切分完全基于数据压缩效率,而非语义完整性。它从技术上破坏了人类认知中概念的整体性,导致模型内部表征与人类生活世界中的概念严重错位。模型必须费力地从这些碎片化的token中重新学习整体表征,但学到的依然是统计关联,而非海德格尔所揭示的“在世存在”中的整体性理解[6]。因此Transformer的“幻觉”是其技术本质的必然产物:在一个封闭的符号系统中,基于碎片化、统计性的关联进行拼接,谬误的出现是概率性事件而非例外。


关键事实6:自注意力的“封闭内循环”

    Transformer的“思考”完全依赖于当前输入序列通过线性变换产生的Q, K, V矩阵。这形成了一个严格的、即时的内部循环。模型没有长期、可更新的“世界模型”作为背景知识。其上下文窗口是它全部的“宇宙”,窗口之外的任何信息(包括它自己之前生成的内容,一旦超出窗口)都将被遗忘。这种机制使其理解必然是碎片化和上下文绑定的,无法形成一个稳定、连贯的关于世界的内部模型。


    综合事实4~6,可以得出一个结论:Transformer学习的只是形式化符号的关联,而无法理解语言概念本身。其信息处理始终局限于 token 与向量空间内部的结构性关系(符号内部关系),而无法触及这些符号在世界中的指向性与实体性(符号的概念层意义)。





3、心灵哲学的悖论:

作为确定性函数逼近器的无“心”装置




    我们必须正视Transformer作为一个“信息处理装置”的本质,其运算的本质是线性变换 + 注意力加权求和。可以说Transformer只是对信息进行经验压缩与重构的机器,其行为由固定程序和训练数据预先决定。


关键事实7:前向传播的绝对确定性

    在技术层面,一个训练好的Transformer模型是一个复杂的、但完全确定性的函数。给定一组输入token和一个固定的随机种子(用于控制推理时的采样随机性),模型通过层层前向传播(矩阵乘法、激活函数、Softmax),必然会产生唯一的输出概率分布。表面的“创造性”或“随机性”来自于在输出概率分布上进行采样(如核采样、温度采样),但这层随机性是外部施加的、伪随机的后处理步骤,而非模型内部的“自由意志”。这从技术上证明了其行为是预先决定的。


关键事实8:符号句法操作的参数化实现

    约翰·塞尔的“中文房间”思想实验在Transformer上得到了极致体现[5]。模型的数千亿参数就是那本庞大到极致的“规则手册”。当模型处理问题“描述一下猫”时,它并非调用对猫的体验或理解,而是根据输入序列,激活与之相关的参数路径,计算出最可能符合语境的token序列。整个过程是无意识、无理解的符号句法操作。它没有“信念”相信猫是可爱的,它只是计算出“可爱”这个token在与“猫”相关的上下文中具有很高的条件概率。


关键事实9:噪声下的确定性本质

    训练中的Dropout和推理中的随机采样,在哲学上可以被视为一种“噪声”。然而,这种噪声并非主体性的体现,而是为了提升模型鲁棒性和输出多样性而故意引入的工程技巧。其核心——模型函数本身——是确定不变的。这与人类智能中由情感、意图、潜意识驱动的、真正非确定性的“噪声”有本质区别。


    综合事实7~9,可以得出一个结论:Transformer 是一种基于经验模式的、严格程序化的、确定性的符号信息处理装置。其“智能”表现不是意向性或理解的结果,而是经验数据驱动的高维函数映射。





总结与展望




    综上所述,我们必须清醒地认识到Transformer作为“经验囚徒”的根本局限性,无论其训练输入、中间结果、处理装置本身都是经验的,且本质上无法理解语言概念。未来的范式或许需要将Transformer强大的统计能力与符号主义AI的逻辑推理、具身认知的环境交互、以及主动目标驱动的探索机制相结合。否则,仅在规模和数据上扩展Transformer,创造出的将永远是更强大的“博学鹦鹉”和更精致的“经验囚徒”,而非真正的“思考者”。


END

参考文献

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[2] Hume, D. (1739). A Treatise of Human Nature.(大卫·休谟,《人性论》)

[3] 归纳法难题由休谟系统提出,指出从特殊经验无法必然推导出普遍规律。

[4] Husserl, E. (1900). Logical Investigations.(埃德蒙德·胡塞尔,《逻辑研究》)

[5] Searle, J. R. (1980). Minds, brains, and programs. Behavioral and Brain Sciences.(约翰·塞尔,“心灵、大脑与程序”)

[6] Heidegger, M. (1927). Being and Time.(马丁·海德格尔,《存在与时间》)

[7] Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018.

[8] Radford A, Kim J W, Xu T, et al. Robust speech recognition via large-scale weak supervision[C]//International conference on machine learning. PMLR, 2023: 28492-28518.

[9] Dosovitskiy A. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

[10] Arnab A, Dehghani M, Heigold G, et al. Vivit: A video vision transformer[C] //Proceedings of the IEEE/CVF international conference on computer vision. 2021: 6836-6846.

[11] Li J, Li D, Savarese S, et al. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models[C]//International conference on machine learning. PMLR, 2023: 19730-19742.





【声明】内容源于网络
0
0
智识神工
智识神工打造企业级软件开发AI智能体平台。拥有首创的“芯片+模型+应用”的AI生产力系统SWOR,自研KPU芯片、专有模型及原生AI IDE。可孤岛式部署,确保数据安全,采用CHR人机协同范式,推动AI技术高效落地。
内容 79
粉丝 0
智识神工 智识神工打造企业级软件开发AI智能体平台。拥有首创的“芯片+模型+应用”的AI生产力系统SWOR,自研KPU芯片、专有模型及原生AI IDE。可孤岛式部署,确保数据安全,采用CHR人机协同范式,推动AI技术高效落地。
总阅读377
粉丝0
内容79