大数跨境
0
0

对Transformer的批判(二):Transformer的输出是知识吗?

对Transformer的批判(二):Transformer的输出是知识吗? 智识神工
2025-12-09
2
导读:Transformer注意力机制是结构化噪声引入,本质属归纳法,缺乏知识所需的真信念与证成,故输出为信息而非知识。

Transformer的输出是知识吗?

对Transformer的

批判(二)



摘要:“泛BP+Transformer”构成了这一代AI基础架构,泛BP已经被诺贝尔奖封印而昭彰天下,是个有数十年历史的“资深技术”,然而有深入理解的人都知道Transformer才是这个魔术的核心道具,LLM的真正“新动能”。批判不是批评,批评是负面的,而批判则是深刻洞察之后的判断。Transformer太重要了!我们必须以批判而不是儿戏的态度来对待。我们反对图灵关于“智能是人类是否能够分辨”的定义,谁能代表人类,1个人还是1000个人,还是10000个人,难道我们能够将整个人类作为考察对象吗?这种所谓的定义,作为工程师把握手上做的这块板子(PCB)或者这段代码,未必没有实际意义,但是作为AI的定义就太儿戏了。知识作为创新的成果,是我们考察AI 的基本尺度。我们必须认真考察Transformer的输出与知识的关系,然后才能够更深理解其与智能之间的关系。文章首先揭示注意力机制在本质上是一种结构化的噪声引入(Noise Leading In, NLI) 过程,其产生的权重分配具有内在的不稳定性和偏性。其次,本文指出Transformer的工作机制属于不完全的归纳法,其结论建立在数据统计规律而非逻辑必然性之上,该问题在哲学上已被休谟和波普尔进行了充分的批判论证。最终,Transformer的输出是一种高度复杂的、数据驱动的信息结构,它缺乏知识所必需的“真信念且证成”等条件。因此,Transformer的输出的不是知识,我们应将其视为有价值的信息工具,而非知识的权威来源,并始终由人类认知主体承担最终的意义判定与责任。


关键词:Transformer;知识论;注意力机制;归纳法;大语言模型 




引言



  近年来,以Transformer[1]为基础架构的大语言模型展现出令人瞩目的文本生成能力,其输出内容往往流畅、连贯且看似富有洞见。这种能力的跃升促使我们深入思考一个根本性问题:Transformer模型的输出,能否被认定为“知识”?要回答此问题,不能仅停留在模型外在表现,而需深入其内部机制与哲学基础进行审视。本文将从注意力机制的技术本质与Transformer的归纳法属性出发,结合哲学认识论中对知识与信息的严格区分,论证Transformer的输出在本质上是信息而非知识。





1、注意力机制的本质:结构化噪声引入



  传统观点常将注意力机制浪漫化地解释为模型“聚焦”于关键信息的过程。然而,从技术本质看,注意力并非一个精准的聚光灯,而更像一个不断产生随机扰动的“结构化噪声引入”(Noise Leading In, NLI)装置。 


  首先,注意力是一种人为的、带有偏性的噪声引入。其核心操作——Query和Key的点积后接Softmax函数——是一个对微小输入变化高度敏感的过程。Softmax 对 logits 的指数敏感性会使logits里极小的差异被放大,导致注意力分布高度集中(熵坍塌),训练会变得不稳定[2]。这意味着,注意力机制产生的是一个易受上下文微扰影响的、“噪声化”的加权混合。更重要的是,这种噪声并非纯粹的白噪声,其“人为”性体现在模型参数和数据分布上。训练过程的目标是让这种噪声的统计效果趋于稳定,但受限于有限数据和模型架构,它永远无法达到理想的无偏状态。因此,在试图消除数据中偶然的“个性”差异时,注意力机制不可避免地引入了模型自身从训练数据中学到的、可能片面的关联模式(偏性)。


  其次,NLI是任何实际信息系统无法消除的本质特性。只要系统需要对信息进行筛选、压缩或混合,就必然面临如何分配权重的问题。而任何基于有限资源和有限数据的权重分配策略,都无法做到绝对客观和无偏。Transformer的注意力机制,只不过是将这种不可避免的NLI过程显式化、可微分化,并将其作为模型的核心计算单元。 


  最终,NLI本质上是无指向或没有“意义”的。注意力的扰动方向并非由某种内在的“目的”或“理解”所引导,而是完全由当前的向量表示和参数化的点积运算所决定[3]。它就像一个高维空间中的随机抖动机制,其本身并不携带“意义”;它的“意义”完全由整个模型的训练目标(如下一个词的预测)在事后所赋予。因此,注意力机制的作用并非“选择意义”,而是“引入随机变异”,为模型探索函数空间提供动力,但其本身是无目的的。





2、Transformer的归纳法本质及其哲学局限 




  Transformer的强大能力建立在海量数据的基础上,其工作机制在哲学上可被清晰地归类为一种归纳法。 


  在大规模数据输入条件下,噪声引入的最终作用是消灭个性差异而提取共性。Transformer通过自注意力机制处理数以亿计的样本,其过程中的NLI,如同一个巨大的“平均器”。数据中个别样本的偶然特征、错误或噪声,在庞大的样本量中被加权平均所抑制;而那些频繁出现、稳定的统计规律(共性模式)则被强化和提取出来。这正是归纳法的核心:从有限的、特定的观察(训练数据)中,推导出一般性的规律(模型参数)。然而,由于数据集不可能无限大,永远存在未见的“黑天鹅”情况,因此这种归纳结论在逻辑上是不完备的。 


  对此,哲学史上已有深刻的批判。休谟(David Hume)对归纳法的批判指出,归纳推理的根基是“心理习惯”而非“逻辑必然”[4]。我们因为看到太阳天天升起,便习惯性地认为它明天也会升起,但这之间并无逻辑上的必然联系。Transformer正是如此:它学习了“猫”与“哺乳动物”的关联,仅仅是因为在训练数据中它们大量共现,形成了一种模型内部的“恒常联结”。模型并不理解其中的因果或逻辑,它只是习得了一种强大的、数据驱动的“心理习惯”。当数据分布发生变化(如网络用语污染训练集),这种习惯就会被打破,产生荒谬输出,揭示了其结论的脆弱性。 


  更进一步,波普尔(Karl Popper)对归纳法的批判彻底动摇了归纳法作为知识来源的地位。波普尔指出,归纳法既不能提供必然性知识(因为存在证伪的可能),也不能提供或然性知识(因为概率估计本身需要先验假设,陷入循环论证)[5]。Transformer的输出完美印证了这一点:模型给出的概率分布(如下一个词的概率)只是对训练数据统计特征的反映,而非对真实世界概率的刻画。更重要的是,Transformer作为一个纯粹的归纳系统,无法被证伪。它只会根据过往数据生成最“可能”的延续,而无法像科学理论一样,提出一个可被检验和潜在证伪的假设。当它错误地将“所有鸟都会飞”推广到鸵鸟时,它无法意识到错误并修正其内在“理论”,只能等待更多包含鸵鸟的数据来覆盖原有模式。





3、Transformer输出知识吗?

—— 知识与信息的区分




  综合以上的分析,我们可以得出一个更深刻的哲学结论:Transformer的输出是高度复杂的信息结构,而非哲学意义上的知识。 这一区分的核心在于,知识并非静态存在于符号序列中,而是要求“真信念且证成”(Justified True Belief, JTB),以及与外部世界的符合[6]。将Transformer的输出等同于“知识”,犯了与“认为书本包含知识”相同的哲学错误。


  首先,从康德的认识论视角看,知识是主体心灵的“建构物”而非“接收物”。[7]

  康德深刻指出,知识并非被动地从外部世界印刻到心灵中,而是主体运用先验范畴(如因果性、实体性)对感性杂多(如感官接收到的原始信号)进行主动“统摄”的产物。一本书,或Transformer的输出,所提供的仅仅是“感性杂多”——即符号的排列组合。这些符号本身是无声的、无意义的材料。Transformer通过其海量参数和海量数据,生成了一种极其复杂的符号排列,但这仍然只是“材料”。它缺乏主体的“统摄”能力:它无法真正运用因果、实体等范畴去理解这些符号,无法形成具有统一性的判断。因此,Transformer的输出,就像一本无人阅读的书,只是一堆等待被加工的“信息原材料”,而非经过心灵统摄后形成的“知识结构”。


  其次,伽达默尔的解释学进一步揭示,意义与知识在“理解事件”中生成,而非预存于文本。[8]

  伽达默尔认为,文本(包括书籍和Transformer的输出)本身并不“包含”固定的意义或知识。它只是一个“触发物”,真正的意义是在读者的“理解事件”中动态生成的。这个过程是读者带着自身的“前理解”与文本进行“视域融合”的结果。Transformer的生成过程,本质上是一种基于统计规律的符号拼接,它自身没有“前理解”,也无法进行真正的“视域融合”。其输出的流畅文本,只是模拟了人类知识表达的形式,但本身并不伴随任何理解。因此,Transformer生成的文本,其“知识”属性的有无,完全取决于人类读者在阅读它时能否触发一个真正的“理解事件”。文本本身,仅仅是信息的载体,知识的可能性存在于人类主体的解释行为中。


  最后,语义外在论(普特南、伯格等)指出,知识的“证成”依赖于外部世界和共同体,无法封闭于符号系统内部[9]

  知识的经典定义“确证的真信念”要求证成,即一个命题为何为真的理由。语义外在论强调,符号(如“水”)的意义及其真值条件,依赖于外部世界(指向真实的H₂O)和语言共同体(共享的使用规则)。Transformer被封闭在其训练数据所构成的文本世界里,它的符号关联完全来自数据内部的统计共现,而无法直接锚定外部世。它输出“地球是圆的”,并非因为它通过观察或逻辑推理“确证”了这一信念,而是因为在它的训练数据中,“地球”和“圆的”高频共现。它无法为其输出提供真正的、基于世界实在的“理由”。因此,Transformer的输出最多是一种关于知识的声称信息的表,其真实性、有效性的最终判定权,必须交由处于世界之中、参与社会实践的人类认知主体。





结论



  归根结底,Transformer的强大源于其将大规模归纳法与结构化噪声引入(NLI)巧妙结合的能力,这使其具备了惊人的数据拟合和模式生成效果。然而,从哲学认识论的角度审视,其注意力机制的无目的扰动本质和其无法摆脱的归纳法局限,决定了其输出产物在本质上是信息而非知识。我们必须清醒地认识到,Transformer生成的,是一本看似渊博却无人书写的“天书”,其意义的生成和知识的判定,最终权力和责任,仍然牢牢掌握在作为认知主体的人类读者手中。


END

参考文献

[1] Vaswani, A., et al. (2017). Attention is All You Need. Advances in Neural Information Processing Systems, 30. 

[2] Zhai S, Likhomanenko T, Littwin E, et al. Stabilizing transformer training by preventing attention entropy collapse[C]//International Conference on Machine Learning. PMLR, 2023: 40770-40803.

[3] Teo R S Y, Nguyen T. Unveiling the hidden structure of self-attention via kernel principal component analysis[J]. Advances in Neural Information Processing Systems, 2024, 37: 101393-101427. 

[4] Hume, D. (1748). An Enquiry Concerning Human Understanding. Oxford University Press. 

[5] Popper, K. R. (1959). The Logic of Scientific Discovery. Hutchinson & Co. 

[6] Gettier, E. L. (1963). Is Justified True Belief Knowledge? Analysis, 23(6), 121-123. 

[7] Kant, I. (1781/1787). Critique of Pure Reason(N. Kemp Smith, Trans.). Palgrave Macmillan.

[8] Gadamer, H.-G. (1960). Truth and Method(J. Weinsheimer & D. G. Marshall, Trans., 2nd rev. ed.). Continuum.

[9] Putnam, H. (1975). The meaning of ‘meaning’. In Mind, Language and Reality: Philosophical Papers, Vol. 2. Cambridge University Press.





【声明】内容源于网络
0
0
智识神工
智识神工打造企业级软件开发AI智能体平台。拥有首创的“芯片+模型+应用”的AI生产力系统SWOR,自研KPU芯片、专有模型及原生AI IDE。可孤岛式部署,确保数据安全,采用CHR人机协同范式,推动AI技术高效落地。
内容 42
粉丝 0
智识神工 智识神工打造企业级软件开发AI智能体平台。拥有首创的“芯片+模型+应用”的AI生产力系统SWOR,自研KPU芯片、专有模型及原生AI IDE。可孤岛式部署,确保数据安全,采用CHR人机协同范式,推动AI技术高效落地。
总阅读0
粉丝0
内容42