摘要:“泛BP+Transformer”构成了这一代AI基础架构,泛BP已经被诺贝尔奖封印而昭彰天下,是个有数十年历史的“资深技术”,然而有深入理解的人都知道Transformer才是这个魔术的核心道具,LLM的真正“新动能”。批判不是批评,批评是负面的,而批判则是深刻洞察之后的判断。Transformer太重要了!我们必须以批判而不是儿戏的态度来对待。我们反对图灵关于“智能是人类是否能够分辨”的定义,谁能代表人类,1个人还是1000个人,还是10000个人,难道我们能够将整个人类作为考察对象吗?这种所谓的定义,作为工程师把握手上做的这块板子(PCB)或者这段代码,未必没有实际意义,但是作为AI的定义就太儿戏了。知识作为创新的成果,是我们考察AI 的基本尺度。我们必须认真考察Transformer的输出与知识的关系,然后才能够更深理解其与智能之间的关系。文章首先揭示注意力机制在本质上是一种结构化的噪声引入(Noise Leading In, NLI) 过程,其产生的权重分配具有内在的不稳定性和偏性。其次,本文指出Transformer的工作机制属于不完全的归纳法,其结论建立在数据统计规律而非逻辑必然性之上,该问题在哲学上已被休谟和波普尔进行了充分的批判论证。最终,Transformer的输出是一种高度复杂的、数据驱动的信息结构,它缺乏知识所必需的“真信念且证成”等条件。因此,Transformer的输出的不是知识,我们应将其视为有价值的信息工具,而非知识的权威来源,并始终由人类认知主体承担最终的意义判定与责任。
关键词:Transformer;知识论;注意力机制;归纳法;大语言模型
引言
1、注意力机制的本质:结构化噪声引入
2、Transformer的归纳法本质及其哲学局限
3、Transformer输出知识吗?
—— 知识与信息的区分
结论
END
[1] Vaswani, A., et al. (2017). Attention is All You Need. Advances in Neural Information Processing Systems, 30.
[2] Zhai S, Likhomanenko T, Littwin E, et al. Stabilizing transformer training by preventing attention entropy collapse[C]//International Conference on Machine Learning. PMLR, 2023: 40770-40803.
[3] Teo R S Y, Nguyen T. Unveiling the hidden structure of self-attention via kernel principal component analysis[J]. Advances in Neural Information Processing Systems, 2024, 37: 101393-101427.
[4] Hume, D. (1748). An Enquiry Concerning Human Understanding. Oxford University Press.
[5] Popper, K. R. (1959). The Logic of Scientific Discovery. Hutchinson & Co.
[6] Gettier, E. L. (1963). Is Justified True Belief Knowledge? Analysis, 23(6), 121-123.
[7] Kant, I. (1781/1787). Critique of Pure Reason(N. Kemp Smith, Trans.). Palgrave Macmillan.
[8] Gadamer, H.-G. (1960). Truth and Method(J. Weinsheimer & D. G. Marshall, Trans., 2nd rev. ed.). Continuum.
[9] Putnam, H. (1975). The meaning of ‘meaning’. In Mind, Language and Reality: Philosophical Papers, Vol. 2. Cambridge University Press.

