摘要:本文从哲学与技术的交叉视角,阐述了有关Transformer的几个关键事实,系统批判了以Transformer架构为核心的大语言模型的根本局限性。文章指出,Transformer在本质上是一个“经验囚徒”,其能力严格受限于训练数据所定义的“过去”与“已知”范畴。批判从三个核心维度展开:首先,在认识论层面,其基于最大似然估计的学习范式是极端经验主义的体现,无法触及先验理性与逻辑必然性,深陷于“归纳法难题”;其次,在存在论层面,其词嵌入与注意力机制操作于封闭的符号系统,缺乏指向真实世界的“意向性”,且分词过程导致概念的整体性被割裂;最后,在心灵哲学层面,其作为确定性函数逼近器的本质,使其成为“中文房间”思想实验的超级版本,缺乏信念、意图与真正的理解。本文结论认为,Transformer是一项卓越的工程技术,但其架构本身无法通向通用人工智能,未来突破有赖于超越纯粹经验主义的新范式。
关键词:Transformer,大语言模型,经验主义,归纳法,意向性
作者:楚庆,孙冲
引言
1、认识论的囚徒:
极端经验主义的技术实现
2、存在论与符号的迷失:
词嵌入与注意力机制下的无“世界”性
3、心灵哲学的悖论:
作为确定性函数逼近器的无“心”装置
总结与展望
END
[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
[2] Hume, D. (1739). A Treatise of Human Nature.(大卫·休谟,《人性论》)
[3] 归纳法难题由休谟系统提出,指出从特殊经验无法必然推导出普遍规律。
[4] Husserl, E. (1900). Logical Investigations.(埃德蒙德·胡塞尔,《逻辑研究》)
[5] Searle, J. R. (1980). Minds, brains, and programs. Behavioral and Brain Sciences.(约翰·塞尔,“心灵、大脑与程序”)
[6] Heidegger, M. (1927). Being and Time.(马丁·海德格尔,《存在与时间》)
[7] Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018.
[8] Radford A, Kim J W, Xu T, et al. Robust speech recognition via large-scale weak supervision[C]//International conference on machine learning. PMLR, 2023: 28492-28518.
[9] Dosovitskiy A. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.
[10] Arnab A, Dehghani M, Heigold G, et al. Vivit: A video vision transformer[C] //Proceedings of the IEEE/CVF international conference on computer vision. 2021: 6836-6846.
[11] Li J, Li D, Savarese S, et al. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models[C]//International conference on machine learning. PMLR, 2023: 19730-19742.

