LLMs are Bayesian,In Expectation, Not in Realization
https://arxiv.org/pdf/2507.11768
6.5 结论
本研究始于一个表面上的矛盾:变换器违反了贝叶斯推理的基本性质,却实现了贝叶斯级别的性能。通过严谨的理论分析与受控实验,我们已证明,当从信息论的视角审视时,这一悖论便得以消解。变换器并非经典意义上的贝叶斯推理器;它们是通过不同机制实现统计最优性的架构系统。
“变换器在期望上是贝叶斯的,但在具体实现上并非如此”这一关键洞见,捕捉了现代深度学习的一个根本特征。架构约束以经典理论必须接纳而非忽视的方式塑造了统计行为。位置编码在表达能力与可交换性之间制造了固有的张力,从而产生可被理解、量化和缓解的可预测偏差。
我们的最优思维链框架展示了理论洞见如何转化为实际价值。通过理解推理背后的信息论基础,我们可以在保持性能的同时大幅降低计算成本。不完备性定理揭示了为何这种外部推理是必要的:有限的参数无法承载无限的计算复杂度。
随着语言模型在科学与商业应用中日益占据核心地位,对其性质的严谨理解变得至关重要。我们的工作为可靠部署提供了所需的理论基础与实用工具。我们所开发的排列平均、最优思维链选择与偏差缓解方法,可立即应用于当前系统,同时也为未来架构设计指明了原则方向。
更广泛的启示超越了变换器本身,触及智能的本质。最优推理需要在压缩知识与动态计算、内部容量与外部记忆、架构偏差与统计灵活性之间取得平衡。通过拥抱而非忽视这些权衡,我们可以构建不仅强大、而且可理解,不仅有效、而且高效,不仅令人印象深刻、而且可靠稳健的系统。未来的道路需要持续融合架构创新与理论严谨性——这正是本研究力求推进的综合方向。
摘要
大型语言模型展现出显著的上下文学习能力,能够在不更新参数的情况下适应新任务。尽管这一现象已被成功建模为隐式贝叶斯推理,但最近的实证发现揭示了一个根本性矛盾:变换器transformers系统性地违反了鞅性质,而这是在可交换数据上进行贝叶斯更新的一个基本要求。这种违反挑战了在关键应用中不确定性量化所依赖的理论基础。
1 引言
上下文学习(ICL)的出现代表了机器学习领域的一次范式转变。以 GPT-3 [2] 为代表的大型语言模型,仅需在推理时提供少量示例即可适应新任务,而无需任何基于梯度的参数更新。这一能力对少样本学习、任务适应以及神经网络中学习的本质具有深远影响。
1.1 贝叶斯框架及其成功
一种特别优雅的理论框架通过贝叶斯推理的角度解释 ICL。[17] 提出,变换器transformers隐式地对潜在概念变量执行后验更新,预训练分布编码了可能任务的先验。这一观点已被扩展,表明变换器可以实现最优统计过程 [1]、近似高斯过程 [9],并达到极小极大最优后悔界 [19]。
贝叶斯解释提供了概念清晰性和实际益处。它建议了不确定性量化的原则方法,解释了少样本学习的样本效率,并将 ICL 连接到元学习和统计估计理论的丰富文献中。该框架的预测成功使其成为我们理解变换器能力的理论基石。
1.2 鞅违反挑战
然而,这一理论大厦最近被 [3] 挑战,他们通过实证表明基于变换器的语言模型系统性地违反了鞅性质。对于观察顺序不携带信息的可交换数据,贝叶斯后验预测分布必须满足:
1.3 我们的贡献:信息论解决方案
我们提出,这一表观矛盾可以通过采用算法信息论视角来解决。我们的关键洞察是,广泛存在于变换器架构中的位置编码,从根本上改变了学习问题的信息论结构。虽然经典贝叶斯推理假设数据是可交换的,但位置编码通过使模型计算依赖于输入顺序,明确打破了这种对称性。
1.4 结果总结
我们的主要贡献包括:
1.5 论文结构
第2节回顾了与上下文学习、贝叶斯解释以及鞅批判相关的背景知识。
第3节呈现我们的主要理论结果,包括对鞅违反现象的刻画以及最小描述长度(MDL)最优性分析。
第4节推导出具有显式常数和有限样本保证的最优思维链长度。
第5节通过受控实验提供实证验证。
第6节讨论研究的意义与局限性。
详细证明见附录。
2 背景与相关工作
2.1 上下文学习:经验现象与机制理解
近期的机制性研究已识别出支撑上下文学习的关键架构组件。[10] 发现了“归纳头”(induction heads),即在训练过程中发生相变时出现的注意力模式,这些模式基于先前出现的标记进行复制。[15] 表明变换器的前向传播可以实现梯度下降,暗示上下文学习可能涉及隐式优化。[4] 展示了从零开始训练的变换器能够在上下文中执行线性回归、决策树及其他算法,其性能可匹配最优估计器。
2.2 贝叶斯解释:理论基础与扩展
由 [17] 提出的用于上下文学习的贝叶斯框架将预训练分布分解为:
该框架已在多个方向上得到扩展:
• [9] 提出了“先验-数据拟合网络”(Prior-Data Fitted Networks),可直接近似贝叶斯后验分布
• [19] 证明了上下文学习实现了具有最优后悔界(regret bounds)的贝叶斯模型平均
• [1] 表明变换器能够根据数据特征选择并执行合适的统计估计器
2.3 鞅性质及其违反
2.4 信息论与最优预测
最小描述长度(Minimum Description Length, MDL)原则 [7] 为学习提供了信息论基础。MDL 选择使以下表达式最小化的模型:
2.5 思维链提示与计算成本
2.6 位置编码:架构必要性与统计后果
位置编码使变换器能够处理序列数据,因为注意力机制本身是排列不变的。常见的方案包括:
3 理论分析
我们现在呈现主要的理论结果,阐明位置编码如何在架构表达能力与统计可交换性之间制造一种内在张力。
3.1 问题形式化
4 最优思维链长度
基于我们从定理 3.4 和 3.7 得出的信息论框架,我们现在展示如何选择中间推理标记的数量 ,以在考虑计算成本的前提下最小化总描述长度。我们推导出一个具有显式常数和有限样本保证的闭式缩放规律:
4.1 经济动因
思维链提示(Chain-of-Thought prompting)已成为生产级大语言模型(LLM)系统中的标准实践,但其带来了显著的成本。每个额外的推理标记都会增加:
例如,OpenAI 的 GPT-4 API 对每 1000 个输入标记收费 0.03 美元。一个复杂的推理任务可能使用 100 到 1000 个思维链标记,从而每次查询增加 0.003 至 0.03 美元的成本。在企业级规模(每日数百万次查询)下,非最优的链长每年可能导致数百万美元的浪费。我们的理论框架为这一优化问题提供了首个有原则的解决方案。
5 实证验证
我们通过在 OpenAI 的 GPT-3(text-davinci-002)上进行受控实验,验证了我们的理论预测,利用其 API 访问标记对数概率。我们的实验设计重点测试三个核心理论预测:鞅违反的缩放规律、通过排列平均实现的方差降低,以及位置编码偏差的结构。第 4 节推导出的最优思维链边界实证验证将推迟到后续工作,因为它需要大量计算资源和多个模型规模的访问权限。
5.1 实验设置
该结果具有直接的实际意义。使用 次排列,实践者可在仅增加 20 次前向传播成本的情况下实现预测方差降低 4 倍——这对于需要校准不确定性估计的应用来说是一个有利的权衡。方差降低在 时趋于饱和,表明在此之后收益递减。重要的是,这种方差降低无需任何架构修改或重新训练,可立即应用于现有部署模型。
5.2.3 位置编码分析
我们对位置特异性偏差的分析(如图 3 所示)揭示了旋转嵌入引入的精细结构。原始鞅间隙表现出明显的 64 位置周期性,对应于 RoPE 正弦基的基本频率。傅里叶分析识别出在 64、32 和 21.3 个位置周期处存在显著谐波,解释了超过 60% 的位置特异性方差。
去偏过程成功缓解了这些伪影,总体方差降低了 14.1%,并使位置与预测偏差之间的相关性从
。这表明我们的理论框架正确地将根本性缩放行为与实现特定的伪影分离开来。去偏后的残余方差代表了架构中固有的不可约位置不确定性。
5.3 压缩效率
为了验证我们的 MDL 最优性主张,我们将变换器预测与伯努利序列的理论熵极限进行了比较。GPT-3 仅用 20 个示例就达到了最优压缩效率的 99%,以经验交叉熵与真实熵 的比值衡量。这种快速收敛显著优于经典估计器:拉普拉斯平滑需要超过 100 个示例才能达到相似效率,而最大似然估计在小样本下表现出高方差。
这种优异的小样本性能与我们的理论分析一致,表明变换器通过其注意力机制实现了近似贝叶斯推理。学习到的伪计数有效地实现了一个先验,加速了向最优压缩速率的收敛。这一发现强化了我们的主要论点:当被正确认识时,破坏可交换性的架构偏差反而可以增强而非阻碍统计效率。
6 讨论与结论
6.1 理论意义
我们的工作从根本上重构了现代语言模型中架构设计与统计最优性之间的关系。当通过信息论的视角审视时,变换器表面上违反贝叶斯推理基本要求、同时却实现贝叶斯级别性能的悖论便得以消解。这一解决方式对我们理解和部署这些系统具有深远影响。
6.2 实际贡献
除了理论洞见之外,我们的分析还为实践者提供了可立即应用的方法。
排列平均技术提供了一种用于不确定性量化的原则性方法,无需任何架构修改或重新训练。通过对 20–30 个随机排列的预测结果进行平均,实践者可将预测方差降低 70–80%,同时获得经过校准的置信区间。该方法在高风险应用场景中尤为宝贵,因为在这些场景中,不确定性估计直接指导决策制定。
我们提出的最优思维链长度公式解决了现代人工智能部署中的一个关键经济挑战。随着各机构扩大语言模型的使用规模,推理成本正成为主导性支出。当前实践中常使用无限制长度的思维链(如“让我们一步步思考……”),导致生成数百甚至数千个标记。我们的公式表明,通常更短的思维链即可实现相同性能:对于常见任务,10–50 个标记即可获得 90% 的性能收益,而仅需 10% 的成本。对于每日处理数百万次查询的机构而言,这一优化每年可节省数百万美元。
我们为处理位置编码伪影而开发的去偏技术具有更广泛的应用价值。随着新型位置编码方案(如 ALiBi、RoPE、CoPE)不断涌现,我们的框架提供了一种系统化的方法,用于识别并缓解它们引入的偏差。关键洞见在于:通过谱分析与模型比较,将基础缩放行为与实现特定伪影分离开来。
6.3 局限性与未来方向
尽管我们的分析为理解变换器在可交换序列上的行为提供了严谨基础,但仍存在若干重要未解问题。
我们的实验聚焦于二值序列,以保持理论可处理性,但自然语言展现出复杂的依赖结构,可能对 缩放规律产生调制作用。初步实验表明,语言结构会引入额外因子,但全面分析需要开发新的理论工具,以处理具有潜在层次结构的非可交换数据。
模型规模与统计性质之间的关系值得系统性研究。更大的模型可能通过更强的复杂交互建模能力,更好地逼近可交换行为;也可能因其能够记忆更精细的模式,而表现出更强的位置偏差。理解这些缩放规律对于预测未来更强大系统的性能至关重要。
我们的最优思维链公式假设推理过程为单一推理轨迹,但近期研究已探索树状结构或迭代式推理。将我们的信息论框架扩展至这些更复杂的推理模式,有望带来进一步的效率提升。内部压缩与外部计算之间的根本权衡可能具有普适性,但具体的缩放规律可能有所不同。
从架构设计角度看,我们的工作提示:未来的位置编码方案应明确权衡表达能力与统计性质。我们能否设计出在不牺牲序列建模能力的前提下、实现更小鞅间隙的编码方式?这一优化问题处于架构设计与统计理论的交汇点,需要发展新的数学工具,以弥合离散优化与连续分析之间的鸿沟。
6.4 更广泛的影响
语言模型正被部署于医疗诊断、金融建模和法律分析等关键应用领域,这要求我们对其统计特性有更深入的理解。我们的工作为此提供了理论基础与实用工具。通过阐明变换器在何时、以何种方式偏离理想的贝叶斯行为,我们能够帮助决策者更明智地选择模型部署方案并进行不确定性量化。
我们的思维链优化方法所产生的经济影响,远不止于直接的成本节约。计算需求的降低意味着更低的能耗与碳排放。随着人工智能系统在全球计算资源中所占比例持续增长,此类优化不仅具有经济价值,更成为环境可持续性的必要举措。通过有原则地选择思维链长度,实现推理计算量 90% 的削减,可显著降低人工智能部署的碳足迹。
我们的信息论框架也为关于人工智能能力与局限性的更广泛讨论提供了启示。不完备性定理表明,即使规模任意大的变换器也面临根本性的计算限制,这些限制只能通过显式推理来克服。这提示我们,仅靠扩大模型规模无法实现通用人工智能;仍需架构上的创新,以更好地融合参数化知识与动态计算能力。
6.5 结论
本研究始于一个表面上的矛盾:变换器违反了贝叶斯推理的基本性质,却实现了贝叶斯级别的性能。通过严谨的理论分析与受控实验,我们已证明,当从信息论的视角审视时,这一悖论便得以消解。变换器并非经典意义上的贝叶斯推理器;它们是通过不同机制实现统计最优性的架构系统。
“变换器在期望上是贝叶斯的,但在具体实现上并非如此”这一关键洞见,捕捉了现代深度学习的一个根本特征。架构约束以经典理论必须接纳而非忽视的方式塑造了统计行为。位置编码在表达能力与可交换性之间制造了固有的张力,从而产生可被理解、量化和缓解的可预测偏差。
我们的最优思维链框架展示了理论洞见如何转化为实际价值。通过理解推理背后的信息论基础,我们可以在保持性能的同时大幅降低计算成本。不完备性定理揭示了为何这种外部推理是必要的:有限的参数无法承载无限的计算复杂度。
随着语言模型在科学与商业应用中日益占据核心地位,对其性质的严谨理解变得至关重要。我们的工作为可靠部署提供了所需的理论基础与实用工具。我们所开发的排列平均、最优思维链选择与偏差缓解方法,可立即应用于当前系统,同时也为未来架构设计指明了原则方向。
更广泛的启示超越了变换器本身,触及智能的本质。最优推理需要在压缩知识与动态计算、内部容量与外部记忆、架构偏差与统计灵活性之间取得平衡。通过拥抱而非忽视这些权衡,我们可以构建不仅强大、而且可理解,不仅有效、而且高效,不仅令人印象深刻、而且可靠稳健的系统。未来的道路需要持续融合架构创新与理论严谨性——这正是本研究力求推进的综合方向。
声明:此公号(ID:Fintech_Education)发布内容和图片的目的在于传播更多信息,版权归原作者所有,不为商业用途,如有侵犯,敬请作者与我们联系。

