字节论文破局长链推理，把思维解构为“化学键”，终结大模型强化学习的“失控梦游”- 大数跨境

首页

字节论文破局长链推理，把思维解构为“化学键”，终结大模型强化学习的“失控梦游”

AI驱动数字化转型

2026-03-02

导读：长久以来，大模型的长链推理始终是个黑盒，更像是一场失控的梦游。它时常陷入线性思考的死胡同，无法像人类一样，在复杂的逻辑节点间来回跳跃、验证、修正。

长久以来，大模型的长链推理始终是个黑盒，更像是一场失控的梦游。

它时常陷入线性思考的死胡同，无法像人类一样，在复杂的逻辑节点间来回跳跃、验证、修正。

传统的思维链（CoT）方法，试图将AI的思考过程强行拉成一条直线，这本身就违背了真实智力活动的拓扑结构。

当思维有了化学式

字节跳动Seed团队的一篇论文《The Molecular Structure of Thought》，为这个混沌的黑盒引入了秩序。它不再将思考视为一根线，而是将其解构为一张由不同“化学键”连接的分子网络。

这个网络由三种基础作用力维系。

第一种，是深度推理，如同牢不可破的共价键。

它代表了“因为A，所以B，因为B，所以C”这种刚性的、不可逆的逻辑推进。这是思维链条向前延伸的核心动力。

量化分析极为直观。将模型每一步的思考在语义空间中标记为一个点，这些点会构成一个“思维散点云”。加入深度推理的约束后，这个散点云的范围直接收缩了22%。

这说明“共价键”起到了强力的收束作用，迫使模型的注意力聚焦于核心逻辑，剪除了旁逸斜出的杂念。

第二种，是自我反思，如同稳定而有弹性的氢键。

它允许模型在推理中途突然“刹车”，并自问“刚才那一步推得对吗？”“前面的假设需要重新审视吗？”。

这种机制让思维链条能够折叠，后续的节点可以回头与早期的节点建立连接，形成闭环。

数据显示，81.72%的自我反思步骤，会精准地跳回到之前已经验证过的、可靠的思路区域内。

在引入反思机制后，思维散点云在语义空间中的体积，从35.2被压缩到了31.2。同一类别的正确思路会紧紧抱团，而错误的、离散的逻辑分支则被排斥在外。

氢键的作用，是让逻辑结构更紧凑，并持续过滤掉推理过程中的“杂质”。

第三种，是自我探索，如同微弱但无处不在的范德华力。

它代表了“或许可以试试这个角度？”“是否存在另一种可能性？”这类开放性的探寻。

这种行为会暂时牺牲逻辑的稳定性，让思维的覆盖范围从23.95扩大到29.22。

虽然这会增加跑偏的风险，但它赋予了模型跳出局部最优解、寻找全新路径的可能。没有范德华力，创新无从谈起。

惊人的是，研究发现，无论是DeepSeek-R1还是gpt-OSS，这些顶级推理模型在解决复杂问题时，其思维活动中这三种“化学键”的比例与转换规律，都表现出超过0.9的高度相关性。

这揭示了一个深刻的事实：有效的长链推理，背后存在一个通用的、稳定的拓扑结构。

从物理学请来的外援：注意力能量与熵减

如果说化学键还只是一个精妙的比喻，那么接下来的发现，则将这个比喻牢牢钉死在了数学现实上。

在Transformer架构中，注意力权重的计算公式如下：

其核心的 softmax 函数，与统计物理学中的玻尔兹曼分布，在形式上完全等价：

将负注意力分数视为一种“能量”（E），那么注意力权重，就是模型在众多可能的推理路径中，根据“能量”高低进行选择的概率。

能量越低的路径，被选中的概率越高。

模型的注意力机制，天然地在进行一场“能量最小化”的寻路游戏。

当论文团队进一步分析三种思维行为对应的“注意力能量”时，一幅清晰的能级图谱浮现了。

深度推理，通常发生在相邻的思维节点之间，能量最低。

自我反思，需要从中途跳回较远的某个历史节点，能量中等。

自我探索，则要跨越更长的距离去寻找全新的语义区域，能量最高。

这就完美解释了为何强推理模型的三种键比例如此稳定。因为模型底层的注意力机制，总是在自发地沿着能量最低的路径前进，偶尔才会“消耗”更多能量进行反思或探索。

这一发现，引出了一个更底层的概念：语义同分异构体。

在化学中，同样的原子，以不同的方式连接，会形成性质迥异的分子。在AI推理中，同样的知识点，用不同的“化学键”组合去串联，也能得出同样正确的答案。

但并非所有“异构体”都对模型有益。

一个有效的推理过程，本质上是在巨大的语义空间里，不断降低不确定性的过程。它从无数种可能性开始，最终收敛到唯一的正确答案。

这个过程，在物理学上被称为“熵减”。

而模型的“注意力能量”机制，正是实现熵减的工具。当深度推理（低能量）被高频选择，反思（中等能量）负责折叠纠错，探索（高能量）偶尔跳出探路，整个推理系统的“熵”就会快速下降。

只有那些能够引导模型实现高效熵减的“思维分子结构”，才是模型真正能够学习并掌握的稳定形态。

实验数据印证了这一点。将DeepSeek-R1和gpt-OSS两个不同模型产生的、内容相似度高达95%的推理轨迹混合在一起训练，模型性能反而崩溃了。

这说明，对模型而言，学到“什么”不重要，学到“如何思考”的稳定结构，才是关键。思路的结构必须统一，模型才能有效吸收。

合成思维：MoLE-Syn的工程美学

洞察问题的本质，是为了更高效地解决问题。基于上述发现，团队提出了一种名为MoLE-Syn的方法，用于从零开始，低成本地“合成”稳定的推理结构。

它的操作干净利落，只有两步。

第一步，角色转换。不再把强推理模型当成一个答案生成器，而是将其视为一个“思维结构样本”。从它大量的推理链中，提取一张“行为转移概率图”。
这张图，就是那套稳定的“分子结构”的蓝图。它精确描绘了从一种“化学键”跳转到另一种的概率。

第二步，按图索骥。将这张概率图作为“教练”，指导一个普通的基础模型（如Llama或Qwen），让它按照图上定义的概率去生成自己的推理链。

模型不再是盲目模仿强者的答案，而是在学习其思考的“节律”和“章法”。

用这种方式合成的训练数据，其效果几乎能逼近直接用R1的推理结果进行蒸馏的水平。

它的巨大优势在于成本。一旦获得了那张“行为转移概率图”，一个普通模型就能在没有强者监督的情况下，源源不断地自我生产出结构合理的长链推理数据。

这套方法的工程价值，在后续的强化学习（RL）中得到了进一步验证。

用MoLE-Syn初始化的模型，在进行RL训练时，其收益能够持续、稳定地增长，过程中的震荡幅度也远小于直接用蒸馏数据初始化的模型。

这说明，在训练之初就植入一个稳固的“思维骨架”，能有效避免模型在后续的强化学习中出现逻辑跑偏或结构崩溃。

这项由字节Seed算法专家黄文灏领导，哈尔滨工业大学博士生陈麒光作为第一作者的研究，为AI推理领域提供了一种全新的工程范式。

它不再满足于通过堆砌数据和算力来暴力提升性能，而是深入到模型思考过程的内部，去解构其动态，理解其原理，并最终设计出一套可复制、可迁移的“思维语法”。

这标志着一个新时代的开端：不再是单纯地训练一个黑盒，而是在设计一种可遗传、可进化的思维结构。

这才是大型AI工程该有的样子。

【声明】内容源于网络

AI驱动数字化转型

专注AI，促进智造行业数据衍生，服务智能制造企业的数字化、智能化，聚焦大模型私域部署、大模型微调、数据清洗、AI模型训练、私域知识库及agent技术延展等。行业智能，落地为先。

内容 907

粉丝 0

AI驱动数字化转型专注AI，促进智造行业数据衍生，服务智能制造企业的数字化、智能化，聚焦大模型私域部署、大模型微调、数据清洗、AI模型训练、私域知识库及agent技术延展等。行业智能，落地为先。

总阅读1.8k

粉丝0

内容907