大数跨境

字节论文破局长链推理,把思维解构为“化学键”,终结大模型强化学习的“失控梦游”

字节论文破局长链推理,把思维解构为“化学键”,终结大模型强化学习的“失控梦游” AI驱动数字化转型
2026-03-02
1
导读:长久以来,大模型的长链推理始终是个黑盒,更像是一场失控的梦游。它时常陷入线性思考的死胡同,无法像人类一样,在复杂的逻辑节点间来回跳跃、验证、修正。
长久以来,大模型的长链推理始终是个黑盒,更像是一场失控的梦游。
它时常陷入线性思考的死胡同,无法像人类一样,在复杂的逻辑节点间来回跳跃、验证、修正。
传统的思维链(CoT)方法,试图将AI的思考过程强行拉成一条直线,这本身就违背了真实智力活动的拓扑结构。

01
当思维有了化学式
字节跳动Seed团队的一篇论文《The Molecular Structure of Thought》,为这个混沌的黑盒引入了秩序。它不再将思考视为一根线,而是将其解构为一张由不同“化学键”连接的分子网络。
这个网络由三种基础作用力维系。
第一种,是深度推理,如同牢不可破的共价键。
它代表了“因为A,所以B,因为B,所以C”这种刚性的、不可逆的逻辑推进。这是思维链条向前延伸的核心动力。
量化分析极为直观。将模型每一步的思考在语义空间中标记为一个点,这些点会构成一个“思维散点云”。加入深度推理的约束后,这个散点云的范围直接收缩了22%。
这说明“共价键”起到了强力的收束作用,迫使模型的注意力聚焦于核心逻辑,剪除了旁逸斜出的杂念。
第二种,是自我反思,如同稳定而有弹性的氢键。
它允许模型在推理中途突然“刹车”,并自问“刚才那一步推得对吗?”“前面的假设需要重新审视吗?”。
这种机制让思维链条能够折叠,后续的节点可以回头与早期的节点建立连接,形成闭环。
数据显示,81.72%的自我反思步骤,会精准地跳回到之前已经验证过的、可靠的思路区域内。
在引入反思机制后,思维散点云在语义空间中的体积,从35.2被压缩到了31.2。同一类别的正确思路会紧紧抱团,而错误的、离散的逻辑分支则被排斥在外。
氢键的作用,是让逻辑结构更紧凑,并持续过滤掉推理过程中的“杂质”。
第三种,是自我探索,如同微弱但无处不在的范德华力。
它代表了“或许可以试试这个角度?”“是否存在另一种可能性?”这类开放性的探寻。
这种行为会暂时牺牲逻辑的稳定性,让思维的覆盖范围从23.95扩大到29.22。
虽然这会增加跑偏的风险,但它赋予了模型跳出局部最优解、寻找全新路径的可能。没有范德华力,创新无从谈起。
惊人的是,研究发现,无论是DeepSeek-R1还是gpt-OSS,这些顶级推理模型在解决复杂问题时,其思维活动中这三种“化学键”的比例与转换规律,都表现出超过0.9的高度相关性。
这揭示了一个深刻的事实:有效的长链推理,背后存在一个通用的、稳定的拓扑结构。
02
从物理学请来的外援:注意力能量与熵减
如果说化学键还只是一个精妙的比喻,那么接下来的发现,则将这个比喻牢牢钉死在了数学现实上。
在Transformer架构中,注意力权重的计算公式如下:
其核心的 softmax 函数,与统计物理学中的玻尔兹曼分布,在形式上完全等价: 
将负注意力分数视为一种“能量”(E),那么注意力权重,就是模型在众多可能的推理路径中,根据“能量”高低进行选择的概率。
能量越低的路径,被选中的概率越高。
模型的注意力机制,天然地在进行一场“能量最小化”的寻路游戏。
当论文团队进一步分析三种思维行为对应的“注意力能量”时,一幅清晰的能级图谱浮现了。
深度推理,通常发生在相邻的思维节点之间,能量最低。
自我反思,需要从中途跳回较远的某个历史节点,能量中等。
自我探索,则要跨越更长的距离去寻找全新的语义区域,能量最高。
这就完美解释了为何强推理模型的三种键比例如此稳定。因为模型底层的注意力机制,总是在自发地沿着能量最低的路径前进,偶尔才会“消耗”更多能量进行反思或探索。
这一发现,引出了一个更底层的概念:语义同分异构体。
在化学中,同样的原子,以不同的方式连接,会形成性质迥异的分子。在AI推理中,同样的知识点,用不同的“化学键”组合去串联,也能得出同样正确的答案。
但并非所有“异构体”都对模型有益。
一个有效的推理过程,本质上是在巨大的语义空间里,不断降低不确定性的过程。它从无数种可能性开始,最终收敛到唯一的正确答案。
这个过程,在物理学上被称为“熵减”。
而模型的“注意力能量”机制,正是实现熵减的工具。当深度推理(低能量)被高频选择,反思(中等能量)负责折叠纠错,探索(高能量)偶尔跳出探路,整个推理系统的“熵”就会快速下降。
只有那些能够引导模型实现高效熵减的“思维分子结构”,才是模型真正能够学习并掌握的稳定形态。
实验数据印证了这一点。将DeepSeek-R1和gpt-OSS两个不同模型产生的、内容相似度高达95%的推理轨迹混合在一起训练,模型性能反而崩溃了。
这说明,对模型而言,学到“什么”不重要,学到“如何思考”的稳定结构,才是关键。思路的结构必须统一,模型才能有效吸收。
03
合成思维:MoLE-Syn的工程美学
洞察问题的本质,是为了更高效地解决问题。基于上述发现,团队提出了一种名为MoLE-Syn的方法,用于从零开始,低成本地“合成”稳定的推理结构。
它的操作干净利落,只有两步。
第一步,角色转换。不再把强推理模型当成一个答案生成器,而是将其视为一个“思维结构样本”。从它大量的推理链中,提取一张“行为转移概率图”。
这张图,就是那套稳定的“分子结构”的蓝图。它精确描绘了从一种“化学键”跳转到另一种的概率。
第二步,按图索骥。将这张概率图作为“教练”,指导一个普通的基础模型(如Llama或Qwen),让它按照图上定义的概率去生成自己的推理链。
模型不再是盲目模仿强者的答案,而是在学习其思考的“节律”和“章法”。
用这种方式合成的训练数据,其效果几乎能逼近直接用R1的推理结果进行蒸馏的水平。
它的巨大优势在于成本。一旦获得了那张“行为转移概率图”,一个普通模型就能在没有强者监督的情况下,源源不断地自我生产出结构合理的长链推理数据。
这套方法的工程价值,在后续的强化学习(RL)中得到了进一步验证。
用MoLE-Syn初始化的模型,在进行RL训练时,其收益能够持续、稳定地增长,过程中的震荡幅度也远小于直接用蒸馏数据初始化的模型。
这说明,在训练之初就植入一个稳固的“思维骨架”,能有效避免模型在后续的强化学习中出现逻辑跑偏或结构崩溃。
这项由字节Seed算法专家黄文灏领导,哈尔滨工业大学博士生陈麒光作为第一作者的研究,为AI推理领域提供了一种全新的工程范式。
它不再满足于通过堆砌数据和算力来暴力提升性能,而是深入到模型思考过程的内部,去解构其动态,理解其原理,并最终设计出一套可复制、可迁移的“思维语法”。
这标志着一个新时代的开端:不再是单纯地训练一个黑盒,而是在设计一种可遗传、可进化的思维结构。
这才是大型AI工程该有的样子。

【声明】内容源于网络
0
0
AI驱动数字化转型
专注AI,促进智造行业数据衍生,服务智能制造企业的数字化、智能化,聚焦大模型私域部署、大模型微调、数据清洗、AI模型训练、私域知识库及agent技术延展等。行业智能,落地为先。
内容 907
粉丝 0
AI驱动数字化转型 专注AI,促进智造行业数据衍生,服务智能制造企业的数字化、智能化,聚焦大模型私域部署、大模型微调、数据清洗、AI模型训练、私域知识库及agent技术延展等。行业智能,落地为先。
总阅读1.8k
粉丝0
内容907