前言
当前大语言模型在推理任务中主要依赖自一致性(self-consistency)方法,通过生成多条推理路径并采用多数投票来提升准确率。然而这种方法存在两个核心问题:一是准确率提升的边际效应递减,二是计算开销随推理路径数量线性增长。例如,在AIME 2025数据集上使用Qwen3-8B模型时,将pass@1准确率从68%提升到82%需要额外生成511条推理路径,消耗1亿个额外token。
现有方法的根本局限在于对所有推理路径一视同仁,忽略了质量差异。当低质量路径在投票过程中占主导时,往往会导致性能下降。虽然已有工作尝试利用token分布统计来评估推理路径质量,但这些全局置信度度量方法存在两个问题:无法捕捉局部推理步骤的置信度波动,且需要完整生成所有路径后才能计算,无法实现早停优化。
摘要
DeepConf提出了一种结合并行思维和置信度感知过滤的测试时方法,基于局部置信度测量来识别和丢弃低置信度推理路径。该方法支持离线和在线两种模式:离线模式通过访问所有推理路径进行置信度加权投票;在线模式在生成过程中实时评估置信度并动态终止低质量路径。
核心贡献
01
提出多种局部置信度测量方法,包括组置信度、尾部置信度和最低10%组置信度
02
设计置信度加权多数投票和置信度过滤机制
03
实现在线早停算法,显著降低token生成成本
04
在多个推理基准上验证了方法的有效性
方法
置信度测量体系
Fig.1不同指标下,正确与错误推理轨迹的置信度分布
基础置信度定义
Token级置信度是整个方法的基础,定义为位置i处top-k个候选token的负平均对数概率。具体计算公式为:
其中j从1到k,这里
表示第j个最高概率token的概率值。高置信度对应分布更集中,模型预测更确定;低置信度则反映模型在该位置的不确定性。传统方法通常将所有token的置信度简单平均作为路径级置信度,即:
其中i从1到N,N为路径总token数
局部置信度测量方法
DeepConf的核心创新在于提出了多种局部置信度测量方法,用于捕捉推理过程中的关键信息:
离线方法设计
置信度加权多数投票
Fig.2 置信度度量方法及基于置信度的离线推理
传统多数投票中,每个候选答案a的投票权重为:
其中I为指示函数,DeepConf将其扩展为置信度加权形式:
其中
是路径t的置信度分数,可以选择前述任一种测量方法。这样高置信度路径的投票权重更大,低置信度路径对最终决策的影响相应减小。
置信度过滤机制
除了加权投票,DeepConf还提供了过滤机制,只保留置信度最高的
%路径参与投票。具体实现分为两种策略:
过滤算法首先对所有路径按照选定的置信度测量方法排序,然后选择top-η%的路径,最后在筛选后的路径集合上应用置信度加权投票。
在线方法设计
Fig.3 在线生成过程中的 DeepConf
离线预热阶段
在线方法的核心挑战是如何确定合适的早停阈值。DeepConf采用离线预热策略解决这个问题:首先为每个新问题生成
条完整推理路径(通常
= 16)。然后根据选定的置信度测量方法计算每条路径的置信度分数。最后设置停止阈值s为:
其中
表示所有预热路径,
是期望保留的路径比例。这个阈值确保在后续在线生成中,被早停的路径确实是那些在离线情况下也会被过滤掉的低质量路径。
自适应采样策略
DeepConf采用自适应采样来动态调整生成的路径数量。基本思想是根据当前问题的难度和已生成路径间的一致性来决定是否继续采样:首先计算当前的共识度:
,其中â是当前的多数答案,V(a)是答案a的加权投票数。如果β小于预设的共识阈值
(通常
=0.95),说明模型对当前问题尚未达成足够的共识,需要继续生成更多路径直到达到预算上限B。否则,可以提前停止并输出当前的多数答案。这种策略特别适用于实际部署场景,能够在保证质量的前提下显著降低平均计算成本。
在线早停实现
在线早停是DeepConf最重要的创新之一。具体实现采用最低组置信度作为停止信号。在生成过程中,维护一个大小为window_size的滑动窗口,实时计算当前组置信度
。每生成一个新token后,检查当前组置信度是否低于预设阈值s。如果是,立即停止该路径的生成;否则,继续生成下一个token。这种机制的优势在于能够及早识别推理崩溃点。当模型开始产生"等等"、"不过"、"让我重新思考"等表示不确定的token时,通常对应着置信度的急剧下降,此时终止生成可以避免后续的错误传播。
两种在线策略
DeepConf-low 使用
的过滤比例,对应90th percentile的停止阈值。这种策略更加激进,只保留最高质量的推理路径,能够带来较大的准确率提升,但在某些情况下可能由于过度过滤而性能下降。
DeepConf-high 使用
的过滤比例,对应10th percentile的停止阈值。这种策略相对保守,主要过滤明显的低质量路径,在保证稳定性的同时实现适度的效率提升。
实际应用中,可以根据对准确率和效率的不同权衡需求选择合适的策略。对于准确率要求极高的场景,推荐使用DeepConf-low;对于需要平衡准确率和稳定性的场景,DeepConf-high是更安全的选择。
实验设计
模型选择
实验选择了5个开源推理模型,涵盖三个主要模型家族:DeepSeek-8B、Qwen3-8B、Qwen3-32B、GPT-OSS-20B和GPT-OSS-120B。这些模型的选择有明确的考虑:首先,它们在数学推理和长链思维任务上表现突出;其次,完全开源保证了实验的可重现性;最后,参数规模从8B到120B的跨度能够验证方法在不同模型规模上的稳健性。
基准数据集
实验使用5个具有挑战性的数据集:AIME24/25代表美国数学竞赛的高难度问题,BRUMO25和HMMT25涵盖布朗大学数学奥林匹克和哈佛-麻省理工数学竞赛,GPQA包含研究生级别的STEM推理任务。这些数据集的共同特点是难度极高,且被广泛用于评估顶级推理模型的能力。所有基准都要求从自然语言问题描述中提取最终答案,通常以特定格式呈现,这对模型的推理链完整性和答案提取准确性都提出了很高要求。
离线实验分析
Tab 1: 离线环境下的置信度度量基准测试,报告准确率(%)
实验系统比较了三种主要的置信度测量方法:平均迹置信度、最低10%组置信度和尾部置信度。结果显示,局部置信度方法普遍优于全局平均方法。
Fig.4 使用最低组置信度筛选的离线准确率表现
实验发现过滤策略存在明显的权衡关系。激进过滤(保留10%)在大多数情况下带来最大的准确率提升。保守过滤(保留90%)虽然提升幅度较小,但表现更加稳定。
在线实验分析
Tab 2:在线设置下对 DeepConf 进行基准测试
在线实验的核心价值在于同时实现准确率提升和计算成本降低。结果显示,DeepConf-low在保持相当准确率的同时,相比标准并行思维减少了43-84%的token生成。这种效率提升在大规模部署中具有重要的经济价值。
Fig.5在线场景下基于最低组置信度筛选的准确率与生成 token 数关系
DeepSeek-8B在AIME24, AIME25, BRUMO25以及 HMMT25上的实验结果验证了设计思路:利用最不自信的片段来筛选推理轨迹,可以提供一种强有力的局部信号用于提前终止;同时,结合自适应共识停止机制,能够在不牺牲准确率的情况下进一步压缩生成的 token 数量。

