大数跨境

当强化学习遇上推理评估:警惕数据波动下的 "虚假提升"

当强化学习遇上推理评估:警惕数据波动下的 "虚假提升" 元龙数字智能科技
2025-04-14
1

当强化学习

遇上推理评估

警惕数据波动下的 "虚假提升"


在语言模型推理能力的探索热潮中,强化学习(RL)曾被视作提升模型性能的关键技术,然而近期图宾根大学与剑桥大学的联合研究却为这一领域敲响了警钟。这项题为《A Sober Look at Progress in Language Model Reasoning》的研究指出,强化学习在推理模型中带来的许多“改进”可能只是评估过程中的噪音,而非真实的能力提升。这一结论颠覆了此前DeepSeek等机构关于RL显著提升推理性能的论断,揭示出当前评估体系存在的深层问题。

在数学推理基准测试中,评估结果的不稳定性令人震惊。以AIME24为例,仅仅改变随机种子就会导致模型Pass@1得分出现5到15个百分点的波动。这种现象在小规模数据集上尤为明显——30道题的AIME24中,单个问题的解答差异就能使准确率变动2.5到3.3个百分点。硬件环境的异构性同样是重要干扰因素:同一模型在不同GPU集群上的性能差异可达8%,vLLM等推理引擎对硬件优化的敏感性,以及PyTorch、CUDA底层实现的非确定性,共同导致评估结果失真。即使用多个种子取平均,硬件差异对基准精度的影响仍不可忽视。

评估框架与解码参数的选择也在悄然扭曲结论。lighteval与evalchemy两种框架的对比显示,1到2个百分点的性能差异可能改变模型排名;减少max_new_tokens会导致长文本问题解答过早终止,使准确率下降;而省略数学专用提示模板,会让经过指令调优的模型性能显著下滑。这些细节表明,当前评估过程中存在大量未被控制的变量,使得不同研究结果难以复现。

当研究者在标准化环境下重新审视强化学习的效果时,发现其优势被严重高估。大多数通过RL训练的DeepSeek R1-Distill模型变体,在严格控制变量后并未表现出显著性能提升,仅有DeepscaleR是例外。与之形成对比的是,监督微调(SFT)在多个基准测试中展现出更强的稳健性:其性能提升不仅幅度更大,且在异域数据集上的泛化能力远胜RL模型。例如在AMC23测试中,SFT模型的泛化误差比RL模型低10个百分点,显示出对新场景更强的适应能力。

深入分析模型生成行为,研究者发现了两个关键现象:错误响应往往比正确响应更长,且RL模型的这一趋势更为明显。在超过10000个token的长响应中,错误率急剧上升,即使排除上下文截断的影响,较长的文本仍与更高的错误概率相关。这可能反映出模型在生成冗长内容时,更容易偏离逻辑主线,陷入无效推理。另一个重要发现是,此前担忧的“多样性坍缩”并未发生——RL模型在提升Pass@1的同时,Pass@5和Pass@10指标同步改善,说明其仍保持着生成多样化推理路径的能力,这一结论修正了对RL技术的传统认知。

监督微调在这场对比中展现出显著优势。通过模仿人类专家的推理轨迹,SFT模型在MATH500、Minerva等基准测试中的准确率比RL模型高出8到12个百分点。其核心优势在于训练范式的稳健性:无需复杂的奖励函数设计,仅通过高质量标注数据即可提升推理能力,且训练成本仅为RL的五分之一。更重要的是,SFT模型的推理过程更接近人类思维,便于开发者诊断错误,这在工业落地中具有不可忽视的实用价值。

研究同时揭示了当前RL方法的深层缺陷:过度依赖特定训练数据导致过拟合。当模型面对未见过的基准测试时,RL训练的模型性能衰减明显,而SFT模型的表现更为稳定。这种差异促使研究者重新审视强化学习的应用场景——或许在小型蒸馏模型中RL仍有一定价值,但必须建立在严格控制评估变量、避免噪音干扰的前提下。

针对评估体系的混乱,研究者提出了系统性改进方案。首先需要建立标准化的评估流程,统一硬件配置、解码参数和框架工具(如推广LightEval),减少外部变量干扰;其次应采用多维度评估指标,结合准确率、响应长度、多样性等参数综合判断模型能力;此外,加强异域数据集测试,确保模型性能的泛化性。这些建议不仅适用于推理模型,更是整个大模型研究领域提升可信度的必经之路。

行业层面,这一研究引发了对技术路线的深刻反思。学术界需要摒弃“唯指标论”,避免被评估噪音误导研究方向;工业界在落地推理模型时,应优先考虑SFT等更可靠的训练范式,而非盲目追逐RL的“性能神话”。AI研究者Sebastian Raschka指出,这一问题本质上暴露了LLM研究的共性缺陷——评估标准的缺失导致结论不可靠。正如中国信通院正在推动的大模型评估国际标准,建立科学、透明的评估体系,或许比单纯追求技术创新更为迫切。

强化学习在推理模型中的“失效”,并非技术本身的失败,而是对其应用场景和评估方法的认知偏差所致。当喧嚣退去,我们需要以更清醒的态度审视技术进展:监督微调的崛起证明,扎实的基础训练与严谨的评估体系,才是推动AI推理能力进步的基石。未来的研究应在方法论创新与可靠性验证之间找到平衡,让每一次性能提升都经得起重复检验,这或许才是人工智能走向成熟的标志。

END

【声明】内容源于网络
0
0
元龙数字智能科技
永做第一 使命第一 向善第一
内容 901
粉丝 0
元龙数字智能科技 永做第一 使命第一 向善第一
总阅读730
粉丝0
内容901