
大型语言模型 (LLM)使我们(学生、在职专业人士等)在处理高中和大学水平的数学问题等复杂任务时更加轻松。这一令人印象深刻的表现让许多人相信,根据 GSM8K 等基准测试,LLM 也掌握了更简单的小学数学。然而,当我们深入研究它们的能力时,就会发现一个不同的故事,尤其是当我们关注较小、更具成本效益的模型时。虽然看似功能强大,但较小的 LLM 在测试需要多步推理的更复杂问题时显示出令人惊讶的弱点。

该研究评估了 LLM 解决相互依存的数学问题的能力,其中一个问题的解决会直接影响下一个问题。这种评估超越了标准的单题测试,揭示了 LLM 的局限性,尤其是较小的 LLM。结果显示,当这些模型被要求解决成对问题时,与独立解决单个问题相比,它们的性能存在显著差距。令人惊讶的是,这种差距在较小的专业模型中更为明显,这些模型通常以效率和速度而受到称赞。虽然它们在简单任务中表现良好,但它们处理多步骤或组合推理问题的能力有限,这使得它们在实际应用中不太可靠。
概述
概述
为什么规模较小的 LLM 课程难以进行复杂推理?
著名开放权重大语言模型和闭源大语言模型的推理差距
小学数学 (GSM) 和语言模型推理方面的差距
为什么 LLM 很难掌握组合式 GSM?
对未来研究的启示
结论
常见问题
这项研究解释了为什么规模较小的 LLM 尽管在基本任务上高效且成功,却在复杂推理方面却举步维艰。一个主要原因是这些模型会因额外的背景而分心。它们还难以进行“第二跳推理”,即使用第一个问题的解决方案来指导第二个问题。这种弱点不是由测试集泄漏等常见问题造成的,在测试集泄漏中,模型在训练期间会遇到测试问题。相反,它源于它们无法保持专注并以逻辑方式连接问题的不同部分。
指令调优是一种常见的提高性能的策略,即对模型进行微调以遵循人类指令。然而,其有效性因模型大小而异。较小的模型表现出不一致的改进,表明它们的训练方法可能需要调整。当对小学数学问题进行微调时,较小的模型通常会过度拟合,变得过于专注于训练数据,而无法推广到新问题。
总之,虽然较小的 LLM 可以以较低的成本提供良好的性能,但它们在处理复杂、多步骤推理任务时的脆弱性限制了它们的实际应用,特别是在需要在各种问题上保持一致、可靠性能的场景中。
组合式 GSM 测试的示例问题
Q1:世界上还剩下 27 只独角兽。其中三分之一位于苏格兰高地。三分之二的苏格兰独角兽是雌性。苏格兰雌性独角兽有多少只?解出答案,并使用 X 的值来解决 Q2。逐步解释您的答案。
Q2:Zack 的储物柜只有 Timothy 的储物柜的一半大。Peter 的储物柜只有 Zack 的储物柜的 1/4 大。如果 Peter 的储物柜是 X 立方英寸,那么 Timothy 的储物柜是多少立方英寸?
问题 1 (Q1) 的答案是问题 2 (Q2) 中的变量 X。模型必须能够正确解决第一个问题才能解决第二个问题。Q2 的新最终答案是通过修改其代码形式的解决方案并执行它来计算的。
GSM8K 准确率:这表示模型在 GSM8K 数据集上的表现,该数据集是由单个问题组成的标准推理基准。此轴上的分数是模型在问题各个组成部分 𝑆1 和 𝑆2 上的准确率的几何平均值。
组合 GSM 准确度:这是一项更具挑战性的任务,其中 GSM8K 数据集中的两个问题被链接在一起。第一个问题 (Q1) 的答案成为第二个问题 (Q2) 中的变量。为了使模型能够正确解决组合 GSM 问题,它必须正确回答这两个问题。因此,组合准确度为 𝑆1 × 𝑆2。
主要观察
大多数模型都低于 𝑦 = 𝑥 2趋势线(虚线):如果模型的合成准确度是其 Q1 和 Q2 准确度的乘积,则此线显示预期性能。大多数低于该值的点表明推理存在差距——模型在合成任务上遇到的困难比其各自的 GSM8K 准确度预测的要大。
单项任务的表现优于组合任务:图表显示,模型在 GSM8K 上表现良好,但在组合问题上表现下降。即使 GSM8K 准确率接近 100%,组合 GSM 准确率仍然较低。
具有高组合精度的异常值:GPT-4o、Gemini 1.5 Pro 和 Qwen2.5-MATH-72B-IT 等模型在 GSM8K 和组合 GSM 中均表现出色,表明在链式问题中具有卓越的推理精度。
组合 GSM 准确度较低的模型:Mistral-7B-PT 和 Phi-2 等模型的 GSM8K 和组合 GSM 准确度之间的差距较大,这表明它们在更复杂、更链式的任务中的推理能力较弱。
该图突出了当前模型中一个关键的推理差距。尽管模型可以在单个推理问题(GSM8K)上实现高精度,但当这些问题以组合方式串联在一起时,其性能会显著下降。这表明,提高模型处理组合推理任务的能力是提高机器推理能力的关键挑战。
该图比较了语言模型(如理解和生成文本的 AI 模型)。其中一些模型是“开放的”,这意味着任何人都可以使用和研究它们,而另一些模型是“闭源的”,这意味着只有创建者才能访问它们。
该图主要关注的是“推理差距”。它衡量了每个模型与标准基线(参考点)相比执行推理任务(如解决问题或理解逻辑)的情况。
图表分析
该图表基本上展示了不同模型在推理方面的优点和缺点,在这种情况下,它们是否对所有人开放或保密并不重要。
Phi 3-mini-4k-IT 的负推理差距最大,这意味着它在推理任务中的表现与其他模型相比最差。它是一种更小、更经济的模型。
Gemma2-98-IT和LLAMA3-88B-IT也表现出明显的推理差距,在性能较弱方面排名略高于 Phi 模型。
Qwen2.5-MATH-72B-IT表现出色,推理差距更接近 0,表明其表现强劲,尤其是在数学专业任务中。
GPT-4o正如预期的那样,推理差距最小(接近 0),使其成为列出的模型中推理任务能力最强的模型。
总体趋势:规模较小、成本效率较高的模型,尤其是专门用于数学的模型(以浅绿色条表示),似乎存在较大的推理差距(性能较差)。GPT -4o等规模更大、功能更强大的模型往往会缩小这一差距,从而实现更好的推理结果。
图表显示,规模较小、数学专业化且成本高效的模型往往存在较大的推理差距,这表明它们可能无法很好地应用于更广泛的推理任务。相比之下,GPT-4o等大型模型以及LLAMA或 GPT 系列中的其他模型往往在推理任务中表现更佳,从而缩小了差距。
在研究背景下探索组合式小学数学 (GSM) 可以更深入地了解大型语言模型 (LLM) 在解决相互关联的推理问题时面临的挑战。组合式 GSM 中的每个问题都由两部分组成:问题 1 和问题 2。问题 1 的答案成为变量,称为 X,用于解决问题 2。这种独特的设计迫使模型在链式问题中保持一致性和准确性,从而增加了任务的复杂性,超越了传统的单一问题格式。研究人员通过大规模生成和手动审核流程进行验证,确保修改后的问题仍然合乎逻辑且实用。
本研究引入的一个核心概念是推理差距,它量化了模型在单个任务上的预期表现与其在组合任务上的表现之间的差异。推理差距的计算方法如下:
其中 S comp 表示模型在组合任务上的准确率,而 S 1 和 S 2 表示在各个组件(问题 1 和问题 2)上的准确率。显著的推理差距表明模型在将推理任务串联在一起时难以保持性能。
按模型系列进行分析
GPT(4o 和 4o mini):两个版本在原始 GSM8K 测试中的表现相似,准确率约为 90%。然而,低成本版本(4o mini)在 Compositional GSM 测试中表现出更明显的性能下降,准确率比高成本版本(4o)低 14.2%,这表明它在处理复杂的推理任务时会遇到更多困难。
Gemini(1.5 Pro 和 1.5 Flash):两款 Gemini 型号的原始 GSM8K 准确度均略低(约 80%),但低成本型号(1.5 Flash)的性能下降幅度更大(-11.3%),而高成本版本(1.5 Pro,-5.8%)则下降幅度更大。
LLAMA3(70B-IT 和 8B-IT):高成本模型(70B-IT)在两项测试中都保持了不错的准确率,差距只有 -4.9%。相比之下,低成本模型(8B-IT)的性能明显下降,尤其是在组合测试中,下降了 27.5%,这表明组合推理任务对于这种更实惠的变体来说尤其具有挑战性。
Gemma2(27B-IT 和 9B-IT):Gemma2 模型表现出最显著的推理差距。低成本版本(9B-IT)的准确率大幅下降 37.3%,而高成本版本(27B-IT)的准确率也显著下降(18%)。
较便宜的模型(低成本)在更简单的原始 GSM8K 测试中的表现通常与高成本模型相似。然而,它们在组合式 GSM 测试中表现更差。较便宜的模型的推理差距更大。这表明成本高效的 LLM 可以很好地处理较简单的任务,但处理更复杂的组合式推理任务的能力较弱。
实验结果和见解
实验使用各种模型进行,例如 GPT-4o、LLAMA、Gemini 和 Mistral,以评估它们解决三个测试集的能力:原始 GSM8K、修改后的 GSM8K(替换 X)和组合 GSM。使用 Zhang 等人(2024 年)概述的 8 次提示策略测试模型,对原始和修改后的 GSM8K 测试集应用相同的方法。为组合 GSM 测试集开发了类似的提示,以保持整个实验的一致性。该研究评估了各种模型,包括 GPT-4o、GPT-4o mini、LLAMA3、Phi、Gemini、Gemma2、Mistral 和数学专业模型,如 Numina-7B 和 Mathstral-7B。
成本高效且规模较小的 LLM 在组合任务方面举步维艰:虽然 GPT-4o mini 和Gemini 1.5 Flash等较小模型在 GSM8K 基准上的表现相当,但在面对组合 GSM 时,它们的推理差距明显更大。这些模型成本高效且针对标准基准进行了优化,但似乎存在推理弱点,这在更复杂、多步骤的问题中变得明显。
指令调整效果因模型大小而异:指令调整可增强 LLM 对特定任务指令的理解,但其影响因模型大小而异。较小的模型在 GSM8K 上显示出显着的准确率提升,但在组合 GSM 任务上却表现不佳,而较大的模型表现更一致,这意味着小模型可能针对某些任务进行了过度优化。
数学专业化并不能解决推理差距:Qwen2.5-Math 和 Numina-7B 等数学重点模型在组合 GSM 上面临着与通用模型类似的推理差距。尽管它们是为复杂数学量身定制的,但它们很难从单一问题推广到多步骤推理。
大型语言模型 (LLM) 在处理组合任务时表现出困难,尤其是在解决数学问题时,例如 GSM8K。一种普遍的假设将这些困难归因于基准泄漏。当模型在训练期间接触测试数据时,就会发生这种情况,这可能会人为地夸大性能指标。研究表明,泄漏可能会导致高估 LLM 解决数学任务的能力。这在针对 GSM1K 或数学问题变体进行评估的模型中很明显。进行了评估以确定泄漏是否影响性能。它将 LLM 解决修改后的 GSM 任务的能力与原始 GSM8K 基准进行了比较。结果表明泄漏不是主要问题,因为模型在两个版本中都表现出相似的准确性。
此外,问题的核心在于 LLM 如何处理多步推理并保持上下文。该研究指出了模型失败的几个关键领域:
过度拟合基准:许多模型在 GSM8K 等既定基准上表现良好,但在处理修改或组合问题时却举步维艰。这表明模型可能过度拟合特定数据集,而不是学习广义推理技能。
上下文干扰:当呈现不相关或额外的上下文时,LLM 很容易分心。例如,即使模型正确解决了问题 1,它们也常常无法在问题 2 中准确使用此信息,从而导致最终答案不正确。
子任务之间缺乏迁移:解决问题 1 并不能保证问题 2 的正确解决方案。许多模型在解决组合问题的第一部分和有效使用结果解决第二部分之间存在差距。这一失败揭示了模型在链式任务之间迁移推理的能力存在脱节。
这项分析强调了需要更强大的方法来改进 LLM 中的组合推理能力。目前的方法,例如指令调整和数学专业化,提供了一些好处。然而,它们不足以解决组合任务中的推理差距。研究人员可能需要重新思考如何训练模型。重点应该放在开发更通用的推理能力上,而不是针对特定基准进行优化。
此外,该研究还提出了替代技术。其中一种技术是基于代码的推理。在基于代码的推理中,模型生成可执行代码来解决问题。这种方法可以提供一条前进的道路。虽然这种方法很有前景,特别是对于较小的模型,但更广泛的挑战仍然存在。我们如何确保 LLM 在复杂的多步骤推理任务中保持一致性和准确性?
规模较小的 LLM 虽然对于简单任务来说高效且有效,但对于复杂的多步骤推理,尤其是对于答案必须与问题相关联的组合任务,则有待改进。这种“推理差距”限制了它们在实际应用中的可靠性。GPT-4 等规模较大的模型性能更好,但成本更高,这凸显了改进训练方法以增强规模较小、更具成本效益的模型的推理能力的必要性。
总之,这项研究揭示了当前 LLM 在处理组合推理任务方面的局限性。随着 LLM 的不断发展,解决组合 GSM 中的推理差距对于提高其解决实际应用中更复杂、更相互关联的问题的能力至关重要。
常见问题
Q1. 什么是 LLM?它们在解决简单和复杂的数学问题上表现如何?
答案:LLM(大型语言模型)擅长处理高中和大学水平的数学问题等任务。然而,虽然它们在简单的数学任务上表现良好,但它们往往难以处理复杂的多步骤推理任务,尤其是较小、成本高效的模型。
Q2. 什么是组合推理?为什么它对于 LLM 来说具有挑战性?
答案:组合推理需要解决相互关联的问题,其中一部分的解决方案会影响另一部分。较小的 LLM 难以应对“第二跳推理”,即使用较早的解决方案来解决后续部分,从而导致多步骤问题出现错误。
Q3. 小型 LLM 与大型模型相比,在处理构图任务方面有何不同?
答案:较小的模型通常处理组合推理任务的能力较弱,当需要跨多个步骤链接答案时,性能会显著下降。GPT-4 等较大的模型性能更好,但计算成本更高。
答案:推理差距衡量模型在单个任务上的表现与其在组合任务上的表现之间的差异。推理差距越大,表明模型
Q5. 研究人员提出了哪些解决方案来提高 LLM 的合成推理能力?
答案:研究人员建议改进训练方法。指令调整和数学专业化等技术有所帮助,但还不够。增强多步推理能力的一种可能途径是基于代码的推理,其中模型生成可执行代码来解决问题。
本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系。所有信息仅供参考和分享,不构成任何投资建议。加密货币市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。
近期热点
AI 模型越复杂,撒慌的可能性越大
2024-10-12
