引言 让 ChatGPT 在解决实际问题之前先对随机答案进行事实核查,可以促使它更努力地思考,并更频繁地给出正确答案——即使之前的“随机”答案与你的实际查询无关。

国内一篇有趣的新论文提出了一种成本非常低廉的方法来阻止 ChatGPT 等语言模型产生幻觉,并提高答案的质量:首先让模型对一个完全不相关的问题的答案进行事实核查:

举个例子,一个与主题无关的问题可以“解放”法学硕士学生的思维,帮助他们专注于后续的(真正)研究。
与其他更复杂的方法(如微调、提示制作和并行采样)相比,这种禅宗式的改进方法成本极低,而且对开源和闭源模型都有效,这表明发现了多个 LLM 架构共有的基本特征(而不是特定训练材料或方法的脆弱怪癖)。
作者概述了以这种简朴的方式提高产量所能实现的规模经济效益*:
为了尽可能减少额外的先验知识,VF 只需要在提示中提供一个随机/简单的答案。验证过程的输出标记比普通的 CoT 路径少得多,有时甚至不需要显式的仅验证过程,因此几乎不需要额外的测试时计算。
在测试中,这种被称为“验证优先(VF)”的方法能够提高开源和商业平台上各种任务(包括数学推理)的响应速度。
这种技术之所以有效,部分原因可能在于语言模型能够吸收和适应人类心理的趋势,因此直接提问可能会使模型产生“防御”和“紧张”的情绪,而要求验证他人的工作则不会激发这些“生存本能”。
核心思想是,验证答案比从头开始生成答案更省力,并且可以触发不同的推理路径,从而补充标准的思维链。
引导模型对给定的答案(即模型没有参与创建的答案)进行批判性思考,也可以激活一种批判性思维,帮助避免模型对自己的第一印象过于自信。
该研究以逆向推理路径来描述这一过程:

从一个已有的答案出发,反向推导问题,可以发现一些捷径或洞见,而这些捷径或洞见如果仅从问题出发进行正向推理则很难找到。这种“反向路径”可能遵循更简洁的思路,并提供对标准推理链的补充信息。
研究人员还将核心概念具体化为Iter-VF,这是一种顺序时间测试缩放方法,它通过迭代改进答案,避免了 LLM 架构中常见的自纠正策略中常见的误差累积问题。
这项新研究的题目是《要求LLM先进行验证几乎是免费的午餐》,作者是北京清华大学电子工程系的两位研究人员。
01
方法
这项新研究的核心思想是颠覆语言模型中常见的推理流程。它并非要求模型从头开始解决问题,而是先给它提供一个候选答案(通常是错误的或任意的),然后让它检查这个答案是否合理。
这会促使模型进行逆向推理,从给出的答案反向推导出问题。验证完成后,模型便会像往常一样继续解决最初的问题。
该论文断言,这种逆转减少了粗心大意的错误,并鼓励了一种更具反思性的推理模式,帮助法学硕士发现隐藏的结构并避免误导性的假设。
如下面的例子所示,即使提示模型验证像“10”这样明显错误的猜测,也能帮助它从逻辑缺陷中恢复过来,并且比标准的思维导图提示表现得更好:

先提示模型验证猜测答案,有助于它发现不一致之处,并更仔细地解决问题。在本例中,标准方法会得出流畅但错误的答案,而先验证的提示则会触发更清晰的逻辑结构,从而得出正确结果。
对于许多现实世界的问题,很难为模型提供一个可供验证的猜测,尤其是在任务是开放式的情况下,例如编写代码或调用 API。因此,为了更好地适应,该方法首先像往常一样给出其最佳答案,然后将该答案反馈到“验证优先”模式中。通过这种方式,模型可以检查并改进自身的输出:

当模型被要求验证其先前的输出时,它会发现逻辑中的缺陷并正确地重写解决方案。“验证优先”提示有助于模型专注于具体的错误,而不是重复同样的错误。
这种方法即为前述的Iter-VF。该模型重复此循环,每次都改进其答案,无需重新训练或定制工具。与其他可能堆积先前思考并导致模型混乱的自我纠错策略不同,Iter-VF每次只考虑最近的答案,这有助于保持其推理的清晰性。
02
数据和测试
作者在四个领域评估了该方法:一般推理任务,其中 VF 以一个简单的猜测作为种子;时间敏感任务,其中 Iter-VF 与竞争的扩展方法进行比较;开放式问题,例如编码和 API 调用,其中 VF 使用模型自己先前的答案;以及闭源商业 LLM,其中内部推理步骤无法访问。
为了测试该方法,研究人员使用了三个推理基准:GSM8K和MATH500用于数学问题;以及GPQA-Diamond用于研究生水平的科学问题。
在每种情况下,模型要么被赋予一个简单的猜测(例如,对于数值答案,猜测值为“1”),要么被赋予一个随机打乱顺序的多项选择题选项,作为验证的起点。没有添加任何特殊调整或先验知识,比较的基准是标准的零样本思维链提示。
测试涵盖了所有Qwen2.5和Llama3指令优化模型,规模从 1B 到 72B(参数)不等。使用的 Qwen 模型包括Qwen2.5-1.5B-Instruct、Qwen2.5-3B-Instruct、Qwen2.5-14B-Instruct和Qwen2.5-72B-Instruct。Llama3的变体包括Llama3.2-1B-Instruct、Llama3.2-3B-Instruct、Llama3.1-8B-Instruct和Llama3.3-70B-Instruct。
如下所示,从验证优先提示到最终结果的改进在各个模型规模上都保持稳定,即使在 10 亿参数下也能明显看到提升,并且一直持续到 720 亿参数:

在 Qwen2.5 和 Llama3 系列的所有型号尺寸中,验证优先提示在 GSM8K、MATH500 和 GPQA-Diamond 上始终优于标准思维链提示。
在计算密集型数学基准测试(例如 GSM8K 和 MATH500)中,这种效应最为显著,验证错误答案比从头开始求解更能激发良好的推理能力。在更依赖于已存储知识而非演绎结构的 GPQA-Diamond 测试中,这种优势虽然较小,但依然存在。
验证优先方法的计算成本并不高:从下表中我们可以看到,与标准的思维导图提示相比,生成验证步骤大约增加了 20-50% 的输出令牌:

在 GSM8K、MATH500 和 GPQA 基准测试中,每种提示方法生成的平均输出令牌数。
尽管如此,其额外成本仍然远低于需要多次抽样完成或递归规划的策略。
从下图可以看出,该方法对猜测答案的质量非常敏感。令人惊讶的是,即使猜测答案很简单('1')、不合常理('2025')或是一个随机的多选题选项,“验证优先”方法仍然优于标准提示方法:

通过验证先提示来提高准确率,当模型被给予简单、不合理或正确的答案以在 GSM8K、MATH500 和 GPQA 中进行验证时。
正如预期的那样,当猜测的答案恰好是正确的,准确率会更高;但无论如何,该方法都有效,这表明提高准确率并不是由猜测答案本身的信息驱动的,而仅仅是由验证行为本身驱动的。
Iter-VF 还与四种无需重新训练或任务特定适应的测试时缩放策略进行了比较。在“自我纠正”策略中,模型会通过反思之前的推理步骤来修正答案;在“PHP”策略中,之前的答案会作为上下文提示添加到输入中,但没有提供如何使用这些提示的说明。
此外,在自洽性测试中,对多条推理路径进行采样,并通过多数投票选出最终答案;最后,在N 选一测试中,独立生成多个输出,并使用验证器提示进行排序,选择得分最高的响应。
Iter-VF 实现了两个变体:一个用一个简单的猜测(“1”)初始化,另一个用标准的 CoT 输出初始化:

在 MATH500 上,随着输出预算的增加,准确率和标记效率均有所提高,结果表明 Iter-VF 的两种变体在模型规模上均优于所有基线。
当可用计算资源较少时,Iter-VF 的结果优于所有其他方法,作者认为这是因为它检查答案的方式,而不是因为初始答案的好坏(因为 VF 和 CoT 变体都很快达到了类似的准确度)。
即使 PHP 重复使用了之前的答案作为提示,它的表现仍然更差,这可能是因为 LLM 没有很好地利用这些提示。
与 PHP 和自纠错算法在迭代过程中不断积累上下文信息不同,Iter-VF 在每一步都只考虑最近的答案。这种马尔可夫方法避免了因推理链过长而导致的复杂叠加——这正是自纠错算法的一个致命缺陷。
并行方法,如自洽性和 N 点最优解,避免了这个问题,尽管它们的改进速度较慢且幅度较小。
(注:结果部分虽然详尽,但读起来不够友好冗长,因此我们不得不在此省略大部分剩余内容,请读者参阅原文了解更多详情。)
在GPT-5 Nano和GPT-5 Mini上进行测试时,Iter-VF 算法在不依赖中间输出的情况下,提升了性能。GPT-5 Nano 和 GPT-5 Mini 是封闭的商业模型,它们隐藏了完整的推理过程,只返回最终答案。下表显示了 Iter-VF 在 MATH500 和 GPQA 任务上的性能提升,证实了即使只能访问输入和最终答案,先验证后生成的方法仍然有效:

当将 Iter-VF 应用于具有隐藏推理轨迹的 GPT-5 模型时,MATH500 和 GPQA 的准确率。
结论
尽管这篇新论文从结果部分开始变得晦涩难懂,但它在人工智能模型类别中发现的普遍特征仍然令人着迷。任何经常使用逻辑学习模型(LLM)的人都会本能地摸索出一系列技巧来规避模型的缺陷,因为随着时间的推移,这些缺陷会变得显而易见,模式也会逐渐显现;所有人都希望找到一种像这样适用且通用的“技巧”。
在学习逻辑模型(LLM)中实施和更新上下文窗口的最大难题之一,似乎在于如何在保留会话进度和必要时探索新方向的能力之间取得平衡,同时避免陷入虚假的幻觉或离题输出。这篇新论文提出的案例展示了一个温和而有力的“唤醒”方法,它似乎能够在不丢失上下文的情况下重新聚焦并重置学习逻辑模型。后续项目是否会借鉴和发展这种方法,值得我们关注。
研究人员大肆宣传他们新方法的显著经济性——而这在仅仅12个月前还远未被重视。如今,超大规模人工智能的影响清楚地表明,在“纯粹研究”时代曾被视为无关紧要的资源节约,现在正变得至关重要。仅对关键观点进行总结,建议读者参考原文进行核实。
2025-11-24
2025-11-21
2025-11-20




