大数跨境

为什么只要多问一遍问题,大模型准确率就能提升 76% ?

为什么只要多问一遍问题,大模型准确率就能提升 76% ? 知乎AI先行者
2026-01-23
0
导读:用最笨的方式,强行让模型把该看的信息都看一遍

最近 Google Research 发现了一条简单粗暴提示词技巧。

想要让Gemini、GPT-4o、Claude 或者 DeepSeek 这些主流模型表现得更好,只要把输入问题重复一遍,即直接复制粘贴一下,就能在非推理任务上提升准确率,最高甚至能提升 76 个百分点。


为什么人类做复读机就能提高大模型的准确性?↓


https://arxiv.org/pdf/2512.14982


答主@AI解码师


跟人是一样的,别人跟你说了一大段话,还没完全听完就开始答复,结果对面又重复了一遍,你发现之前答的是错的,是不是都有过这个经历。

展开说说。


先说说什么是因果盲区?


现在市面上的 LLM,不管是 Gemini、GPT 还是 Claude,底层都是因果语言模型(causal LM)。这类模型处理输入的时候,是从左往右一个 token 一个 token 读的。关键来了:每个 token 只能「看到」它前面的 token,看不到后面的


什么意思?


举个例子。假设你给模型一个 prompt:


以下是50个人名:张三、李四、王五……(省略47个)……请问第25个人名是谁?

模型在读到「张三」的时候,它根本不知道你后面要问「第 25 个是谁」。它读到第 25 个名字的时候,也不知道这个名字对你有什么特殊意义。等它终于读到问题」请问第 25 个人名是谁」的时候,前面那 50 个名字的信息早就在注意力机制里被稀释了。


这就是因果盲区——模型在处理前面内容时,对后面的任务要求一无所知。


那为什么复制粘贴一遍就能解决?


当你把整个 prompt 重复一次,变成的时候,情况就不一样了。


第二遍 prompt 出现时,模型已经完整读过第一遍的所有内容。这时候,第二遍里的每一个 token 都能「看到」第一遍的全部信息。问题和选项之间的对齐问题,被物理层面解决了


说白了,就是是在用最笨的方式,强行让模型把该看的信息都看一遍。

在做一些信息提取的项目时,其实无意中用过类似的方法。


当时有个任务是从一段很长的对话记录里提取关键实体。一开始模型老是漏掉对话后半段的信息,我试了各种 prompt 技巧都不太行。后来我把对话内容在 prompt 里放了两遍,效果立刻好了一大截。


当时我还以为是」强调」起了作用,现在看来,本质上就是在弥补因果盲区。

但这个方法也不是万能的。


第一,只对「非推理任务」有效。


论文里明确说了,对于需要 Chain-of-Thought 的推理任务,重复 prompt 的效果很一般。为什么?因为推理任务本身就要求模型「think step by step」,模型在生成推理链的时候会自己复述问题、检视条件,相当于内部已经做了类似的重复操作。


第二,prompt 太长的时候要小心。


重复意味着输入长度翻倍。虽然论文说这部分工作集中在 prefill 阶段,可以高度并行化,对生成阶段的延迟影响不大。但如果你的 prompt 本身就很长,prefill 阶段的压力还是会上去的。论文里提到 Claude 系列在处理超长 prompt 时就出现了延迟上升。


第三,不能修复 prompt 本身的问题。


如果你的指令本身就写得稀烂,重复一遍只会让模型更坚定地执行错误的理解。重复只是增强上下文覆盖,不会自动纠正内容质量


在这里我们可能得重新看待过去几年的 prompt engineering 的发展路径了。

从 Chain-of-Thought 到 Few-shot Learning,再到后来流行的「情感操控」(告诉模型写不好代码就扣工资),大家一直在用人类的心理逻辑去」操控」模型。

但有时候问题根本不在「怎么让模型想得更多」,而在「怎么让模型看得更全」。

这是两个完全不同的问题。

前者是在假设模型的能力够用,只是需要被激发。后者是在承认模型的架构有结构性缺陷,需要被绕过。

在扯的远一点,未来我们可能需要:


架构层面,未来的模型可能会在设计上解决这个问题。比如引入部分双向注意力,或者内置」重读机制」,让模型在处理 prompt 时自动进行信息对齐。这样就不需要用户手动复制粘贴了。


应用层面,AI 产品可以在后端自动判断任务类型。对于非推理类任务(选择题、实体提取、格式识别等),自动重复 prompt;对于推理类任务,保持原样。用户完全无感,但效果实实在在。

如果有在做选择题判断、信息检索、实体提取这类任务的朋友,可以试试这招。不需要任何复杂的 prompt 模板,就是把你的问题复制粘贴一遍。


可能比你研究半天的 Chain-of-Thought 还管用。

知友讨论

@momo:

就是做阅读理解或者完形填空的时候,老师说的,带着问题去看文章

@Ser Spencer:

那我为什么不直接prompt:“在下列50个人名中找出第25个人名……”

@某科学的电脑配件:

其实是因为现行的注意力机制不是全连接的,前面的位置看不到后面的token。把问题重复一遍相当于手动让所有位置都可视了

@吴豪:

你去面试,主考官一个问题重复问你,你也知道估计前面的回答方向不对

@火炎:

重复带来的是全局平滑的稀释

@木易杨浅疯狂:

这个技巧不同模型的反应不一样,比如GLM4.7重复1~2遍的是错误答案,直到重复3次时才能正确输出




阅读更多

AI Infra 团队是否应该有算法?
三份 PhD 第一学期小结:希望能帮到有缘人
知友招生丨阿联酋 MBZUAI 可变体体机器人方向本硕博 Visiting Students
苏剑林自述:RoPE 并不是为了长文本外推而设计的

🚀 AI 产品扶持计划:

知乎为AI产品提供定制宣发支持,了解/报名请戳:知乎「AI 新品非正式发布现场」扶持计划

🚀 知乎 AI 社群:

如果你是泛 AI 爱好者,对 AI 资讯感兴趣,并愿意认真测评、为开发者反馈真实意见或交流沟通。欢迎扫码加入知乎 AI 社群↓,我们将不定时送上 AI 热点问答和产品测试活动。








知乎AI交流群








让一部分开发者先走起来

🚀 知乎科技账号正式登陆 X:

👉 https://x.com/ZhihuFrontier,聚焦「技术 × 观点」的跨语境对话

【声明】内容源于网络
0
0
知乎AI先行者
在智能之海寻找信标,航向未来。
内容 174
粉丝 0
知乎AI先行者 在智能之海寻找信标,航向未来。
总阅读38
粉丝0
内容174