

好文分享：大模型拒答机制综述

绿盟科技研究通讯

2025-10-15

导读：一. 当前领域的发展情况1.1拒答定义与核心价值问题：大模型在问答、对话等任务中容易出现幻觉、过度自信、输出

一. 当前领域的发展情况

大模型在问答、对话等任务中容易出现幻觉、过度自信、输出不完整或有害信息。这会严重影响可信度与安全性。所以需要拒答机制。拒答机制可以分为完全拒答和部分拒答。完全拒答可能会以“我不知道”开头，或者表达不确定性，或者给出相互矛盾的结论；部分拒答可能表现为同时包含回答与拒答：“我无法回答这个问题，但我猜答案可能是……”。但是大模型忽视问题或重新表述问题不视为拒答，而是认为它们没能遵循大模型的指令。拒答的核心价值：可以减少幻觉、过度自信等不可靠行为；提升安全性；增强人机交互的可信度。

现有研究多聚焦于特定任务（如问答），依赖校准技术（如置信度阈值），就是准确且一致地估计模型对其回答的置信度，并在置信度低于某个阈值时让模型拒答。

二. 主要难点问题

2.1

主要难点

难点主要在三个层面：

1. 查询层面：输入可能模糊、不完整或本身不可回答（超出人类或模型知识范围）。用户可能故意设计“陷阱”问题。

2. 模型层面：模型往往过于自信，即使在知识不足时也会生成答案（幻觉问题）。训练数据和模型结构的偏差可能导致错误或不可靠的回答。

3. 人类价值观层面：难以界定“敏感”问题的边界（如伦理争议、隐私、价值观差异）。拒答策略需要在“安全合规”与“有用性”之间找到平衡。

2.2

研究框架

本文提出一个分析拒答的框架，从查询、模型以及人类价值观三个角度展开。也就是查询的可回答性、模型回答该查询的置信度，以及查询和回答与人类价值观的一致性三个方面。该框架可以帮助识别与拒答相关的现有研究。查询视角包含：查询是否含糊不清或不完整，是否超出了人类或模型所能掌握的知识范围，是否缺乏足够或相关的上下文来回答，或是否存在知识冲突。在这些情况下，系统应当拒答。模型知识视角主要检查模型本身的能力，如果模型对输出的正确性缺乏足够置信度，系统就应当拒答。人类价值观视角考虑伦理影响和社会规范，如果查询要求模型给出个人观点或价值判断，或者回答可能危害安全、隐私、公平性，系统就应当拒答。提出了一个流程：

图1 拒答机制流程

框架：从输入查询 x 开始，可以评估其可回答性 a(x) 和与人类价值观的一致性 h(x)。模型基于输入 x 生成潜在回答 y。如果查询条件不满足，模型对回答的置信度 c(x, y) 太低，或回答与人类价值观的一致性 h(x, y) 太低，那么系统就应当拒答。如何将它们的输出整合为统一的拒答决策。

M 的设计由系统设计者决定，并会因应用而异，示例包括：加权平均、逻辑运算或自定义阈值。

三. 现有方法

本文基于方法在 LLM 生命周期中的应用阶段：预训练、对齐、推理来组织拒答方法。

图2 拒答机制实现方式分类

3.1

预训练阶段

尽管预训练被广泛认为是模型知识获取的关键阶段，但是目前没有研究直接探讨预训练阶段的拒答。

3.2

对齐阶段

3.2.1

监督微调

许多研究表明，使用包含拒答标注的数据进行 SFT，可以提升模型的拒答能力。例如：在微调阶段进行数据增强，当 LLM 输入为空文档或随机文档时，引导其输出“无法回答”；构建一个数据集，把 LLM 错误或不确定的回答替换成 “我不知道”，并在此数据上微调；在“拒答感知”的数据集上微调，显著提升模型的拒答能力，并且他们还认为拒答感知的回答具有任务无关性，可以从多任务训练与联合推理中获益。

3.2.2

参数高效微调（PEFT）

不用全量更新 LLM 参数，而是通过少量额外参数来调整模型。可以使用 QLoRA 对 LLM 进行小规模实验，发现弱模型（任务性能较低）在拒答性能上提升更显著。有的方法发现 LoRA 不仅能提升拒答，还能作为有效正则化手段，避免全量微调带来的“过度拒答”和遗忘问题。

3.2.3

校准微调

与其直接微调拒答，进行校准微调可能间接提升拒答能力。例如：训练一个校准器来给 LLM 输出置信度分数，用于控制语言上的自信表达。对齐人类价值：

Bianchi 等（2024）表明，在指令微调中加入少量安全指令能减少有害回答而不损失能力，但过多的安全指令会使 LLM 过度防御。
Varshney 等（2023）通过结合固定拒答模板和 Llama-2 生成的安全回答来处理不安全提示，效果类似。
Wallace 等（2024）通过层级提示微调，使 LLM 获得更细粒度的弃答能力。
Zhang 等（2023b）用目标优先级指令进行微调，引导 LLM 在推理时优先考虑安全而非实用性。

3.2.4

偏好优化方法

偏好优化在模型知识和人类价值对齐两个方面都能影响拒答：

模型知识方面：基于事实性的偏好优化有助于模型正确地回答问题，包括在必要时选择回避（例如说“我不知道”）。例如，Liang 等人（2024）构建了一个事实性偏好数据集来训练奖励模型，并利用该模型在 PPO的框架下优化大语言模型的回避偏好。Kang 等人（2024）设计了一种奖励函数，使模型更倾向于回避而不是给出错误答案；Lin 等人（2024a）则将关注事实性的偏好对融入 DPO，以增强基于事实的指令跟随能力。
人类价值观方面：安全对齐方法使用显式或隐式的偏好模型来降低有害性，虽然它们并未专门聚焦于回避，但仍能促使模型在面对不安全提示时进行回避。其他研究探索了多目标对齐方法（Guo 等，2024），以鼓励模型在安全和有用性之间取得平衡。SALMON（Sun 等，2024）中的“可指令奖励模型”在合成的偏好数据上训练，依据人工定义的原则生成奖励分数，作为偏好对齐的指导。（显式偏好模型：人工标注哪些输出“安全拒答”优于“冒险回答”。隐式偏好模型：通过对话上下文推断风险（分析对话历史、输入内容、语义特征等信息，预测回答可能引发的风险，不需要人工标注每个回答的安全性，而是设计奖励函数，使模型在高风险情况下获得更高奖励时选择拒答） → 偏好奖励拒答。）

3.3

推理阶段

将推理阶段的方法分为三类：输入处理（input-processing）、过程内处理（in-processing）和输出处理（output-processing），具体取决于这些方法应用的时间点。输入处理方法主要从问题可回答性和人类价值观的角度出发；过程内处理方法主要从模型知识的角度出发；而输出处理方法则同时考虑模型知识和人类价值观。

3.3.1

输入处理方法

在我们提出的框架中，从查询的角度出发，LLMs 可以基于问题的可回答性选择是否回避。

• 判断问题是不是“模糊问题”：先预测一个问题是不是有歧义或者不清楚的，如果问题太模糊，模型就选择不答或给出保守答案。

• 检测是否是“恶意问题”：先把问题里的“可疑词”去掉（比如炸弹、黑客等），再计算句子的困惑度。如果困惑度明显下降，说明这些词就是恶意关键，触发拒答。或者改进困惑度计算方法，识别那些异常高困惑度的 token，作为危险信号。

• 输入“改造”方法在回答前，先把输入问题改写或重新分词，看改造后的输入能不能消除潜在风险。或者直接把危险词删掉或替换掉，重新构造一个“安全版”的问题给模型回答。

3.3.2

过程内处理

探测 LLM 内部状态，类似“读心术”，研究者观察模型在思考时的中间状态，训练一个“校准器”来预测它回答的可靠性。如果发现模型在某个问题上“不太有把握”，就让它选择拒绝回答。例如用数学方式量化模型的知识可靠性；安全相关向量则像“安全信号”，能帮助模型避免有害回答。以下为四个方法：

不确定性估计：看模型自己“有多确定”。常见做法：看输出 token 的概率（最高概率 Softmax 值、预测熵、语义熵）。让模型表达“我有多自信”，但研究发现模型常常过于自信。输入不同版本的问题，看回答一致性，若很不稳定 → 回避。
基于校准的方法：因为模型的“不确定性”往往不准，所以研究者会校正模型的信心。方法包括：温度缩放（调整 softmax 温度）、Dropout（同一问题多次问，取分布）、模型集成（多个模型投票或加权）。

基于一致性的方法：看模型多次回答是否一致。如果回答差异很大，就说明模型没把握 → 拒答。一致性检测方式包括：多次采样比对、答的语义相似性、入扰动（加字、删字、改写），若回答变得乱七八糟，说明模型不稳。

基于提示的方法：过在提示中加入指导语，让模型学会在该回避时回避。方法包括：少样本范例（展示“回答”和“拒答”的例子）、明确指令（如“如果问题不安全，不要回答”）、设计额外选项（如“以上皆非”）、加保护性前缀、安全提示或触发 token，来防御对抗攻击、让模型解释为什么不能回答，从而更有说服力。

3.3.3

输出处理方法

自我评估：让模型自己判断输出是否可靠或安全，如果觉得不确定，就选择拒答。方法如下：

a.用 soft prompt（软提示）来专门训练“自我评估参数”。

b.在生成答案后，再问模型“你对刚才的回答有把握吗？” → 如果“不确定”，就拒答。

c.让模型对自己的输出打标签（如 [harmful] 有害 / [harmless] 无害）。

d.迭代修正：模型先给出答案，再自己审查并改写，逐步提升安全性。

LLM 协作：让多个模型互相监督，一个当“回答者”，另一个当“审查员”，必要时触发拒答架构如下：

a.双模型系统：一个模型回答，另一个模型检查 → 如果检测到风险，就拒答。或者让辅助模型批判并修正原模型的回答。

b.多模型系统：不同模型分工，比如：一个负责分析用户意图，一个分析原始输入，一个当裁判。或者通过投票、竞争或协作，决定是否拒答。

四. 评估基准与实验设计

将 LLM 在有无拒答机制下的表现进行对比。

4.1

评估基准：（数据集）

4.2

统计自动化评估（各种指标）

4.2.1

准确性相关

拒答准确率 (ACC)：整体表现，正确拒答 + 正确回答的比例。

可靠准确率 (R-Acc)：模型没有拒答时，回答的可信度。

4.2.2

拒答质量

拒答精确率 (Precision_abs)：拒答的案例里，有多少是“正确拒答”。

拒答召回率 (Recall_abs / Prudence Score)：该拒答的场景里，模型有多大比例成功拒答。

拒答 F1 分数 (F1_abs)：综合精确率和召回率。

拒答率 (Abstention Rate)：模型总共拒答的比例。

过度保守分数 (ARSP)：本来是安全问题，但模型却过度拒答的比例。

4.2.3

安全性相关

攻击成功率 / URUP：模型在应该拒答时没有拒答 → 越低越安全。

良性回答率 (BAR)：在安全的输入下，模型能正常作答的比例。

4.2.4

覆盖性 & 平衡性

覆盖率 (Coverage)：模型愿意作答的比例。

有效可靠性 (ER)：考虑覆盖率和正确性 → 正确回答数比错误回答数多多少。

拒答校准误差 (Abstain ECE)：拒答概率和真实准确性之间的偏差。

Coverage@Acc (C@Acc)：保证一定准确率的情况下，模型还能回答多少。

风险-覆盖曲线下面积 (AURCC)：覆盖率 vs 错误率，越低越好。

准确率-覆盖曲线下面积 (AUACC)：覆盖率 vs 准确率，越高越好。

ROC 曲线下面积 (AUROC)：把“不确定性”当作二分类（正确 / 错误预测）诊断指标。

4.3

基于模型的评估

直接评审：GPT-4 直接充当判官，结果与人工评价高度一致，但成本较高
增强方式：

思维链提示 (CoT prompting)：让评审模型一步步推理后再判断是否合理拒答。

上下文学习 (ICL)：在评审前，给模型看一些带标注的拒答示例。

专门微调评审模型：训练一个小模型专门做拒答评价任务。
扩展评估：要求 GPT-4 区分完全回答 / 完全拒答 / 部分拒答。

4.4

以人为中心的评估

人工评估拒答主要关注用户对不同拒答方式的感知，以及拒答与模型回答有用性之间的关系。

拒答类型感知：引入“部分拒答”，更符合用户直观感受。
拒绝风格研究：研究用户对不同拒绝风格（比如直接拒绝、委婉拒绝）的态度。

重点：不仅仅是“拒答对不对”，还要看“用户是否接受”。

五. 未来研究方向

4.5.1

拒答的挑战与问题

1. 过度拒答 (Over-abstention)：模型在安全任务中过于谨慎，导致对无害输入也拒答。典型原因：自我检查 (self-checking) 机制、过度强调安全的训练策略。风险：牺牲可用性 (usefulness)。

2. 脆弱性 (Vulnerability)：拒答高度依赖提示表达，容易被规避。攻击方式：社会工程学 (persona-based attacks)、加密/编码提示、低资源语言绕过等。问题：模型缺乏对“拒答原因”的深层理解，难以泛化。

3. 偏见与公平性 (Bias & Fairness)：拒答在不同群体、语言间表现不均。例：去毒化后模型更倾向拒答非裔美国英语，而对白人美语更宽松。风险：加剧不公平与社会偏见。

4. 拒答后的跟进 (Post-refusal Handling)：拒答往往被当成对话终止。研究建议：将拒答视为信息获取契机，引导用户补充信息或给出替代性帮助。

5. 个性化拒答 (Personalized Abstention)：不同用户对拒答的偏好不同（如专家 vs 普通用户、风险容忍度高 vs 低）。静态拒答策略无法满足差异化需求。

6. 部分拒答难以评估 (Partial Abstention Evaluation)：大多数指标针对“完全拒答”，但部分拒答（如拒答有害部分，同时回答无害部分）难以量化。

7. 任务/场景泛化性差 (Generalization Limitation)：弃权机制往往依赖特定任务微调，难以跨任务/跨领域（问答 → 医疗、对话 → 代码）。

4.5.2

未来方向

1. 动态与自适应拒答:不依赖静态规则，而是结合上下文、用户目标动态调整拒答行为。

2. 跨任务与跨场景的拒答:从聊天扩展到代码生成、医疗咨询、搜索等不同任务。探索将“弃权”发展为通用元能力 (meta-capability)。

3. 多模态与多语言拒答:扩展到图像/视频/语音场景。提升低资源语言上的拒答鲁棒性。

4. 个性化拒答机制:融合用户画像与风险偏好，动态调整拒答策略。对不同用户群体提供差异化的拒答风格。

5. 平衡安全与有用性:在“安全合规”与“信息帮助”间找到更优的折中。减少过度拒答，提升用户体验。

6. 隐私与版权保护中的拒答:利用拒答机制防止泄露敏感信息、个人隐私或版权内容。

7. 评估体系完善:构建涵盖自动指标 + 模型评审 + 人工评估的综合评测框架。针对部分拒答开发新的量化指标。

六、总结

当前 LLM 拒答研究正从“安全过滤”走向“多维度智能拒答”，难点在于如何判断可答性、置信度和价值对齐，已有的解决方案主要是函数框架和阈值机制，评估基准仍不完善，未来需要自适应、跨场景、个性化的拒答方法。

内容编辑：舒展

责任编辑：舒展

参考文献

[1] B. Wen, J. Yao, S. Feng, C. Xu, Y. Tsvetkov, B. Howe, and L. L. Wang, “Know Your Limits: A Survey of Abstention in Large Language Models,” arXiv preprint arXiv:2407.18418, 2024.

本公众号原创文章仅代表作者观点，不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权，严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用，转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新研究院负责运营，绿盟科技创新研究院是绿盟科技的前沿技术研究部门，包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一，与清华大学进行博士后联合培养，科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向，从实践出发，结合公司资源和先进技术，实现概念级的原型系统，进而交付产品线孵化产品并创造巨大的经济价值。