一. 当前领域的发展情况
大模型在问答、对话等任务中容易出现幻觉、过度自信、输出不完整或有害信息。这会严重影响可信度与安全性。所以需要拒答机制。拒答机制可以分为完全拒答和部分拒答。完全拒答可能会以“我不知道”开头,或者表达不确定性,或者给出相互矛盾的结论;部分拒答可能表现为同时包含回答与拒答:“我无法回答这个问题,但我猜答案可能是……”。但是大模型忽视问题或重新表述问题不视为拒答,而是认为它们没能遵循大模型的指令。拒答的核心价值:可以减少幻觉、过度自信等不可靠行为;提升安全性;增强人机交互的可信度。
现有研究多聚焦于特定任务(如问答),依赖校准技术(如置信度阈值),就是准确且一致地估计模型对其回答的置信度,并在置信度低于某个阈值时让模型拒答。
二. 主要难点问题
难点主要在三个层面:
1. 查询层面:输入可能模糊、不完整或本身不可回答(超出人类或模型知识范围)。用户可能故意设计“陷阱”问题。
2. 模型层面:模型往往过于自信,即使在知识不足时也会生成答案(幻觉问题)。训练数据和模型结构的偏差可能导致错误或不可靠的回答。
3. 人类价值观层面:难以界定“敏感”问题的边界(如伦理争议、隐私、价值观差异)。拒答策略需要在“安全合规”与“有用性”之间找到平衡。
本文提出一个分析拒答的框架,从查询、模型以及人类价值观三个角度展开。也就是查询的可回答性、模型回答该查询的置信度,以及查询和回答与人类价值观的一致性三个方面。该框架可以帮助识别与拒答相关的现有研究。查询视角包含:查询是否含糊不清或不完整,是否超出了人类或模型所能掌握的知识范围,是否缺乏足够或相关的上下文来回答,或是否存在知识冲突。在这些情况下,系统应当拒答。模型知识视角主要检查模型本身的能力,如果模型对输出的正确性缺乏足够置信度,系统就应当拒答。人类价值观视角考虑伦理影响和社会规范,如果查询要求模型给出个人观点或价值判断,或者回答可能危害安全、隐私、公平性,系统就应当拒答。提出了一个流程:
图1 拒答机制流程
框架:从输入查询 x 开始,可以评估其可回答性 a(x) 和与人类价值观的一致性 h(x)。模型基于输入 x 生成潜在回答 y。如果查询条件不满足,模型对回答的置信度 c(x, y) 太低,或回答与人类价值观的一致性 h(x, y) 太低,那么系统就应当拒答。如何将它们的输出整合为统一的拒答决策。
M 的设计由系统设计者决定,并会因应用而异,示例包括:加权平均、逻辑运算或自定义阈值。
三. 现有方法
本文基于方法在 LLM 生命周期中的应用阶段:预训练、对齐、推理来组织拒答方法。
图2 拒答机制实现方式分类
尽管预训练被广泛认为是模型知识获取的关键阶段,但是目前没有研究直接探讨预训练阶段的拒答。
许多研究表明,使用包含拒答标注的数据进行 SFT,可以提升模型的拒答能力。例如:在微调阶段进行数据增强,当 LLM 输入为空文档或随机文档时,引导其输出“无法回答”;构建一个数据集,把 LLM 错误或不确定的回答替换成 “我不知道”,并在此数据上微调;在“拒答感知”的数据集上微调,显著提升模型的拒答能力,并且他们还认为拒答感知的回答具有任务无关性,可以从多任务训练与联合推理中获益。
不用全量更新 LLM 参数,而是通过少量额外参数来调整模型。可以使用 QLoRA 对 LLM 进行小规模实验,发现弱模型(任务性能较低)在拒答性能上提升更显著。有的方法发现 LoRA 不仅能提升拒答,还能作为有效正则化手段,避免全量微调带来的“过度拒答”和遗忘问题。
与其直接微调拒答,进行校准微调可能间接提升拒答能力。例如:训练一个校准器来给 LLM 输出置信度分数,用于控制语言上的自信表达。对齐人类价值:
Bianchi 等(2024) 表明,在指令微调中加入少量安全指令能减少有害回答而不损失能力,但过多的安全指令会使 LLM 过度防御。
Varshney 等(2023) 通过结合固定拒答模板和 Llama-2 生成的安全回答来处理不安全提示,效果类似。
Wallace 等(2024) 通过层级提示微调,使 LLM 获得更细粒度的弃答能力。
Zhang 等(2023b) 用目标优先级指令进行微调,引导 LLM 在推理时优先考虑安全而非实用性。
偏好优化在模型知识和人类价值对齐两个方面都能影响拒答:
模型知识方面:基于事实性的偏好优化有助于模型正确地回答问题,包括在必要时选择回避(例如说“我不知道”)。例如,Liang 等人(2024)构建了一个事实性偏好数据集来训练奖励模型,并利用该模型在 PPO的框架下优化大语言模型的回避偏好。Kang 等人(2024)设计了一种奖励函数,使模型更倾向于回避而不是给出错误答案;Lin 等人(2024a)则将关注事实性的偏好对融入 DPO,以增强基于事实的指令跟随能力。
人类价值观方面:安全对齐方法使用显式或隐式的偏好模型来降低有害性,虽然它们并未专门聚焦于回避,但仍能促使模型在面对不安全提示时进行回避。其他研究探索了多目标对齐方法(Guo 等,2024),以鼓励模型在安全和有用性之间取得平衡。SALMON(Sun 等,2024)中的“可指令奖励模型”在合成的偏好数据上训练,依据人工定义的原则生成奖励分数,作为偏好对齐的指导。(显式偏好模型:人工标注哪些输出“安全拒答”优于“冒险回答”。隐式偏好模型:通过对话上下文推断风险(分析对话历史、输入内容、语义特征等信息,预测回答可能引发的风险,不需要人工标注每个回答的安全性,而是设计奖励函数,使模型在高风险情况下获得更高奖励时选择拒答) → 偏好奖励拒答。)
将推理阶段的方法分为三类:输入处理(input-processing)、过程内处理(in-processing)和输出处理(output-processing),具体取决于这些方法应用的时间点。输入处理方法主要从问题可回答性和人类价值观的角度出发;过程内处理方法主要从模型知识的角度出发;而输出处理方法则同时考虑模型知识和人类价值观。
在我们提出的框架中,从查询的角度出发,LLMs 可以基于问题的可回答性选择是否回避。
• 判断问题是不是“模糊问题”:先预测一个问题是不是有歧义或者不清楚的,如果问题太模糊,模型就选择不答或给出保守答案。
• 检测是否是“恶意问题”:先把问题里的“可疑词”去掉(比如炸弹、黑客等),再计算句子的困惑度。如果困惑度明显下降,说明这些词就是恶意关键,触发拒答。或者改进困惑度计算方法,识别那些异常高困惑度的 token,作为危险信号。
• 输入“改造”方法在回答前,先把输入问题改写或重新分词,看改造后的输入能不能消除潜在风险。或者直接把危险词删掉或替换掉,重新构造一个“安全版”的问题给模型回答。
探测 LLM 内部状态,类似“读心术”,研究者观察模型在思考时的中间状态,训练一个“校准器”来预测它回答的可靠性。如果发现模型在某个问题上“不太有把握”,就让它选择拒绝回答。例如用数学方式量化模型的知识可靠性;安全相关向量则像“安全信号”,能帮助模型避免有害回答。以下为四个方法:
不确定性估计:看模型自己“有多确定”。常见做法:看输出 token 的概率(最高概率 Softmax 值、预测熵、语义熵)。让模型表达“我有多自信”,但研究发现模型常常过于自信。输入不同版本的问题,看回答一致性,若很不稳定 → 回避。
基于校准的方法:因为模型的“不确定性”往往不准,所以研究者会校正模型的信心。方法包括:温度缩放(调整 softmax 温度)、Dropout(同一问题多次问,取分布)、模型集成(多个模型投票或加权)。
基于一致性的方法:看模型多次回答是否一致。如果回答差异很大,就说明模型没把握 → 拒答。一致性检测方式包括:多次采样比对、答的语义相似性、入扰动(加字、删字、改写),若回答变得乱七八糟,说明模型不稳。
基于提示的方法:过在提示中加入指导语,让模型学会在该回避时回避。方法包括:少样本范例(展示“回答”和“拒答”的例子)、明确指令(如“如果问题不安全,不要回答”)、设计额外选项(如“以上皆非”)、加保护性前缀、安全提示或触发 token,来防御对抗攻击、让模型解释为什么不能回答,从而更有说服力。
自我评估:让模型自己判断输出是否可靠或安全,如果觉得不确定,就选择拒答。方法如下:
a.用 soft prompt(软提示)来专门训练“自我评估参数”。
b.在生成答案后,再问模型“你对刚才的回答有把握吗?” → 如果“不确定”,就拒答。
c.让模型对自己的输出打标签(如 [harmful] 有害 / [harmless] 无害)。
d.迭代修正:模型先给出答案,再自己审查并改写,逐步提升安全性。
LLM 协作:让多个模型互相监督,一个当“回答者”,另一个当“审查员”,必要时触发拒答架构如下:
a.双模型系统:一个模型回答,另一个模型检查 → 如果检测到风险,就拒答。或者让辅助模型批判并修正原模型的回答。
b.多模型系统:不同模型分工,比如:一个负责分析用户意图,一个分析原始输入,一个当裁判。或者通过投票、竞争或协作,决定是否拒答。
四. 评估基准与实验设计
将 LLM 在有无拒答机制下的表现进行对比。
拒答准确率 (ACC):整体表现,正确拒答 + 正确回答的比例。
可靠准确率 (R-Acc):模型没有拒答时,回答的可信度。
拒答精确率 (Precision_abs):拒答的案例里,有多少是“正确拒答”。
拒答召回率 (Recall_abs / Prudence Score):该拒答的场景里,模型有多大比例成功拒答。
拒答 F1 分数 (F1_abs):综合精确率和召回率。
拒答率 (Abstention Rate):模型总共拒答的比例。
过度保守分数 (ARSP):本来是安全问题,但模型却过度拒答的比例。
攻击成功率 / URUP:模型在应该拒答时没有拒答 → 越低越安全。
良性回答率 (BAR):在安全的输入下,模型能正常作答的比例。
覆盖率 (Coverage):模型愿意作答的比例。
有效可靠性 (ER):考虑覆盖率和正确性 → 正确回答数比错误回答数多多少。
拒答校准误差 (Abstain ECE):拒答概率和真实准确性之间的偏差。
Coverage@Acc (C@Acc):保证一定准确率的情况下,模型还能回答多少。
风险-覆盖曲线下面积 (AURCC):覆盖率 vs 错误率,越低越好。
准确率-覆盖曲线下面积 (AUACC):覆盖率 vs 准确率,越高越好。
ROC 曲线下面积 (AUROC):把“不确定性”当作二分类(正确 / 错误预测)诊断指标。
直接评审:GPT-4 直接充当判官,结果与人工评价高度一致,但成本较高
增强方式:
思维链提示 (CoT prompting):让评审模型一步步推理后再判断是否合理拒答。
上下文学习 (ICL):在评审前,给模型看一些带标注的拒答示例。
专门微调评审模型:训练一个小模型专门做拒答评价任务。
扩展评估:要求 GPT-4 区分 完全回答 / 完全拒答 / 部分拒答。
人工评估拒答主要关注用户对不同拒答方式的感知,以及拒答与模型回答有用性之间的关系。
拒答类型感知: 引入“部分拒答”,更符合用户直观感受。
拒绝风格研究:研究用户对不同拒绝风格(比如直接拒绝、委婉拒绝)的态度。
重点:不仅仅是“拒答对不对”,还要看“用户是否接受”。
五. 未来研究方向
1. 过度拒答 (Over-abstention):模型在安全任务中过于谨慎,导致对无害输入也拒答。典型原因:自我检查 (self-checking) 机制、过度强调安全的训练策略。 风险:牺牲可用性 (usefulness)。
2. 脆弱性 (Vulnerability):拒答高度依赖提示表达,容易被规避。攻击方式:社会工程学 (persona-based attacks)、加密/编码提示、低资源语言绕过等。问题:模型缺乏对“拒答原因”的深层理解,难以泛化。
3. 偏见与公平性 (Bias & Fairness):拒答在不同群体、语言间表现不均。例:去毒化后模型更倾向拒答非裔美国英语,而对白人美语更宽松。风险:加剧不公平与社会偏见。
4. 拒答后的跟进 (Post-refusal Handling):拒答往往被当成对话终止。研究建议:将拒答视为信息获取契机,引导用户补充信息或给出替代性帮助。
5. 个性化拒答 (Personalized Abstention):不同用户对拒答的偏好不同(如专家 vs 普通用户、风险容忍度高 vs 低)。 静态拒答策略无法满足差异化需求。
6. 部分拒答难以评估 (Partial Abstention Evaluation):大多数指标针对“完全拒答”,但部分拒答(如拒答有害部分,同时回答无害部分)难以量化。
7. 任务/场景泛化性差 (Generalization Limitation): 弃权机制往往依赖特定任务微调,难以跨任务/跨领域(问答 → 医疗、对话 → 代码)。
1. 动态与自适应拒答:不依赖静态规则,而是结合上下文、用户目标动态调整拒答行为。
2. 跨任务与跨场景的拒答:从聊天扩展到代码生成、医疗咨询、搜索等不同任务。探索将“弃权”发展为通用元能力 (meta-capability)。
3. 多模态与多语言拒答:扩展到图像/视频/语音场景。 提升低资源语言上的拒答鲁棒性。
4. 个性化拒答机制:融合用户画像与风险偏好,动态调整拒答策略。对不同用户群体提供差异化的拒答风格。
5. 平衡安全与有用性:在“安全合规”与“信息帮助”间找到更优的折中。减少过度拒答,提升用户体验。
6. 隐私与版权保护中的拒答:利用拒答机制防止泄露敏感信息、个人隐私或版权内容。
7. 评估体系完善:构建涵盖 自动指标 + 模型评审 + 人工评估 的综合评测框架。针对部分拒答开发新的量化指标。
六、总结
当前 LLM 拒答研究正从“安全过滤”走向“多维度智能拒答”,难点在于如何判断可答性、置信度和价值对齐,已有的解决方案主要是函数框架和阈值机制,评估基准仍不完善,未来需要自适应、跨场景、个性化的拒答方法。
内容编辑:舒展
责任编辑:舒展
参考文献
[1] B. Wen, J. Yao, S. Feng, C. Xu, Y. Tsvetkov, B. Howe, and L. L. Wang, “Know Your Limits: A Survey of Abstention in Large Language Models,” arXiv preprint arXiv:2407.18418, 2024.
本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。
关于我们
绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。
绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。
我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。
长按上方二维码,即可关注我

