大数跨境
0
0

LLMReasoning的Trustworthy综述

LLMReasoning的Trustworthy综述 机器学习算法与自然语言处理
2025-09-14
24
导读:推荐


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
来源 | 深度学习自然语言处理

近年来,大型语言模型(LLM)在推理能力上取得了巨大突破,尤其是Chain-of-Thought(CoT)提示技术和大型推理模型(LRM)如OpenAI o1和DeepSeek-R1的出现,使得模型能在数学、代码生成等复杂任务中表现出色。然而,随着模型推理能力的增强,一个关键问题浮出水面:推理能力是否真正提升了模型的可信度?

  • 论文:A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models
  • 链接:https://arxiv.org/pdf/2509.03871

这篇由中国科学院自动化研究所等团队发表的综述论文首次系统性地回答了这一问题。论文从真实性、安全性、鲁棒性、公平性和隐私五个维度,全面梳理了推理能力对LLM可信度的影响,揭示了“推理越强,漏洞可能越多”的矛盾现象,为AI安全社区提供了宝贵的参考和未来研究方向。

论文概述

本论文是首篇系统探讨推理能力与LLM可信度关系的综述,涵盖了截至2025年6月的最新研究。作者团队来自中国科学院,论文结构清晰,内容详实,不仅总结了现有成果,还指出了诸多未解之谜和未来挑战。论文的核心问题是:推理能力为语言模型的可信度带来了什么? 通过分析大量文献,作者发现推理能力既可能提升模型的可信度(如通过更透明的推理步骤),也可能引入新的风险(如更复杂的越狱攻击)。

研究背景与动机

LLM推理能力的发展经历了从CoT提示到端到端推理模型(LRM)的演变。CoT提示通过生成中间推理步骤(如“Let‘s think step by step”),显著提升了模型在复杂任务中的表现。而LRM(如DeepSeek-R1)则进一步内化了推理过程,无需外部提示即可自动生成思考链。

然而,先前的研究多集中于提升模型性能,忽视了推理能力对可信度的影响。早期关于LLM安全的综述也较少涉及推理维度。这种缺失促使本文作者开展本次调研,旨在填补这一空白,并为构建更安全、可靠的AI系统提供指导。

可信度五维框架详解

真实性(Truthfulness)

真实性关注模型输出的正确性和可靠性,主要包括幻觉(Hallucination)和忠实性(Faithfulness)两个方面。

  • 幻觉:指模型生成看似合理但实际错误的内容。推理模型由于生成了更长、更逻辑化的文本,其幻觉可能更难以检测。例如,Lu et al. (2025) 发现LRM在无法回答的问题上反而更容易生成错误推理。
  • 幻觉检测与缓解:研究者提出了多种方法,如过程奖励模型(PRM)逐步验证推理步骤,以及Fine-grained PRM(FG-PRM)针对特定幻觉类型进行检测。缓解策略包括训练时修改奖励函数(如鼓励模型回答“我不知道”)和推理时优化推理路径。
  • 忠实性:指模型的推理过程是否真实反映了其决策逻辑。缺乏忠实性可能导致用户被表面合理的解释误导。度量方法包括:
    • CoT干预:修改推理步骤并观察答案变化。例如,Lanham et al. (2023) 通过截断CoT或注入错误来测试忠实性。
    • 输入干预:在输入中添加偏见(如提示中所有答案均为选项A),观察模型是否盲目跟从。
    • 参数干预:使用遗忘算法(如NPO)移除特定推理步骤,比较模型输出差异。
输入干预的示例,其中通过修改少样本示例中的答案选项,诱导模型输出带有偏见的回答

安全性(Safety)

安全性涉及模型生成内容的无害性,包括漏洞评估、越狱攻击与防御、对齐和后门攻击。

  • 漏洞评估:研究发现,当前开源推理模型(如DeepSeek-R1)仍易受越狱攻击。评估显示,其攻击成功率(ASR)在某些基准上高达100%。多语言环境下(如中文、西班牙语),模型的安全性表现也不均衡。
  • 越狱攻击:攻击者利用推理过程设计更复杂的攻击,如H-CoT(Kuo et al., 2025)通过在提示中植入详细推理步骤,绕过模型安全机制。另一种攻击Mousetrap(Yao et al., 2025)将恶意指令分解为多步推理,使模型在不知不觉中执行。
  • 越狱防御:防御方法包括:
    • 推理技术增强的护栏模型:如GuardReasoner,通过微调LLM使其能够判断提示和答案的危害性。
    • 输入和解码阶段防御:例如,在推理轨迹中添加安全指令,或使用Best-of-N策略提高安全性。
  • 对齐:通过微调使模型符合人类价值观。例如,Deliberate Alignment (2024) 使用精心策划的CoT数据对齐推理模型,提升安全性。
  • 安全税(Safety Tax):指模型在对齐后通用性能下降的现象。研究表明,RLHF过程可能牺牲模型在翻译、阅读理解等任务上的能力。
  • 后门攻击:攻击者通过数据投毒或提示注入植入后门。例如,SABER (Jin et al., 2024) 在代码生成任务中注入触发器,导致模型输出错误代码。
H-CoT越狱提示的一个真实示例,其中通过植入看似合理的推理内容,成功诱导模型生成有害回答

鲁棒性(Robustness)

鲁棒性指模型在输入扰动下保持性能稳定的能力。推理模型在面对对抗性噪声时可能表现脆弱。

  • 输入扰动:在数学问题中修改数字或运算符符号可能导致性能显著下降。例如,MATH-Perturb基准显示,LRM对简单扰动敏感。
  • 过思考与欠思考:过思考指模型生成冗长、重复的推理,最终输出错误答案;欠思考则指推理过程过短或缺失。这两种现象均降低了模型的效率和可靠性。
  • 攻击与缓解:攻击者可通过添加无关上下文诱发过思考(如Overthink攻击)。防御方法包括提示优化、训练策略和表示空间调控。

公平性(Fairness)

公平性关注模型对不同群体(如性别、种族)的无偏见响应。研究发现,CoT提示有助于减轻某些偏见(如方言偏见),但无法完全消除。例如,在人物角色分配任务中,模型可能表现出类似人类的动机推理偏差。

隐私(Privacy)

隐私风险主要来源于模型训练数据和提示输入。

  • 模型相关隐私:包括遗忘(Unlearning)和IP保护。研究表明,仅遗忘最终答案而不移除推理轨迹可能无法彻底保护隐私。
  • 提示相关隐私:推理模型可能从输入提示中推断出敏感信息(如地理位置)。例如,GeoMiner攻击可成功从多模态推理模型中提取位置信息。

关键方法与发现

幻觉检测与缓解

  • PRM与FG-PRM:过程奖励模型(PRM)为推理每一步提供奖励,比结果奖励模型(ORM)更可靠。FG-PRM进一步细化了幻觉类型,提升了检测精度。
  • 推理评分:Sun et al. (2025) 提出推理评分(reasoning score),通过比较中间隐藏状态与最终logits的差异来检测幻觉。

越狱攻击与防御

  • H-CoT与AutoRAN:H-CoT通过植入推理步骤实现越狱;AutoRAN是首个自动化越狱攻击框架,专门针对推理模型。
  • GuardReasoner与X-Guard:这些护栏模型利用推理能力增强安全性,并在多语言环境下表现鲁棒。

对齐与安全税

  • Deliberate Alignment:通过蒸馏安全相关的CoT数据微调模型,提升安全性。
  • 安全税现象:对齐过程可能牺牲模型通用性能,需进一步研究如何平衡安全与性能。

忠实性度量

  • 归一化度量:Bentham et al. (2024) 提出归一化指标 (N(\mathcal{M},\mathcal{D})),减少模型固有偏差对评估的影响。
    其中,  是打乱选项后的输入,  是指示函数。该公式用于衡量模型在选项扰动下的输出一致性,值越高表示忠实性越强。
用于CoT数据合成的提示示例,这些提示指导模型生成结构化的推理内容,用于后续微调。

实验与评估

论文综合评估了多个开源和商业推理模型(如DeepSeek-R1、OpenAI o1系列),发现在安全性基准(如HarmBench、WildJailbreak)上,这些模型仍存在显著漏洞。多语言评估进一步揭示了模型在不同语言环境下的安全性差异。此外,论文还指出,评估结果受数据集和主题影响较大,呼吁开发更全面、鲁棒的基准。

未来研究方向

  1. 标准化忠实性度量:当前度量方法存在矛盾,需开发更统一、无偏的评估协议。
  2. 安全机制深化:需进一步理解RL在安全对齐中的作用,以及如何优化数据构建和训练策略。
  3. 细粒度基准:现有安全基准同质化严重,应开发更具判别力、覆盖更广主题的基准。
  4. 隐私与公平性:这两方面的研究相对不足,需更多关注。

结论

本文系统性地探讨了推理能力与LLM可信度的复杂关系,揭示了推理在提升模型性能的同时也可能引入新的安全隐患。论文提出的五维框架(真实性、安全性、鲁棒性、公平性、隐私)为未来研究提供了清晰路线图。尽管推理技术有望通过增强可解释性和错误缓解来提升可信度,但当前最先进的推理模型自身在安全、鲁棒和隐私方面可能更为脆弱。这项工作及时而全面,为AI安全社区提供了重要参考,助力构建更可靠、可信的AI系统。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

【声明】内容源于网络
0
0
机器学习算法与自然语言处理
1234
内容 8767
粉丝 0
机器学习算法与自然语言处理 1234
总阅读75.2k
粉丝0
内容8.8k