大数跨境
0
0

清华孙茂松团队 × 深言科技:以解释作为训练信号,让 8B 模型在幻觉检测上反超闭源大模型

清华孙茂松团队 × 深言科技:以解释作为训练信号,让 8B 模型在幻觉检测上反超闭源大模型 AI科技评论
2026-01-07
13
导读:FaithLens 模型在忠实性幻觉检测任务上,达到了当前最优效果。

FaithLens 模型在忠实性幻觉检测任务上达到当前最优效果。


作者丨郑佳美

编辑丨岑峰

大语言模型能力持续增强,但幻觉问题仍是制约其现实应用的关键障碍。

即便有文档或检索结果作为依据,模型仍可能生成与事实不符、缺乏依据甚至与原文矛盾的内容,且表达流畅自洽,隐蔽性强。这对法律、医疗、金融、检索增强生成等高可靠性要求场景构成显著风险。

业界虽通过扩大模型规模、优化检索机制、强化安全对齐等方式缓解幻觉,但成本与算力需求持续攀升,而幻觉的成因机制、系统性检测方法及可解释性评估仍缺乏有效方案。

在此背景下,清华大学孙茂松团队联合深言科技提出新论文《FaithLens: Training Large Language Models to Detect Hallucinations with Useful Explanations》。该工作将幻觉检测从简单二元判别,升级为对模型推理过程与证据一致性的综合评估。

FaithLens 的核心理念是:模型不仅要判断是否存在幻觉,还需生成清晰、具体、真正有助于他人(如另一模型)作出正确判断的自然语言解释,并将“解释是否有用”作为关键训练信号。

研究团队构建了融合监督微调(SFT)与基于规则的强化学习(RL)的训练框架,通过合成数据、三重过滤与多目标奖励机制,使模型在输出判断的同时,明确说明依据来源与推理路径。实验表明:仅 8B 参数规模的 FaithLens,在多个跨领域幻觉检测任务中超越多款百亿至千亿级闭源大模型,并在解释质量与推理一致性方面表现突出。

论文地址:https://arxiv.org/pdf/2512.20182

01 8B 模型反超多款闭源大模型

FaithLens 在忠实性幻觉检测任务上达到当前最优水平。所谓忠实性幻觉,指模型在给定文档或检索信息前提下,生成与原文不一致、无法支持甚至相矛盾的内容。

实验覆盖 12 个跨领域任务,涵盖新闻摘要、检索增强问答、固定文档问答、事实核查及多跳推理等,数据来自 LLM-AggreFact 和 HoVer 两大权威基准。

以宏平均 F1 值为指标,FaithLens 在全部 12 项任务上的整体平均性能超越所有对比系统,包括 GPT-4.1、GPT-4o、o3、Claude 3.7 Sonnet 及 Llama-3.1-405B 等。尤为关键的是,FaithLens 仅基于 8B 参数规模,而上述对比模型普遍达百亿至千亿参数量级。

在多跳推理任务 HoVer 上,FaithLens 表现尤为突出。该任务需模型整合多个证据片段完成事实链推理并判断断言真伪。其领先表现表明,FaithLens 具备基于文档的结构化推理与一致性分析能力,而非依赖浅层模式匹配。

与 AlignScore、FactCG、MiniCheck、ClearCheck 等专用幻觉检测系统相比,FaithLens 在绝大多数任务中均明显占优,且任务间性能方差最小,体现出对摘要微扭曲、无中生有、推理缺环等各类幻觉现象的统一识别能力,具备强鲁棒性与跨任务泛化性。

在解释质量专项评估中(人工评价 + GPT-4.1 自动评价),FaithLens 所生成解释更清晰、更具体,能精准定位幻觉成因,例如“文档中不存在该事实”“因果关系被错误推出”“数字被曲解”,而非泛泛而谈或重复问题。

在计算成本方面,FaithLens 因参数量小,推理所需 GPU 资源显著低于 API 级闭源模型,实测成本大幅降低,同时性能反超。综合来看,FaithLens 在精度、稳定性、解释性与成本四个维度均具明显优势。

02 既要判断对,也要解释清,还要格式完整

该研究构建了两阶段训练框架:冷启动监督微调(SFT)阶段与基于规则的强化学习(RL)阶段,目标同步优化“幻觉判断准确性”与“自然语言解释质量”。

SFT 阶段面临高质量标注数据稀缺难题。团队采用强推理模型生成合成数据:从公开数据集中抽取文档与断言,输入大模型生成推理链、自然语言解释及标签,形成语义上下文-断言-推理-解释-结论的完整样本。

为保障合成数据质量,团队设计三层过滤机制:

  • 标签正确性过滤:剔除强模型输出标签与原始标注不一致的样本,防止模型学习“错误但合理”的解释;
  • 解释质量过滤:以“解释能否降低新手模型困惑度”为客观指标,仅保留能切实提升预测能力的解释;
  • 数据多样性过滤:通过句向量聚类控制文档-断言对分布,确保模型接触多种幻觉类型,避免过拟合简单样本。

经三重过滤后的数据用于 SFT 训练,使模型初步掌握幻觉识别与解释生成能力。但该阶段属模仿学习,难以主动优化解释效用。因此引入 RL 阶段,采用 GRPO(Group Relative Policy Optimization)算法,无需额外奖励模型,直接基于候选输出相对表现进行策略更新。

奖励机制是 RL 阶段核心创新,包含三项设计:

  • 预测正确奖励:保障分类准确性;
  • 解释质量奖励:以轻量级新手模型为评判器,若其借助 FaithLens 解释后判断准确率提升,则给予正向奖励——该机制推动模型生成“对他人有用”的解释;
  • 格式完整性奖励:约束输出必须包含推理过程、解释与最终标签,杜绝结构缺失。

消融实验证实,三重过滤、解释质量奖励与 RL 阶段均为性能关键要素,其中解释质量奖励对提升解释可用性贡献最显著。

03 从黑箱判别,到透明可解释

学术层面,该工作将幻觉检测从单一判别任务升维为可解释的推理评估问题。传统模型仅输出“是/否”判断,用户无法追溯依据、定位错误源头;FaithLens 则同步提供“错在何处、为何出错”的结构性说明,推动幻觉检测从黑箱工具转向可审查、可复核的透明系统。

应用层面,FaithLens 有效调和两大现实矛盾:闭源大模型检测能力强但部署成本过高;小模型成本低却质量不足。研究表明,通过高质量数据合成与强化学习策略,中等规模模型完全可实现接近甚至超越闭源大模型的检测与解释能力,大幅提升技术落地可行性。

方法论层面,研究提出“解释是否能教会另一模型”作为衡量标准,突破 BLEU、ROUGE 等表层文本指标局限,将解释定义为功能性工具。该思想可延伸至推理链验证、数学推理解释、事实核查说明等广泛场景。

更深层意义在于,它为 AI 可信性树立新标准:未来智能系统不仅需输出答案,更须提供可追溯、可核验、可被其他模型复用的解释。这一范式高度契合医疗、司法、教育、金融等高风险领域的审计与问责需求,具备长期社会价值。

04 成果背后的科研力量

本论文由清华大学、复旦大学与伊利诺伊大学香槟分校(UIUC)三位学者共同担任第一作者。

清华大学博士生司书正(同时就职于深言科技),师从孙茂松教授,研究方向为自然语言处理与大模型技术。已以第一或共同第一作者身份在 NeurIPS、ACL、ICLR、EMNLP 等顶会发表论文 12 篇,累计引用 800 余次,GitHub 项目获星超 5000,其中一篇获 EMNLP 2025 SAC Highlights Award。

个人主页:https://s1s-z.github.io/

孙茂松为本文通讯作者,现任清华大学计算机科学与技术系长聘教授、博士生导师,清华大学人工智能研究院常务副院长。他是我国自然语言处理与人工智能领域重要开拓者之一,长期深耕中文信息处理、机器翻译、语义计算、大模型训练与推理、知识图谱及社会人文计算等方向。

作为清华大学自然语言处理实验室(THUNLP)学术带头人,他主持多项国家级重大科研项目,在 ACL、EMNLP、AAAI、IJCAI 等顶会顶刊发表大量成果,推动中文 NLP 技术进入国际前列。其团队成果广泛应用于教育普惠、文化传承与公共治理等领域。

孙茂松教授亦重视技术转化与社会服务,积极推动语言资源建设、国际标准制定及AI在关键场景的落地实践,培养了一批活跃于全球高校与产业界的骨干人才。

官网简介:https://nlp.csai.tsinghua.edu.cn/staff/sms/

【声明】内容源于网络
0
0
AI科技评论
聚焦AI前沿研究,关注AI工程落地。
内容 8431
粉丝 0
AI科技评论 聚焦AI前沿研究,关注AI工程落地。
总阅读67.9k
粉丝0
内容8.4k