ExcellPro

2026-01-19

导读：Nature Medicine| Deep-DxSearch

摘要：

由于固有的知识局限与幻觉问题，精准诊断仍是医学大语言模型面临的核心挑战。尽管检索增强生成（RAG）与工具增强的智能体方法在缓解这些问题方面展现出潜力，但由于监督不足导致外部知识利用不充分，以及反馈—推理可追溯性与优化过程相互割裂，仍是关键瓶颈。为解决这些挑战，我们提出Deep-DxSearch：一个通过强化学习（RL）进行端到端训练的智能体式 RAG 系统，使其能够实现可控的、可追溯的检索增强诊断推理。

在 Deep-DxSearch 中，作者首先构建了一个大规模医学检索语料库，包含患者记录与可靠医学知识源，以支持跨诊断场景的检索感知推理。将 LLM 视为核心智能体，将检索语料库视为其环境，并围绕输出格式、检索行为、推理结构与诊断准确性设计定制化奖励，从而通过 RL 使智能体式 RAG 策略从大规模数据中持续进化。

实验表明端到端智能体 RL 训练框架在多个数据中心的评估中均稳定优于提示工程与无需训练的 RAG 方法。训练后，Deep-DxSearch 的诊断准确率显著提升，在分布内（ID）与分布外（OOD）设置下，对常见病与罕见病诊断均超过 GPT-4o、DeepSeek-R1 以及其他医学专用框架等强基线。此外，针对奖励设计与检索语料构成的消融实验验证了二者的关键作用，进一步凸显本方法相较传统实现的独特性与有效性。最后，案例研究与可解释性分析展示了 Deep-DxSearch 诊断策略的改进，提供了对性能增益更深入的理解，并支持临床医生给出更可靠、更精准的初步诊断。数据、代码与检查点已开源，地址：https://github.com/MAGIC-AI4Med/Deep-DxSearch

引言

AI 驱动的医学诊断面临独特挑战，因为它必须复现临床决策所需的精确性与情境感知能力。临床决策本质上是循证的：需要依托最新指南、历史患者记录与结构化医学知识，将当前症状映射到可能疾病。近期基于 LLM 的RAG展示了构建更强诊断系统的有前景方向。通过结合 LLM 的编排能力与检索工具，这些系统能够查阅疾病指南、检索相关背景知识，更重要的是在诊断中匹配相似病例，最终将检索证据与分析洞见交织融合，形成透明且可追溯的诊断推理。

尽管前景可观，现有智能体式 RAG 系统多为**仅推理阶段（inference-only）**设计，并未端到端训练，这使其在高风险诊断环境中较为脆弱：智能体往往需要进行多次检索并与不断演化的推理过程交错，同时还要处理既往存在噪声的检索反馈。具体而言，它们存在三项关键局限：

检索—推理交错工作流僵硬。仅推理阶段的设计缺乏联合优化，使模型无法决定何时应调用工具、何时应进行推理。在诊断场景中，这种限制尤为突出：推理、病例匹配、指南查阅与知识检索必须以更高自由度交错进行，以允许分析焦点持续演化。

高度依赖人工设计的查询提示。这类系统依赖大量人工先验来定义检索查询规则，但在诊断场景中通用启发式几乎不可行，因为核心症状与疑似疾病随上下文变化巨大。

反馈驱动的自适应能力有限。静态的智能体工作流无法根据检索反馈调整生成。不同于纯知识类任务，诊断推理必须应对复杂临床病例等噪声证据，这对智能体式 RAG 系统带来显著挑战。

因此，我们提出面向医学诊断的智能体式 RAG 系统Deep-DxSearch。它不仅搭建了诊断型智能体 RAG 的基础组件——多样化检索工具、全面语料库与清晰的动作空间——还引入了一个完全可训练的、基于强化学习（RL）的设计，使智能体能够端到端联合优化检索—推理交错的动作策略，从而涌现出检索感知的诊断推理能力。

图1

我们首先整理了迄今规模最大的医学检索语料库（图 1b 右），以适配诊断场景中的智能体式 RAG。该语料库整合：

(i) 来自指南的 1,500+ 种疾病画像（包含特征症状与表型）；

(ii) 来自五个公开中心的 170,000+ 结构化患者病例；

(iii) 一个大规模知识集合，包含来自在线医学资源与科学文献的数十亿条经整理条目。

这些来源共同提供多源、多类型的检索工具与证据，从而支撑 Deep-DxSearch 的可追溯诊断决策。

更重要的是，Deep-DxSearch 的智能体式 RAG 策略通过端到端方式训练，并从大规模数据中自我学习。我们的 LLM 智能体核心包含五种动作模式——reason（推理）、lookup（查找）、match（匹配）、search（搜索）、diagnose（诊断）——用于逐步获取证据并透明推理。我们围绕四个维度设计最终奖励：输出格式、检索质量、分析组织结构、诊断准确性，以引导智能体式 RAG 系统学习最优轨迹、适配推理—检索策略，并在保持可追溯性的同时平衡决策质量与资源消耗。呼应 AI 领域著名的“苦涩教训（bitter lesson）”，我们认为在智能体式 RAG 设计中，可扩展的端到端训练也将优于手工启发式规则，尤其在诊断复杂、缺乏清晰人类先验的情况下更是如此。

我们在分布内（ID）与分布外（OOD）的跨中心数据上进行了全面评估（图 1c,d）。ID 基准包含来自六个公开数据集的 20,000+ 诊断病例，覆盖常见病与罕见病。OOD 评估中，我们额外加入：来自一个孟加拉语数据集（Mendeley）的 757 例常见病病例，以及来自新华医院的 798 例内部病例。在这一多样化测试平台上，我们得到四项关键发现：

(i) 我们的智能体式 RL 训练策略显著优于无需训练的智能体式 RAG 设计：在常见病 top-1 准确率上，ID/OOD 分别提升 9%/3%；在罕见病上，ID/OOD 分别提升 13.5%/5%。

(ii) 后训练后的 Deep-DxSearch 在 ID 与 OOD 条件下均大幅超过通用大模型与医学系统（图 1d）：对常见病，top-1 准确率相较医学基础模型最高提升 19%/17%（ID/OOD）；对罕见病最高提升 24%/17%。

(iii) 消融实验强调两点：奖励设计的有效性与检索语料库的贡献。我们面向检索与推理策略协同优化的奖励设计，使常见病 top-1 准确率提升 17%，罕见病提升 22%，优于仅对目标进行监督的方案。

(iv) 最终的可解释性分析进一步量化了智能体在训练中策略的演化，主要体现在三个关键维度：检索相关性、鉴别诊断能力、无关信息排除能力。

2 问题建模（Problem Formulation）

我们在RL框架下对该智能体式 RAG 系统进行形式化建模，其包含两个主要组成部分：

(i) 基于 LLM 的智能体 MθM_\thetaMθ，以及

(ii) 由大规模临床语料构成的外部环境 EEE，包括指南、知识库与患者病例记录。关于工作流建模的细节见第 5.1.1 节。

案例示例（Case Illustration）

为进一步阐明上述问题建模，我们给出一个具体案例：一名 51 岁男性，既往有 15 年酒精使用障碍史，出现一系列症状，最终被确诊为急性髓系白血病（acute myeloid leukemia, AML）。该病例采集自 MIMIC-IV [22]，并附带由 Deep-DxSearch 生成的可追溯诊断推理过程。

案例示例：一位确诊急性髓系白血病患者的诊断过程

临床呈现输入：

一名 51 岁男性，既往有 15 年酒精使用障碍史，表现为持续性血小板减少（85,000/µL）、胸主动脉瘤（4.2 cm）、乙状结肠憩室病、难治性高血压（160–180/95–105 mmHg）以及新发房颤。体格检查提示肝大、瘀点，以及伴乏力的出血倾向……

Deep-DxSearch 的可追溯诊断推理输出：

鉴于酒精使用史与血小板减少，首先应考虑酒精相关疾病（如肝硬化与门脉高压），以及常见的血液学原因……

酒精性肝病，门脉高压，免疫性血小板减少性紫癜

酒精性肝病：肝大、门脉高压、腹水、脾大、静脉曲张……

门脉高压：脾大、脾功能亢进、血小板减少、腹水……

ITP：孤立性血小板减少、黏膜皮肤出血、脾脏大小正常……

酒精相关疾病缺乏腹水/脾大表现；ITP 也无法解释多系统受累。主动脉瘤与房颤的组合模式并不匹配……

酒精使用，主动脉瘤，肠道憩室病，血小板减少，高血压，房颤

检索到的病例：原发性中枢神经系统淋巴瘤（多例）、原发性骨髓纤维化、肝细胞癌、巨细胞动脉炎……

广泛匹配提示可能涉及血液系统恶性肿瘤，但结果较为分散。应聚焦“血小板减少三联征”以定位最相关的疾病……

血小板减少，高血压，房颤

高相关：急性髓系白血病（骨痛、房颤、高血压、血小板减少）、慢性髓单核细胞白血病、T 细胞前淋巴细胞白血病……

进一步聚焦后指向急性白血病，尤其是 AML。应核验其典型临床表现，并探索酒精与血液系统异常的关联……

急性髓系白血病，原发性骨髓纤维化，慢性髓单核细胞白血病

AML：血小板减少、贫血、中性粒细胞减少、出血倾向、肝大、乏力……

原发性骨髓纤维化：血小板减少、脾大、全身症状……

|PMC| 酒精诱导的血小板减少机制、继发性 AML 的风险因素

慢性酒精摄入可导致骨髓抑制、增加治疗相关 AML 风险，并带来心血管并发症……

<diagnose> 急性髓系白血病，原发性骨髓纤维化，慢性髓单核细胞白血病，T 细胞前淋巴细胞白血病，原发性中枢神经系统淋巴瘤

3 结果（RESULTS）

首先给出医学检索语料库以及用于训练与评估的数据集的关键统计信息，然后使用 Acc@1 与 Acc@5 对诊断性能进行评估（细节见第 5.4 节）。结果表明，作为一种智能体式 RAG 设计，Deep-DxSearch 在不同 LLM 主干模型上都比既有方法更高效。将最佳配置（以 Qwen2.5-14B 为主干）与当前最先进（SOTA）的诊断基线进行对比，并进一步开展消融实验与可解释性分析，以说明端到端 RL 如何塑造智能体式 RAG 系统。

3.1 数据统计（Data Statistics）

本节总结了本研究所使用数据集的组成、统计特征与性质。我们首先构建了一个全面的医学数据资源，以支持检索、训练与评估，该资源由三个主要部分组成：

(1) 医学检索语料库；(2) 精选患者记录数据库；(3) 临床知识集合。

此外，我们还从多个来源汇总构建了专门的训练与评估数据集。

图2

医学检索语料库（Medical Retrieval Corpus）

该检索语料库整合了多样化医学知识，以缓解覆盖不足与数据不平衡问题，涵盖常见病与罕见病，并提供大规模、异质化的参考来源。

(i)疾病信息指南（Disease Information Guideline）：如图 2a 所示，我们从文献与网络来源中抽取表型与症状关联信息，整理得到覆盖 16,371 种疾病的数据，既包含常见疾病（ICD-10-CM¹），也包含罕见疾病（Orphanet²）。该过程共得到 257,022 对“疾病–表型/症状”配对（常见病 142,141 对；罕见病 114,881 对），并映射到 ICD、ORPHA 与 HPO³ 术语体系。该数据集对 ICD 代码（精确到小数点后一位）实现了完全覆盖（100%），对 ORPHA 代码覆盖率为 38.68%，并包含超过 50% 的 HPO 术语。多来源交叉验证确保数据有效性：每条常见病条目平均由 2.87 个独立参考来源支持，而罕见病注释来源于 Orphanet。

(ii)患者记录数据库（Patient Record Database）：该子集包含 177,029 条精选患者记录，具有已验证的诊断结论、临床呈现、用药史与主诉信息。表型信息通过自动化与human-in-the-loop标注相结合的方式抽取。如图 2b 所示，疾病分布在 14 个主要身体系统上呈现长尾形态。值得注意的是，患者的实际呈现与经典诊断标准之间存在显著差异（图 2b），凸显了真实世界病例的复杂性与多样性。

(iii)临床知识集合（Clinical Knowledge Collection）：我们进一步纳入了 331 万篇来自 Wikipedia⁴ 的生物医学文档、2390 万篇 PubMed⁵ 文章，以及 18 本标准医学教材，共形成125,847 段文献片段（图 2c）。由于这些来源多为非结构化文本，我们在训练与推理阶段采用大语言模型进行摘要，以应对输入长度限制。

训练与评估数据集（Training and Evaluation Dataset）

我们共整理得到 24,142 个临床病例，每个病例都包含“临床呈现”与“确诊诊断”的配对，来源包括 MIMIC 、PMC-Patients、MedDialog 、RareArena、RareBench、Mendeley，以及上海交通大学医学院附属新华医院。所有原始数据均经过严格的质量控制（病例清晰度、因果性、正确性），并依据 Orphanet 编码系统划分为常见病与罕见病两组。

如图 2d所示，数据集中 73.1% 为常见病病例，包括 MIMIC-C（7,257 例）、PMC-Patients（6,421 例）、MedDialog（3,206 例）与 Mendeley（757 例）；其余 26.9% 为罕见病病例，包括 MIMIC-R（2,184 例）、RareArena（3,242 例）、RareBench（277 例）与 Xinhua-Rare（798 例）。该数据集每个病例平均包含 4–12 个症状，各数据源覆盖的疾病种类在 85 种到 3,000+ 种之间不等。从地理分布上看，病例来自美洲、亚洲与欧洲五个国家或地区。

在模型开发阶段，我们将前五个分布内（ID）数据集按 3:1 划分为训练集与评估集；其余两个数据集 Mendeley 与新华医院数据集全部用于分布外（OOD）评估。

3.2 智能体式 RAG 系统设计对比（Comparison on Agentic RAG System Designs）

本节展示智能体式 RAG 系统设计（包含精选检索语料库与训练后的 RAG 策略）的有效性。将 Deep-DxSearch 与以下方法进行对比：

(i) 仅进行直接推理（direct inference）的原始（vanilla）模型；

(ii) 既有的“无需训练（training-free）”RAG 方法，在相同基础 LLM 上访问同一检索语料库。在分布内（Tab. 1）与分布外（Tab. 2）数据集上进行评估，覆盖多种不同的基础 LLM 家族与规模——包括 Qwen2.5-7B、Llama3.1-8B 与 Qwen2.5-14B——从而展示本方法带来的鲁棒性提升。

分布内（ID）评估（In-distribution Evaluation）

在 ID 评估中，我们使用六个域内数据集：MIMIC-C、PMC-Patients、MedDialog、MIMIC-R、RareArena 与 RareBench。我们首先以 Qwen2.5-14B 作为共享基座模型进行分析：

（1）使用我们的语料库的 training-free RAG vs. 直接推理的 vanilla 模型

我们比较这两种方法，以评估检索语料库的有效性。如表 1 所示，将语料库与 training-free RAG 结合后，在常见病与罕见病数据中心上、对所有基座模型均能持续提升性能。例如，对于 Qwen2.5-14B，MedDialog（常见病）的 top-1 准确率提升 6.82%（17.87% → 24.69%）；RareBench（罕见病）的 top-1 准确率提升 16.63%（18.07% → 34.70%）。这些结果表明，额外知识注入对诊断至关重要，并验证了我们的检索语料库设计的有效性。然而，相对有限的增益也提示：仅通过工程化提示将语料库简单接入仍不足够，仍需要进一步优化。

（2）智能体 RL 训练 vs. training-free 的检索增强（RAG）方法

比较这两种范式，以评估“带智能体监督的强化学习”如何增强对检索语料库的有效利用。如表 1 所示，相对于 vanilla 的 Qwen2.5-14B，我们的智能体 RL 方法带来显著收益：在 MedDialog 上，top-1 准确率提升 24.12%（24.69% → 48.81%），top-5 准确率提升 23.82%（36.22% → 60.04%）；在 RareBench 上，top-1 准确率提升 35.78%（34.70% → 70.48%），top-5 准确率提升 23.76%（59.20% → 82.96%）。这些结果表明，直接的检索增强提示相较基础模型仅带来有限收益，其对外部语料库潜力的挖掘仍受限制；相对而言，Deep-DxSearch 通过端到端策略优化与智能体 RL 训练，实现了显著更高的性能。

（3）完整 Deep-DxSearch vs. 直接推理的 vanilla 模型

最后，我们通过将方法与 vanilla LLM 直接对比，展示 Deep-DxSearch 的整体有效性（包括引入的检索组件与学习到的 RAG 策略）。如表 1 所示，Deep-DxSearch 在常见病上 top-1 准确率至少提升 23.56%（PMC-Patients：17.73% → 40.29%），最多提升 30.94%（MedDialog：17.87% → 48.81%）；在罕见病上，top-1 准确率至少提升 21.61%（RareArena：6.53% → 28.14%），最多提升 52.41%（RareBench：18.07% → 70.48%）。该对比揭示两点关键观察：

(i) 当前 LLM 虽具备一定诊断能力，但整体性能仍不足；

(ii) 引入检索语料库与智能体 RL 训练策略能够显著提升诊断准确率。

（4）跨不同基座模型的分析

除 Qwen2.5-14B 外，为展示方法的泛化能力，我们还在两种主干模型上评估 Deep-DxSearch：Llama3.1-8B 与 Qwen2.5-7B。如表 1 所示，在这些 LLM 上也能观察到相似的提升模式：我们的方法持续优于 vanilla 与 training-free RAG。例如，在 MIMIC-R 上，我们的方法使 Llama3.1-8B + RAG 的 top-1 准确率提升 26.97%（15.03% → 42.00%），并使 Qwen2.5-7B 提升 34.62%（17.82% → 52.44%）。在所评估的主干中，Qwen2.5-14B 的整体性能最强：在 MIMIC-C、RareArena 与 RareBench 上获得最高 top-1 与 top-5 准确率，并在 PMC-Patients、MedDialog 与 MIMIC-R 上获得最佳 top-5 准确率；仅有一个小例外是 Qwen2.5-7B 在 top-1 准确率上略微超过它。上述发现凸显了智能体 RL 相较其他策略的明确优势，并证明了其鲁棒性。基于这三种候选模型的整体表现，我们在后续实验中选择 Qwen2.5-14B 作为主干模型。

分布外（OOD）评估（Out-of-distribution Evaluation）

除 ID 设置外，我们也在 OOD 数据集上评估方法的有效性。该评估证实 Deep-DxSearch 并未对训练分布过拟合，而是学习到了更稳健、可泛化的检索增强诊断策略，并显著优于人工设计的 RAG 策略。我们采用两个域外数据集：公开的孟加拉语数据集 Mendeley（常见病）与来自新华医院的院内数据集（罕见病）。在 Deep-DxSearch 的开发过程中，我们严格保证训练数据不来自这两个中心，因此它们的测试病例代表了两个完全新的实际分布。

如表 2所示，我们观察到与 ID 评估相似的模式，可总结为三点关键发现：

第一，相比 vanilla 的 Qwen2.5-14B，结合检索语料库的端到端智能体 RL 训练带来显著提升：在常见病诊断中，top-1 与 top-5 准确率分别提升 8.87%（22.22% → 31.09%）与 8.09%（34.61% → 42.70%）；在罕见病诊断中，top-1 与 top-5 准确率分别提升 15.12%（20.01% → 35.13%）与 18.57%（27.20% → 45.77%）。

第二，相对于 RAG 基线，Deep-DxSearch 进一步增强检索增强性能：常见病 top-1 提升 4.50%（26.59% → 31.09%），top-5 提升 8.69%（34.01% → 42.70%）；罕见病 top-1 提升 7.51%（27.62% → 35.13%），top-5 提升 8.92%（36.85% → 45.77%）。

第三，训练带来的收益可跨不同主干模型泛化：在三种主干模型上，无论常见病还是罕见病诊断，top-1 与 top-5 准确率均呈现一致提升。

3.3 与其他诊断 SOTA 的比较（Comparison with Other Diagnostic SOTAs）

将采用Qwen2.5-14B作为主干的 Deep-DxSearch 视为一个完整的诊断系统，而不是将其仅视为某一种特定的 RAG 算法，并将其与其他诊断领域的 SOTA 方法进行直接对比。我们将 Deep-DxSearch 与一系列强基线进行评测，这些基线包括：用于诊断的通用大模型（通过提示词进行诊断）以及其他与医学诊断对齐的 SOTA 方法；评测同时覆盖常见病与罕见病，并在分布内（ID）与分布外（OOD）两种设置下进行。

分布内（ID）评估

此处使用的六个数据集与前文提到的域内数据集相同。

图3

Deep-DxSearch vs. 通过提示词用于诊断的通用大模型

该评估旨在判断：考虑到通用大模型已在医院场景中被使用，我们的方法在日常临床实践中是否具备竞争力。结果显示，Deep-DxSearch 在常见病与罕见病诊断任务上均优于 GPT-4o [30] 与 DeepSeek-R1 [31]（图 3a）。

对于常见病，Deep-DxSearch 的 top-1 准确率为43.04%，top-5 准确率为53.30%；相比表现第二好的通用模型 DeepSeek-R1（top-123.07%、top-534.76%），分别提升19.97%与17.54%。

对于罕见病，Deep-DxSearch 的 top-1 准确率达到49.25%，top-5 准确率为61.02%；相较于 DeepSeek-R1（top-119.57%、top-536.65%），分别提升29.68%与24.47%。

与“使用检索语料库增强的 GPT-4o”相比，Deep-DxSearch 仍带来额外提升：

常见病 top-1 准确率提升19.07%（23.97% → 43.04%）；

罕见病 top-1 准确率提升23.62%（25.63% → 49.25%）。

这些结果强调：经过训练的医学智能体式 RAG 系统具有显著价值，尤其是在低患病率疾病场景中，需要整合先验知识并对证据进行谨慎综合时更为关键。

Deep-DxSearch vs. 医学诊断对齐方法（medical diagnosis-aligned methods）

本方法与其他通过医学领域知识增强的模型进行比较，以评估是否达到 SOTA。与这些专门的医学诊断系统相比——包括 MedCPT（基于 medical CLIP 的模型）[32]、Baichuan-M1（医学 LLM）[33]、MedGemma（医学基础模型）[34]、MedRAG（医学 RAG 系统）[35]、CoD（诊断链式思维智能体）[36]、MAC（医学多智能体会诊系统）[37]——Deep-DxSearch 取得了整体最强表现（图 3b）。

在常见病数据集上，Deep-DxSearch 相比第二高的 top-1（由 Baichuan-M1 达到）高19.91%；相比第二高的 top-5（由 MedGemma 达到）高19.70%。

在罕见病数据集上，Deep-DxSearch 相比第二高的 top-1（来自 MAC）高23.68%；相比第二高的 top-5（来自 MedRAG）高23.72%。

在多数常见病数据中心以及全部罕见病数据中心上，Deep-DxSearch 均实现更高准确率（图 3c）。仅有一个例外：在 MedDialog 上，CoD 略优于 Deep-DxSearch。这是因为 MedDialog 曾被专门用于优化 CoD，但并未纳入其他数据集进行训练。总体而言，这些发现表明：尽管现有医学对齐方法试图通过注入领域知识、临床先验或专门推理来提高诊断准确率，但其鲁棒性与泛化能力，尤其对罕见病，仍然有限。相比之下，Deep-DxSearch 的检索—推理协同优化框架实现了显著更强的诊断性能。

分布外（OOD）评估

为评估 Deep-DxSearch 在未见过的条件下相对其他方法是否具备有竞争力的泛化能力（这能为技术优势提供更强证据，并对真实部署至关重要），我们进一步开展分布外（OOD）实验（表 3）。使用与第 3.2 节相同的评测数据，我们将 Deep-DxSearch 与通用大模型 DeepSeek-R1（通过提示词用于诊断）以及医学专用方法（MedCPT、Baichuan-M1、MedGemma、CoD、MedRAG、MAC）进行比较。由于新华医院数据存在隐私顾虑，此处不包含 GPT-4o。

如表 3 所示，Deep-DxSearch 在常见病数据集 Mendeley 与罕见病数据集 Xinhua 上，均以最小的模型规模（14B）取得最高的 top-1 与 top-5 准确率。

在常见病设置下，Deep-DxSearch 相比第二好的 MedRAG：

在罕见病设置下，Deep-DxSearch 相比次优结果：

值得注意的是，尽管 MedCPT 在罕见病设置下表现尚可（top-127.60%，top-540.08%），但其在 Mendeley 上表现较差，可能是由于该数据分布与其训练数据中使用的类别差异显著。

这些结果表明，Deep-DxSearch 学到的诊断工作流能够有效泛化到未见数据集与临床场景，在分布外条件下相较其他 SOTA 方法展现出一致更强的适应性与鲁棒性。

3.4 消融实验（Ablation Studies）

本节从两个层面给出消融实验：智能体 RL 的奖励组件设计与检索语料库的组成模块。

奖励设计的消融（Ablation studies on reward design）

除了基于最终诊断准确率的基础奖励外，我们进一步设计了三个辅助组件——格式奖励（format reward）、患者匹配奖励（patient-matching reward）与搜索奖励（searching reward）——三者共同构成策略奖励（policy reward）。这些组件在联合监督最终诊断结果的同时，引导检索与推理的协同优化。

图4

为评估其有效性，我们首先禁用策略奖励，得到仅以目标为导向的 RL 设置（target-only RL）。我们发现，该基础配置在训练后会导致诊断轨迹变得僵硬——“初步诊断 → 疾病知识检索 → 病例匹配 → 最终诊断”——并降低灵活性。因此，如图 4a所示，平均 top-1 准确率在常见病诊断中下降16.68%，在罕见病诊断中下降22.14%。

我们进一步评估 “Hint” 指标，该指标用于衡量：即使最终预测错误，推理过程中是否曾考虑到正确疾病。在仅目标导向的微调下，该指标在常见病下降7.53%，在罕见病下降9.17%。综合来看，这些发现显示：端到端智能体 RL 相比仅目标训练具有明确优势，强调了灵活推理的重要性，以及在优化最终结论的同时对中间诊断步骤进行联合优化的必要性。

检索语料库的消融（Ablation studies on retrieval corpus）

随后，我们进行逐步消融：从“包含全部组件的检索环境”开始，逐步移除各组成模块，直到训练阶段退化为“无环境的直接诊断”设置，以评估各模块对最终性能的影响。注意：所有报告的性能变化均相对于前一步消融设置。

如图 4a 所示：

(i)移除文档摘要模块，并将原始检索内容直接输入上下文，相比完整组件设置，常见病 top-1 准确率下降5.21%，罕见病下降5.61%。这反映出在缺乏针对性蒸馏时，输入长度限制与噪声放大会带来负面影响。

(ii)进一步排除临床知识集合（clinical-knowledge collection），相对于完整组件设置，准确率下降更小；并且其 top-1 仍比“无摘要模块”设置高 **3.79%（常见）**与2.72%（罕见）——提示当摘要缺失时，缩小上下文规模可在一定程度上缓解噪声，但代价是覆盖范围减少。

(iii) **移除疾病指南资源（disease-guideline resource）**会带来额外下降：常见病 top-1 下降1.58%，罕见病下降1.88%，表明其在结构化推理中起到支持性但相对次要的作用。

(iv) **排除相似病例检索（similar-case retrieval）**则造成显著下降：常见病 top-1 下降11.78%，罕见病下降17.46%，强调相似病例证据对诊断准确率具有很强贡献。

总体而言，各组件均对性能有实质贡献，其中患者记录检索最为关键，而摘要模块与临床指南提供了重要的互补增益。

3.5 学习到的 RAG 策略的可解释性分析（Interpretability Analysis of the Learned RAG Policy）

准确诊断不仅取决于最终的标签预测，还取决于其所依据证据的充分性、相关性与可靠性。因此，一个高效的诊断型 RAG 策略应当具备三个核心能力：

(i) 能够综合观察到的症状，组织最重要且最合适的查询，并检索当前相关的先验知识或病例；

(ii) 能够在多个竞争性诊断假设之间进行鉴别，并进一步明确后续检索或分析方向；

(iii) 具备抵抗误导性或无关返回信息的鲁棒性。

这些方面共同揭示了系统在证据收集与推理之间如何实现平衡，从而为理解其检索增强生成（retrieval-augmented generation）的动态过程提供洞见。

第 2 节的案例研究强调了结构化诊断工作流在获得准确结果中的作用。为定量考察这一效应，我们分析了 Deep-DxSearch 的诊断型 RAG 策略在训练过程中的演化。具体而言，我们将 Deep-DxSearch 与一种仅依赖最终诊断标签进行训练的target-only 智能体 RL方法进行比较，该方法没有中间策略监督。该对比使我们能够评估奖励函数对诊断准确率与过程透明度的影响，从而揭示模型通过强化学习学到了什么。为量化这些中间能力，我们设计并分析以下指标：

症状关联（Symptom Association，用于衡量检索自适应能力）：

该指标评估模型将显性症状及相关症状（可能发生在主诉之前、之后或伴随出现）与相关参考病例关联起来的能力。如图 4b（上）所示，我们使用hit@20进行度量：即检索到的前 20 个病例中，至少有一个病例与真实病例拥有相同诊断的比例。与 target-only 基线（仅有轻微提升）相比，Deep-DxSearch 的 hit@20 显著提升，从25.79%增至60.39%。

鉴别诊断（Differential Diagnosis）：

我们使用top-5 accuracy评估模型在候选诊断集合中识别正确诊断的能力；其定义为：真实疾病是否出现在模型最有信心的 5 个预测之中。基线方法从38.71%提升到45.00%，而 Deep-DxSearch 获得近30 个百分点的显著提升，达到71.07%（图 4b，中）。

无关信息排除（Irrelevance Exclusion）：

为评估鲁棒性，我们在检索过程中注入误导性参考材料：当查询语料库时，返回无关的指南、患者记录与医学文档。即使在这种设置下，Deep-DxSearch 的 top-5 准确率仍提升近10%（图 4b，下），而基线方法在训练过程中仅提升约5%，凸显了我们模型更强的无关信息过滤能力。

图4

我们的发现表明，Deep-DxSearch 在 RL 训练中，其智能体式 RAG 策略在三个核心方面得到提升：

(i)自适应检索策略——模型不断增强检索与诊断相关患者病例的能力；

(ii)鉴别诊断——模型更善于从合理候选中区分出正确诊断；

(iii)无关信息排除——模型在诊断过程中更能过滤误导性或不相关信息。

这些进步表明 Deep-DxSearch 形成了结构化且有效的诊断工作流；检索、推理与鲁棒性的增强共同促成了其优越性能。

4 讨论（DISCUSSION）

诊断仍是临床医学的核心难题，尤其在复杂或罕见疾病场景中更为突出。尽管大语言模型（LLMs）可以支持诊断推理，但其表现受到静态知识、幻觉以及不确定性下推理能力的限制 [38, 39, 40]。检索增强或工具增强的智能体方法（智能体式 RAG 系统）有望缓解部分问题，但多数方法对多轮查询调整的重视不足，难以适应医学语料的长尾分布 [41, 42] 与大量临床噪声 [43, 44, 45]。此外，在当前无需训练的智能体式 RAG 设计中，即使提示词的细微变化也可能导致截然不同的检索结果，但这种失效模式在实践中很少被系统性处理。现有 LLM 并未被明确训练去整合多轮或多源证据 [46]，从而导致诊断中的检索—推理轨迹次优 [47]。

我们提出 Deep-DxSearch：一个用于诊断的智能体式 RAG 系统，通过强化学习将证据获取与临床推理统一起来。Deep-DxSearch 并非被动消费检索内容，而是学习去控制证据收集过程：它能够构造并自适应调整查询，根据不确定性与反馈调节检索深度与来源，并过滤干扰项。这种智能体式控制提升了在数据稀缺或噪声场景下的鲁棒性，使得决策更准确且更符合上下文。我们的贡献主要包括三点：

(i) 构建了一个大规模、异质化的临床语料库，覆盖纵向患者记录、结构化指南与最新临床知识，以初步支撑可追溯诊断推理的智能体式 RAG 系统；

(ii) 更重要的是，提出一种带轨迹级 credit assignment 的软奖励 RL 框架，在多轮交互中联合优化智能体式 RAG 策略与推理过程；

(iii) 提供全面的多中心评测，与强通用 LLM 及具有代表性的诊断系统进行对比，显示在准确性与可靠性上均获得一致提升。

从技术角度看，当前医学 LLM 的训练高度依赖人工整理数据、人工构造指令与人工主导监督。进一步发展的主要障碍之一，是训练范式对人类先验的强依赖。这一限制在复杂临床情境中尤为明显，因为人类先验未必在统计意义上最优。我们的诊断多轮 RAG 场景正体现了这一挑战：随着检索反馈不断累积、推理条件持续变化，要获取能指导模型下一步动作的高质量标注监督变得困难，因为即使人类先验也难以定义最优解。因此，多数现有智能体式 RAG 系统采取仅推理（inference-only）的设计，依赖 LLM 的固有工具使用能力或精心设计的提示与工作流。

然而，正如 “The Bitter Lesson（苦涩的教训）”[21] 所强调的，人类知识与技能可能带来短期收益，却往往会逐渐过时；持久优势在于从大规模数据中挖掘统计规律。类比而言，通过手工提示工程将 LLM 与多种检索工具拼接成诊断智能体式 RAG 系统，同样会限制模型在不同诊断范式与临床知识检索中探索并形成真正有效编排策略的能力——尤其是那些与检索工具复杂策略深度对齐的策略。因此，我们认为，相比既有统计型智能体式 RAG 设计，我们的 RL 方法（结合可验证的关键结果奖励，并给予更大生成自由用于探索与搜索）更有希望推动可追溯诊断推理的智能体式 RAG 系统持续改进。我们的实验为此提供了积极证据。

我们的分析表明：与无需训练的 RAG 方法相比，端到端训练显著优于“结合检索反馈的上下文学习”，凸显纯提示工程能实现的优化空间有限。与仅目标奖励监督相比，我们的智能体 RL 训练由于对推理与检索策略进行协同监督而取得更优诊断表现，进一步说明奖励设计的有效性。通过该定制化训练方法，Deep-DxSearch 在常见病与罕见病诊断上均达到 SOTA 准确率，不仅超过更强基线 LLM（包括参数规模大得多的 671B DeepSeek 与闭源 GPT-4o），还超过多类竞争性诊断系统，如医学基础模型、诊断智能体与多专家会诊系统。除分布内对比外，我们还在常见病与罕见病的零样本（zero-shot）分布外设置下开展实验，证明 Deep-DxSearch 具有全面泛化能力，超过所有其他竞争者。进一步的可解释性研究显示，Deep-DxSearch 在训练过程中逐步改进其诊断策略，具体表现为：

(1) 将关键症状关联起来以实现更准确的知识检索；

(2) 从候选列表中识别最可能的诊断；

(3) 排除无关或误导信息从而提升鲁棒性。

因此，我们将 Deep-DxSearch 的关键结论总结如下：

通过定制化智能体 RL 训练获得更高的诊断准确率。

在 ID 与 OOD 评估下均相对竞争者保持一致优势。

RAG 策略获得大幅增强，生成更可靠、可追溯的诊断过程。

我们的发现为医学基础模型指出一条前进路径：外部知识获取与推理应当被协同优化，查询构造应被视为一等学习目标，而不是提示工程的事后补丁。更广泛地说，对信息收集过程的智能体式控制也可能惠及其他安全关键领域，在这些领域中证据往往碎片化、噪声大且呈长尾分布。

5 方法（METHODS）

本节首先详细介绍所提出的 Deep-DxSearch 框架的体系结构与策略目标。随后，我们介绍智能体 RL 训练的实现细节。最后，我们概述用于评估诊断性能的评测流程与指标。

5.1 系统设计（System Design）

Deep-DxSearch：一个用于控制“检索增强诊断流水线”的智能体强化学习框架。检索增强为系统提供对外部临床语料库的访问能力；而智能体策略学习“何时、如何”使用这一访问能力——包括查询什么、是否需要改写查询、信任哪些来源、如何整合证据，以及何时做出诊断决策。将工作流形式化为五种有限动作类型，覆盖证据获取与推理全过程。策略学习通过软奖励与任务目标对齐，对检索质量、证据整合与诊断正确性进行联合监督。随后将详细说明用于学习稳定且样本高效策略的训练策略。

5.1.1 主工作流形式化（Main Workflow Formulation）

5.3 基线方法（Baselines）

我们首先介绍与本智能体 RL 训练方法对比的其他训练/提示方法设置，随后进一步将 Deep-DxSearch 与七类竞争性基线进行对比，包括领域适配医学 LLM、基础模型、检索增强方法与多智能体框架等。

基础训练与提示方法（Basic Training & Prompting Approach）

直接推理的 vanilla 模型：仅通过提示让 vanilla 模型基于内部知识直接诊断，无任何后训练；此设置下禁用医学检索语料库。输入为自由文本临床呈现，不实现链式思维推理。

无需训练的 RAG 增强提示（Training-free RAG-augmented prompting）：为比较，我们纳入一种基于提示工程的方法，使用相同检索语料库（LLM 可在其决定的任意时刻与语料库交互）。该推理-only 设置采用与智能体 RL 相同的提示设计（见补充材料），但不引入任何奖励机制进行优化。

仅目标 RL 训练（Target-only RL training）：与我们的智能体 RL 不同，该变体移除用于引导推理与检索过程优化的策略奖励，仅基于目标输出进行监督。为公平比较，我们使用与完整智能体 RL 相同的环境设置与训练参数。

竞争性临床诊断方法（Competing Clinical Diagnostic Methods）

通用大语言模型：本工作使用 Qwen2.5 [52] 与 Llama3.1 [53] 系列作为 RL 训练的 vanilla 主干。考虑成本—效果权衡，我们使用 Qwen2.5-7B-Instruct、Qwen2.5-14B-Instruct、Llama3.1-8B-Instruct。作为更大规模对照基线，我们采用闭源 GPT-4o [30] 与开源 DeepSeek-R1 [31]，并通过官方 API 访问 DeepSeek-R1-0528 与 gpt-4o-2024-11-20。

生物医学 CLIP 编码器：此类模型在大规模生物医学文本上用对比学习训练。我们选用代表性方法 MedCPT [32]：将临床呈现视为“article”，诊断视为“query”。使用官方 Hugging Face 检查点 ncbi/MedCPT-Cross-Encoder。

医学大语言模型：在医学语料上对通用 LLM 做领域自适应预训练（DAPT）是常见临床适配方式 [54]。我们选用 Baichuan-M1 作为基线，使用官方检查点 baichuan-inc/Baichuan-M1-14B-Instruct。

医学基础模型：该类模型作为多模态、多任务泛化器。Meditron [55]、MedFound [56] 等在多样临床场景（含诊断）中表现强。我们选用 MedGemma [34]，因其更强的指令遵循能力与更近的医学知识截断；使用官方检查点 google/medgemma-27b-text-it。

医学 RAG 框架：不同于我们的检索方式，这类方法通常依赖系统提示中指定的通用医学知识语料库，且不做微调。我们纳入 MedRAG [35]，遵循官方实现 Teddy-XiongGZ/MedRAG。

链式思维智能体模型：通过监督微调（SFT）引入 chain-of-thought 范式，以显式推理增强诊断能力。我们选用 CoD [36]，使用官方检查点 FreedomIntelligence/DiagnosisGPT-34B。

多智能体会诊系统：多专家会诊是临床常见且有效的实践。近期智能体系统通过多个智能体扮演专家角色提升诊断可靠性。我们选用 MAC [37]，遵循官方实现 geteff1/Multi-agent-conversation-for-disease-diagnosis。

5.4 评估设置（Evaluation Settings）

本节首先定义用于评估模型性能的指标，然后描述用于全面基准测试的实验设置。

指标定义（Metric Inclusion）

Top-N 准确率（Acc@N）[57]：常用指标，衡量正确诊断是否包含在 top-N 预测中。若最可能的 N 个预测疾病中任意一个与真实诊断一致，则该病例计为 “Top-N 正确”。指标取值 0–1，表示 Top-N 正确病例占比。

Hit@N：仅用于评估 Deep-DxSearch 的诊断策略。在患者记录匹配中，若检索到的 top-N 记录中任意一个与真实诊断一致，则记为一次 hit。指标取值 0–1，表示 hit 的比例。

Hint 分数：用于诊断过程研究。衡量即使最终诊断错误，推理过程中是否提及真实疾病，从而为临床医生提供潜在“提示”。指标取值 0–1，表示包含此类提示的诊断工作流占比。

基准测试设置（Benchmark Setup）

为研究 Deep-DxSearch 在智能体 RL 训练下是否提升、与 SOTA 方法相比表现如何，以及其最优策略如何导向更准确诊断，我们从多个维度开展综合评估：

第一，我们将“带检索增强的智能体 RL 训练”与“vanilla 直接推理”对比，以评估诊断能力提升；随后在考虑计算成本的前提下调整训练基座，选择最佳主干模型。具体而言，我们基准比较 Qwen2.5-14B-Instruct、Llama3.1-8B-Instruct、Qwen2.5-7B-Instruct，并以 top-1 与 top-5 准确率评估。

第二，我们比较 Deep-DxSearch 与无需训练的 RAG 方法，以展示智能体 RL 增强训练相较“直接检索+推理”的优势。具体而言，两者均以 Qwen-14B-Instruct 作为基座，并同时与 vanilla 模型对比；评估指标为 top-1 与 top-5 准确率。

第三，我们将框架与通用大模型及医学专用方法进行对比，包括 Qwen2.5 系列、Llama3.1-8B、DeepSeek-R1、GPT-4o、MedCPT、Baichuan-M1、MedGemma、CoD、MedRAG 与 MAC。对比覆盖 3 个常见病 ID 数据集、3 个罕见病 ID 数据集，以及 2 个 OOD 数据集（常见病与罕见病各一个），用 top-1 与 top-5 准确率衡量。

第四，我们将“智能体 RL 训练的 Deep-DxSearch”与“无中间策略奖励的 target-only RL”对比。两者以 Qwen-14B-Instruct 为基座，评估 top-1、top-5 与 Hint 分数，并在常见病与罕见病任务上取平均。

第五，我们进行组件消融实验，通过逐步移除检索语料库元素，将模型从“全组件”过渡到“vanilla”，以评估各模块影响。以 Qwen-14B 为基座，评估 top-1、top-5 与 Hint 分数。

第六，我们评估 Deep-DxSearch 在训练过程（从头到 800 steps）中关联症状的能力，使用 Hit 指标；并以 target-only RL 作为对照基线，用 Hit@20 衡量检索性能。

第七，我们评估 Deep-DxSearch 在鉴别诊断方面的能力，验证检索到的患者记录中是否至少有一个与真实诊断一致。以 target-only RL 为基线，在训练过程中用 top-5 准确率评估。

第八，我们评估 Deep-DxSearch 排除无关信息的能力：在训练中向其提供完全干扰性的检索数据。我们同样使用 target-only RL 进行对比，并通过最终诊断结论的 top-5 准确率评估该能力。

【声明】内容源于网络

ExcellPro

让优秀的人更加出类拔萃

内容 0

粉丝 0

ExcellPro 让优秀的人更加出类拔萃

总阅读0

粉丝0

内容0