元龙科普丨搜索智能体 RAG 新范式：s3 以少量样本铸就卓越性能- 大数跨境

首页

元龙科普丨搜索智能体 RAG 新范式：s3 以少量样本铸就卓越性能

元龙数字智能科技

2025-06-17

搜索智能体RAG新范式

s3 以少量样本铸就卓越性能

当前，Agentic RAG（Retrieval-Augmented Generation，检索增强生成）正逐步成为大型语言模型访问外部知识的关键路径。通过这一技术，模型能够在生成文本时，从外部知识库中检索相关信息，从而提升生成内容的准确性与丰富度。但在真实实践中，搜索智能体的强化学习训练并未展现出预期的稳定优势。一方面，部分方法优化的目标与真实下游需求存在偏离，导致模型训练方向出现偏差；另一方面，搜索器与生成器间的耦合也影响了泛化与部署效率，使得模型在不同场景下的应用受到限制。

在此背景下，来自 UIUC & Amazon 的研究团队提出了 s3（Search-Select-Serve），这是一种训练效率极高、结构松耦合、生成效果导向的 RL（强化学习）范式。该方法使用名为 Gain Beyond RAG (GBR) 的奖励函数，以此衡量搜索器是否真的为生成带来了有效提升。实验表明，s3 在使用仅 2.4k 训练样本的情况下，便在多个领域问答任务中超越了数据规模大百倍的强基线，如 Search-R1、DeepRetrieval 等，展现出了强大的性能与潜力。相关研究成果以 “s3: You Don’t Need That Much Data to Train a Search Agent via RL” 为题发表，论文链接为https://arxiv.org/pdf/2505.14146，代码仓库为https://github.com/pat-jj/s3 。

RAG 系统的发展可大致分为三个阶段。第一阶段是 Classic RAG，这一阶段使用固定 query、BM25 等 retriever（检索器），生成器对检索结果无反馈。模型只是简单地根据固定的检索策略获取信息，然后由生成器进行内容生成，缺乏对检索过程的优化与调整。第二阶段是 Pre-RL-Zero Active RAG，引入了多轮 query 更新，如 IRCoT、Self-RAG 等，部分通过 prompt 引导 LLM 检索新信息。其中，Self-RAG 进一步通过蒸馏大型模型的行为，训练小模型模拟多轮搜索行为，使得模型能够在一定程度上根据生成需求动态调整检索策略。第三阶段是 RL-Zero 阶段，强化学习开始用于驱动检索行为。代表方法如 DeepRetrieval，以 Recall、NDCG 等搜索指标为优化目标，专注于检索器本身的能力提升；Search-R1 则将检索与生成联合建模，以最终答案是否 Exact Match（精确匹配）作为强化信号，优化整合式的搜索 - 生成策略，尝试从整体上提升模型的性能。尽管 RL 方法在思路上更具主动性与交互性，为 RAG 系统的发展带来了新的活力，但在实际落地中仍面临诸多挑战，导致其优势未能充分发挥。

研究团队对当前 Agentic RAG 方案效果不稳定、训练难、迁移能力弱的原因，归纳为以下三点。其一，优化目标偏离真实下游任务。以 Search-R1 等方法为例，其采用 Exact Match (EM) 作为主要奖励指标，即答案是否与参考答案字面一致。然而，这一指标过于苛刻，对语义变体不敏感。在训练初期，由于信号稀疏，容易导致模型优化 “答案 token 对齐” 而非搜索行为本身。例如，对于问题 “美国第 44 任总统是谁？”，回答 “Barack Obama” 会被判定为正确，而回答 “The 44th president was Barack Obama.” 却会被判定为错误（EM=0）。这种不合理的信号会诱导模型在生成阶段做格式补偿，无法真实反映搜索策略本身是否有效，从而使得模型的优化方向与实际应用需求产生偏差。其二，检索与生成耦合，干扰搜索优化。将生成纳入训练目标（如 Search-R1），虽然在一定程度上可以提升整体答案准确率，但也带来了一系列问题。首先，无法明确判断性能提升究竟来自 “更好的搜索”，还是 “更强的语言生成对齐能力”，这使得对搜索策略的优化效果难以准确评估。其次，该方式对 LLM 参数依赖强，不利于模型迁移或集成到不同的应用场景中。此外，微调大模型成本高，限制了训练效率和模块替换的灵活性，增加了实际应用的难度与成本。其三，现有评价标准无法准确衡量搜索贡献。传统的 QA 指标，如 EM、span match 等主要关注输出结果，与搜索质量关联有限。而 search-oriented 指标（如 Recall@K）虽可度量 retriever 性能，却无法体现这些信息是否真的被模型 “用好”，即是否对生成结果产生了积极有效的影响。这些偏差直接导致现有 RL Agentic RAG 方法在评估、训练和泛化上均存在瓶颈，难以准确评估搜索器的实际作用，进而影响了模型的进一步优化与应用。

s3 的出发点十分简单：如果真正关心的是 “搜索提升了生成效果”，那就应该只训练搜索器、冻结生成器，并以生成结果提升为奖励。这便是 “Gain Beyond RAG（GBR）” 的核心定义。具体而言，GBR 衡量的是用 s3 搜索到的上下文喂给 Frozen Generator（冻结的生成器）之后的生成效果，相比初始的 top-k 检索结果是否更好。值得注意的是，s3 训练时始终初始化于相同的原始 query，从而能清晰对比 s3 检索对结果带来的真实 “增益”。

为了更准确地评估生成结果，研究团队采用了更语义友好的 Generation Accuracy（GenAcc）指标。它结合了两种机制：一是 Span Match，判断生成答案是否包含参考答案的任意 token span，通过这种方式来初步判断生成答案与参考答案在内容上的匹配程度；二是 LLM Judge，由一个轻量 LLM 判断答案是否语义正确，利用语言模型的理解能力对答案的语义合理性进行评估。两者只要任意一个通过，则视为正确。经实验验证，这一指标在人工对比中与人类判断一致率高达 96.4%，相比之下，传统的 EM 指标仅为 15.8%，GenAcc 指标在评估生成结果的准确性与合理性方面具有显著优势。

在训练过程中，研究团队采用 PPO（近端策略优化算法）进行策略优化。为了提升训练效率，采取了以下措施：预筛除掉了 “naive RAG 就能答对” 的样本，将训练资源集中在真正需要检索新信息的任务上，避免在简单样本上浪费训练时间与资源；Generator 完全冻结，训练代价完全集中在 Searcher，大大降低了训练的复杂性与成本。通过这些优化，s3 训练总时间只需 114 分钟，而与之对比的 Search-R1 则需要 3780 分钟，同时 s3 所需的数据量也减少约 70 倍，展现出了极高的训练效率。

在针对通用 QA 任务的实验中，结果显示 s3 优于 Search-R1 和 DeepRetrieval。团队在六个通用数据集上评估了 Direct Inference、Naive RAG、IRCoT、DeepRetrieval、Search-o1、Search-R1 以及 s3 的性能。实验中，使用了不同的下游 LLM，包括 Qwen2.5-7B-Instruct，Qwen2.5-14B-Instruct 和 Claude-3-Haiku。尽管 s3 仅使用了 2.4k 条 NQ+HotpotQA 训练数据（training source 和 Search-R1 一样），但它在其中五个数据集上实现了最优表现，充分展现出显著的泛化能力，即使在训练数据相对较少的情况下，也能在多种通用数据集上取得良好的效果。

随后，研究团队在五个医学领域的 QA 数据集上进一步评估了模型性能，测试使用了两个语料库：Wikipedia2018（与通用测试一致）和 MedCorp（ACL 2024）。结果显示，Search-R1 在其训练语料上表现良好，但在语料变更后显现出过拟合趋势；相比之下，s3 能稳定迁移至不同的数据集与语料库，凸显出其基于 searcher-only 优化策略的强泛化能力。这一实验结果表明，s3 在跨领域应用中具有明显优势，能够适应不同领域的知识检索与问答需求，为实际的多领域应用提供了有力支持。

图 5 展示了 s3 的 reward 曲线，可以看出 s3 在接近 10 个训练步骤（batch size 为 120）内便迅速 “收敛”。这一现象支持两个推断：预训练语言模型本身已具备一定的搜索能力，只需通过合理的方式 “激活” 这种能力，s3 的训练方式恰好能够有效地激发模型的潜在搜索能力；在一定范围内，适当增加每轮搜索的文档数量和最大轮次数，有助于提升最终性能，为进一步优化模型性能提供了方向。

研究团队进一步通过消融实验，验证了 s3 框架中两个关键设计的必要性。实验发现，以用户原始问题作为第一轮检索的起点，有助于模型明确搜索目标、建立有效的检索路径。若不设置这一初始点，搜索策略往往偏离主题，导致性能显著下降。这表明从原始问题出发能够为搜索过程提供正确的导向，确保模型朝着与问题相关的方向进行信息检索。此外，“文档选择” 机制允许模型在每轮检索后主动筛选信息，从而避免将所有检索结果一股脑送入生成器。通过这一设计，s3 的输入 token 平均减少了 2.6 至 4.2 倍，不仅提升了效率，减少了计算资源的浪费，也减少了噪声干扰，对生成效果有正面作用，使得模型在处理信息时更加高效、准确。总体来看，s3 设计中的 “起点初始化 + 动态选择” 是支撑其高效、强泛化性能的关键。即使在某些数据集上通过增加输入内容能获得短期增益，s3 原始结构在训练效率、推理速度与生成准确率上依然展现出更稳定的优势，为实际应用中的搜索智能体训练提供了一种可靠、高效的解决方案。

对于报告的 Search-R1 结果与原论文不一致的问题，原因在于 Search-R1 原文使用 Exact Match（EM）作为 reward 和评估指标，并对模型进行了针对性微调。将这种针对 EM 优化的模型，与其他 zero-shot 方法比较，略显不公平，也难以衡量搜索本身的效果。因此研究团队采用更语义友好的 Generation Accuracy（GenAcc），结合 span 匹配和 LLM 判断，与人类评估一致率达 96.4%。相比之下，EM 只能捕捉字面一致，反而容易误导模型优化方向，使得评估结果无法真实反映模型的搜索能力与生成效果。

而关于 s3 为什么不训练生成器，是否限制了模型性能的疑问，其设计的核心理念是：如果想真正优化搜索效果，不应让生成器被训练，否则会混淆 “搜索变好” 与 “语言模型变强” 带来的增益。冻结生成器不仅提升了训练效率，节省了大模型微调成本，也便于模型迁移到不同任务与生成器，真正做到 “搜索能力即插即用”。通过专注于搜索器的优化，s3 能够更精准地提升搜索策略的有效性，为生成器提供更优质的检索信息，在不依赖生成器训练的情况下，依然能够实现出色的生成效果，同时提升了模型的通用性与灵活性。

END

【声明】内容源于网络

元龙数字智能科技

永做第一使命第一向善第一

内容 901

粉丝 0

元龙数字智能科技永做第一使命第一向善第一

总阅读1.3k

粉丝0

内容901