

RAG系统如何科学评估？沙丘智库发布《RAG系统评估方法论研究报告》

沙丘社区

2025-04-22

导读：企业级RAG系统评估指南

作者｜沙丘智库研究团队

来源｜沙丘社区（www.shaqiu.cn）

RAG（Retrieval-Augmented Generation，检索增强生成）是一种人工智能框架，旨在利用大语言模型（LLM）进行跨外部知识源的自然语言查询。RAG的核心思想是通过“外挂知识库”的方式给大模型提供更可靠的知识来抑制模型产生幻觉，通过定期迭代知识库的方式解决大模型知识更新慢和训练成本高的问题。

借助LangChain、LlamaIndex等工具，RAG系统的创建过程已经变得相对简单，但在此基础上做优化则很复杂。在《2024年“大模型+RAG”最佳实践报告》中，沙丘智库总结了企业在RAG系统建设中的常见问题与最佳实践。

除了上述对RAG链路本身的优化以外，对RAG系统的性能进行持续监控和评估也是确保其在实际应用中高效、可靠且安全运行的关键。因此，沙丘智库发布《RAG系统评估方法论研究报告》，通过研究RAG系统的评估方法，旨在为企业RAG系统的应用投产提供参考。

在报告中，沙丘智库将RAG系统评估流程总结为如下三步——“构建测试数据集->开展测试->结果评估”：

第一步：构建测试数据集。评估RAG系统的第一步是准备全面的测试数据集，测试问题、检索文档和基准答案需要被整合到一个连贯的数据集中，确保测试过程的逻辑性和有效性。具体来说，需要确保检索文档中包含正确答案，且答案需要紧密围绕测试问题的核心主题。

第二步：开展测试。准备好测试集后，就可以进行RAG系统的实际测试。在测试时，RAG系统会生成查询、检索内容并生成答案，将生成的答案与测试数据集中预先准备的基准答案进行比较，评估系统准确理解并回答问题的能力。

第三步：结果评估。结果评估包括自动化评估和人工评估两种方式，长期来看自动化评估是RAG评估的主流发展方向。当前自动化评估的主要方式是预定义评估指标，然后进行自动化对比，一些基于LLM的创新评估方法也在兴起，但目前只能作为提升整体评估效率的补充。人工评估是评估RAG系统性能最可靠的方法，但考虑到时间和资源需求，最好的方式是在人工评估前先利用自动化评估方法，并将人工反馈纳入到RAG评估的持续优化中。

* 以上内容节选自沙丘智库《RAG系统评估方法论研究报告》

完整报告：沙丘智库《RAG系统评估方法论研究报告》（16页PPT）

报告目录

1.RAG定义

2.RAG与提示工程和微调的对比

3.RAG系统评估的重要性

4.RAG系统链路及评估点

5.RAG系统评估流程

6.确定RAG系统评估指标

▎更多研究

2024年“大模型+RAG”最佳实践报告

AI Agent架构设计模式研究报告