

从零开始做一个语义搜索引擎：基于LangChain与Qdrant的实战指南

PyTorch研习社

2025-08-14

在 AI 应用中，检索增强生成（RAG） 已成为提升大模型能力的核心手段。

在进入 RAG 正式搭建之前，我们先来学一个基础但超有用的技能：语义搜索。

与传统的关键词匹配不同，语义搜索会根据“意思”而不是“字面”去检索文档。这样，即使你的查询语言不同（比如用中文搜英文文档），也能找到相关内容。

本文带你一步步构建一个针对 PDF 文档的语义搜索引擎，核心流程如下：

LangChain 提供了 Document Loader 抽象接口，可以轻松把各种数据源导入 AI 应用。
我们用 PyMuPDF4LLMLoader 来加载 PDF：

安装方法：

pip install langchain-pymupdf4llm

一页的内容通常太多，不利于精准匹配。
我们用 RecursiveCharacterTextSplitter 把文档切成：

这样能避免切断重要上下文，提高检索效果。

语义搜索的核心思想是：

把文本转换为向量（Embedding），再通过向量相似度进行匹配。

这里我们使用 阿里云 DashScope 的 text-embedding-v4 模型：

生成后的向量可以直接进行相似度比较（如余弦相似度）。

有了向量，就需要一个“语义数据库”来存放它们。
我们选择 Qdrant：

创建集合、批量写入向量后，就能通过 Qdrant 的搜索功能快速找到相关内容。

LangChain 提供统一的 Retriever 接口，把底层的向量数据库封装成可直接调用的检索工具。

支持多种模式：

这样，你就能轻松将它与 RAG 应用结合，实现“先检索，再生成”的强大功能。

通过以上 5 步，我们就能从零搭建一个PDF 语义搜索引擎，实现跨语言、高语义精度的文档查询。

下一步，把它和 LLM 结合起来，你就能做出一个智能问答系统——比如，直接用中文问“耐克在美国有多少配送中心？”，系统就能帮你从英文财报中找答案。

本系列课程源代码位于：

https://github.com/realyinchen/AgenticRAG

课程的文字版将发布在我的知识星球：

如果你对提示工程感兴趣，可以进入微信公众号主页，进入【提示工程】专栏：

【声明】内容源于网络

PyTorch研习社

打破知识壁垒，做一名知识的传播者

内容 811

粉丝 0

PyTorch研习社打破知识壁垒，做一名知识的传播者

总阅读35

粉丝0

内容811