在前几期的教程中,大家听到的应该主要是 OceanBase 基础组件相关的内容。本期教程我们将带领大家了解向量数据库及 RAG 原理解析。
近年来人工智能技术的火热发展,使向量数据库这种新型数据存储系统应运而生,并成为了一个研究热点,OceanBase 也基于现有的分布式原生关系型数据库架构扩展出了向量存储能力。
10月15日,《从0到1数据库内核实战教程》第八期将带大家了解向量数据库和 RAG 技术的架构、核心技术以及应用场景。
对于关注应用层面的同学们,本期教程可以帮助大家了解向量数据库如何成为 AI 应用的存储基座、甚至能够自己搭建一个基于向量搜索的应用。而对于希望深入了解实现原理、参与后续大赛甚至 OceanBase 向量存储功能贡献的同学们,本期课程是一个非常重要的入门课程。
本期能帮你解决什么问题?
1.了解 RAG 技术的架构和演进,技术细节有哪些?
2.向量数据库是什么?核心术有哪些?
3.如何应用向量数据库?
4.在分布式原生关系型数据库上实现向量存储功能,我们需要考虑哪些问题?
直播内容抢“鲜”知
PowerRAG
PowerRAG 是一个一站式的开发平台,它包括智能体开发平台、任务平台、文档服务(知识库)、模型服务、数据库服务(OceanBase);其中各个服务之间是松耦合,每个服务都可以单独提供服务。文档服务的部分组件能力也可以单独提供服务。
向量数据库
OceanBase 是一个相当成熟的分布式原生关系型数据库,看了前几期教程的同学们一定深有体会。本期给大家介绍一个新颖且有趣的话题——向量数据库。
向量数据库是 OceanBase 多模能力版图中的一部分。在人工智能技术领域,多模态的数据通常会被表示为一个 float 类型的数组,或者更常见的说法是向量。多媒体数据不再是直接存储二进制表示形式,而是转化为一个包含语义或者特征信息的数学表示形式,或者说向量即特征。
这也就意味着,找到一个向量的相似向量,对应地就能找到一个多媒体数据相似的数据,这一表示形式使得智能推荐成为可能。但是在一个智能推荐系统当中存储的数据是海量的,如何在大规模向量数据中进行高效的相似搜索成为一个重要的问题,于是向量数据库应运而生。
向量数据库是什么
构建一个向量数据库的关键就是实现高效的相似向量搜索算法。本期教程会首先介绍如何在数学上描述向量之间的相似度,然后会给大家介绍 IVFFLAT、HNSW 以及 DISKANN 三种目前在向量搜索中广泛使用的算法,并且比较三者的异同。
在了解了向量数据库的核心技术和知识点后,介绍怎么使用向量数据库。我们会以一个图搜图 demo 演示的方式,介绍多模态数据相似搜索的实现方式,并以 OceanBase 社区问答助手的实现架构介绍向量数据库如何在大模型搜索增强场景(RAG)成为存储引擎。
向量搜索 demo-以图搜图
最后,分享 OceanBase 实现向量数据库采用的设计方案和总体架构,总体上分为库内存部分和 OceanBase 存储部分库内存提供向量搜索核心算法支持,抽象为一个向量索引适配器。
OceanBase 维护三个内存组件:基线的 HNSW 内存索引、增量的 HNSW 内存索引以及维护记录可见性的内存 bitmap 而 OceanBase 存储部分,使用了扩展的索引辅助表结构,一个向量索引将对应 5 个索引辅助表来实现内存索引的 ACID。
总体架构
更多详细内容,敬请关注 10月15日 19:30 「从 0 到 1 数据库实战教程」,直播为大家揭晓。
往期课程回放:
https://open.oceanbase.com/course/641
赶快扫描下方二维码进入「从 0 到 1 数据库实践教程学习交流」群,关注课程动态,和更多小伙伴一起学习进步。

