

从复杂到简单：我们为什么要重新思考 AI 原生数据库

OceanBase

2025-11-24

导读：OceanBase seekdb 的意义在于：让 AI 开发回归本质。

从 2010 年，OceanBase 团队写下第一行代码开始，我们一直在为一个目标而努力：打造一个通用的关系型数据库系统。从 0.5 版本开始服务于支付宝核心业务，OceanBase 逐步增加了 SQL 功能、基于 Paxos 的一致性协议、Oracle 兼容、单机分布式一体化架构、AP 支持等特性。OceanBase 的功能越来越强大，也越来越复杂。

但从 2022 年开始，事情起了变化。

AI 的发展速度超出所有人预期。不仅是技术圈内部，整个社会对 AI 迭代的感知都在加速。这让我们意识到：AI 时代需要一款更敏捷、更灵活的数据库产品。

于是，过去几年，我们开始做一件和之前完全相反的事：把 OceanBase 从复杂做回简单。这个过程让我们获得了一些全新的视角——重新看待理解 AI 时代的数据库产品，思考未来的 AI 应用到底需要怎样的现代数据库能力。

这就是 OceanBase seekdb 的由来。

AI 时代，数据库应该给开发者提供什么？

回顾数据库的发展历程，每个时代都有不同的核心诉求。

第一阶段：Web2.0/ 业务在线化时代。数据库需要做一个可靠精确的记录系统。它记录的每一条数据都是关键的业务记录——支付宝的交易流水、银行的账务系统、医院和人社的民生数据。这个阶段，我们需要的是高性能、低成本的 TP 类数据库。

第二阶段：移动互联网时代/数据智能化时代。手机上记录的海量数据传到数据库后，需要更精确的分析。所以 OceanBase 开始做 AP 能力，支持列存、向量化执行框架，能跑出很好的 TPC-H结果，满足分析类场景的需求。

第三阶段：AI 原生时代。对数据库的需求已经不局限于 TP 和 AP。除了查询与分析，还需要真正去理解和推理。理解，需要数据库提供标量搜索、向量搜索、全文搜索、混合搜索等多样性的能力；推理，需要数据库与大语言模型（LLM）有机的融合，实现数据与模型的统一。数据库在这里发挥什么作用，如何解决开发者真正的痛点，是我们一直在思考的问题。

开发者面临的四大痛点

痛点一：数据类型越来越多样

除了传统的结构化记录，现在有图片、文档、视频，还有 JSON、GIS 类型的数据。这些多模态数据需要一个统一的存储系统来解决存储和计算的问题。

痛点二：性能和规模的双重要求

AI 场景对性能要求很高。一方面，写入的数据需要及时被查询到——这是 OceanBase 的天然能力，不仅 TP、AP 数据，AI 数据也要做到实时可查。另一方面，需要处理很高的规模，支持从单机到分布式的平滑扩展。

痛点三：智能处理流程过于复杂

我看过一些 AI 开发框架的典型用法：向量和全文要用不同的存储系统，查询时分别去向量库、全文库、标量库做检索，然后在上层代码里写很重的胶水逻辑把结果合并，再提供给大模型返回结果。

随着基础设施的发展，这些通用的、偏胶水类的需求，应该沉淀到底层基础设施里面来。让开发者的精力放在更加定制化的需求上，这是我们追求的方向。

痛点四：开发流程不够敏捷

MongoDB、MySQL、Redis——这些产品都能解决一部分场景的问题，但它们有完全不同的接口：MongoDB 是文档类接口，MySQL 是 SQL 接口，Redis 是 KV 接口。开发者需要学习不同的接口使用方法，还要处理这些系统各自的运维和高可用问题。

AI 时代数据库的四个特征

基于这些思考，我们认为 AI 时代的数据库需要具备四个特征：

第一，多模态。能够存储图片、视频、向量数据、JSON 文档、标量表——所有类型的数据；

第二，高性能。保证很好的吞吐、很好的延时，提供非常好的查询效果；

第三，智能化。把那些共性的 AI 能力沉淀到数据库里，让它具备像 AI 运行时大脑一样的能力；

第四，简单。完全面向开发者导向，遵循开发者的诉求。不是让开发者去适应数据库的复杂性，而是让数据库来适应开发者的使用习惯——足够轻量、足够易用、足够敏捷。

OceanBase seekdb：我们为什么要做这款产品？

OceanBase seekdb 是一款 AI 原生混合搜索数据库，基于 Apache 2.0 协议开源。它不是在 OceanBase 上打补丁，而是从 AI 应用的实际需求出发，重新思考数据库应该是什么样子。

多模数据与索引统一

在一个引擎内同时支持标量、向量、文本、JSON、GIS 等多模数据及索引。一张表可以同时包含向量索引、标量索引、全文索引。

这些索引从设计之初就是协同工作的。查询优化器知道如何在一次查询中同时利用它们，而且所有索引都在同一个事务域内，不存在"不一致窗口"。

混合搜索一次完成

向量、全文与标量过滤在一次查询中完成，并支持 Reranking——粗排加精排的多阶段搜索链路。

混合搜索从逻辑上分几个层次：首先基于标量过滤确认范围（可能是几千、上万、十万条结果），然后基于全文搜索和向量搜索做一次粗粒度排序（追求返回时间快、计算资源开销小），最后是精排（开销更大，排序结果直接返回给用户）。

OceanBase seekdb 的混合搜索同时支持所有这些流程。通过 DBMS_HYBRID_SEARCH 系统包，你可以用 boost 参数调整全文搜索和向量搜索的权重比例——如果更关注关键词匹配，提高全文搜索的权重；如果更关注语义相似性，提高向量搜索的权重。

混合搜索 DEMO

AI Inside：智能能力内置

这是 OceanBase seekdb 的核心设计理念：支持在数据库内完成向量嵌入、推理、提示词管理与重排，支持 Document-in / Data-out 的完整流程。

在极简开发模式下，我们内嵌了一个 Embedding 小模型。大家直接在官网下载的版本就具备内嵌小模型，可以不用关心 Embedding 带来的困扰——你输入的是真正意义上的文本，查询的也是真正意义上的文本，不用再去关注向量。

当对效果有更高追求时，我们也提供了方便的手段，让大家接入外部的大模型。seekdb 目前提供了四个核心 AI 函数：

AI_EMBED：把文本转换为向量嵌入
AI_COMPLETE：执行文本生成，支持提示词模板化复用
AI_RERANK：使用重排序模型对文本进行排序
AI_PROMPT：将提示词模板和动态数据组织成 JSON 格式

这些接口都是开放的，可以和多种外部模型配合使用，也可以通过一条 SQL 直接调用这些 AI 函数，返回对应的结果。

开发友好：更轻量，更易用

灵活的部署模式

OceanBase seekdb 提供嵌入式和服务器两种部署模式。

嵌入式模式：以轻量级库的形式嵌入应用，支持 pip 一键安装，适用于个人学习、快速原型开发，可高效运行于多种端侧设备。

pip install pyseekdb

服务器模式：推荐用于测试及生产环境，轻量易用。1C2G 的规格就能跑通 VectorDBBench 数据集，具备上生产的能力。

极简的 API 设计

除了标准 SQL 接口，我们还提供了一套 Schemaless API——可以不感知具体的 Schema，更简易地使用。创建数据库后，无需指定表的列和类型，我们会自动为对应的表创建字段和索引（包括全文索引和向量索引）。

插入文档时，内部会自动生成向量并存储；如果对效果有更高追求，也可以方便地使用外部模型。同时还支持为每个文档添加元信息，后续检索时会自动使用这些信息。

import pyseekdbclient = pyseekdb.Client()# create a knowledge basecollection = client.get_or_create_collection("product_database")
# Add product documentscollection.upsert(    documents=[        "Laptop Pro with 16GB RAM, 512GB SSD, and high-speed processor",        "Gaming Laptop with 32GB RAM, 1TB SSD, and high-performance graphics",        "Business Ultrabook with 8GB RAM, 256GB SSD, and long battery life",        "Tablet with 6GB RAM, 128GB storage, and 10-inch display"    ],    metadatas=[        {"category": "laptop", "ram": 16, "storage": 512, "price": 12000, "type": "professional"},        {"category": "laptop", "ram": 32, "storage": 1000, "price": 25000, "type": "gaming"},        {"category": "laptop", "ram": 8, "storage": 256, "price": 9000, "type": "business"},        {"category": "tablet", "ram": 6, "storage": 128, "price": 6000, "type": "consumer"}    ],    ids=["1", "2", "3", "4"])
# Hybrid search for high-performance laptopsresults = collection.query(    query_texts=["powerful computer for professional work"],  # Vector search    where={                                                   # Relational filter        "category": "laptop",        "ram": {"$gte": 16}    },    where_document={"$contains": "RAM"},                      # Full-text search    n_results=2)
print("\nResults:")for i, (doc, metadata) in enumerate(zip(results['documents'][0], results['metadatas'][0])):    print(f"  {i+1}. {doc}")

SQL 原生能力

OceanBase seekdb 源自 OceanBase 成熟的引擎，所有 SQL 能力完整继承。这些能力经过 15 年严格系统的打磨：

支持实时写入、实时可查
严格的 ACID事务保证
MySQL 兼容，现有应用可以平滑升级

架构对比：seekdb vs. 其他方案

我们把 OceanBase seekdb 和一些其他方案做了对比，帮助大家更好地了解不同产品的定位和差异。

方案一：事务型数据库+全文检索引擎

这是许多开发者熟悉的组合。事务型数据库存储业务数据，全文检索引擎提供全文检索，还可以再加一个向量数据库做语义搜索。

痛点一：多系统协调的复杂度。三个完全独立的系统，意味着三套不同的接口、三份配置文件、三套监控体系。开发者需要在应用层写大量“胶水代码”来协调这些系统。

痛点二：数据一致性难题。事务型数据库和全文检索引擎是两个独立的系统，数据同步是最大的痛点。CDC 延迟通常在几百毫秒到几秒之间，无法保证读到同一时间点的数据。

痛点三：运维复杂度。多套系统意味着更多运维工作——三套监控告警、三套备份恢复、三套高可用方案。当系统出现问题时，你需要判断是哪个环节出了问题。

方案二：专有向量数据库+传统事务数据库

如果应用以向量检索为主，可能会选择专用的向量数据库。

痛点一：缺失的全文检索。纯向量数据库通常对全文索引的支持有限。实际应用中，混合检索（向量 + 关键词）是非常常见的需求。

痛点二：没有事务保证。专有向量数据库并不是传统意义上的事务型数据库，向量数据和业务数据的一致性难以保障。

痛点三：胶水代码的负担。由于向量库只关注向量检索，复杂的业务逻辑都得在应用层实现。这些"胶水代码"往往占了整个应用代码的 50% 以上。

OceanBase seekdb 方案：一体化原生架构

核心差异：

事务保障下的索引实时更新。当你在 OceanBase seekdb 中更新一条记录时，全文索引和向量索引会在同一个事务中同步更新。要么全成功，要么全失败，不存在“不一致窗口”。

支持多模态数据存储与混合搜索。在同一个数据库内完成标量搜索、向量搜索、全文搜索构成的混合搜索，支持多模态存储，同时支持和模型的交互。

对比总结

通过上图可以看到，目前主流的几个产品都有其定位和侧重点。OceanBase seekdb 的差异化在于：在一个轻量级的系统中，同时具备向量搜索、全文检索、混合搜索、ACID 事务和 AI 函数能力——这在现有方案中是独一无二的组合。

我们做过内部测试，OceanBase seekdb 的性能是强于其他方案的。

典型应用场景

RAG 与知识检索增强

这是最典型的场景。OceanBase seekdb 的混合搜索能力——向量语义召回加全文关键词召回——非常适合企业知识库、客服智能助手、文档智能分析等应用。

我们的工程师也基于 OceanBase seekdb 很快做出了一个实践案例 MineKB。它是一个本地个人知识库桌面应用，支持多种文档格式的自动向量化和智能搜索，所有数据存储在本地保护隐私。性能测试显示，10000 个文档块的 Top-10 搜索仅需 15ms，是传统方案的 80 倍。

可查看链接：

https://www.oceanbase.ai/docs/zh-CN/build-kb-in-seekdb

AI Coding

AI Coding 场景和文档处理非常类似——都要做解析、分片、召回、查询、索引，Pipeline 基本一致，只是处理的内容不同：一边是文档，一边是代码片段。OceanBase seekdb 非常适合这类场景，我们也在和蚂蚁、阿里的 AI Coding 团队合作探索。

Agentic 智能体应用

配合 PowerMem 记忆系统，可以为智能体提供长期记忆能力。PowerMem 基于OceanBase seekdb 的混合搜索深度优化，在 LOCOMO Benchmark 上以 78.70 分登顶 SOTA，Token 消耗比传统方案降低 96%。

企业应用 AI 化升级

如果现在用 MySQL，可以平滑切换到 OceanBase seekdb——我们有非常好的 MySQL 兼容能力，以及继承 OceanBase 的 TP 能力。之前在 MySQL 场景下解决不了的 AI 相关需求，使用 seekdb 可以很好地支持。

端设备智能化

OceanBase seekdb 不仅可以用在服务端，也可以用在边缘端。完全同一套代码，端侧和云端均可部署，实现端云一体的能力。

PowerMem：让智能体拥有记忆

RAG 解决了知识检索的问题，但还有一个关键问题：记忆。

智能体的交互中，上下文往往很短，交互一段时间后就无法很好地回答早期的问题。记忆系统就是要解决这个问题——记录用户在使用 AI 产品过程中的交互逻辑、查询历史，这些完全是和用户个人相关的信息。

这听起来和 RAG 很像，但本质有很大区别。RAG 解决的是大模型时效性和私有数据感知问题，没有连续性的时间语义；记忆系统则需要理解用户历史交互，形成个性化上下文。这些区别也为优化提供了很大空间。

PowerMem 基于 seekdb 实现，结合混合搜索能力和上层应用优化，达到了业界 SOTA 水平：相比完整上下文，Token 节省 96.53%，召回率也非常高。它兼容 Mem0 生态，同样以 Apache 2.0 协议开源。

应用场景包括：单智能体长期记忆、多智能体协同记忆、千人千面个性化服务，以及 AI Coding 中记住个人编码习惯、提问习惯、Bug 信息等。

立即开始，将想法落地

开源与资源

OceanBase seekdb 已在 GitHub 完全开源，遵循 Apache 2.0 协议。新域名 oceanbase.ai 已同步启用，全球开发者可免费下载使用。

官网上有完整的教程：快速部署、基础 SQL 操作、混合搜索、AI 函数服务，还有 MineKB 知识库、文旅小助手、图搜图等应用 Demo。目前已适配 LangChain、LlamaIndex、Dify 等 30+ 主流 AI 框架。

天使计划

这款产品刚刚开源几天，但在开源之前已经有很多客户在不断支持和打磨这个产品，给我们提供了非常多建议。

我们希望通过和社区用户、开发者的交流，提供更好的产品能力，具备更低的服务成本，提供更灵活的场景支持。我们需要更多开发者给这款产品带来反馈，希望大家多多使用、多多提建议，我们会快速迭代解决大家的问题。

Roadmap

我们会把更多精力投入到 AI First 相关功能。当前版本远远不到功能完全满足未来需求的状态，需要和社区一起迭代：

混搜能力持续增强：多向量支持、更复杂的索引能力、性能持续优化；

资源开销进一步节省：目标是 1C1G 规格下稳定运行 VectorDBBench；

更多被集成能力：JavaScript SDK、更多生态合作；

更友好的体验：支持 Mac 原生编译，让大家在 Mac 上有更自然更流畅的体验。

让 AI 开发回归本质

从2010年开始，OceanBase从零起步，从简单到复杂，演变成一个通用的关系型数据库系统；而在AI时代，我们重新思考数据库的本质，通过seekdb，让OceanBase从复杂重回简单，更好的满足广大开发者的需求。这个过程让我们获得了一些全新的视角。

OceanBase seekdb 的意义在于：让 AI 开发回归本质。

AI 应用的核心价值在于智能，在于理解用户意图、提供有价值的洞察、创造更好的体验。开发者的精力应该花在这些地方，而不是耗在数据拼装、系统维护上。

OceanBase seekdb 不是完美的，它很新，还有很多不足。但它代表了一个方向：未来的数据库必须同时服务于人与智能体。

接下来很长一段时间，我们会不断和社区用户、开发者交流，了解这款产品的不足，快速迭代解决问题。我们希望能和社区、开发者一起把这款产品做好。

我们已经准备好了。你呢？

访问 oceanbase.ai，开启 AI 原生数据库之旅。

注：后续我们会陆续整理发布会的演讲实录、案例稿件和产品介绍，敬请关注后续微信公众号/视频号推送~❤️

往期推荐

▼ 点击「阅读原文」，访问 OceanBase seekdb

【声明】内容源于网络

OceanBase

OceanBase专注原生分布式数据库研发，自研分布式技术，在普通的PC服务器上实现了金融级的高可用，拥有企业版、OB Cloud、社区版三大产品，已助力多个行业的千余家客户实现关键业务系统升级。OceanBase官方公众号，感谢您的关注。

内容 1053

粉丝 0

OceanBase OceanBase专注原生分布式数据库研发，自研分布式技术，在普通的PC服务器上实现了金融级的高可用，拥有企业版、OB Cloud、社区版三大产品，已助力多个行业的千余家客户实现关键业务系统升级。OceanBase官方公众号，感谢您的关注。

总阅读837

粉丝0

内容1.1k