大数跨境
0
0

从复杂到简单:我们为什么要重新思考 AI 原生数据库

从复杂到简单:我们为什么要重新思考 AI 原生数据库 OceanBase
2025-11-24
0
导读:OceanBase seekdb 的意义在于:让 AI 开发回归本质。

从 2010 年,OceanBase 团队写下第一行代码开始,我们一直在为一个目标而努力:打造一个通用的关系型数据库系统。从 0.5 版本开始服务于支付宝核心业务,OceanBase 逐步增加了 SQL 功能、基于 Paxos 的一致性协议、Oracle 兼容、单机分布式一体化架构、AP 支持等特性。OceanBase 的功能越来越强大,也越来越复杂。


但从 2022 年开始,事情起了变化。


AI 的发展速度超出所有人预期。不仅是技术圈内部,整个社会对 AI 迭代的感知都在加速。这让我们意识到:AI 时代需要一款更敏捷、更灵活的数据库产品。


于是,过去几年,我们开始做一件和之前完全相反的事:把 OceanBase 从复杂做回简单。这个过程让我们获得了一些全新的视角——重新看待理解 AI 时代的数据库产品,思考未来的 AI 应用到底需要怎样的现代数据库能力。


这就是 OceanBase seekdb 的由来。

AI 时代,数据库应该给开发者提供什么?

回顾数据库的发展历程,每个时代都有不同的核心诉求。


第一阶段:Web2.0/ 业务在线化时代。数据库需要做一个可靠精确的记录系统。它记录的每一条数据都是关键的业务记录——支付宝的交易流水、银行的账务系统、医院和人社的民生数据。这个阶段,我们需要的是高性能、低成本的 TP 类数据库。


第二阶段:移动互联网时代/数据智能化时代。手机上记录的海量数据传到数据库后,需要更精确的分析。所以 OceanBase 开始做 AP 能力,支持列存、向量化执行框架,能跑出很好的 TPC-H结果,满足分析类场景的需求。


第三阶段:AI 原生时代。对数据库的需求已经不局限于 TP 和 AP。除了查询与分析,还需要真正去理解和推理。理解,需要数据库提供标量搜索、向量搜索、全文搜索、混合搜索等多样性的能力;推理,需要数据库与大语言模型(LLM)有机的融合,实现数据与模型的统一。数据库在这里发挥什么作用,如何解决开发者真正的痛点,是我们一直在思考的问题。


开发者面临的四大痛点



痛点一:数据类型越来越多样


除了传统的结构化记录,现在有图片、文档、视频,还有 JSON、GIS 类型的数据。这些多模态数据需要一个统一的存储系统来解决存储和计算的问题。


痛点二:性能和规模的双重要求


AI 场景对性能要求很高。一方面,写入的数据需要及时被查询到——这是 OceanBase 的天然能力,不仅 TP、AP 数据,AI 数据也要做到实时可查。另一方面,需要处理很高的规模,支持从单机到分布式的平滑扩展。


痛点三:智能处理流程过于复杂


我看过一些 AI 开发框架的典型用法:向量和全文要用不同的存储系统,查询时分别去向量库、全文库、标量库做检索,然后在上层代码里写很重的胶水逻辑把结果合并,再提供给大模型返回结果。


随着基础设施的发展,这些通用的、偏胶水类的需求,应该沉淀到底层基础设施里面来。让开发者的精力放在更加定制化的需求上,这是我们追求的方向。


痛点四:开发流程不够敏捷


MongoDB、MySQL、Redis——这些产品都能解决一部分场景的问题,但它们有完全不同的接口:MongoDB 是文档类接口,MySQL 是 SQL 接口,Redis 是 KV 接口。开发者需要学习不同的接口使用方法,还要处理这些系统各自的运维和高可用问题。


AI 时代数据库的四个特征



基于这些思考,我们认为 AI 时代的数据库需要具备四个特征:


第一,多模态。能够存储图片、视频、向量数据、JSON 文档、标量表——所有类型的数据;


第二,高性能。保证很好的吞吐、很好的延时,提供非常好的查询效果;


第三,智能化。把那些共性的 AI 能力沉淀到数据库里,让它具备像 AI 运行时大脑一样的能力;


第四,简单。完全面向开发者导向,遵循开发者的诉求。不是让开发者去适应数据库的复杂性,而是让数据库来适应开发者的使用习惯——足够轻量、足够易用、足够敏捷。


OceanBase seekdb:我们为什么要做这款产品?


OceanBase seekdb 是一款 AI 原生混合搜索数据库,基于 Apache 2.0 协议开源。它不是在 OceanBase 上打补丁,而是从 AI 应用的实际需求出发,重新思考数据库应该是什么样子。



多模数据与索引统一


在一个引擎内同时支持标量、向量、文本、JSON、GIS 等多模数据及索引。一张表可以同时包含向量索引、标量索引、全文索引。


这些索引从设计之初就是协同工作的。查询优化器知道如何在一次查询中同时利用它们,而且所有索引都在同一个事务域内,不存在"不一致窗口"。


混合搜索一次完成


向量、全文与标量过滤在一次查询中完成,并支持 Reranking——粗排加精排的多阶段搜索链路。


混合搜索从逻辑上分几个层次:首先基于标量过滤确认范围(可能是几千、上万、十万条结果),然后基于全文搜索和向量搜索做一次粗粒度排序(追求返回时间快、计算资源开销小),最后是精排(开销更大,排序结果直接返回给用户)。


OceanBase seekdb 的混合搜索同时支持所有这些流程。通过 DBMS_HYBRID_SEARCH 系统包,你可以用 boost 参数调整全文搜索和向量搜索的权重比例——如果更关注关键词匹配,提高全文搜索的权重;如果更关注语义相似性,提高向量搜索的权重。


混合搜索 DEMO 


AI Inside:智能能力内置


这是 OceanBase seekdb 的核心设计理念:支持在数据库内完成向量嵌入、推理、提示词管理与重排,支持 Document-in / Data-out 的完整流程。


在极简开发模式下,我们内嵌了一个 Embedding 小模型。大家直接在官网下载的版本就具备内嵌小模型,可以不用关心 Embedding 带来的困扰——你输入的是真正意义上的文本,查询的也是真正意义上的文本,不用再去关注向量。


当对效果有更高追求时,我们也提供了方便的手段,让大家接入外部的大模型。seekdb 目前提供了四个核心 AI 函数:

  • AI_EMBED:把文本转换为向量嵌入

  • AI_COMPLETE:执行文本生成,支持提示词模板化复用

  • AI_RERANK:使用重排序模型对文本进行排序

  • AI_PROMPT:将提示词模板和动态数据组织成 JSON 格式


这些接口都是开放的,可以和多种外部模型配合使用,也可以通过一条 SQL 直接调用这些 AI 函数,返回对应的结果。


开发友好:更轻量,更易用


灵活的部署模式


OceanBase seekdb 提供嵌入式和服务器两种部署模式。


嵌入式模式以轻量级库的形式嵌入应用,支持 pip 一键安装,适用于个人学习、快速原型开发,可高效运行于多种端侧设备。


pip install pyseekdb


服务器模式推荐用于测试及生产环境,轻量易用。1C2G 的规格就能跑通 VectorDBBench 数据集,具备上生产的能力。


极简的 API 设计


除了标准 SQL 接口,我们还提供了一套 Schemaless API——可以不感知具体的 Schema,更简易地使用。创建数据库后,无需指定表的列和类型,我们会自动为对应的表创建字段和索引(包括全文索引和向量索引)。


插入文档时,内部会自动生成向量并存储;如果对效果有更高追求,也可以方便地使用外部模型。同时还支持为每个文档添加元信息,后续检索时会自动使用这些信息。


import pyseekdbclient = pyseekdb.Client()# create a knowledge basecollection = client.get_or_create_collection("product_database")
# Add product documentscollection.upsert(    documents=[        "Laptop Pro with 16GB RAM, 512GB SSD, and high-speed processor",        "Gaming Laptop with 32GB RAM, 1TB SSD, and high-performance graphics",        "Business Ultrabook with 8GB RAM, 256GB SSD, and long battery life",        "Tablet with 6GB RAM, 128GB storage, and 10-inch display"    ],    metadatas=[        {"category""laptop""ram"16"storage"512"price"12000"type""professional"},        {"category""laptop""ram"32"storage"1000"price"25000"type""gaming"},        {"category""laptop""ram"8"storage"256"price"9000"type""business"},        {"category""tablet""ram"6"storage"128"price"6000"type""consumer"}    ],    ids=["1""2""3""4"])
# Hybrid search for high-performance laptopsresults = collection.query(    query_texts=["powerful computer for professional work"],  # Vector search    where={                                                   # Relational filter        "category""laptop",        "ram": {"$gte"16}    },    where_document={"$contains""RAM"},                      # Full-text search    n_results=2)
print("\nResults:")for i, (doc, metadata) in enumerate(zip(results['documents'][0], results['metadatas'][0])):    print(f"  {i+1}{doc}")


SQL 原生能力


OceanBase seekdb 源自 OceanBase 成熟的引擎,所有 SQL 能力完整继承。这些能力经过 15 年严格系统的打磨:

  • 支持实时写入、实时可查

  • 严格的 ACID事务保证

  • MySQL 兼容,现有应用可以平滑升级


架构对比:seekdb vs. 其他方案


我们把 OceanBase seekdb 和一些其他方案做了对比,帮助大家更好地了解不同产品的定位和差异。


方案一:事务型数据库+全文检索引擎


这是许多开发者熟悉的组合。事务型数据库存储业务数据,全文检索引擎提供全文检索,还可以再加一个向量数据库做语义搜索。


痛点一:多系统协调的复杂度。 三个完全独立的系统,意味着三套不同的接口、三份配置文件、三套监控体系。开发者需要在应用层写大量“胶水代码”来协调这些系统。


痛点二:数据一致性难题。 事务型数据库和全文检索引擎是两个独立的系统,数据同步是最大的痛点。CDC 延迟通常在几百毫秒到几秒之间,无法保证读到同一时间点的数据。


痛点三:运维复杂度。多套系统意味着更多运维工作——三套监控告警、三套备份恢复、三套高可用方案。当系统出现问题时,你需要判断是哪个环节出了问题。


方案二:专有向量数据库+传统事务数据库


如果应用以向量检索为主,可能会选择专用的向量数据库。


痛点一:缺失的全文检索。纯向量数据库通常对全文索引的支持有限。实际应用中,混合检索(向量 + 关键词)是非常常见的需求。


痛点二:没有事务保证。专有向量数据库并不是传统意义上的事务型数据库,向量数据和业务数据的一致性难以保障。


痛点三:胶水代码的负担。由于向量库只关注向量检索,复杂的业务逻辑都得在应用层实现。这些"胶水代码"往往占了整个应用代码的 50% 以上。


OceanBase seekdb 方案:一体化原生架构


核心差异:

  • 事务保障下的索引实时更新。当你在 OceanBase seekdb 中更新一条记录时,全文索引和向量索引会在同一个事务中同步更新。要么全成功,要么全失败,不存在“不一致窗口”。

  • 支持多模态数据存储与混合搜索。在同一个数据库内完成标量搜索、向量搜索、全文搜索构成的混合搜索,支持多模态存储,同时支持和模型的交互。


对比总结



通过上图可以看到,目前主流的几个产品都有其定位和侧重点。OceanBase seekdb 的差异化在于:在一个轻量级的系统中,同时具备向量搜索、全文检索、混合搜索、ACID 事务和 AI 函数能力——这在现有方案中是独一无二的组合。


我们做过内部测试,OceanBase seekdb 的性能是强于其他方案的。


典型应用场景


RAG 与知识检索增强


这是最典型的场景。OceanBase seekdb 的混合搜索能力——向量语义召回加全文关键词召回——非常适合企业知识库、客服智能助手、文档智能分析等应用。


我们的工程师也基于 OceanBase seekdb 很快做出了一个实践案例  MineKB。它是一个本地个人知识库桌面应用,支持多种文档格式的自动向量化和智能搜索,所有数据存储在本地保护隐私。性能测试显示,10000 个文档块的 Top-10 搜索仅需 15ms,是传统方案的 80 倍。


可查看链接:

https://www.oceanbase.ai/docs/zh-CN/build-kb-in-seekdb


AI Coding


AI Coding 场景和文档处理非常类似——都要做解析、分片、召回、查询、索引,Pipeline 基本一致,只是处理的内容不同:一边是文档,一边是代码片段。OceanBase seekdb 非常适合这类场景,我们也在和蚂蚁、阿里的 AI Coding 团队合作探索。


Agentic 智能体应用


配合 PowerMem 记忆系统,可以为智能体提供长期记忆能力。PowerMem 基于OceanBase seekdb 的混合搜索深度优化,在 LOCOMO Benchmark 上以 78.70 分登顶 SOTA,Token 消耗比传统方案降低 96%。


企业应用 AI 化升级


如果现在用 MySQL,可以平滑切换到 OceanBase seekdb——我们有非常好的 MySQL 兼容能力,以及继承 OceanBase 的 TP 能力。之前在 MySQL 场景下解决不了的 AI 相关需求,使用 seekdb 可以很好地支持。


端设备智能化


OceanBase seekdb 不仅可以用在服务端,也可以用在边缘端。完全同一套代码,端侧和云端均可部署,实现端云一体的能力。


PowerMem:让智能体拥有记忆


RAG 解决了知识检索的问题,但还有一个关键问题:记忆


智能体的交互中,上下文往往很短,交互一段时间后就无法很好地回答早期的问题。记忆系统就是要解决这个问题——记录用户在使用 AI 产品过程中的交互逻辑、查询历史,这些完全是和用户个人相关的信息。


这听起来和 RAG 很像,但本质有很大区别。RAG 解决的是大模型时效性和私有数据感知问题,没有连续性的时间语义;记忆系统则需要理解用户历史交互,形成个性化上下文。这些区别也为优化提供了很大空间。


PowerMem 基于 seekdb 实现,结合混合搜索能力和上层应用优化,达到了业界 SOTA 水平:相比完整上下文,Token 节省 96.53%,召回率也非常高。它兼容 Mem0 生态,同样以 Apache 2.0 协议开源。


应用场景包括:单智能体长期记忆、多智能体协同记忆、千人千面个性化服务,以及 AI Coding 中记住个人编码习惯、提问习惯、Bug 信息等。


立即开始,将想法落地



开源与资源


OceanBase seekdb 已在 GitHub 完全开源,遵循 Apache 2.0 协议。新域名 oceanbase.ai 已同步启用,全球开发者可免费下载使用。


官网上有完整的教程:快速部署、基础 SQL 操作、混合搜索、AI 函数服务,还有 MineKB 知识库、文旅小助手、图搜图等应用 Demo。目前已适配 LangChain、LlamaIndex、Dify 等 30+ 主流 AI 框架。


天使计划


这款产品刚刚开源几天,但在开源之前已经有很多客户在不断支持和打磨这个产品,给我们提供了非常多建议。


我们希望通过和社区用户、开发者的交流,提供更好的产品能力,具备更低的服务成本,提供更灵活的场景支持。我们需要更多开发者给这款产品带来反馈,希望大家多多使用、多多提建议,我们会快速迭代解决大家的问题。


Roadmap


我们会把更多精力投入到 AI First 相关功能。当前版本远远不到功能完全满足未来需求的状态,需要和社区一起迭代:

  • 混搜能力持续增强:多向量支持、更复杂的索引能力、性能持续优化;

  • 资源开销进一步节省:目标是 1C1G 规格下稳定运行 VectorDBBench;

  • 更多被集成能力:JavaScript  SDK、更多生态合作;

  • 更友好的体验:支持 Mac 原生编译,让大家在 Mac 上有更自然更流畅的体验。


让 AI 开发回归本质


从2010年开始,OceanBase从零起步,从简单到复杂,演变成一个通用的关系型数据库系统;而在AI时代,我们重新思考数据库的本质,通过seekdb,让OceanBase从复杂重回简单,更好的满足广大开发者的需求。这个过程让我们获得了一些全新的视角。


OceanBase seekdb 的意义在于:让 AI 开发回归本质。


AI 应用的核心价值在于智能,在于理解用户意图、提供有价值的洞察、创造更好的体验。开发者的精力应该花在这些地方,而不是耗在数据拼装、系统维护上。


OceanBase seekdb 不是完美的,它很新,还有很多不足。但它代表了一个方向:未来的数据库必须同时服务于人与智能体。


接下来很长一段时间,我们会不断和社区用户、开发者交流,了解这款产品的不足,快速迭代解决问题。我们希望能和社区、开发者一起把这款产品做好。


我们已经准备好了。你呢?


访问 oceanbase.ai,开启 AI 原生数据库之旅。


注:后续我们会陆续整理发布会的演讲实录、案例稿件和产品介绍,敬请关注后续微信公众号/视频号推送~❤️


图片

往期推荐


 点击「阅读原文」,访问 OceanBase seekdb

【声明】内容源于网络
0
0
OceanBase
OceanBase专注原生分布式数据库研发,自研分布式技术,在普通的PC服务器上实现了金融级的高可用,拥有企业版、OB Cloud、社区版三大产品,已助力多个行业的千余家客户实现关键业务系统升级。OceanBase官方公众号,感谢您的关注。
内容 1053
粉丝 0
OceanBase OceanBase专注原生分布式数据库研发,自研分布式技术,在普通的PC服务器上实现了金融级的高可用,拥有企业版、OB Cloud、社区版三大产品,已助力多个行业的千余家客户实现关键业务系统升级。OceanBase官方公众号,感谢您的关注。
总阅读837
粉丝0
内容1.1k