近日,OceanBase 4.3.5 BP1 版本全新上线全文索引企业级功能。在中文分词、查询性能、混合检索等方面实现突破,通过自然语言模式以及布尔模式的多种场景对比结果显示,OceanBase 的全文索引性能远超 MySQL。
全文索引(Full-Text Index)是数据库中用于加速文本数据检索的特殊索引类型,特别适用于处理包含大量文本字段(如文章内容、评论、博客等)的查询需求。它支持快速的关键词匹配查询,可以在文本中查找一个或多个词语,并返回相关结果。全文索引常常应用于搜索引擎和文本分析系统中,有效帮助企业快速定位关键信息,提升搜索效率。
在企业的实际生产中,全文索引功能可以应用于系统日志分析、用户分析等众多场景,全文索引能够对数据做到高效率过滤筛选、或是高质量相关性评估。在 AI 领域,OceanBase 基于稀疏稠密向量与全文索引相结合的多路召回架构,能在具有特殊知识领域的 RAG 系统中实现更高效、更精准的召回效果。本文将深入解析其背后的技术原理,并展示其在实践中的表现。
最新版本的全文索引,在以下方面帮助用户解决更多搜索使用上的痛点:
数据库中全文索引要解决的基本问题是如何通过查询里的关键词快速有效地找到对应的文档。在 OceanBase 存储引擎内部,用户的文档(doc)会被分词器(parser)拆分成若干关键词(word/token)。这些关键词连同文档的统计信息特征被存储在内部的辅助表(tablet)上,用于信息检索阶段的相关性评估算法(ranking)。OceanBase 采用能够更好评估信息关联性的 BM25 算法,对用户查询语句中的关键词和存储的文档计算相关性分数,并最终输出有关联的文档和其评分。
结合 OceanBase 已有的高性能查询引擎能力,在全文索引查询流程内,我们针对性地做了 TAAT/DAAT 流程优化、对标 Oracle 的 functional lookup 功能以及多索引间的 index merge 等,让全文能结合更多复杂的查询特性,完成用户想要的数据检索。
接下来,我们以中文体育新闻搜索为例,动手体验 OceanBase 的全文索引,同时展示常用的视图和查询技巧。
集群部署与数据导入
首先用最新版 OceanBase 4.3.5 BP1 搭建两副本,一个 2C4G 的 MySQL 模式租户。
OceanBase 内置支持中文语言的 IK 分词器,以及比传统自然语言模式更好用的布尔模式。所以实验的数据集使用中文足球体育新闻(https://github.com/ej0cl6/SportsSum)。在 OceanBase 内创建一张无主键分区表,包含三列变长字符串(event,date,news)。对 news 字段使用了 IK 中文分词器,并指定 max_word 模式。IK 分词器的另一种 smart 模式,和 max_word 的区别是,其在匹配到最长词语后就停止匹配更短的词语。
OceanBase 内置分词器还包括适合英语的 space 和 beng。以及按照字符长度分割的 ngram。
-- 建表语句CREATE TABLE sport_data_whole(event varchar(64),date varchar(16),news varchar(65535),fulltext INDEX (news) WITH parser ik PARSER_PROPERTIES =(ik_mode = "max_word"));
通过客户端本地文件的方式,将新闻数据集导入到表格内,时间大概在十五秒左右。
-- 导入语句load data /*+ parallel(8) */local infile "/home/jiahua.cjh/sports_data_whole.csv"into table sport_data_wholefields terminated by ',' lines terminated by '\n';
导入后共 5268 条新闻,平均文档长度在 2700 个中文字。原始数据是 57MB 左右。实际存储的总空间大小,在经过存储引擎的压缩后,连同索引不到 30MB。可以看到其中比较大的是全文索引中倒排和正排辅助表,内部存储了比较多的分词记录。
-- 体育新闻数据集selectavg(length(news)),count(*)fromsport_data_whole;+-------------------+----------+| avg(length(news)) | count(*) |+-------------------+----------+| 2781.6900 | 5268 |+-------------------+----------+1 row in set (0.03 sec)select*fromoceanbase.DBA_OB_TABLE_SPACE_USAGE\G*************************** 1. row ***************************TABLE_ID: 500007DATABASE_NAME: testTABLE_NAME: sport_data_wholeOCCUPY_SIZE: 8349796REQUIRED_SIZE: 10489856*************************** 2. row ***************************TABLE_ID: 500008DATABASE_NAME: testTABLE_NAME: __idx_500007_newsOCCUPY_SIZE: 30247553REQUIRED_SIZE: 31461376*************************** 3. row ***************************TABLE_ID: 500009DATABASE_NAME: testTABLE_NAME: __idx_500007_fts_rowkey_docOCCUPY_SIZE: 70125REQUIRED_SIZE: 77824*************************** 4. row ***************************TABLE_ID: 500010DATABASE_NAME: testTABLE_NAME: __idx_500007_fts_doc_rowkeyOCCUPY_SIZE: 73171REQUIRED_SIZE: 77824*************************** 5. row ***************************TABLE_ID: 500011DATABASE_NAME: testTABLE_NAME: __idx_500007_news_fts_doc_wordOCCUPY_SIZE: 28302737REQUIRED_SIZE: 29364224
利用全文索引查询
利用存储进数据库中的新闻数据集和索引,可以做多条件自由组合,达到高过滤性信息检索的目的。例如作为球迷,想搜索包含有 “拜仁” 和 “乌龙球” 的新闻,推荐使用布尔模式。相较于没有索引的字符串 like 匹配,布尔模式语法上更简洁易懂,查询速度也会更快。
-- 布尔模式selectcount(*)fromsport_data_wholewherematch (news) against ('+乌龙球 +拜仁' in boolean mode);+----------+| count(*) |+----------+| 2 |+----------+1 row in set (0.03 sec)selectcount(*)fromsport_data_wholewherenews like '%乌龙球%'and news like '%拜仁%';+----------+| count(*) |+----------+| 2 |+----------+1 row in set (0.08 sec)
对于返回的多条新闻,在输出结果中增加分值,能用来帮助判断哪条新闻更有关联。OceanBase 的全文支持经过 BM25 算法计算得到的相关性分数。下面可以看到 date 是 0278 的新闻,和我们查询的目的更具关联性。
-- rankingselectevent,date,match (news) against ('乌龙球 拜仁') as scorefromsport_data_wholewherematch (news) against ('+乌龙球 +拜仁' in boolean mode);+-------+------+---------------------+| event | date | score |+-------+------+---------------------+| ucl | 0278 | 0.4657063867776557 || ucl | 0201 | 0.41760566608994765 |+-------+------+---------------------+2 rows in set (0.04 sec)
布尔模式相较于自然语言,还能反向剔除一些关键词。例如每场足球比赛中几乎都有犯规行为,如果想知道哪些比赛很激烈,但是没有红黄牌甚至没有犯规,则可以用到布尔模式里的 “-” 运算符。
-- 布尔模式运算selectcount(*)fromsport_data_wholewherematch (news) against ('+激烈 -黄牌 -红牌 -犯规' in boolean mode);+----------+| count(*) |+----------+| 31 |+----------+1 row in set (0.04 sec)
一个调试的小技巧,当发现全文索引的查询结果不符合预期时,通常是因为分词结果不理想。OceanBase 提供了一个快速的 TOKENIZE 函数来辅助测试分词结果。函数支持所有分词器和对应属性。例如下面手动的分词结果,反映了词典中对于国外体育明星人名的支持还不是很好(博阿滕、格策),因此用这些人名去检索新闻的效果可能达不到预期。
-- tokenize 函数selecttokenize('博阿滕右路反击人球分过传中,格策后点停球转身闪开角度,在门前8米处低射从皮亚托夫裆下钻进门内','ik','[{"additional_args": [{"ik_mode": "smart"}]}]');+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+| tokenize('博阿滕右路反击人球分过传中,格策后点停球转身闪开角度,在门前8米处低射从皮亚托夫裆下钻进门内', 'ik', '[{"additional_args": [{"ik_mode": "smart"}]}]') |+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+| ["亚", "格", "夫", "阿", "门内", "从", "下钻", "后点", "右路", "分过", "传中", "低", "转身", "球", "射", "闪开", "博", "进", "反击", "门前", "停", "人", "皮", "裆", "策", "滕", "8米处", "托", "在", "角度"] |+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+1 row in set (0.03 sec)selectcount(*)fromsport_data_wholewherematch (news) against ('+格策 +博阿滕' in boolean mode);+----------+| count(*) |+----------+| 0 |+----------+1 row in set (0.04 sec)
如果想提升分词器的精准性,OceanBase 支持修改系统词典表。当我们将上述中文人名插入到系统词典表后,重新分词的效果立竿见影。
🧡 注意:词典修改后,原索引分词效果不变,需要重建索引生效。
-- 中文人名分词效果selecttokenize('博阿滕右路反击人球分过传中,格策后点停球转身闪开角度,在门前8米处低射从皮亚托夫裆下钻进门内','ik','[{"additional_args": [{"ik_mode": "smart"}]}]');+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+| tokenize('博阿滕右路反击人球分过传中,格策后点停球转身闪开角度,在门前8米处低射从皮亚托夫裆下钻进门内', 'ik', '[{"additional_args": [{"ik_mode": "smart"}]}]') |+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+| ["门内", "从", "下钻", "后点", "右路", "分过", "传中", "低", "转身", "球", "皮亚托夫", "射", "闪开", "进", "反击", "门前", "停", "人", "裆", "8米处", "在", "角度", "格策", "博阿滕"] |+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+1 row in set (0.04 sec)selectcount(*)fromsport_data_wholewherematch (news) against ('+格策 +博阿滕' in boolean mode);+----------+| count(*) |+----------+| 79 |+----------+1 row in set (0.05 sec)
实验最后,对全文索引与普通索引混合查询下 union merge 带来的性能提升做一个对比。对 sport_data_whole 表的 date 列再建立一个普通局部索引。可以通过 show index 观察索引生效情况。
-- 构建普通索引alter table sport_data_whole add index (date);show index from sport_data_whole\G*************************** 1. row ***************************Table: sport_data_wholeNon_unique: 1Key_name: newsSeq_in_index: 1Column_name: newsCollation: ACardinality: NULLSub_part: NULLPacked: NULLNull: YESIndex_type: FULLTEXTComment: availableIndex_comment:Visible: YESExpression: NULL*************************** 2. row ***************************Table: sport_data_wholeNon_unique: 1Key_name: dateSeq_in_index: 1Column_name: dateCollation: ACardinality: NULLSub_part: NULLPacked: NULLNull: YESIndex_type: BTREEComment: availableIndex_comment:Visible: YESExpression: NULL2 rows in set (0.00 sec)
当两个索引条件使用 OR 连接时,过滤性好的情况下,union merge 带来的收益会比扫描普通索引后再过滤(计划中有 has_functional_lookup=true)更快。从两种计划最后预估的时间上可以看到有数量级的提升。
-- union merge 计划对比explainselect/*+UNION_MERGE(sport_data_whole date news)*/*fromsport_data_wholewheredate = '0322'or (match (news) against ('+乌龙球' in boolean mode));+-------------------------------------------------------------------------------------------------------------------------------------------------------------------+| Query Plan |+-------------------------------------------------------------------------------------------------------------------------------------------------------------------+| =================================================================================== || |ID|OPERATOR |NAME |EST.ROWS|EST.TIME(us)| || ----------------------------------------------------------------------------------- || |0 |DISTRIBUTED INDEX MERGE SCAN|sport_data_whole(date,news)|45 |9102 | || =================================================================================== || Outputs & filters: || ------------------------------------- || 0 - output([sport_data_whole.event], [sport_data_whole.date], [sport_data_whole.news]), filter([sport_data_whole.date = '0322' OR MATCH(sport_data_whole.news) || AGAINST('+乌龙球' IN BOOLEAN MODE)]), rowset=256 || access([sport_data_whole.__pk_increment], [sport_data_whole.date], [sport_data_whole.news], [sport_data_whole.event]), partitions(p0) || is_index_back=true, is_global_index=false, keep_ordering=true, use_index_merge=true, filter_before_indexback[false], || index_name: date, range_cond([sport_data_whole.date = '0322']), filter(nil) || index_name: news, range_cond(nil), filter(nil) || lookup_filter([sport_data_whole.date = '0322' OR MATCH(sport_data_whole.news) AGAINST('+乌龙球' IN BOOLEAN MODE)]) |+-------------------------------------------------------------------------------------------------------------------------------------------------------------------+14 rows in set (0.03 sec)explainselect*fromsport_data_wholewheredate = '0322'or (match (news) against ('+乌龙球' in boolean mode));+-------------------------------------------------------------------------------------------------------------------------------------------------------------------+| Query Plan |+-------------------------------------------------------------------------------------------------------------------------------------------------------------------+| =========================================================== || |ID|OPERATOR |NAME |EST.ROWS|EST.TIME(us)| || ----------------------------------------------------------- || |0 |TABLE FULL SCAN|sport_data_whole|79 |526939 | || =========================================================== || Outputs & filters: || ------------------------------------- || 0 - output([sport_data_whole.event], [sport_data_whole.date], [sport_data_whole.news]), filter([sport_data_whole.date = '0322' OR MATCH(sport_data_whole.news) || AGAINST('+乌龙球' IN BOOLEAN MODE)]), rowset=256 || access([sport_data_whole.__pk_increment], [sport_data_whole.date], [sport_data_whole.news], [sport_data_whole.event]), partitions(p0) || is_index_back=false, is_global_index=false, filter_before_indexback[false], || range_key([sport_data_whole.__pk_increment]), range(MIN ; MAX)always true, has_functional_lookup=true |+-------------------------------------------------------------------------------------------------------------------------------------------------------------------+12 rows in set (0.04 sec)
OceanBase 的全文索引性能横向比较如何?我们以 MySQL 的全文索引为例。MySQL 的中文分词能力不是很好,因此对比数据集选定在英文数据集 wikir1k(369721行,平均每行100词)上。以下分别是自然语言模式,以及布尔模式下多种场景的对比结果。
结果上:
测试环境如下:
OceanBase 租户规格 8c 16g
MySQL Ver 8.0.36 for Linux on x86_64 (MySQL Community Server - GPL)
自然语言模式
select * from wikir1k where match (document) against ('and');select * from wikir1k where match (document) against ('and') limit 10;select * from wikir1k where match (document) against ('librettists');select * from wikir1k where match (document) against ('librettists') limit 10;select * from wikir1k where match (document) against ('alleviating librettists');select * from wikir1k where match (document) against ('black spotted white yellow');select * from wikir1k where match (document) against ('black spotted white yellow') limit 10;select * from wikir1k where match (document) against ('between up and down');select * from wikir1k where match (document) against ('between up and down') limit 10;select * from wikir1k where match (document) against ('alleviating librettists modifications retelling intangible hydrographic administratively berwickshire strathaven dumfriesshire lesmahagow transhumanist musselburgh prestwick cardiganshire montgomeryshire');select * from wikir1k where match (document) against ('alleviating librettists modifications retelling intangible hydrographic administratively berwickshire strathaven dumfriesshire lesmahagow transhumanist musselburgh prestwick cardiganshire montgomeryshire and');select * from wikir1k where match (document) against ('alleviating librettists modifications retelling intangible hydrographic administratively berwickshire strathaven dumfriesshire lesmahagow transhumanist musselburgh prestwick cardiganshire montgomeryshire and') limit 10;
布尔模式
select * from wikir1k where match (document) against ('+and -which -his' IN BOOLEAN MODE);select * from wikir1k where match (document) against ('+which (+and -his)' IN BOOLEAN MODE);select * from wikir1k where match (document) against ('+and -carabantes -bufera' IN BOOLEAN MODE);select * from wikir1k where match (document) against ('+and +librettists' IN BOOLEAN MODE);
OceanBase 全文索引的能力还远不止于此,结合新的技术趋势和新的数据检索场景,在后续版本,我们还会推出更多易用性功能。例如:
全文索引不仅是数据库能力的延伸,更是企业实现数据智能化的关键基础设施。经过全面升级的 OceanBase 全文索引,在中文处理能力、混合查询性能、生产可用性等方面已建立显著优势。
无论是在传统日志分析场景,还是结合 AI 的智能检索需求,OceanBase 的全文索引都能提供企业级解决方案。未来,OceanBase 将持续深化"数据库+搜索+AI"的技术融合,助力企业构建新一代智能数据平台。
往期推荐
▼ 点击「阅读原文」,了解产品技术内容

