作者简介
硕天鸾
中国信息通信研究院信息化与工业化融合研究所沉浸技术与应用研究部副主任,工程师,长期从事元宇宙、先进计算、数字经济、行业信息化、软件技术产业等方面的研究工作。
董一民
中国信息通信研究院信息化与工业化融合研究所沉浸技术与应用研究部工程师,长期从事人工智能、元宇宙、数字经济、行业信息化等方面的研究工作。
论文引用格式:
硕天鸾, 董一民. 人工智能时代数据库技术创新态势研究[J]. 信息通信技术与政策, 2024, 50(6): 17-22.
人工智能时代数据库技术创新态势研究
硕天鸾 董一民
(中国信息通信研究院信息化与工业化融合研究所,北京 10019)
摘要:以人工智能为代表的新一代信息技术加速创新,在数据结构、部署方式、应用场景等方面对数据库技术发展提出了新的要求。围绕人工智能时代数据库技术创新的新需求、新挑战,总结了当前数据库技术创新的主要方向,重点讨论了人工智能技术同数据库技术的融合创新方向与实践应用,分析了当前国内外数据库产业发展趋势、竞争格局等,并提出了当下我国数据库技术创新发展建议。
关键词:数据库;向量数据库;人工智能
0 引言
数据库是用于存储、管理和检索数据的系统,数据库技术在现代计算机科学和信息技术中扮演着至关重要的角色,用于支持各种应用程序和业务需求。经过大型机、小型机、局域网、互联网、移动互联网等数十年的技术迭代与更新,数据库技术在数据结构、部署方式、应用场景等方面形成了较为成熟的理论基础与行业实践。按照数据结构划分,数据库可以分为基于关系模型进行数据组织和管理的关系型数据库(如Oracle、MySQL、SQL Server)和不遵循传统的关系模型,以及采用更灵活数据结构来存储数据的非关系型数据库(如MongoDB、Redis)。按照部署方式划分,数据库可以分为本地数据库、云数据库、分布式数据库等[1]。按照应用场景划分,数据库可以分为联机事务处理(Online Transaction Processing,OLTP)、联机分析处理(Online Analytical Processing,OLAP)、混合事务处理(Hybrid Transactional Analytical Processing,HTAP)等。
以人工智能(Artificial Intelligence,AI)为代表的新一代信息技术快速创新应用,随之而来的是数据处理需求的爆发式增长以及数据类型的多元化。面向AI时代的数据管理要求,传统的数据库技术已经显露出了一些局限性,例如存储能力、查询效率以及数据处理速度等方面的挑战。因此,数据库结合新时期技术发展形势,持续开展数据结构、部署方式、应用场景3个维度创新。一是新数据结构,随着AI等技术的蓬勃发展,对多样化数据类型的分析提出了更高要求,向量数据库、多模数据库等补充了现有数据模型表达能力的不足。二是新部署方式,计算机软硬件、网络等技术的进步,为数据库提供了更加先进的平台和生态环境,内存数据库、图形处理器(Graphics Processing Unit,GPU)数据库等借助新硬件平台提升数据库性能、可用性、可靠性。三是新应用场景,AI技术加速赋能提升数据库查询、管理等,HTAP数据库事务与分析性能快速提升,应用推广持续深化。
总体而言,新一代数据库技术的多维度创新不仅深刻影响了传统数据行业,同时也将催生一系列以AI应用需求为牵引的新行业、新赛道,为经济社会数据管理、智能决策等领域带来更加高效、先进的赋能效用,为传统行业数字化、智能化水平的提升提供更加强大的底层技术支持。
1 数据库技术创新主要方向
1.1 新数据类型,AI大规模数据管理倒逼向量数据库发展
目前,传统关系、非关系数据库无法有效支持AI训练所需的数据存储与管理需要,特别是AI大模型底层向量数据的存储与管理。在图片、视频、音频等非结构化数据经过深度学习向量化表示后,向量数据的维度将达到数千、上万维度,使用传统的关系型数据库会造成表臃肿、分片复杂等问题,而键值等非关系型数据库无法执行数据检索、近邻算法等。因此,向量数据库正是为了响应AI大模型时代海量非结构化数据向量化的超大规模检索、匹配等需要,应运而生的一种数据库产品类型。向量数据库具备数据库基本的增查改删(Create、Read、Update、Delete,CRUD)操作,更重要的是也具备了针对向量数据的快速相似性搜索能力,能够支持文本、图像、音视频等数据嵌入处理,具备百亿条以上的超大规模数据管理能力,支持多种面向向量的最近邻搜索算法,同时基于云化部署方式能够实现更加灵活的扩展。伴随未来优质大模型向更多领域渗透,向量数据库产业规模与创新热度将持续高涨,目前向量数据库将技术孵化与商业化同步开展,头部企业开放了一系列商业化/托管服务,传统数据库产品也在抓紧新增对向量数据模型的支持(见表1、表2)。
表1 全球主流向量数据库产品
表2 主流数据产品支持向量数据类型情况
1.2 新部署方式,内存数据库和GPU数据库加快发展
在内存数据库方面,内存数据库优化面向不同容量、不同成本的混合内容,以及大容量存储上的存储、综合查询等性能,如较小但访问频繁的数存储在动态随机存取存储器(Dynamic Random Access Memory,DRAM)上,稍大且访问延时相对较低的数存储在存储级内存(Storage Class Memory,SCM)上;提供异构存储平台间的数据动态同步以及同固态硬盘(Solid State Drive,SSD)/混合硬盘(Hybrid Hard Drive,HHD)间的异步持久化存储,以适配DRAM、SCM以及SSD等异构内存平台。但由于SCM相对于SSD的成本较高、而性能相较DRAM提升有限,极大制约了SCM的推广,目前异构内存数据技术创新热度有所降低。
在GPU数据库方面,当前GPU数据库主要包括GPU加速型数据库和GPU内存型数据库,其中前者将GPU作为CPU的协处理器/加速器,数据通过外围组件快速互联(Peripheral Component Interconnect Express,PCIe)从CPU送到GPU计算,性能瓶颈主要是GPU显存以及CPU-GPU间输入/输出(Input/Output,I/O)通道。后者直接将GPU内存数据库看作是GPU端的内存数据库,该类系统将数据全部驻留内存,以发挥GPU的全部潜在性能、提高数据处理速度。短期内两条技术路线短期将结合实际场景需要并存,GPU内存型数据库是研究重点方向。
1.3 新应用场景,混合事务应用持续优化
HTAP产品创新活跃,当前主流实现OLAP与OLTP并行方式的是行存储、列存储并行HTAP[2],该架构让不同数据结构的存储引擎分别负责事务处理和分析,存储引擎在物理上隔离(分布式),并遵从一定的协议(如Raft)在引擎之间进行实时复制,在一个系统内实现HTAP,目前SAP HANA、Oracle Times Ten、HybridDB、TiDB等国内外主流产品采用此种技术路线。从长期来看,HTAP产品创新聚焦两个方向,一是持续优化当前架构技术,优化数据组织方式、数据同步方式等,提升查询分析性能;二是底层存储引擎的一体化,即使用一套系统和单一存储引擎实现HTAP,但目前理论研究层面性能实现效果不佳,仍处于早期阶段。
2 AI与数据库融合创新方向与实践探索
得益于AI的快速迭代、自我优化、动态调整等特性,数据库技术正在加速与AI技术在数据模型、数据管理、数据应用等全方位实现融合,持续提升数据库产品性能、易用性、可维护性,同时也为AI的海量数据查询管理、模型训练推理等提供更加高效的支撑。
因此,当前数据库技术与AI技术融合能够促进两种技术的协同创新与能力提升,具体体现在两个方面。
一方面,AI技术赋能数据库(AI for Database,AI for DB)。例如,传统的经验数据库优化技术(如成本估算、连接顺序选择、旋钮调整、索引和视图顾问等)基于经验方法和规范,需要人工参与来调整和维护数据库。因此,现有的经验技术无法满足大规模数据库实例、各种应用程序和多样化用户的高性能需求。基于AI技术可以有效解决类似问题,如强化学习可以用于优化Join操作的顺序选择、深度强化学习可以用于自动配置数据库参数等。
另一方面,数据库技术赋能AI(Database for AI,DB for AI)。在许多实际应用中,AI很难部署,因为它需要开发人员编写复杂的代码和训练复杂的模型。运用新型数据库技术能够降低使用AI模型的复杂性,加速AI算法,并在数据库内提供AI能力。例如,数据库技术可用于提高数据质量(如数据发现、数据清理、数据集成、数据标记和数据沿袭等)、自动选择适当的模型、推荐模型参数和加速模型推理等。
2.1 AI技术赋能数据库
传统的数据库设计基于经验方法和规范,需要人工参与来调整和维护数据库,AI技术能够改善传统数据在设计、运营阶段对人工投入的依赖,并且实现数据库的健康监控、性能预测、发现敏感数据、访问控制等[3]。
数据库智能配置。在参数调优方面,当前数据库有很多可调的系统参数,传统数据库管理员(Database Administrator,DBA)只能依靠经验并花费大量的时间来调优参数,但是无法有效兼顾处理数百万个的数据库实例,因此使用基于深度学习来自动进行参数调优是非常有必要的。在结构化查询(Structured Query Language,SQL)重写方面,传统的经验查询重写方法只按固定顺序重写(例如自上而下),面向大规模数据管理时,查询效率可能会降低。而利用深度强化学习可以更加高效地选择合适的查询方式,并去除逻辑查询中冗余或者低效的运算符,显著提高查询效率。
数据库智能优化。在代价估计方面,传统DBA可以用基数估计和成本估算来选择一个优化策略,但是不能保证有效捕捉不同列/表之间的相关性,因此代价估计还有进一步提升的可能。利用深度神经网络开展基数估计和成本估计能够捕捉数据的相关性,特别是跨列、跨表间的数据相关性,能够显著提升代价估计的有效性和准确性。在Join操作的顺序选择方面,目前基于深度强化学习的方法可以自动选择最有效率的表连接顺序,例如SkinnerDB使用基于蒙特卡洛树搜索的方法在每个时间片中尝试不同的连接顺序,并可以动态优化连接顺序[4]。
数据库智能设计。重点在数据库的索引设计方面,传统索引结构(如B树、哈希表等)是基于静态规则和数据统计信息构建的。目前,使用机器学习技术改进传统数据库索引结构实现的学习索引,能够使用机器学习模型来预测数据项的位置或范围,而不是依赖传统索引结构中的固定规则,学习索引的模型可以是神经网络、决策树、支持向量机等。通过将数据和查询模式作为输入,学习索引模型可以根据学习到的知识动态地选择索引结构、调整索引参数或预测查询结果。
此外,利用AI技术还能实现数据库的健康监控、性能预测、敏感数据发现、访问控制等。
2.2 数据库技术赋能AI
结合AI应用特征和需求,丰富数据库功能技术,实现库内AI操作,降低AI技术应用门槛。
扩展SQL语言。首先,传统的机器学习算法大多是用编程语言(例如Python、R)实现,它需要工程师来定义完整的执行逻辑,例如模型训练的迭代模式以及矩阵多重复制和展平等张量运算。其次,机器学习算法必须从数据库系统加载数据,数据导入/导出成本可能非常高;与之相比,SQL语言相对容易理解与使用并且在数据库系统中被广泛接受。因此,结合机器学习语言的工作需要,丰富SQL语言中缺少的复杂处理语法、语句,扩展SQL语言支持数据内AI模型操作,包括混合语言、原生AI算子等。
模型训练与推理。模型训练旨在训练用于在线推理的高质量模型,其过程耗时且复杂。通过数据库技术在特征管理、模型管理等方面的定制优化,能够有效提升特征选择、模型选择以及模型训练的效率。模型推理方面,重点加强数据库对AI算子支持,并根据不同的经过训练的模型选择不同的算子,实现数据库内计算推断结果优化[5]。
2.3 AI与数据库融合的创新实践
从当前AI技术与数据库技术融合发展的实践来看,国内主流数据库解决方案企业结合实际业务场景需要,持续推进关键技术成果的落地与转化,形成了具备一定参考性的典型应用,目前主要聚焦在AI for DB领域。
自动化数据库维护与性能优化、数据库安全与风险防控、智能化数据备份与恢复、数据库容量规划与资源调度等方面的应用,使得数据库运维更加高效、智能和安全。但训练效率与推理质量制约了AI技术赋能数据库的实践落地,数据库系统复杂,对稳定性要求极高,即使是将单一的AI算法与单一的数据库进行匹配调试,也需要数周、数月的调试周期。从应用成果来看,行业内持续通过中间件平台、插件化等方式,将原生AI能力封装成标准化的功能模块与组件,并提供较为成熟的数据库运维能力,同数据库本身的集成,实现更加灵活和高效的部署和应用。中间件系统平台PilotScop,通过在数据库和AI系统的级别上进行抽象和通用化模块及接口定义,使得AI算法能够在数小时甚至数分钟内在数据库中实现“一键部署”,针对参数调优、索引推荐、基数估计、查询优化等数据库主流任务,预置了10多种AI算法,查询优化等任务优化提速效果显著。OpenGauss数据库中内置DBMind子模块,为OpenGauss数据库提供了自动运维能力,能够实现慢SQL根因分析、Workload索引推荐、多指标关联挖掘、故障自修复、异常检测与根因分析等功能,实现高效的数据库问题发现与根因分析。
3 国内外数据库产业创新发展态势分析
3.1 全球数据库产业发展与重点产品创新态势
全球数据库市场规模保持高速增长,2022年市场规模突破910 亿美元。数据库云化部署具有高扩展、高可用、低成本等优势,2022年全球云数据库市场占比首次突破50%(见图1)。2022年,全球数据库市场规模增长中的98%由云数据库市场增长贡献。从数据库产品类型来看,关系型数据库产品成熟,占据市场应用绝对主导地位。伴随多种类型数据爆发式增长,各种创新业务场景涌现,非关系型数据库应用增长较快。全球数据库市场格局稳定,2018—2022年Top5企业市场份额占比均超过65%,其中云服务巨头增速显著高于传统数据库服务商,市场格局有望在云服务巨头牵引下,形成新的竞争格局[6]。
图1 2018—2022年全球数据市场规模变化趋势
从重点数据库产品创新方向来看,在向量数据库方面,全球主要AI创新主体已广泛使用向量数据库进行大模型的训练推理所需的数据管理工作,向量数据库已成为当前数据库技术产品创新的重要方向。在内存数据库方面,高性能和实时数据处理的应用场景下(如金融交易、实时分析和实时计算等),内存数据库已成为企业应用的必要选择,目前以Redis、Oracle TimesTen、SAP HANA等产品为主,总体市场规模处于较为平稳的增长阶段。在HTAP数据库方面,目前在关系型数据库市场中,OLAP、OLTP产品仍是市场主流,但得益于HTAP产品在事务处理与分析处理中的灵活性特征,一批HTAP产品已经进入主流市场并在部分场景中逐步开始规模应用,产业规模正快速增长。
3.2 我国数据库产业发展与重点产品创新态势
国内数据库市场保持较快增长。在关系型数据库产品方面,2022年我国关系型数据库软件市场规模为34.3 亿美元,同比增长23.9%。其中,公有云关系型数据库规模20.8 亿美元,同比增长34.8%;本地部署关系型数据库规模14.6 亿美元,同比增长10.3%,云化产品已成为市场增长的主要驱动力[7]。在非关系型产品方面,我国本土产品结合自身业务发展需求或市场应用需求,采用开源或垂直领域商业化路径,打造了一批创新型产品,逐步增强市场影响力。
从重点数据库产品创新方向来看,国产数据库产品线布局完整,市场竞争力稳步提升。在向量数据库方面,以Milvus、Vsearch等为代表的国产向量数据库产品正加速部署应用,并同生态伙伴产品、自身业务产品等深度融合,提升大模型训练推理效率。在HTAP数据库方面,TiDB、AnalyticDB等产品创新十分活跃,在部分事务处理、数据分析性能方面能够替代传统产品,竞争力不断提升。此外,数据库应用配套的数据传输、数据管理、数据库备份等工具逐步成熟,能够实现数据迁移/评估、同步、管理、安全审计、备份恢复等全流程服务。2022年,在国内市场中本土数据库产品市场占比首次突破50%,其中主流关系型数据库市场稳步实现替代,市场占比达40%,比2021年提高2个百分点;新型数据库发展占据市场先机,市场占比超八成[7]。
4 结束语
随着AI等新一代信息技术的快速创新,数据库技术作为数字化底层关键支撑技术之一,也在持续围绕数据、应用等需求加速关键理论、产品的升级迭代,并不断涌现出新的产业方向与竞争赛道,相关技术产品、产业化进程不断提速。
从我国技术布局与应用建设需求来看,建议重点从几个方向推动相关领域创新布局:一是要持续推进面向重点行业、核心业务的关系型数据库产品的性能、稳定性升级,优化完善技术开发、运维工具、迁移工具、应用接口、语句兼容创新等配套生态产品,持续提升产品矩阵竞争力;二是持续投入创新型产品研发,如向量数据库、HTAP数据库等产品,围绕AI等新应用需求,相关数据模型、软硬件等技术创新活跃,我国应聚焦数据库前沿领域,发展新型数据库产品,布局数据库新赛道,特别是支撑AI应用的数据库产品。
Research on the innovation trend of database in the era of artificial intelligence
SHUO Tianluan, DONG Yimin
(Informatization and Industrialization Integration Research Institute, China Academy of Information and Communications Technology, Beijing 100191, China)
Abstract: The new generation of information technology represented by artificial intelligence is accelerating innovation, posing new requirements for the development of database technology in terms of data structure, deployment methods, and application scenarios. Focusing on the new demands and challenges of database innovation in the era of artificial intelligence, this paper first summarizes the main directions of current database innovation. Then, it focuses on the integration and practical application of artificial intelligence and database, and analyzes the current development trends and competitive landscape of the database industry both domestically and internationally. Finally, it puts forward suggestions for the development of technological innovation in China.
Keywords: database; vector database; artificial intelligence
本文刊于《信息通信技术与政策》2024年 第6期
主办:中国信息通信研究院
《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“ 信息通信技术前沿的风向标,信息社会政策探究的思想库 ”,聚焦信息通信领域技术趋势、公共政策、 国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。
期刊荣誉与收录情况
AMI(2022版)A刊扩展期刊
RCCSE中国核心学术期刊
入选中国科协信息通信领域高质量科技期刊分级目录
为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊官方网站(http://ictp.caict.ac.cn)已正式投入运行,欢迎投稿!
推荐阅读

