

数据库技术 | 数据基础设施关键构建技术07

CAICT数据基础设施

2025-01-09

随着数字经济的深入发展，数据作为新型生产要素，已成为推动实体经济和数字经济发展的关键。党的二十届三中全会明确提出，要建设和运营国家数据基础设施，促进数据共享，这为推进数据领域的改革发展、进一步释放数据要素价值指明了方向。建立数据可信流通体系，通过增强数据的可用、可信、可流通和可追溯性，能够充分激活数据要素潜能，赋能实体经济。

“CAICT数据基础设施”公众号特别推出“数据基础设施关键构建技术”专题，旨在深入探讨数据可信流通的核心技术及其应用场景。本期聚焦数据库技术，概述其发展的三个阶段，并深入介绍当前主流技术之一——分布式数据库技术。分布式数据库在应对大数据挑战、提高数据处理效率和确保数据安全方面表现突出，文章将从技术角度详细探讨其架构设计、核心能力和特点。通过对一种具体数据库技术的解析，我们将分析数据库技术在数据流通中的关键作用，旨在为读者提供行业洞察。

一、数据库发展阶段

数据库在数据流通中扮演了至关重要的角色，通过高效的数据组织和管理、数据共享、数据一致性和完整性、数据并发访问和安全控制等机制，促进了数据的流通和利用。数据库技术的发展经历了三个主要阶段：人工管理阶段、文件系统阶段和数据库系统阶段。‌

1. 人工管理阶段

在20世纪50年代，计算机主要用于科学计算，数据处理主要通过手工进行。‌人工管理阶段的特点包括‌：

‌1）数据量较少‌：数据和程序一一对应，数据面向应用独立性很差。

‌2）数据不保存‌：因为计算机主要用于科学计算，数据不需要长期保存。

‌3）没有软件系统对数据进行管理‌：程序员需要规定数据的逻辑结构和物理结构，包括存储结构的存取方法、输入输出方式等。

2. 文件系统阶段

随着大容量磁盘等辅助存储设备的出现，文件系统应运而生。‌文件系统的特点包括‌：

‌1）数据可以长期保留‌：程序可以通过文件名访问和读取数据，不必关心数据的物理位置。

‌2）数据不属于某个特定应用‌：应用程序和数据不再是直接的对应关系，可以重复使用，但不同的应用程序无法共享同一数据文件。

‌3）文件组织形式的多样化‌：包括索引文件、链接文件、Hash文件等，文件之间相互独立，数据间的联系需要通过程序构造。

‌4）缺点‌是数据冗余、数据不一致性、数据孤立。

3. 数据库系统阶段

数据库系统阶段是数据库技术发展的最高阶段，实现了有组织地、动态地存储大量关联数据，方便多用户访问。‌数据库系统的特点包括‌：

‌1）采用复杂的数据模型表示数据结构‌：数据模型描述数据本身的特点和数据之间的联系，数据不再面向单个应用，而是整个应用系统。

‌2）较高的数据独立性‌：数据库以更高级的组织形式存在，应用程序和数据库之间由DBMS负责数据的存取。

‌3）数据共享和交叉访问‌：不同应用程序可以直接操作这些数据，数据库对数据的完整性、唯一性、安全性有一套有效的管理手段。

近年来，数据库技术不断进步，出现了多种新型数据库系统，如分布式数据库GaussDB、关系数据库MySQL、列存数据库HBase、文档数据库MongoDB、键值数据库Redis、图数据库GES、时序数据库InfluxDB等。这些新型数据库系统针对不同的应用场景和数据类型进行了优化，提高了数据处理效率和性能‌。

而在当下云原生时代，任何软件系统拥有分布式能力成了标配。特别是在目前基础软件国产化的浪潮下，国产数据库百花齐放，分布式数据库大有弯道超车的趋势。

在云计算和大数据的推动下，分布式数据库技术因其在可扩展性、高可用性和容错性方面的优势，成为数据库技术发展的一个重要趋势。特别是在云原生时代，分布式数据库的弹性伸缩能力、跨地域数据复制和实时数据同步功能，使其成为构建高可用、高性能数据基础设施的理想选择。此外，在基础软件国产化的浪潮中，国产数据库百花齐放，分布式数据库展现出在特定技术领域实现弯道超车的巨大潜力。

二、分布式数据库技术介绍

1. 基本概念

分布式关系型数据库‌是指将关系型数据库的数据分布存储在多个物理节点上，通过网络进行通信和协调，共同对外提供数据库服务的系统。它继承了关系型数据库的数据一致性、完整性、事务性等优势，同时利用分布式系统的特性，实现了数据的水平扩展和负载均衡，提高了系统的整体性能和可用性‌。

分布式关系型数据库基于Shared-Nothing架构，同时支持x86和ARM计算架构，提供高吞吐、强一致性事务处理能力、金融级高可用能力、分布式高扩展能力、大数据高性能查询能力，应用于金融、电信、政府等行业关键核心系统。数据库的设计原则包括最高性能原则、最小迁移工作量原则、系统易于扩展扩容原则、最低成本原则。

分布式关系型数据库的特点包括：

‌1、数据分片‌：将大数据集分割成多个较小的子集，每个子集存储在不同的节点上，以实现数据的水平扩展。分片策略包括哈希分片和范围分片等‌。

‌2、数据复制‌：为了提高系统的可用性和容错性，对数据进行冗余存储。通过数据复制，即使某个节点发生故障，系统也能从其他节点恢复数据，保证服务的连续性‌。

‌3、一致性模型‌：在分布式系统中，由于网络延迟和节点故障等因素，数据在不同节点之间可能存在不一致性。因此，需要选择合适的一致性模型来平衡系统的可用性和一致性需求。常见的一致性模型包括强一致性、弱一致性和最终一致性等‌。

4、负载均衡：通过合理的负载均衡策略，将请求均匀分配到各个节点上，避免单点过载，提高系统的整体处理能力。

5、故障恢复：分布式系统需要具备自动检测和恢复故障的能力。当系统检测到节点故障时，应能够自动将故障节点的数据和服务迁移到其他健康节点上，确保服务的连续性。

2. 总体架构

分布式数据库是基于Shared-Nothing架构（又称为无共享架构），它是由众多拥有独立且互不共享的CPU、内存、存储等系统资源的逻辑节点组成。在系统架构中，业务数据被分散存储在多个计算节点上，数据查询任务被推送到数据所在位置就近执行，通过协调节点的协调，并行地完成大规模的数据处理工作，实现对数据处理的快速响应。总体架构如下：

图1 总体架构图

Shared-Nothing架构具备如下优点：

1、易于扩展的架构。

为BI和数据分析的高并发、大数据量计算提供高扩展能力。
并行处理机制。

2、内部处理自动化并行。

数据加载和访问方式与一般数据库相同。
数据分布在所有的并行节点上。
每个节点只处理其中一部分数据。

3、最优化的I/O处理。

所有的节点同时进行并行处理。
节点之间完全无共享，无I/O冲突。

4、增加节点实现性能扩展：增加节点可增加存储、查询和加载性能。

3. 功能架构

分布式数据库基于Shared-nothing架构，面向开放x86和ARM平台，数据跨所有节点均匀分布，所有节点以并行方式工作，提供标准SQL接口，支持SQL92,99,2003标准，支持JDBC/ODBC标准接口，提供多达2048个物理节点PB级数据存储分析的扩展能力。

图2 功能架构图

分布式数据库主要包含以下几个组件：

CN（Coordinator）：协调节点组件，独立进程，SQL的统一入口，对外接收客户端SQL语句，生成分布式执行计划，下发计划片段到各执行节点，各执行节点返回执行结果到Coordinator，返回给客户端。主要职责是接收SQL请求，生成执行计划，汇聚最终结果。
DN(DataNode)：执行节点组件，也称之为数据节点，独立进程，SQL执行计划的执行主体，并存放数据。
GTM（Global Transaction Manager）：全局事务管理器，独立进程，主要是用于维护分布式系统中全局事务一致性。
CM（Cluster Manager）：集群管理组件，由两部分组成，一个是CMServer，一个是CMAgent，每个主机节点部署一个CMAgent，CMServer和CMAgent均为独立进程，每个主机节点上部署一个CMAgent，CMAgent监控这个节点上的所有资源，包括监控网络状态，磁盘状态等硬件设备，以及CN节点，DN节点，GTM节点等软件设备的状态，CMAgent进程每隔一定时间向CMServer汇报集群各组件状态信息，CMServer根据CMAgent上报的状态信息判断集群资源是否发生故障，在集群发生故障时，能够根据故障类型作出相应的故障处理指令，保证集群自恢复。
OM（Operation Manager）：安装部署运维，配置管理接口工具，独立进程。

4. 核心技术

并行加载

数据并行导入（加载）的核心思想是充分利用所有节点的计算能力和I/O能力以达到最大的导入速度，数据并行导入实现了对指定格式（支持CSV/TEXT/FIXED格式）的外部数据高速、并行入库。高速、并行入库是和传统的使用INSERT语句逐条插入的方式相比较，入库性能得到提升。

并行导入过程中，CN只负责任务的规划及下发，把数据导入的工作交给了DN，释放了CN的资源，使其有能力处理外部请求。各个DN都参与数据导入的工作，充分利用各个设备的计算能力及网络带宽，提高数据导入的整体性能。以Hash分布策略为例，在数据库中创建内表和外表，内表指定HASH分布列，外表指定数据源。启动导入数据后，根据外表指定的数据源将数据分割成固定大小的数据块，发给每个数据节点。各个数据节点并行地处理数据块，每解析出一条数据元组就根据其分布列计算出来的Hash值判断存储的物理位置。数据到达Hash所在的节点后写入对应的数据文件。通过GDS和CN/DN的交互配合，完成整个数据的高速并行加载。

分布式执行

分布式查询处理是分布式数据库中最核心的技术，关键在于尽量降低查询中节点之间的数据流动，以提升查询效率。Coordinator负责查询请求的解析、优化以及向DataNode进行任务下发。DataNode上运行Query Executer进程，基于本节点存储的数据执行任务。每个片段（Fragment）都是接收下级任务的数据输入，并向上级任务输出数据。是一个生产者—消费者的流水线工作模型。

自适应压缩

根据数据特征自适应地选择压缩算法，常见的压缩算法包括Delta Value Encoding ，Dictionary , RLE , Prefix Compression , LZ4 , ZLIB等。在特定场景下最多能达到10+倍压缩比。

自动故障检测

自动故障检测处理，使得运维更为方便和快捷。CM检测到节点故障时，首先尝试重新拉起节点服务，重新拉起节点失败后会做故障切换。每个节点上多个数据库实例，当发生故障切换时，负载均匀分摊到多个节点，保证集群性能下降最小。

扩容不中断业务

在线扩容的原理和本质是集群内众多本地表在不同NodeGroup之间的数据搬迁。对于每个扩容重分布的表而言，数据扩容可以分为三步：#1基线数据扩容重分布、#2增量数据重分布、#3表切换。其中第二步尤为关键，在这一步内，通过行级增量标记技术，来补偿在第一步基线数据重分布过程中来自业务的并发在线插入、删除和修改。通过引入Hash聚簇存储，可以进一步降低数据重分布过程中数据的扫描量和搬迁量，以及数据重建的规模，从而缩短重分布流程的整体时间，降低对用户在线业务影响的时间窗口，实现快速扩容。

负载均衡

负载均衡为多CN提供一个统一的入口，将客户端的请求均匀地分发给各个CN服务器，使系统整体负载均衡。负载均衡作为集群系统的一个重要组件，承担两个职责：

1、均衡各CN负载，充分利用多CN计算能力。

2、故障隔离，当CN故障后，负载均衡能感知故障，并自动停止向故障CN节点转发请求。具体的故障感知的时间取决于不同的负载均衡模式。

热补丁升级

热补丁可以在业务不中断的情况下加载补丁，在不影响业务的前提下，在线解决一部分数据库内核的紧急问题。热补丁基于发布的代码版本生成补丁文件，然后以模块的形式插入到数据库内核运行地址空间中，通过寻找热补丁目标函数的地址，并动态地、原子地替换入口地址，重定向函数代码段至补丁文件代码段达到修复线上系统缺陷的目的。

热补丁的制作通过修复特定缺陷函数，制作成模块，动态地加载到运行中的内核系统。热补丁找到目标函数，并在目标函数的入口处加入跳转指令，当目标函数被调用时，跳转到补丁区执行补丁函数。目标函数的替换和还原是原子地操作CPU寄存器，热补丁可以随时随地加载和卸载，线上系统无需中断，即随时可运行最新的代码

数据脱敏

以表列为单元创建脱敏策略，可针对业务中的敏感数据进行策略创建，敏感数据的界定需结合自身业务场景识别。制定脱敏策略后，只有管理员和表对象的owner才能访问原始数据。同时，脱敏的数据可以参与实际运算及使用，仅在数据库服务最终返回结果时脱敏。

三、数据库在数据流通中的作用

数据库技术在数据流通中的作用主要体现在以下几个方面‌：

1. ‌数据组织与管理‌

数据库通过结构化的方式存储数据，使得数据查询和处理变得更加高效和便捷，增强了数据的可访问性和可维护性。数据库管理系统（DBMS）提供的数据定义语言（DDL）允许用户创建、修改和删除数据库结构，如表、视图和索引，而数据操作语言（DML）则用于插入、查询、更新和删除数据。这些语言的标准化使得用户可以跨不同的数据库系统进行数据操作，极大地提高了数据管理的灵活性和效率。此外，数据库的规范化理论帮助设计高效的数据库模式，减少数据冗余，提高数据一致性。

2. ‌促进数据流通和利用

数据库在数据流通中起到了关键作用，通过提供高效的数据检索功能、保证数据的一致性和完整性、实现并发访问和安全控制等，使得用户能够快速访问所需数据并确保了数据的可靠性和安全性。数据库的备份和恢复功能也保障了数据的持久性和业务连续性。此外，数据库支持的数据共享和交叉访问功能，使得不同应用程序和用户能够访问和利用相同的数据集，促进了数据在不同业务流程和组织间的流通。

3. ‌数据一致性和完整性

数据库通过事务管理机制确保了事务的安全可靠执行。在多用户环境中，即使多个事务并发执行，数据库也能保持数据的一致性。数据库通过实施各种约束，如主键、外键、唯一性约束和检查约束，确保了数据的完整性。这些约束条件帮助维护数据的准确性和有效性，防止了数据异常和业务规则违反。

4. 并发访问和安全控制

在多用户环境中，数据库通过锁机制和隔离级别控制并发访问，确保数据的安全性和一致性。锁机制可以是行级锁、表级锁或更细粒度的锁，它们控制了对数据的并发访问，防止了数据竞争条件和不一致的更新。隔离级别定义了事务可以看到其他事务的哪些更改，从而控制了事务的可见性，确保了事务的一致性和隔离性。此外，数据库的安全控制功能，如用户认证、权限控制和审计日志，提供了数据访问的安全保障，确保了只有授权用户才能访问敏感数据，保护了数据的隐私和安全。

专家介绍

孙长森

华为技术有限公司数据领域资深专家，从事政务大数据、数据要素、数据空间、人工智能、智慧城市等方面的顶层规划、解决方案设计等相关工作，参与多项国家标准、地方标准的编写，熟悉“华为数据之道“方法论，并在多个领域落地。

关于“中国信息通信研究院”

中国信息通信研究院是工业和信息化部直属科研事业单位，作为“国家高端专业智库产业创新发展平台”，中国信通院的科研布局从信息通信业向赋能千行百业拓展，演进形成大通信、大数字化、大安全和新型工业化“三大一新”的研究体系，同步构建了产业全生命周期服务能力，在行业发展的重大战略、规划、政策、标准和检测认证等方面发挥了有力支撑作用。中国信通院是国内信息通信技术领域唯一打通战略与政策、新技术研究、标准研制、试验验证到产业推进的全链条创新平台。

中国信通院积极推动数据技术产业落地，围绕数据基础设施、数据流通关键技术、公共数据开发利用、企业数据可信流通等布局数据要素市场建设，支撑国家战略规划与政策编制，积极开展领域内专题研究，紧密围绕数据核心技术，构建标准化体系，联合产业各方成立行业组织，推动数据行业交流共享。

关于“CAICT数据基础设施”

CAICT数据基础设施以促进数据要素市场化配置为出发点，专注于数据基础设施的关键技术研究和数据智能服务网络建设，释放数据要素价值，推动数字经济与实体经济融合创新发展。

【声明】内容源于网络

CAICT数据基础设施

内容 224

粉丝 0

CAICT数据基础设施 CAICT数据基础设施以促进数据要素市场化配置为出发点，专注于数据基础设施的关键技术研究和数据智能服务网络建设，释放数据要素价值，推动数字经济与实体经济融合创新发展。

总阅读171

粉丝0

内容224