大数跨境
0
0

大数据湖仓

大数据湖仓 云容灾备份安全治理
2022-12-14
2
导读:概述传统数仓的问题建设思路范围定义了大数据湖仓一体的技术架构,以及统一存储、统一元数据、统一计算、统一服务、

概述

传统数仓的问题

建设思路

定义了大数据湖仓一体的技术架构,以及统一存储、统一元数据、统一计算、统一服务、运维管理、安全管理、平滑演进相关能力要求。适用于大数据湖仓一体架构设计,产品研发和测评,以及企业落地实施湖仓一体架构升级做参考。

缩略语

参考标准

GB/T 37939-2019 信息安全技术 网络存储安全技术要求

YD/T 4029-2022  计算存储分离架构的分布式存储技术要求

湖仓一体技术架构

湖仓一体是一种新的大数据架构,融合数据湖与数据仓库的优势,实现数据湖和数据仓库的数据无缝打通,提升数据分析效率,同时还能减小数据冗余和搬迁,降低成本,支撑企业大数据系统高效运行。湖仓一体结合云原生技术,采用存算分离架构,提供统一开放的存储接口,对接多样的计算引擎,实现存储合和计算灵活规划和部署,资源弹性、按需伸缩,从而有效简化企业的数据基础设施架构。湖仓一体技术架构如下图所示:

在该架构中,数据统一存储,提供统一元数据,将大数据、数据仓库、机器学习、等技术进行整合,形成一套数据服务系统,将数据仓库和数据湖的价值进行叠加,更好地分析、整合数据。该架构可以很好的克服数据重力,让数据湖和数据仓库的数据可以自由流动,用户可以便捷地调取数据。借助湖仓一体,企业可高效处理数仓内的热数据与数据湖中的历史数据,并生成丰富的数据集,无需做数据搬移。湖仓一体技术架构由以下七部分组成。

(一)统一存储

接入多种数据,提供多种数据存储格式,包括数据湖的数据格式和数据仓库的数据格式,可以存储任意规模的结构化、半结构化、非结构化数据。通过通用的数据组织格式,如 Hudi、Iceberg、DeltLake 等,实现数据的统一存储访问。

(二)统一元数据

通过采集、管理数据湖与数据仓库中的元数据, 构建统一元数据目录和数据视图,实现数据湖与数据仓库数据共享,提供湖仓一体化的元数据服务。

(三)统一计算

集成批处理引擎、流处理引擎、交互式查询引擎、交互式分析引擎、机器学习引擎等通用数据处理引擎,覆盖数据处理全场景,通过统一元数据管理,实现与统一的存储的无缝对接。

(四)统一服务

为上层业务提供一体化的数据服务体验,无需关注底层异构环境,为数据开发者、数据使用者、数据运营管理者提供统湖仓一体化服务能力。

(五)统一运维

满足多样化运维需求,支撑平台管理员、各类运维人员或使用者及时发现、定位并处理问题,提高运维效率。

(六)安全管理

依据三法一条例,构建全面的安全保护解决方案,从系统层安全、数据层安全、应用层安全构筑完整的安全管理能力。

(七)湖仓一体架构演进

基于数据湖与数据仓库现有能力,对标湖仓一体的架构进行补充与完善,实现向湖仓一体架构的平滑演进。

AmazonWebServices官方给出了智能湖仓的参考架构

数据源定义、数据摄取和入湖入仓,到湖仓打通与集成,再到数据出湖、数据处理和数据消费,一气呵成,各种云上数据服务无缝集成在一起。数据从各种源头“流入”到智能湖仓存储中,又按需流出,被处理、被消费。

湖仓一体化的特点,概述总结为:

  • 统一的数据管理:湖仓一体提供完善的数据管理能力。数据湖中会存在两类数据:原始数据和处理后的数据。数据湖中的数据会不断的积累、演化,因此包含以下数据管理能力:数据源、数据连接、数据格式、数据schema(库/表/列/行)

  • 多模态的存储引擎: 湖仓一体本身内置多模态的存储引擎,以满足不同的应用对于数据访问需求(综合考虑响应时间/并发/访问频次/成本等因素)。但是,在实际的使用过程中,为了达到可接受的性价比,湖仓一体解决方案提供可插拔式存储框架,支持的类型有HDFS/S3等, 并且在必要时还可以与外置存储引擎协同工作,满足多样化的应用需求

  • 丰富的计算引擎:提供从批处理、流式计算、交互式分析到机器学习等各类计算引擎。一般情况下,数据的加载、转换、处理会使用批处理计算引擎;需要实时计算的部分,会使用流式计算引擎;对于一些探索式的分析场景,可能又需要引入交互式分析引擎

  • 数据全生命周期管理:湖仓一体提供一个企业中全量数据的存储场所,需要对数据的全生命周期进行管理,包括数据的定义、接入、存储、处理、分析、应用的全过

智能湖仓”架构是比所谓“数据中台”更能落地和务实的“中台”,如果数据中台是个饼,那智能湖仓就是把饼“烹熟烤香”的锅~~~








【声明】内容源于网络
0
0
云容灾备份安全治理
分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理;窥视国内外备份软件与监控软件知识前沿水平线; 越努力,越幸运!
内容 2171
粉丝 0
云容灾备份安全治理 分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理;窥视国内外备份软件与监控软件知识前沿水平线; 越努力,越幸运!
总阅读5.9k
粉丝0
内容2.2k