大数跨境
0
0

一幅图理解:数据仓库vs数据湖vs湖屋vs数据网格

一幅图理解:数据仓库vs数据湖vs湖屋vs数据网格 云容灾备份安全治理
2023-09-19
1

一幅图理解:数据仓库vs数据湖vs湖屋vs数据网格

数据是任何现代企业的生命线。但是由于可用数据量庞大,如何有效地存储、管理和分析数据可能成为一大挑战。

这就是数据仓库、数据湖、湖屋(Lakehouse)和数据网格(Data Mesh)派上用场的地方。

1、数据仓库(Data Warehouse):

📂 结构化数据:主要设计用于存储结构化数据。

📊 分析为主:优化了查询性能,通常用于业务智能任务。

🛠 ETL过程:数据在加载前需要清洗和转换(ETL)。

- 例子:Teradata,首次推出于20世纪70年代末,是数据仓库解决方案的先驱。

- 历史:在20世纪80年代和90年代变得流行,因为企业需要更多的分析能力。

2、数据湖(Data Lake):

🌊 原始数据:可以存储大量的原始、结构化、半结构化或非结构化数据。

⏱ 读时模式(Schema-on-Read):在读取数据时定义数据结构。

🛠 ELT过程:先存储,后转换。

- 例子:Amazon S3,2006年推出,是构建数据湖的热门选择。

- 历史:在2010年代随着大数据和多元数据来源的崛起而受到关注。

3、湖屋(Lakehouse):

🏠 混合型:结合了数据仓库和数据湖的特点。

📊 统一平台:便于进行业务智能和机器学习。

🛠 数据质量:维护可靠的数据标准。

- 例子:Databricks Delta Lake,首次推出于2010年代末。

- 历史:近年来出现,解决了数据湖和仓库之间的差距。

4、数据网格(Data Mesh):

🌐 去中心化:提倡领域导向的去中心化数据所有权。

🚀 可扩展性:为现代分布式系统和微服务而构建。

🤝 协作为主:专注于跨团队合作。

- 例子:这更多是一种范式而非产品。可以将其视为一种去中心化的方法,类似于如何去中心化传统应用架构。

- 历史:在2020年代初开始受到关注,基于过去架构的教训。

总体而言:

仓库:结构化,分析能力强。

湖:包含大量、多样性的数据。

湖屋:两者的结合。

网格:去中心化,可扩展的未来。

【声明】内容源于网络
0
0
云容灾备份安全治理
分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理;窥视国内外备份软件与监控软件知识前沿水平线; 越努力,越幸运!
内容 2171
粉丝 0
云容灾备份安全治理 分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理;窥视国内外备份软件与监控软件知识前沿水平线; 越努力,越幸运!
总阅读6.5k
粉丝0
内容2.2k