大数跨境
0
0

什么是数据湖?

什么是数据湖? 云容灾备份安全治理
2021-04-22
1
导读:数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之

数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。

数据湖应该是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施;以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理;并通过与各类外部异构数据源的交互集成,支持各类企业级应用。

数据湖组件参考架构

记住以下4个特点:
1:存储原始数据,来源非常丰富,结构和非结构化
2:支持多种计算模型
3:完善的数据管理能力:多种数据源接入,实现不同数据之间的连接,支持 schema 管理和权限管理
4:灵活的底层存储,一般用 ds3、oss、hdfs 这种廉价的分布式文件系统

数据湖中的数据生命周期示意

【声明】内容源于网络
0
0
云容灾备份安全治理
分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理;窥视国内外备份软件与监控软件知识前沿水平线; 越努力,越幸运!
内容 2171
粉丝 0
云容灾备份安全治理 分享云灾备规划、实施、运营、备份与恢复、数据安全、数据治理;窥视国内外备份软件与监控软件知识前沿水平线; 越努力,越幸运!
总阅读5.1k
粉丝0
内容2.2k