
“人家都数据中台了,你还在做数据报表” “人家都数据湖了,你还在搞数据仓库”“ 阿里“拆中台”了,中台难道不香了” ……
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定。
首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;
其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

△数据仓库逻辑架构
数据仓库是一个功能概念,是将企业的各业务系统产生的基础数据,通过维度建模的方式,将业务数据划分为多个主题(集市)统一存储,统一管理。
应用场景:一般都是作为商业智能系统、数据仪表盘等可视化报表服务的数据源。
数据仓库之父比尔·恩门说过一句话叫“IT经理们面对最重要的问题就是到底先建立数据仓库还是先建立数据集市”,足以说明搞清楚这两者之间的关系是十分重要而迫切的。通常在考虑建立数据仓库之前,会涉及到如下一些问题:
采取自上而下还是自下而上的设计方法
企业范围还是部门范围
先建立数据仓库还是数据集市
建立领航系统还是直接实施
数据集市是否相互独立
一种是独立数据集市,这类数据集市有自己的源数据库和ETL架构;
另一种是非独立数据集市,这种数据集市没有自己的源系统,它的数据来自数据仓库。当用户或者应用程序不需要/不必要/不允许用到整个数据仓库的数据时,非独立数据集市就可以简单为用户提供一个数据仓库的子集。
数据集市是一个结构概念,它是企业级数据仓库的一个子集,主要面向部门级业务,并且只面向某个特定的主题。
应用场景:数据集市是数仓之上更聚焦的业务主题合集,更偏向于应对业务数据快速高效应用的需求,一般用于商业智能系统中探索式和交互式数据分析应用
从源系统导入所有的数据,没有数据流失。
数据存储时没有经过转换或只是简单的处理。
数据转换和定义schema 用于满足分析需求。
另外,数据湖结合先进的数据科学与机器学习技术,能帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这些模型能刺激企业能力的后续增长。

△数据湖示意图
数据湖是一种数据存储理念,存储企业各种各样的原始数据的大型仓库,包括结构化、非结构、二进制图像、音频、视频等等。
应用场景:以大数据技术为基础有多样化数据结构海量大数据存储需求,也可作为数据仓库或者数据集市的数据源。

数据中台是一个逻辑概念,为业务提供服务的主要方式是数据API,它包括了数据仓库,大数据、数据治理领域的内容。
应用场景:是将数据服务化提供给业务系统,目的是将数据能力渗透到业务各个环节,不限于决策分析。

数据仓库则用于存储来自多个来源的结构化数据。
数据湖的不同之处在于它可存储非结构化、半结构化和结构化数据。

大数据时代,数据量越来越多,数据形式日益复杂,而以数据仓库为代表的、现有的数据存储和处理技术无法满足海量、多样的数据处理需求的背景下产生的。“数据湖”是将复杂的事物具象化,偏技术一些,以一个形象的名字,反应了它在大数据存储和大数据处理方面的优势和能力。
数据湖作为一个集中的存储库,可以在其中存储任何形式(结构化和非结构化)、任意规模的数据。在数据湖中,可以不对存储的数据进行结构化,只有在使用数据的时候,再利用数据湖强大的大数据查询、处理、分析等组件对数据进行处理和应用。因此,数据湖具备运行不同类型数据分析的能力。
数据中台从技术的层面承接了数据湖的技术,通过数据技术,对海量、多源、多样的数据进行采集、处理、存储、计算,同时统一标准和口径,把数据统一之后,以标准形式存储,形成大数据资产层,以满足前台数据分析和应用的需求。数据中台更强调应用,离业务更近,强调服务于前台的能力,实现逻辑、算法、标签、模型、数据资产的沉淀和复用,能更快速的相应业务和应用开发的需求,可追溯,更精准。

根据以上数据仓库、数据湖和数据中台的概念论述和对比,我们进行如下总结:
1、数据仓库是通过ETL技术把原始数据进一步加工处理,提高数据数据质量,统一数据标准,然后把数据再进行分类,就是主题的维度建模过程,将数据统一存储与管理,为了满足决策分析型需求。
2、数据湖就好比一个大型仓库,什么格式的数据都存储,但只存原始数据。
3、数据中台是将经过数据治理的数据仓库或大数据平台中的数据,通过接口的方式直接服务于应用系统。
那么所有这些企业都必须做吗?
对企业来说,选择哪种平台?答案是没有最好,只有最合适,盘点下自己企业数据资产情况、数据服务的需求情况、数据治理的能力情况,再根据成熟度能力模型评估,正确定位自己。
无论是建立数据仓库还是数据中台都是以业务目标为主,切莫盲目跟风,没有最好的技术,只有最合适的平台。当然,不论是建设哪个平台,亿信华辰都可以为您提供专业的产品方案服务。15年来,我们致力于为政企用户提供从数据采集、存储、治理、分析到智能应用的智能数据全生命周期管理方案,帮助企业实现数据驱动、数据智能。
—— / END / ——


