大数跨境
0
0

BBD技术控丨从架构的角度谈大数据治理

BBD技术控丨从架构的角度谈大数据治理 BBD Data
2019-11-26
0
导读:关于数据治理那些事儿~





文丨张昆 BBD资深架构师


先后参与多个大型项目的架构设计和交付工作,擅长政府端(ToG)大型项目的架构设计和交付,长期致力于 IT技术研究、产品规划设计、架构咨询等相关工作,对DevOps、自动化运维、微服务架构、大数据架构应用等有着浓厚的兴趣。




01.

数据治理概述


Data governance(DG) refers to the overall management of the availability, usability , integrity ,and security of the data employed in an enterprise . Asound data governance program includes a governing body or council ,a defined set of procedures ,and a plan to execute those procedures Data governance processes can by automated using data services built usingworkflow and deployed on a data Management platform.


数据治理( DataGovernance)是企业数据治理部门发起并推行的,是关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策、流程。数据治理是一套持续改善的管理机制,通常包括数据治理组织、治理模型、治理政策及体系制定、治理技术工具,数据标准、数据质量、影响度分析、作业流程、监督及考核等内容。


02.

数据治理的趋势


随着数据在多个系统间更加离散存储,各企业机构不得不应对日益复杂的生态系统与数字化业务需求。信息技术研究和顾问公司Gartner发布的数据管理技术成熟度曲线(Hype Cycle for Data Management)将帮助首席信息官(CIO)、首席数据官(CDO)及其它数据与分析高级管理人员了解他们正在评估的数据管理技术的成熟度,以便在企业机构的内部构建内聚性数据管理生态系统,下图为 Gartner发布的2018年数据管理成熟度技术曲线。



在“2017年数据管理技术成熟度曲线”所列的4项被认为具有变革性。2项技术——事件流处理(ESP)与内存计算数据库管理系统(IMDBMS)预计将在2至5年内达到“生产成熟期”,而区块链(Blockchain)与分布式账本(Distributed Ledgers)达到“生产成熟期”预计仍需要5至10年。


而在“2018年数据管理技术成熟度曲线”所列的2项被认为具有变革性。DataOps是一种协作数据管理实践,专注于改善企业组织中数据管理者和消费者之间数据流的传输、集成和自动化。私有云dbPaaS产品将私有云数据库平台的隔离性与公共云的自助服务和可扩展性相结合,可以在本地数据中心提供云体验。 这些都是业内对于数据治理方面的趋势,对于架构师、CTO等人群可以关注。



03.

数据治理的定位和目标


数据治理定位于与“企业架构治理”和“IT治理”相互协同合作,来共同支撑公司治理的运作。具体如下图所示



数据治理覆盖了整个企业的信息化建设过程,包括所有核心业务系统规划、运营数据储存、 数据仓库建设、风险控制等。同时数据治理也需要技术提供支撑,一般包括主数据管理平 台、数据质量管理平台、数据服务平台,以及元数据管理和数据标准管理平台,最终实现 所有数据的全方位监管,实现端到端的数据管理。 确保数据的有效性、可访问性、高质量、 一致性、可审计和安全性,这是数据治理的目标所在。 




04.

数据治理的范围


依据数据治理概念的4P框架界定数据治理的范围,是由管理域与核心域两个部分组成,管理域包括战略,目标,规划,组织,制度,流程,执行7个部分;核心域包含数据标准化管理,数据质量管理,主数据管理,元数据管理,数据安全管理与数据生命周期管理6个部分组成。管理域为核心域提供保障规范,核心域为管理域提供支撑落实,如下图所示

05.

数据治理的成熟度模型


数据治理的成熟度可划分为一下6个阶段,包括:无意识阶段、初始阶段、可重复阶段、定义阶段、管理阶段、优化阶段。在此基础上,确定每个阶段的基本特征如下

从组织降低管理数据的成本或数据提供的整体价值较高时,数据治理就更有优势。如今,数据治理成熟度在各个行业内仍然很低,一般企业停留在1分-2分之间。



06.

数据治理的统一流程


投入精力实施完善的企业数据治理计划的收益丰富多样,实现强大的数据治理的挑战也是如此。 许多企业已要求获得一个列出了实现数据治理计划的步骤的流程手册。显然,每个企业将以不同方式实现数据治理,这主要是因为他们具有不同的业务目标。一些企业可能专注于数据质量,而其他企业专注于客户中心性,还有一些企业专注于确保敏感客户数据的隐私。一些组织将接受一种正式的数据治理计划,而其他组织希望实现更加轻量型和战术性的方案。且不说这些细节,每个组织应该执行一些步骤来治理自己的数据,下图所示为IBM定义的数据治理统一流程: 



IBM定义的数据治理统一流程,并规定蓝色字体的10个必需步骤和黑色字体的4个可选专题共计14个步骤,具体详见下表所示:



07.
大数据下数据治理的目标

通过数据治理可以及时发现、解决、监控、预防系统的数据问题。建立科学的管理组织,制定标准的数据管理体系,从根本上改善和解决系统的数据问题。



08.

大数据下的数据治理痛点


大数据带给我们的三个颠覆性观念转变:是全量数据,而不是随机采样;是大体方向,而不是精确制导;是相关关系,而不是因果关系。 在大数据时代,由于数据形成孤岛无法有效使用,数据来源众多缺乏有效管理,数据访问混乱接口维护困难,数据缺少规范无法保障质量,缺少权限管理存在安全隐患,数据一致性差影响数据分析,导致形成数据沼泽深陷其中无法自拔。



09.

大数据下数据治理的最佳拍档-数据湖


数据湖是一个集中化存储海量的、多个来源,多种类型的数据,并可以对数据进行快速加工,分析的平台,本质上是一套先进的企业数据架构。


最新数据湖概念是以大数据平台为基础,允许组织在一个集中式存储库中存储其所有结构化和非结构化的数据,完成企业对核心数据管理,满足丰富的数据应用需求、实时分析、数据挖掘、共享开放等功能。



10.

数据湖解决数据沼泽问题


  • 数据易追溯


数据湖可以汇聚不同来源的数据,运用元数据管理等手段,提高数据的可追溯性、一致性、完整性,提升数据质量,从而是数据更具有价值。


  • 数据易使用


数据湖利用Hadoop生态丰富的存储技术、计算技术,为企业提供灵活的数据存储及应用服务,同事也对数据进行主数据管理、数据质量管理及数据标准化管理,为企业提供更便捷易用的数据服务。


  • 数据易管理


数据湖是企业信息化建设的核心系统数据湖管理复杂度和数据本身复杂度都很高,通过定制数据申明周期管理策略,建立数据地图、数据血缘、数据字典等,是数据更便于管理。


  • 数据更安全


数据湖主要依赖于Hadoop生态环境,但生态环境中的安全与权限管理尚未成熟。需要通过数据脱敏、安全认证、权限与授权等方法保障数据的安全。



11.

数据仓库与数据湖的区别


12.

融合数据湖的大数据治理框架


在数据治理的基础上融合数据湖的特点,对数据湖中不同区域中的数据进行全生命周期的治理,构建基于数据湖的大数据治理框架。 



13.

数据湖治理架构


数据湖治理架构,正常涵盖采集数据区、原始数据区、标准数据区、融合数据区、分析数据区、数据服务区几个部分,具体如下图所示:




编后语:

互动邮箱:zhangkun@bbdservice.com


随着大数据的飞速发展,数据治理是目前一个比较新兴的、正在发展的学科。未来3-5年面向大数据的数据治理将是大数据的下半场核心内容,后续会将治理核心域、数据湖、治理管理域展开说明。作为一个政府行业有着十多年项目和架构经验的IT老兵,很荣幸在这个平台与大家分享。



END / 


点击图片,查看往期精彩

【声明】内容源于网络
0
0
BBD Data
大数观天下,微言解疑难
内容 748
粉丝 0
BBD Data 大数观天下,微言解疑难
总阅读97
粉丝0
内容748