大数跨境

差异化分类数据治理

差异化分类数据治理 菲斐科技
2021-06-11
1
导读:数据治理是一项以数据为中心的工作,随着菲斐数据治理在戒毒、水利、地质等行业的应用,我们也发现数据往往存在多种类型,这些不同的类型数据在数据治理上的侧重点往往不同,需要不同的处理方式。



差异化分类数据治理




      数据治理是一项以数据为中心的工作,随着菲斐数据治理在戒毒、水利、地质等行业的应用,我们也发现数据往往存在多种类型,这些不同的类型数据在数据治理上的侧重点往往不同,需要不同的处理方式。


      不同的企业或组织基于不同的目的,可以从多个角度对数据进行分类,如结构化数据和非结构化数据、内部数据和外部数据、原始数据和衍生数据、明细数据和汇总数据等。针对不同特性的数据采取不同的管理策略,以期实现最大的投入产出比。这就要求我们建立数据分类管理框架,不断完善菲斐数据治理体系。




基于数据特性的分类管理框架


      图1是一种典型数据分类方式,根据数据特性及治理方法的不同对数据进行了分类定义:内部数据和外部数据、结构化数据和非结构化数据、元数据。其中,结构化数据又进一步划分为基础数据、主数据、事务数据、报告数据、观测数据和规则数据。



      不同分类的数据,其治理方法有所不同。如基础数据内容的变更通常会对现有流程、IT系统产生影响,因此基础数据的管理重点在于变更管理和统一标准管控。主数据的错误可能会导致成百上千的事务数据错误,因此主数据的管理重点是确保同源多用、重点进行数据内容的校验等。




以统一语言为核心的结构化数据管


     结构化数据包括基础数据、主数据、事务数据、报告数据、观测数据、规则数据。结构化数据的共同特点是以信息架构为基础,建立统一的数据资产目录、数据标准与模型。


01

基础数据治理

      基础数据用于对其他数据进行分类,在业界也称作参考数据。基础数据通常是静态的(如国家、币种),一般在业务事件发生之前就已经预先定义。它的可选值数量有限,可以用作业务或IT的开关和判断条件。当基础数据的取值发生变化的时候,通常需要对流程和IT系统进行分析和修改,以满足业务需求。因此,基础数据的管理重点在于变更管理和统一标准管控。



02

主数据治理

      主数据是参与业务事件的主体或资源,是具有高业务价值的、跨流程和跨系统重复使用的数据。主数据与基础数据有一定的相似性,都是在业务事件发生之前预先定义;但又与基础数据不同,主数据的取值不受限于预先定义的数据范围,而且主数据的记录的增加和减少一般不会影响流程和IT系统的变化。但是,主数据的错误可能导致成百上千的事务数据错误,因此主数据最重要的管理要求是确保同源多用和重点进行数据内容的校验。



03

事务数据治理

      事务数据在业务和流程中产生,是业务事件的记录,其本身就是业务运作的一部分。事务数据是具有较强时效性的一次性业务事件,通常在事件结束后不再更新。


      因此,事务数据的治理重点就是管理好事务数据对主数据和基础数据的调用,以及事务数据之间的关联关系,确保上下游信息传递顺畅。在事务数据的信息架构中需明确哪些属性是引用其他业务对象的,哪些是其自身特有的。对于引用的基础数据和主数据,要尽可能调用而不是重新创建。



04

报告数据治理

      报告数据是指对数据进行处理加工后,用作业务决策依据的数据。它用于支持报告和报表的生成。

  

      报告数据涵盖的范围较广,如主数据、基础数据等,这些数据类别本身已经有相应的管理机制和规范。



05

观测数据治理

      观测数据是通过观测工具获取的数据,观测对象一般为人、事、物、环境。


      相比传统数据,观测数据通常数据量较大且是过程性的,由机器自动采集生成。不同感知方式获取的观测数据,其数据资产管理要素不同。


      观测数据的感知方式可分为软感知和硬感知。软感知是使用软件或者各种技术进行数据收集,收集的对象存在于数字世界,通常不依赖于物理设备,一般是自动运行的程序或脚本;硬感知是利用设备或装置进行数据收集,收集的对象为物理世界中的物理实体,或者是以物理实体为载体的信息,其数据的感知过程是数据从物理世界向数字世界的转化过程。




以特征提取为核心的非结构化数据管理


      随着业务对大数据分析的需求日益增长,非结构化数据的管理逐渐成为数据管理的重要组成部分。非结构化数据包括无格式文本、各类格式文档、图像、音频、视频等多种异构的格式文件,较之结构化数据,其更难标准化和理解,因此在存储、检索以及消费使用时需要智能化的IT技术与之匹配。


      相较于结构化数据,非结构化元数据管理除了需要管理文件对象的标题、格式、Owner等基本特征和定义外,还需对数据内容的客观理解进行管理,如标签、相似性检索、相似性连接等,以便于用户搜索和消费使用。因此,非结构化数据的治理核心是对其基本特征与内容进行提取,并通过元数据落地来开展的。





       

      数据治理在将各个应用系统数据汇集和治理的过程中,也需要根据不同的数据类型匹配不同的处理原则。在菲斐数据治理平台的实践过程中,也能看到需要这样的需求。例如在菲斐建设智慧戒毒大数据平台中过程中,客户对数据进行了基础库、业务库和主题库的分类,各类型数据对于数据治理的要求就有所不同。基础库包含人口库、法人和组织机构库以及空间和地理信息库,对于这类数据需要确定唯一的数据来源,还需要考虑和专业部门的数据可信度确认,例如人口库需要和公安部门进行数据比对,法人库需要和工商部门进行比对确保数据的准确性;而业务库是内部系统基于业务所产生的,其准确性就不需要与外部系统进行比对,治理的重点则是基于元数据的数据校验。在水利、地质等项目中也能够看到基于不同数据种类的不同治理方案。总之数据分类治理是一项基础性和长期性的工作,面对不同的业务场景也需要进行对应具体的分析。而提前梳理这些分类对于提升数据治理平台的建设水平也是大有帮助的。


    数据分类的方式还有很多,基于不同的场景可以设置不同的分类。本文也只是借鉴了业内的一种模式,在真正进行应用也需要结合业务进行更多的调整,重点是要有数据分类治理的思维。做好差异化分类数据治理,构建更优的数据治理平台。




— END —




【声明】内容源于网络
0
0
菲斐科技
关注大数据,聚焦小数据;菲斐科技在信息、数据、科技专业领域以务实创新的精神不断进行开拓实践和探索进取,目前已为众多国家机关、政府机构及企事业单位提供优质的服务和信息化整体解决方案。
内容 65
粉丝 0
菲斐科技 关注大数据,聚焦小数据;菲斐科技在信息、数据、科技专业领域以务实创新的精神不断进行开拓实践和探索进取,目前已为众多国家机关、政府机构及企事业单位提供优质的服务和信息化整体解决方案。
总阅读189
粉丝0
内容65