一个完善的数据管理流程,应该包括数据治理体系,它数据环境的基本保障和重要组成部分,是把数据作为资产来加以管理的有效手段。
子曰:工欲善其事,必先利其器。作为一款数据管理管理产品,如何能够“慧眼”诊断出数据中存在的各类问题,离不开质量管理平台内置的核心“武器”——质量评估算法。
今天,小亿带我们一起来了解一下这EsDataClean的这十三种秘密武器。

空值检查
用于检查业务表的目标字段是否为空值。可以实现对同一业务表的单个、多个字段值是否为空的一次性校验,校验多个目标字段时候,可以根据实际需要设置是否允许每个字段不能为空或者不能同时为空。

值域检查
用于检查业务表中数值型、字符型、日期型目标字段的值是否在指定的范围内。如:检查年龄是否在16,65之间,可以在值域范围内书写[16,65]。

规范检查
通常我们会去校验业务数据中的身份证、机构代码、ip地址、邮编等业务信息数据是否符合一定的规范要求,通过该种规则检验,你可以轻松实现诸如:身份证号码、网络IP地址、手机号码、日期、以及符合正则表达式的规范要求检查。

重复数据检查
她可以实现业务表中记录数据是否重复,允许用户对重复数据的依据进行自定义,单个字段重复、多个字段重复等等。

记录缺失检查
用于检查业务表中的字段,与对比检查表中的字段对比,是否有缺失。如检查报表户列表的报表户id数据检查机构表中的机构id数据是否缺失数据。

引用完整性检查
用于检查业务表中的字段,是否都在比照表内。

业务逻辑检查
用于检查指标间是否符合逻辑关系要求,如参加工作的人,年龄应在16在65之间。同时,逻辑检查关联到其他业务表的时候,还支持对关联关系的设置;为了简化复杂逻辑关系的定义,还可以通过可视化的界面进行关系定义。

及时性检查
对业务数据有时效性要求的,设定时效性检查的字段、允许的误差天数、检查的表达式定义等基本信息后对业务表数据的时效性进行检查。

波动检查
业务指标与同比、环比相比在多大的范围内波动是合理的,你可以用它来实现。

平衡检查
用于判断一个业务表中两个指标(表达式)间的差值是否在指定的范围内。如:检查某家商品的规格长、宽的差值应在[1,8]毫米之间。

离群值检查
根据提供的算法来判断,发现某个业务指标的极值。如:对某地区三级医院的人均住院费用极值的探索;系统支持拉依达法,即三倍标准差和格鲁布斯法的监测校验。

结果集比对
用于实现跨数据源的对比,对数据抽取前后,数据的一致性进行对比分析。支持分数据期和业务表全数据集的一致性对比分析。

Sql检查
如果以上的各种检查方法都看完了,还没有你满足你的一款style,别担心,系统提了支持sql脚本检查的操作入口,可以实现将自己写的存储过程集成到数据质量平台来使用。

好了,看了这么多兵器的用途,想必你对我们数值质量平台的每一款武器都有直观的了解了吧,小亿欢迎你来试用各种武器!
数据质量在线演示地址:
http://115.29.193.43:9096/esdataclean
(可复制链接通过PC端浏览器体验)
通过亿信官网访问:
http://www.esensoft.com/



