大数跨境

星型模型识别规则(主外键识别)

星型模型识别规则(主外键识别) 数组智控产业发展科技院
2021-07-15
3
导读:星型模型的识别主要基于ER关系的主外键识别。要想自动建立星型模型,实际上是找到事实表与维表间字段的关联关系。

星型模型的识别主要基于ER关系的主外键识别。要想自动建立星型模型,实际上是找到事实表与维表间字段的关联关系。

第一步:字段筛选

理论上事实表的每个字段需要与维表的每个字段进行一一匹配,看是否关联。实际操作中,为减少计算量,先从命名上过滤明显不可能是主外键的字段(比如选取命名中带“码”、“ID”、“key”的字段,其它的不考虑)。其次在为事实表字段找可能与之关联的字段时,只考虑相同在相同数据类型的字段之间做匹配。

实际应用中,可能存在把数字、字符、文本等内容均保存为数据库中的String类型数据,因此直接根据数据库中标识的列类型判断不准确。因此我们还定义了根据字段值特征自动识别数据类型的规则。

第二步:找出字段间的包含依赖关系

根据字段数值对事实表与维表中筛选后的字段进行两两匹配,得到包含共同数据字段对,我们称它们有包含依赖关系。

第三步:提取出1:n主外键

在有依赖关系的字段对中选出1:n关系的,1表示主键每个字段值的重复个数,n表示外键每个字段值的重复个数。理论上主键包含的不同字段值要全些,外键去重后的所有字段值来自于主键字段值得一部分。如果外键中有太多超出主键的字段值,它们主外键的关系将不成立。我们用主外键共同字段值占有率(即主外键共同拥有的字段值个数除以外键的所有字段值个数),来衡量它们主外键关系成立的程度。

对于一些字段数值表示相同,但字段实际含义不同的情况。比如有时候性别的数值会用“1,2”来表示,交易;类型也会用“1,2”表示。这时候,在原有判断的基础上还会考虑字段命名的匹配度来进行筛选验证。用字段数值匹配的权重更高些。最终计算出字段两两匹配的概率,输出多对候选值。

第四步:识别联合主外键

如果两张表中同时有多对字段存在n:m包含依赖关系。说明这些字段很可能是联合主键,将这些字段对进行两两或三三(所有可能组合)合并。合并后再进行匹配,看他们是否满足1:n情况,再根据上诉1:n的判断标准来判断哪个组合是联合组件。最后再用字段名进行验证。


【声明】内容源于网络
0
0
数组智控产业发展科技院
以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
内容 986
粉丝 0
数组智控产业发展科技院 以AI技术为底层能力,聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域,提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。
总阅读940
粉丝0
内容986