数据建模——为了不被鄙视- 大数跨境

数组智控产业发展科技院

2022-01-12

导读：去年（也就是2021年的某一天）一个朋友说：如果从业十几年都还在做“增删改查”这种初级工作的PD，一定缺乏数

去年（也就是2021年的某一天）一个朋友说：如果从业十几年都还在做“增删改查”这种初级工作的PD，一定缺乏数据建模思维的PD；小编自己虽然也擅长各种中间件的抽象设计，但是确实在数据建模一块从未考虑过，因为一直认为那是技术工程师该做的事，所以当时的心情很不美好。

为了不被鄙视，小编决定基于已有的数据资产管理体系产品设计方案，迭代升级规划搞定它，并同时进行各种资料的收集整理，并分享给各位同行爱好者。

数据建模的过程就是搭建标准数据与业务流程处理之间的桥梁的过程。

数据建模是与业务建模同步进行的，是在数据标准的框架约束下进一步让数据与具体业务联系起来的重要步骤，和业务模型没有关联的数据可以大胆地舍弃掉。

模型一般需要分多个层次，不同层次的模型有不同的展现方式，并且每一层都由上一层转换计算而来。

（图：产品原型设计——元数据建模）

关系型数据建模

从百度上搜索资料可得知，这类数据的建模理论是最广为人知的，该理论来源于埃德加·弗兰克·科德（EdgarFrank Codd），其被誉为“关系数据库之父”。

Codd在创造了关系型数据库的概念之后，又进一步提出了几个设计关系型数据库的原则——范式，后人经过不断的发展，提出了更多的范式要求。在数据标准框架下，结合范式建模理论，可以确定关系型数据的模型关系。

关系型数据（也叫二维表），一般把横向的数据称为记录，把纵向的数据称为记录的字段，也叫属性值。关系型数据最重要的3个范式如下：

1）第一范式：要求属性是不可再分的描述，总是以一个整体出现，例如地址栏不应拆分成国内和国外的业务需求。

2）第二范式：属性中必定存在一个主属性，也叫主键，其他非主键与主键组合成一条记录，这条记录是唯一的，并且可以通过主键来标识这条记录。

3）第三范式：属性只依赖主键，属性之间不存在推导关系，即如果一个属性能通过其他属性推导出来，就应该单独设计一张表，两张表进行关联（join）。

数据仓库建模

数据仓库之父比尔·恩门（Bill Inmon）的范式建模

各种资料综合了解，范式建模的理论受到了传统关系型数据库建模理论的影响，在Inmon看来，数据源就是多样化的，必须经过ETL（抽取、转换、加载）清洗过后才能进入明细层（即DW层，此层符合上面描述的关系型数据建模的第三范式），再从DW层又经过ETL计算后选择进入各应用DM层，即数据集市层，最后在各集市层中生成最终业务需要的Cube（业务处理逻辑），并提供后续输出展示。