在当今数据驱动的商业时代,企业数据仓库或数据平台已成为支撑决策、赋能业务的核心基础设施。
然而,许多企业的数据团队正深陷这样的泥潭:业务人员抱怨“我要的销售额数据到底在哪张表里?”,数据分析师痛苦地对比着三张表名相似的“用户表”却得不出统一结论,数据开发工程师每次接到新需求都像是从零开始,重复造轮子。
这些问题的根源,往往在于数据模型设计的无序与不规范。表名随心所欲,字段名歧义丛生,业务含义相同的指标在不同模型中重复计算且结果不一。这种“数据债务”严重制约了数据的可用性、可信度与开发效率。
在这一背景下,我们推出了「 EasyDesign 」的数据模型规范设计产品,旨在将经典的维度建模理论与现代工程规范相结合,为企业的数据资产建立一套清晰、统一、可复用的“宪法”。
1)模型不可知:表名如tbl_01,dw_report_2023,无法直观理解其业务含义,使用者必须依赖设计文档或口头询问,而文档往往滞后甚至缺失。
2)歧义与混淆:一个字段名叫status,在用户表是“激活状态”,在订单表却是“支付状态”,字段同名不同义/同义不同名(如user_id, uid, customer_id)现象普遍。
3)重复建设与数据孤岛:不同团队可能对相同的业务需求(如“用户留存分析”)建立多套相似但略有差异的数据模型,导致相似模型冗余、浪费计算资源和指标不一致。
4)开发效率低下:每个新项目都需要重新进行表结构设计,无法快速复用已有的标准业务维度与事实,拖慢数据开发效率。
5)学习成本高昂:新成员加入团队,需要花费大量时间熟悉混乱的模型结构,难以快速上手。
网易数帆维度建模产品 EasyDesign 的核心思想是:将维度建模这一成熟方法论产品化、标准化、自动化,提供组织数据、刻画数据、规范约束、效果衡量四大能力,用于数仓规范化建模,并指引数仓建设方向。
组织数据:按照主题域、表分层方式来组织和管理数仓表;
刻画数据:通过主键、维度、度量、指标、标准引用等描述数仓表核心信息;
规范约束:提供表命名约束、模型发布审批等规范操作约束;
效果衡量:提供数仓建设水平评估值体系。
产品主要面向用户包括数据开发、数据架构师、数据团队管理者等,其核心使用流程可分为四步,包括模型规范定义、数据模型设计、模型发布审批、模型建设评估,如下图所示:
图1 产品使用流程图
产品内置了经典的数据仓库分层架构,并引导用户进行主题域划分,帮助用户构建整体数据蓝图,其中:
分层设计:包括系统内置分层、自定义分层,系统内置分层包括常见的ODS、DWD、DWS、ADS等;
图2 分层设计
主题设计:产品支持用户根据企业业务过程进行多级主题域设计,如交易(trade)、客户(customer)、营销(marketing)、财务(finance),为模型归类提供顶层框架。
图3 主题设计
模型设计主要包括表信息设计、字段信息设计,其中表信息可以设置表的分层、主题域、数据源类型、表标签、表命名规则设计等,如下所示:
图4 表信息设计
字段信息设计包括分区/非分区字段的中英文名称、字段类型及长度、字段描述、关联维度/度量/指标、关联标准数据元及字典等,其中关联标准数据元可引用标准定义的词根命名、标准长度/格式、标准字典值域等,引用标准的好处是同一业务含义的模型字段能够统一度量衡(即相同的命名、格式、长度、值域),解决模型不知义混乱等问题,模型字段设计如下所示:
图5 字段信息设计
为了规范化模型发布流程,产品提供了新建、变更模型的发布审批卡点,避免模型随意创建、随意变更带来管理问题和使用问题。
图6 模型工单管理
模型建设评估用于展示当前通过模型设计进行数仓建设后的数据展示,以便数据管理者能对整体模型建设情况有了清晰直观的了解。
模型建设评估内容包括各个分层下模型建设数量趋势分布、主题域表数量统计,以及模型跨层依赖、模型复用情况等,如下图所示:
图7 模型建设评估
某制造业用户原有数据仓库有上千张表,表名混乱,重要业务指标“GMV”在三个不同报表中有三个不同的值。
1)梳理与初始化:数据架构师带领团队,梳理出交易、用户、商品、物流、营销五大主题域,并初始化了包含200+个核心词根的词根库。
2)核心模型重构:首先聚焦最核心的“交易”域,基于“下单”、“支付”、“退款”等等业务过程,重新设计了DWD层事实表(如dwd_trade_trd_create_order_di)和相关的维度表(如dim_user_info_df用户维度拉链表)。
3)赋能开发:在开发新的“用户行为分析”宽表(DWS层)时,开发者直接从重构的模型中引用标准的用户维度和交易事实表,不再需要关心底层复杂的关联逻辑,开发周期缩短了40%。
通过规范化平台模型建设,形成高复用、低耦合的高质量模型:
梳理业务域和业务流程,定义7大主题域、37+业务过程;
梳理一致性维度,定义10+一致性维度;
规范化建模开发,接入240+业务表,设计并开发120+模型,DWD模型平均引用系数4以上,ODS层被DWS/ADS/DIM层直接引用情况大幅降低至个位数水平。
图8 产品最佳案例
我们的愿景不止于建立规范。我们认为规范化的模型是实现数据智能的基石。未来,我们将向以下方向演进:
智能建模助手:基于自然语言描述(如“创建一个用于分析不同渠道用户购买力的宽表”),产品能自动推荐合适的主题、分层、词根组合,甚至生成初步的模型结构。
影响分析智能化:当业务系统源表结构变更时,产品能基于血缘关系,智能预测并高亮显示所有可能受影响的下游模型,并提供一键生成改造方案的建议。
业务语义层增强:将规范的模型直接映射成业务用户易懂的“业务视图”或“指标目录”,打通从技术模型到业务语言的最后一道屏障。

