

数据治理：数仓开发规范与流程（文档）

BAT大数据架构

2025-10-14

导读：开发流程、分层规范、命名规则、数据质量控制、调度设计、最佳实践、避坑指南

精选热点：AI大模型数据治理体系（附交付物）

导读：《数仓开发规范与流程》指南，涵盖开发流程、分层规范、命名规则、数据质量控制、调度设计等核心内容，并给出行业最佳实践与避坑建议。

《数仓开发规范与流程指南》

一、开发流程规范

1. 需求阶段

目标：明确业务需求与数据需求。
文档：填写《数据仓库需求模板》，包含以下内容：需求名称、背景、业务诉求、数据域划分。指标口径定义（原子指标、复合指标、派生指标）。数据来源与抓手（如日志、数据库表）。

关键动作：与业务方确认需求边界，避免需求漂移。评估数据可行性（如数据源是否可获取、字段是否完整）。

2. 设计阶段

（1）数据分层设计

根据阿里数仓分层规范，典型分层如下：

层级	英文名	作用域	规范要求
ODS	贴源层	原始数据镜像	表名格式：ods_业务名_源系统库名_源表名_增量/全量保留原始数据，不做清洗，仅做增量/全量标识（如di：每日增量）。
DWD	数据明细层	细颗粒度事实表与维度表	表名格式：dwd_数据域_业务过程_增量标识例如：dwd_order_payment_di（订单支付明细，每日增量）需定义主键、外键，字段注释与枚举值需明确。
DWS	数据服务层	轻度聚合宽表	表名格式：dws_数据域_统计粒度_业务描述_统计周期例如：dws_user_active_dm（用户活跃度，按日聚合）。
ADS	应用层	业务定制化报表	表名格式：ads_数据域_统计粒度_业务描述例如：ads_sales_monthly（月度销售汇总）。

（2）数据模型设计

维度建模：采用星型或雪花模型，明确事实表与维度表关系。

字段设计：金额字段用decimal(28,6)，明确单位（元/分）。字符串字段用string，状态字段用string并定义枚举值（如status: 'active', 'inactive'）。时间字段统一格式为string（如yyyy-MM-dd HH:mm:ss）。

主键与外键：DWD层明细表需定义唯一主键（如order_id）。维度表需定义自然主键（如user_id）和外键关联。

（3）ETL开发与设计

文档：产出《ETL文档》，包含：字段生成逻辑（如

order_amount = SUM(pay_amount)）。表间关系图（如ODS到DWD的映射）。分区策略（所有表需按时间分区，如dt字段）。

调度设计：

依赖关系：每个节点产出一张表，下游仅依赖上游产出表。并行优化：优先多并行任务（如多个DWD表可并行开发）。周期设置：T+1离线任务默认每日0点执行。

3. 开发阶段

编码规范：遵循《阿里数据仓库编码规范》，如：SQL语句缩进4空格，避免使用

SELECT *。变量命名需清晰（如v_order_date）。

代码评审：重点检查字段逻辑、分区策略、数据类型是否符合规范。避免跨层引用（如DWS直接依赖ODS）。

4. 测试阶段

数据校验：

自动化校验：编写SQL脚本验证数据量、字段值合理性（如金额非负）。

对比测试：对比新表与旧表数据（如COUNT(*)、SUM(金额)）。

文档：产出《测试分析方案报告》，记录测试用例与结果。《质量评估报告》需包含数据完整性、一致性、及时性指标。

5. 发布与运维

发布规范：通过《发布操作文档》记录发布步骤与回滚方案。核心任务需设置监控告警（如延迟超时、失败率）。

运维管理：

数据生命周期：ODS层保留14天，DWD事实表永久保留。DWS宽表按需保留（如仅保留月初数据）。

性能优化：使用列式存储（如华为云DWS）提升查询效率。对倾斜字段（如user_id）进行Hash分区。

二、核心规范与最佳实践

1. 命名规范

层级	表名格式	示例
ODS	ods_业务名_源系统库名_源表名_增量/全量	ods_ecommerce_order_center_order_di
DWD	dwd_数据域_业务过程_增量标识	dwd_user_login_di（用户登录明细，每日增量）
DWS	dws_数据域_统计粒度_业务描述_统计周期	dws_user_active_daily（用户日活跃度）
ADS	ads_数据域_统计粒度_业务描述	ads_monthly_sales_region（区域月度销售额）