很多数据治理项目,一开始就站错了地方。
大家最熟悉的动作,往往都是先盘系统、摸库表、接接口、扫字段、补元数据、建目录。
这些动作当然不是没价值。
问题在于,如果一开始只盯着“我现在手里有什么数据”,后面整个项目就很容易越做越重,越做越散,最后看起来什么都做了,真正可用、可信、可复用的数据却没有增加多少。
这几年我越来越强烈地感觉到,很多数据治理项目真正的问题,不是执行层面不够努力,而是出发点就站错了。
数据治理真正要先解决的,不是“我现在有哪些数据”,而是“我最终到底要什么数据,以及它应该符合什么标准”。
也正因为这样,我现在越来越认同一句话:
一切起点,都是数据标准。
一、为什么很多数据治理项目,会天然从数据源出发
这其实很正常。
因为数据源是最容易看见的东西。
系统在那里,数据库在那里,接口在那里,文件也在那里。技术团队一进场,最自然的动作就是先摸清现状:有哪些业务系统,有哪些库表,有哪些字段,有哪些历史数据,有哪些接口可以接。
这条路径看起来非常顺。
先盘点现有资源,再采集数据,再补元数据,再做目录,再往后推进标准、质量、血缘、模型。
很多项目,都是这么起步的。
而且从项目管理上看,这么做也很容易交付阶段成果。盘点清单能交,采集结果能交,目录页面能交,扫描报告也能交。
所以很多时候,团队并不会第一时间觉得这条路有什么问题。
问题不在于这条路完全错了。
问题在于,它只回答了一个问题:“现在有什么数据。”
但它没有先回答另一个更关键的问题:“最终到底要什么数据。”
这两个问题,看起来只差几个字,实际决定的是整个项目后续的方向。
如果只盯着前一个问题,项目很容易变成一场围绕现状展开的整理工程。
但数据治理真正要做的,从来不只是整理现状。
它最终要服务的,是业务可用、共享可用、分析可用、监管可用、决策可用。
也就是说,它最终要交付的,不是一份“我有哪些数据”的盘点结果,而是一套可以持续生产可信数据的机制。
二、只从数据源出发,为什么会把数据治理越做越重
如果项目一开始只从数据源出发,最容易出现的,就是一种“看起来越来越全,实际上越来越乱”的状态。
因为源系统会很多。
库表会很多。
字段会更多。
你会不断遇到新的系统、新的结构、新的接口、新的文件、新的历史数据。
只要没有一个更高层的判断标准,这个项目的自然走势就是:不断扩采,不断补录,不断接入,不断堆积。
到最后,团队会越来越忙,但越来越难回答几个最基本的问题:
1. 这些数据里,哪些才是当前真正重要的
2. 哪些字段应该优先治理,哪些可以暂时不动
3. 什么样的数据才算治理完成
4. 这套治理工作,最后到底在服务什么目标
这时候你会发现,很多动作都开始变成体力活。
采集是体力活。
映射是体力活。
补元数据是体力活。
后面的规则设计、质量校验、数据建模,也会慢慢滑向体力活。
因为你始终缺一个前置约束:到底什么才是目标数据。
没有目标数据,就不会有清晰的数据标准。
没有清晰的数据标准,后面的采集、抽取、转换、质检、建模,就只能围绕现状打补丁。
而围绕现状打补丁,是最容易把数据治理做重、做散、做虚的一条路。
三、数据治理真正应该先定义的,不是源,而是目标
我现在越来越倾向于把数据治理先看成一个“目标驱动”的过程。
也就是说,在真正讨论怎么采、怎么扫、怎么接之前,应该先回答业务侧的问题:
最终到底想得到什么数据。
这个问题听起来简单,但它其实会连带带出后面一整套关键约束。
比如:
1. 这些数据最终服务什么业务场景
2. 是为了共享交换,还是为了分析决策,还是为了业务办理
3. 这些数据的口径应该怎么定义
4. 最终需要哪些字段,字段之间是什么关系
5. 哪些字段是必须的,哪些是可选的
6. 什么样的数据质量才算达标
7. 后续能不能被复用,能不能被审核,能不能被发布
只有目标明确,后面的治理动作才不会失焦。
这时候,数据治理才开始从“看见什么就先接什么”,转向“为了目标去设计整条生产过程”。
这个转变非常重要。
因为它意味着,数据治理不再是围绕源系统做搬运,而是围绕目标数据做生产。
而目标数据一旦被定义清楚,接下来最核心的事情就不再是盲目采集,而是先把这些目标沉淀成数据标准。
四、为什么说一切起点都是数据标准
很多人一提到数据标准,第一反应都是文档、规范、制度、口径表。
这些当然都属于标准的一部分。
但如果只把标准理解成“文档”,那它对治理的作用就会非常有限。
因为文档本身不会采集数据,也不会校验数据,更不会驱动系统执行。
所以在我现在的理解里,数据标准真正重要的地方,不是“它被写出来了”,而是它能不能成为后续一系列动作的执行依据。
换句话说,数据标准不是一个挂在治理后面的附属物。
它应该是目标数据的结构化表达。
它至少要回答这些问题:
1. 我到底要哪些数据
2. 每个数据项是什么意思
3. 它属于哪个业务对象
4. 它的字段结构和取值要求是什么
5. 它的来源应该怎么组织
6. 它后续怎么校验、怎么审核、怎么发布
一旦标准回答了这些问题,后面的很多动作就会被重新定义。
采集,不再是“有什么采什么”,而是“按标准采什么”。
抽取,不再是“看能抽出什么”,而是“按标准抽什么”。
映射,不再是“字段尽量对一对”,而是“按标准映射到目标结构”。
质检,也不再是“发现一点异常算一点”,而是“按标准判断是不是合格”。
所以我越来越认同一句话:
数据标准不是治理的结果,而是治理的起点。
如果没有这个起点,后面的治理动作就会失去统一坐标。
如果有了这个起点,后面的治理过程才有可能真正被串起来。
五、从这个角度看,后面的模块顺序都会被重写
一旦把“标准”放回起点,你会发现,数据治理里很多我们习惯的模块顺序,其实都要重新看。
以前常见的思路是:
数据源接入 → 元数据采集 → 目录建设 → 标准补录 → 质量规则 → 建模应用
这条链路的问题在于,标准往往变成了一个中后段动作。
等前面采得差不多了,再去补标准;等目录建起来了,再去补口径;等数据沉下来了,再去想规则。
这样做的结果,往往就是前面已经堆了很多东西,后面标准再想进去,就只能不断追着现状跑。
如果把起点换成目标数据和数据标准,顺序就会反过来:
目标数据定义 → 数据标准定义 → 采集规范 → 抽取映射 → 结构转换 → 质量校验 → 审核确认 → 发布使用
这里面最关键的变化,是标准从“后置校验项”变成了“前置设计项”。
也就是说,标准不是后面拿来验收的。
它应该一开始就决定:
1. 采什么
2. 不采什么
3. 怎么采
4. 采完以后往哪里落
5. 按什么结构转换
6. 按什么规则质检
7. 最终什么样的数据才允许进入应用层
这会让整个治理过程,从一堆松散模块,变成一条前后承接的链路。
六、这样一来,数据治理就不再是盘点工程,而会变成数据生产线
这是我最近感受最深的一点。
如果数据治理只是从现状盘点出发,它本质上更像一个整理工程。
你整理源系统。
整理元数据。
整理目录。
整理规则。
整理关系。
但如果数据治理从目标和标准出发,它会越来越像一条生产线。
这条生产线的核心,不再是“把现有数据汇总起来”,而是“围绕目标,持续生产可用、可信、可复用的数据”。
在这条线上,不同能力的位置也会更清楚。
元数据,不再只是一个展示模块,而是贯穿采集、抽取、校验、审核、发布全过程的底层语言。
数据标准,不再只是制度说明,而是整个流程的执行依据。
模型,不再只是单独建一个逻辑结构,而是在把目标数据组织得更稳定、更可扩展。
质检,也不再只是后面补规则,而是在约束最终产出能不能真正被信任。
审核,则成为自动处理和正式发布之间的可信闸口。
当这些能力被放回同一条链路里,你会发现,数据治理平台真正该承接的,不是“做几个模块”,而是“把整条标准驱动的数据生产过程接起来”。
这和过去那种“模块越多越像平台”的理解,差别其实很大。
七、为什么我越来越相信,后面的很多能力都要回到这个起点
我现在再回头看很多数据治理能力,会越来越觉得,后面几乎所有重要能力,最后都要回到这个起点上来。
为什么要做元数据?
因为你需要知道标准是怎么落到源、过程和结果上的。
为什么要做质量?
因为你需要判断结果是不是符合标准。
为什么要做建模?
因为你需要把标准组织成稳定可执行的结构。
为什么要做本体、领域、语义层?
因为你需要让标准不只是字段约束,而能进一步进入对象、关系和上下文。
为什么要做审核和发布?
因为你需要确保标准驱动出来的结果,最终可以被正式使用,而不是只停留在候选状态。
所以如果一开始不把“目标数据”和“数据标准”立住,后面这些能力都会很容易各做各的。
模块都在。
页面也都在。
流程也都有。
但它们之间很难形成真正的闭环。
而一旦起点立住了,后面的很多问题,才开始有了统一坐标。
结尾
我现在越来越觉得,数据治理真正的起点,不是数据源,而是数据标准。
更准确地说,不是先去问“我现在手里有什么数据”,而是先去问“我最终到底要什么数据,以及它应该符合什么标准”。
只有这个问题先回答清楚,后面的采集、抽取、映射、建模、质检、审核、发布,才不会越做越散。
否则,前面所有动作都很容易只是围绕现状做整理,最后做出一个看起来很忙、很全,但并没有真正持续产出可信数据的治理系统。
所以在我现在的理解里,数据治理更应该被看成一条标准驱动的数据生产线。
而这条线的第一步,不是接数据源。
而是先把目标数据和数据标准立起来。
因为只有当标准从“说明文档”变成“可执行资产”,数据治理这条线才算真正开始转起来。
如果你也做过数据治理项目,可能会发现,很多后面越来越重的问题,往往都不是后面才出现的。
它们很多,其实从起点就已经埋下来了。
扫描二维码关注我们
我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。
我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。
我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。
了解更多精彩内容
长按,识别二维码,关注我们吧!
数据工匠俱乐部
微信号:zgsjgjjlb
专注数据治理,推动大数据发展。

