2018年5月银保监会发布了《银行业金融机构数据治理指引》,同年12月,证监会发布《证券基金经营机构信息技术管理办法》。
三年多来,各金融机构在监管的要求下,几乎都开展了数据治理活动。但是由于对数据治理的价值认识不一致,尤其是对业务价值理解不统一,各金融机构数据治理的发展水平不均衡,效果不一。
去年四月,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》的文件下发。数据作为一种新型生产要素,与土地、劳动力、资本、技术等传统要素并列为要素之一。数据治理以数据要素为研究对象,在整个数字化转型的大背景下,在政府及其他行业正如火如荼地展开。
如何评价数据治理的效果?DCMM(Data Management Capability Maturity Assessment Model,数据管理能力成熟度评估模型)由全国信标委大数据标准工作组研发,并于2018年3月15日正式发布。
DCMM被作为衡量数据治理效果的一种方式,它包括8个核心能力域、28个能力项。可见DCMM本身也非常复杂。企业在努力理解数据治理的同时,还要努力去理解DCMM,这对企业数据治理的实施人员造成了很大的负担。因此在实践中效果并不是很好。
量之智能提出了一种衡量数据治理效果的简单方法:以定量、统一的方式对企业的数据治理进行评价,旨在帮助企业选择好的数据治理方案进行实施,并把控正确的治理方向,充分实现数据治理的价值。
数据治理的目标在于更好的取数用数。
在传统的供需模式中,只有业务方与技术方双方。业务方提出数据需求,技术方负责实现。在整个端到端的需求产生、实现、完成过程中,业务方与技术方进行频繁的沟通。
随着数据治理在企业的开展,企业建立了相应的数据治理团队。在数据需求的实现过程中,原先的两方变成了三方,增加了数据治理方,见下图:
图一 模式转变
沟通对象增加导致沟通成本上升。那么数据治理方该如何做,才能得到其他两方的主动接纳呢?这里的主动接纳指业务方与技术方积极配合,自愿参与到数据治理中。
在三方主动共同参与下的数据治理称为数据主动治理。反之缺少其中一方参与则称为数据被动治理。三方共同参与的治理形成了新的模式,这区别于传统的供需模式,称为运营模式。
所以问题重新定义为数据治理如何从被动治理走向主动治理。
通过以上分析,我们不难得出:一个好的数据治理方案,一定是从被动治理走向主动治理。要实现主动治理,意味着实现各方共赢。
因此我们认为实现主动治理需要满足以下四个条件:
1. 对业务方:数据资产看得见、信得过、易加工,减少取数用数等待时间;
2. 对技术方:减少开发工作量;
3. 对治理方:自动化治理,减少治理时间;
4. 对公司方:总体实现降本增效。
综合以上条件,量之智能提出以“建设后成本”作为数据治理优劣的评价指标。我们定义“建设后成本”指公司实施数据治理项目以后,完成同等复杂度下单位数量的取数用数需求所需要投入的总体成本。按需求提出到需求满足的端到端计,包括投入人数和投入时间,可统一折算成单一财务成本。如下图所示:
· 被动治理:数据治理建设后成本高于建设前成本,这一阶段称为被动治理阶段;
· 主动治理:数据治理建设后成本低于建设前成本,这一阶段称为主动治理阶段;
图二 主动治理
为了更好地理解这个曲线,我们举例说明。如图上所示,A、B、 C代表三家企业采用了不同的数据治理方案实施以后带来的结果。
· A方案:指该企业以最小化满足监管需求,做了必要的数据治理活动;
· B方案:指该企业不仅满足监管的需求,在公司的要求下,完成所有的数据治理活动,但自动化程度不高;
· C方案:指该企业不仅满足监管要求,还实现按需治理,充分利用自动化技术,进入主动治理阶段。
显然,C方案优于A、B方案。
要实现主动治理,需要处理好以下4个问题:
1. 老系统与新系统的治理问题;
2. 业务快速开展与标准滞后的问题;
3. 项目制运动与日常运营的问题;
4. 人工与自动化的问题。
在传统的金融行业,存在很多老系统。因为这些老系统时间比较久远,它的治理代价最高; 而在互联网等新兴行业,数据在产生的时刻,就能直接标准化,因而源头治理最省力。
因此数据治理需要有一套方法论,新系统的建设需要遵循这一方法论进行标准化建设,只有这样数据治理的边际成本才是最低的。从投入产出比考虑,对于老系统而言,可以按需治理;而对于新系统,需要在建设的一开始就能实现治理。
数据治理的目标之一是数据标准化。标准化分为行业标准、国内标准、国际标准和企业标准。范围越大,标准制定所需时间则越多,标准滞后则越严重。
另一方面,当企业有了自己的标准,未来转换为更高级的标准相对容易,只要做单一转换即可。
因此在数据治理的标准化过程中,对数据标准进行分类;对需要企业间相互使用的行业报送的数据,进行标准化;对企业自己使用的大部分数据,则进行标准降级、进行规范化建设。通过企业建模规范、词根管理等手段快速实现数据的规范化建设。
企业在一开始进行数据治理时,往往依靠第三方实现数据治理,如咨询、平台采购等。我们发现有些金融机构完成数据治理项目以后,数据治理的知识没迁移到位,导致在项目完成以后,无法实现数据治理的持续治理与运营,变成了运动式治理。
数据治理不受待见的一个重要原因是人工工作量过于庞大。一个金融机构数据资源按表数量往往在10万级别,按字段往往在100万级别以上。这么多的数据量,如果没有自动化的治理能力,很难想象数据资源能够得到有效的治理,从而形成数据资产。
数据形成资产后,利用大数据、人工智能技术,就能更好地实现数据处理的代码自动化生成。目前出现了很多低代码的数据处理与分析平台,帮助提升数据的开发效率。
数据治理要进入主动治理阶段,必须解决好以上的四个问题。量之智能提出一个相应的解决方案。数据主动治理需要实现“三化”建设。如图所示:

图三 主动治理的三个必要条件
规范化
通过数据治理,实现规范化数据建设方法论,减少数据出错的概率,减少系统之间、人与系统之间、人与人之间数据连接的成本,以降低新系统治理的边际成本。
目前在数据治理的规范化建设上,可参考互联网公司数据中台的建设方法论,实现如OneModel、 OneMetric等规范化建模方法。
运营化
随着数据治理方的加入,原先的两方变成了三方,沟通复杂度有所增加。通过运营流程固化规范化的建设方法,迁移数据治理的相关知识,沉淀日常的需求与答案。通过管控平台实现各方的高效协同。
自动化
自动化是数据治理走向主动治理的基石。只有实现了数据治理的自动化和数据处理代码的自动化生成,才能极大提升取数用数的效率。关于自动化技术可参考字段级血缘的自动化解析、Text2SQL等技术。
量之智能提出数据主动治理的概念。通过解析数据主动治理需要解决的问题,提出满足数据主动治理的“三化”必要条件,并提出“建设后成本”这一指标,作为衡量数据治理方案优劣的标准,同时也帮助企业把控数据治理的方向。
在中国数字化转型的浪潮下,数据作为要素研究对象才刚刚开始。随着对数据本身研究的不断深入,新的数据治理范式也一定会涌现出来。不断降低取数用数的成本、不断提升取数用数的价值是非常有意义的工作。
杭州量之智能科技有限公司专注于数据治理的研发,在自动化治理与自动化代码生成等方面有自己的专利技术,帮助企业实现数据主动治理。欢迎大家一起交流合作。

