随着业务的多元化发展,企业内部往往信息部门和数据中心林立,大量系统功能和应用重复建设,存在巨大的数据资源和人力资源浪费,同时组织壁垒导致数据孤岛,使得难以对内外部数据进行全局规划。

数据中台需要对数据进行整合和完善,提供适用、适配、成熟、完善的一站式大数据平台工具,在简便有效的基础上,实现数据采集、交换等任务配置以及监控管理。
数据中台必须具备数据集成与运营能力,能够接入、转换、写入或缓存来自企业内外部多种渠道的数据,协助不同部门和团队的数据使用者更好地定位数据,理解数据,消除数据孤岛、应用孤岛。
同时,数据安全、灵活可用非常重要,这能帮助企业提升数据可用性和易用性。
另外,系统部署也要能支持多种模式。而数据中台必须且能够解决的数据资产管理问题,正是大数据平台面临的问题。问题如下:
1)数据不可知:用户不知道系统中有何数据,也不知道如何将自己的业务问题对应到可用的数据上,甚至不知道系统中是否有自己需要的数据。
2)数据不可控:如果没有全局的数据标准,各个业务部门自己制定数据记录的格式和编码,就会造成数据难以汇聚和利用。如果不对这个问题加以控制,数据的后续迭代会造成语义变化,甚至会导致错误的统计结果。
3)数据不可取:用户获取自己所需数据的流程长,无法快速自主地开发业务需要的数据应用,且缺乏完善的开发工具和流程管理,从数据实验到生产化的周期长,外部依赖多。在以关系型数据库为主的数据仓库时代,数据读取和开发以SQL为主,复杂度相对较低;而在大数据和数据中台时代,获取和开发数据都需要更完善的工具链支持。
在解决上述问题时,都会涉及一个很重要的功能——数据资产管理。
大数据平台建设过程中的数据资产管理,其主要目的是回答下面9个问题:
·What:系统中有什么数据和应用?如何理解这些数据和应用?
·Who:这些数据和应用的创建者、使用者和维护者分别是谁?
·When:这些数据和应用在什么时候可以使用?
·Where:这些数据和应用在哪里?
·How:我们如何使用这些数据和应用?这些数据和应用是如何关联的?
·How much:这些数据和应用的建设和使用要花多少钱?它们能创造多少价值?
·How fast:我们能以多快的速度访问这些数据和应用?我们的工作成果多快能发布到生产环境?
·How large:系统的边界是什么?对于每一种应用,我们最多能处理多少数据,最多能支持多少用户?
·How many:系统能支持多少种应用?我们能以什么方式使用这些数据?有哪些可以复用的工具?


