
某大型集成电路企业是一家集芯片设计、工艺研发、晶圆生产与测试、销售服务于一体的半导体存储器企业,为全球提供先进的存储产品和解决方案,广泛应用于移动通信、计算机、数据中心和消费电子领域。该企业在数据管理系统和研制管理体系的控制下,设计、工艺、制造、试验、售后服务等环节都产生了大量的数据。在管理信息化、工程信息化的建设过程中,为减少信息孤岛,数据集成与共享不可逾越,不同系统间的数据正确性、一致性变得尤为重要。
该集成电路企业在发展过程中积累了大量的项目、客户、设备、产品等数据,随着数据共享以及决策的需求,以及数据使用范围的扩大,在使用过程中发现了大量数据问题,归纳如下:
1、需支持多样化的数据来源
当前业务数据存储在不同类型的数据库中,包含Oracle/Mysql/SQLServer/Postgresql/Hive/HDFS/Hbase/Kudu/Vertica等,所选平台需要具备多种数据源的接入机制,并能够基于后续的业务发展,适用更多的数据来源。
2、需支持繁简不一的规则配置
在数据质量管控过程中,需要进行各种各样的质检规则配置,简单的如空值校验、字段类型校验、值域校验、及时性校验等,复杂涉及多表关联的逻辑公式校验、完整性校验、一致性校验等,所选平台需要支持多种规则的校验设置,同时还要便于技术能力较弱的业务精英进行操作。
3、需支持海量数据的处理应对
面对海量数据的质检,不仅是数据量大,同时还面临多个质检工作的并发。一方面需要在规定时间内完成所有检验,另一方面给还需要及时将结果反馈给数据管理者。所选平台需要具备大数据量的处理能力、支持多个质检进程并发,同时还要考虑后续数据量越来越大,接入的数据源越来越多的发展趋势,能够支持集群中节点的灵活扩展,满足长期的数据质检需要。
看似表面的数据问题其实会对业务带来严重的影响,数据不真实、不准确、不共享,增加企业经营风险、管理难度和复杂度,跨组织信息共享程度低、资源难于整合。如何更好地管理和控制数据,做好数据质量平台建设,成为企业迫在眉睫的任务。
平台架构图


