
作者:沙丘社区分析师团队
01
案例企业
02
项目背景
招商局集团物流大数据平台通过充分利用招商局集团在交通物流领域的天然数据优势,汇集内部不同板块物流数据,同时吸纳外部关键数据,以技术平台搭建、数据共享交互模式、数据应用试点为切入,形成汇聚海、陆、空、铁全运输模式的数据交互与共享。
基于如下驱动因素,招商局集团建设物流大数据平台:
第一,数据驱动。招商局集团在交通物流领域具有天然数据优势,各实业板块在客户服务、生产运营、内部管理、生态模式等方面积累了大量的数据。
第二,需求驱动。由于缺乏标准规范及互信机制,各板块之间难以达成一致意见,数据共享情况并不理想。目前仅有部分板块基于自身业务出发自发进行一些数据交换的尝试,整体数据共享情况呈现点状分布的状态。
第三,技术驱动。随着云计算、大数据、区块链等技术手段的不断成熟,招商局集团已具备整体打通港口、物流、航运业务板块,发挥板块间协同效应,为客户提供一体化端到端的整体服务能力。
第四,产业变革驱动。当前交通物流行业的供应链一体化融合已成为趋势。无论是端到端全链路、港融、多式联运,还是供应链金融,上述创新产品与服务的打造,均需要供应链上多主体全面的数据进行交换共享。
中国外运作为招商局集团旗下公司,目前存在系统分散、数据资产“家底”不清、共享不足、质量不佳、技术不优等数据治理问题,相对交通物流行业供应链一体化融合存在较大的差距;并且缺乏统一数据资产目录标准、统计口径不一,导致无法快速准确、汇总有效数据资产。
因此,中国外运希望构建核心数据资产目录,为中国外运、招商局集团以及兄弟单位提供数据共享。
具体的项目目标有两个:
第一,为招商局集团供数,涉及ODS-DWD-ADS层模型设计以及在数据湖中抽取相应数据,宽表模型的设计既要满足集团在ADS主题里的相应要求,对业务源系统的底表数据进行质量探查,对公共维度字段进行统一的标准设计,梳理底表到宽表之间的逻辑准换关系,通过中国外运大数据平台进行数据采集,统一汇聚到招商局物流大数据平台上。
第二,满足中国外运侧数据治理和数据资产管理的需要,构建中国外运侧三级主题、抽象业务对象,形成中国外运侧数据资产目录,为实现全产业链的深度集成、智能协作、安全可靠以及信息系统互联互通、资源整合和信息共享提供基础保障。
03
解决方案
中国外运数据治理项目实施分为五个阶段:需求调研、元数据治理、源表梳理与目标宽表设计、构建数据资产目目录、明细数据归集入湖。

数据治理项目历时1年,关键节点包括:第一,宽表模型设计,基于系统、数据实体、属性、主数据、码表、关系图信息,进行ODS-DWD-ADS层模型设计;第二,数据寻源,明确数据分布系统范围;第三,数据梳理,探查业务实体范围,按照业务流程对实体物理表进行拆解;第四,数据主题域设计,设计三级主题域&一级业务对象,三级主题域作为数据资产目标的顶层框架,业务对象作为框架稳定的相应结构;第五,数据矩阵,对业务和系统的关联关系进行梳理,将物理表、属性等关联到业务对象;第六,业务盘点,识别业务原始凭证,形成清洗清单;第七,逻辑模型设计,从系统出发盘点数据与从业务出发盘点单证相结合,形成真实可信的逻辑实体,两条线交叉验证;第八,数据资产目录搭建,构建六级目录,前三级是数据主题域、第四级是业务对象、第五级是逻辑实体、第六级是物理表。
以招商局集团物流大数据平台供数需求场景为例,首先在ODS层进行命名,并与原系统保持一致;其次在宽表设计中,对业务相应的表采用1:1方式,引入主数据、码表进行整体的打平;在DWS层,引入指标体系,对招商局四个主题进行支撑,满足ADS的要求,构建舱单、驳运、仓码、订舱四个主题的需求。
集团供数的核心过程如下,对涉及到中国外运侧的项目系统首先构建数据实体目录,引入系统相应主题,与物理表进行匹配,根据业务进行识别,筛选业务上使用最活跃的业务表以及涉及到的主数据、码表等,构建数据关系图,以此为基础完成ODS-DWD-ADS层设计,在设计过程中形成数据集成转换说明。
中国外运侧核心系统以自研为主且系统建设较早,缺乏对业务环节的描述,并且很多业务环节共用一个大表,对数据资产盘点工作带来困难。
数据资产盘点工作分为两条主线:第一条主线是系统端数据盘点,摸清数据家底、理清数据分布、搞准数据关系,形成数据底账;第二条线是业务盘点,深入各个业务环节对业务数据进行全面探查,结合业务信息交互原始凭证的搜集和分析,从业务端理清业务数据真实存在,为标准数据逻辑模型设计奠定基础,业务原始凭证都放在相应的业务对象下,通过业务盘点和系统盘点共同推导和验证逻辑模型。最后,对数据资产目标进行完整体现。
数据资产盘点成果如下,对中国外运24套系统从数据寻源到数据梳理到元数据治理,并引入数据矩阵,对“大台账”表单进行业务逻辑拆解,还原真实业务数据。在业务盘点过程中,收集大量业务凭证,与业务对象相对应,形成清洁原始凭证清单。数据归集关系表通过主数据系统和中国外运5个区域的相关系统,进行数据逻辑溯源。
基于系统端和业务端的盘点结果,以系统全视角构建数据资产逻辑模型,构建中国外运的数据资产目录。
系统盘点第一步是数据寻源,在中间库中进行筛查、检验到规范的整体识别,最终识别出开放的24个系统以及未开放的17个系统并在负面清单中进行表示,未来不允许数据入湖。
基于寻源的系统清单,对业务相关表范围进行查验。项目组前期收集阶段,各系统方提供的仅为部分核心业务数据,经过多轮沟通,目前大部分已开放全量数据表,并针对数据表含义进行了备注说明。
在构建数据资产目录时,并不是对全表进行梳理,而是从与业务相关的表中进行数据资产识别。通过对数据表的梳理和分析,最后从近1万张表中筛选出1480张业务相关物理表,与业务紧密相关,体现中国外运业务特色,为盘清家底奠定基础。
在元数据治理阶段,最核心的是从中间库中读取表格字段并进行语义解析,为构建完整的数据资产目录奠定基础。
为了还原数据和业务之间的关系,对表进行拆解,包括实体拆解和业务拆解:
实体拆解:将业务静态数据(描述业务固定特征)和业务动态数据(描述操作属性)的数据进行拆解,以便清晰了解业务所处阶段、状态,便于及时了解业务情况。
业务拆解:对业务结果的汇总明细数据,按业务环节做拆分。由于系统层面无法清晰识别业务与数据关系,且系统中物理表设计现存在台账数据情况,数据未随着业务操作产生,而是业务做完了才记录整个过程的信息,滞后的形成汇总数据,业务已经完成,数据却还没产生,数据质量低,数据时效性差,准确性、一致性无法判别。
完成表的梳理后,进行逻辑模型设计,由于缺乏数据架构设计蓝图,无法对数据进行标准化归集,故而从业务端开始做数据架构设计,最终得到标准数据逻辑模型。通过收集和整理各种业务原始凭证,形成业务清单,基于此从业务层面抽象定义逻辑对象,以系统盘点和业务盘点为基础,通过数据矩阵对逻辑实体模型进行业务、数据、系统的交叉验证。
完成逻辑模型设计后,需要进行多源数据归集,包括中国外运主系统和5个区域在主系统中的个性化设置,对同类业务含义字段与逻辑实体进行关联组合,按照逻辑模型归集的结果入湖,实现多源异构数据的统一,为后续的数据架构改造奠定基础。中国外运的逻辑模型称为标准模型,后期各个区域进行系统改造提升时,均以此逻辑模型作为基石进行系统设计。
资产目录涉及主题域和业务对象,中国外运在设计主题域时采用三级方式,三级主题之下,对业务对象进行抽取,主题域和业务对象共同构成数据资产目录的上层框架。
数据资产目录以主题域及业务对象作为上层框架,通过业务和数据关系梳理设计出逻辑实体及属性,并关联业务系统的物理表及字段。数据资产目录共分为六级,包括L1-L3三级数据主题+L4业务对象+L5逻辑实体+L6物理表。
04
价值与效果
通过数据治理平台,中国外运梳理数据资产目录,包括:L1一级主题2个,L2二级主题7个,L3三级主题17个,L4业务对象90个,L5逻辑实体85个,L6逻辑实体属性字段1526+个。
基于流程和业务环节共同抽取最小颗粒度,作为业务对象,完成对船代、货代主题域的设计,对业务类别、业务单元、业务环节等进行标准定义,二期对航空、货运、跨境电子商务完成相应设计。
数据资产平台实现对数据目录的管理和呈现,点击资产即可列出资产中的相应内容,例如表来源、系统、审核状态等;完成标准数据逻辑模型设计,并构建出逻辑模型与业务系统数据映射关系,实现通过数据目录快速定位到一条数据记录分布在哪个系统的哪张表,为数据管理提供了良好的基础。
完成多源数据归集模型设计,方便看清各个系统之间表格字段的关系,并在集团物流大数据供数需求场景下得到验证,实现将记录相同业务的多个有结构差异的原表数据汇集到一张数据表中,解决了同一个业务多个物理数据存储数据难以归集的业界难题。
05
经验借鉴
目前很多大型企业都在构建数据资产目录,通过中国外运数据治理项目,总结数据资产目录构建要点如下:
第一,找数,摸清家底、建立台账。摸清中国外运各信息系统、数据库建设情况,中国外运建立统一的数据资产目录清单,为企业建立数据资产“台账”。
第二,理数,统一标准、促进共享。通过编制中国外运数据资产目录标准(规范),为梳理数据资产目录、提供统一基础元数据,促进应用数据需求对接,推动数据资产目录在企业内部公开、共享。
第三,认责,建立机制、维护更新。通过制定数据资产目录梳理及发布机制,明确数据资产采集、维护、更新的管理责任,加强信息共享需求对接,推进数据资产目录维护、更新。
第四,接数,汇聚发布、整合利用。数据资产目录汇聚到中国外运数据资产平台,形成统一的数据资产目录,实现企业内部数据资产目录统一检索、快速定位和统计分析。
第五,用数,构建图谱、智慧应用。通过数据资产目录梳理和元数据定义,尝试在交通物流领域构建行业知识树,涵盖该领域的各种实体或概念及其关系,其构成一张语义网络图,为后续宽表、数据应用打下良好基础。
第六,视数,数据资产可视化展示。使数据关系脉络化、数据目录可视化、支持数据资产地图可视化展示,通过资产可视化地图驱动应用创新,实现高增值服务。

