
科情智库
纪 珍1,2,佟继周1,2,胡晓彦1,2,邹自明1,2,马福利1,2,熊森林1,2
(1.中国科学院国家空间科学中心,北京 100190;2.国家空间科学数据中心,北京 100190)
科学数据产品规范化组织是科学数据管理过程中的重要环节,对空间科学领域多学科多类型数据资源统一组织是国家空间科学数据中心在管理实践中亟需解决的问题之一。国家空间科学数据中心在深入分析国内外数据模型特点的基础上,综合考虑学科特色与数据应用共性特征,构建了空间科学数据产品组织模型,依据模型设计数据系统及数据管理各环节的数据规范,并将该模型贯穿应用于空间科学先导专项的数据活动过程中。
空间科学数据产品组织模型描述了学科数据实体资源、数据描述资源和数据标注资源的组织层次关系结构,从数据产品文件、数据集及数据卷三个层级进行不同粒度的数据实体资源组织与管理。数据产品文件由数据对象和数据标签组成,是最小的数据实体单元。数据集由具有相同的起源、处理过程、应用价值或相互关联的一系列数据产品文件组成,并配置了学科元数据、核心元数据以及相关辅助文档和软件工具,是数据管理与发布的主要形态。数据卷是由一系列具有关联关系的数据集组成,并配置卷编目与卷索引,是数据长期存储的组织形态。
数据描述资源和标注资源共同组成了模型中的广义元数据,主要涵盖了数据标签、核心元数据、学科元数据、索引文件、辅助文档等,可以对数据属性信息进行不同粒度的描述,从而满足数据的自解释、定位与发现、追溯与承继等管理与应用需求。同时为了便于数据应用,模型还将与数据处理分析相关的软件工具纳入数据集层级进行管理,从而实现了数据资源与其它资源之间的关联管理。
以空间科学数据全生命周期管理模型及数据产品组织模型为依据,国家空间科学数据中心设计了包含基础设施、业务应用及公众服务三个层次的数据系统。基础设施主要是用于支持数据中心各业务系统的网络资源、计算资源、存储资源及基础软件资源,共同构成了数据中心一体化的基础运行环境。业务应用层是面向数据全生命周期的各个环节设计,包括数据汇集系统、处理系统、管理系统、档案系统及发布系统。针对数据产品文件、数据集、数据卷的处理与管理重点,在各个系统中研制不同的业务软件,具备数据标注、元数据编辑、目录组织等功能,实现数据产品文件处理、数据集制备与数据卷制作等。在公众服务层,以数据集为基本数据共享应用对象,实现基于核心元数据的数据定位与发现,并构建了基于工作流的数据应用环境,从而提升了多类型多学科数据获取的便捷性。数据系统还通过制定学科数据规范、系统接口协议及技术要求,对整个系统的标准性进行统筹规划,并面向数据安全、用户安全、系统安全等方面设计了专门的保障体系。
在中国科学院战略性空间科学先导专项实施过程中,国家空间科学数据中心依据数据全生命周期过程管理指南,深入参与项目数据管理活动,利用空间科学数据管理系统,积极推动空间科学数据产品组织模型在数据汇交与处理、管理与归档、发布共享等数据活动关键环节中的应用,为“悟空”、“慧眼”、“墨子”等在轨科学卫星的数据规范化生产、标准化管理及高效共享提供了有力支持。
在数据汇集与处理阶段,协同各数据生产者制定数据归档计划,约定数据汇交方式、内容及时频等,并设计项目的分级定义、格式说明,对数据标签、存储格式、组织方式等进行明确定义,实现对数据产品的分级分类。同时将数据校验、形式审查等只,质量控制措施贯穿这个阶段。数据管理阶段,制定了核心元数据、学科元数据及其数据字典等标准规范,定义了统一的规范数据集目录结构,指导数据管理者完成数据集及其广义元数据的制备,并组织同行评议等质量评价活动,确保数据集的规范性、完整性及可使用性。在数据归档阶段,定义规范的数据卷目录结构,将卫星产生的科学数据、工程辅助数据、定标数据、对比实验数据、仿真数据等依据其关联性整体存储在同一数据卷的目录下,实现多类型数据资源的关联管理与获取。
实践结果表明空间科学数据产品组织模型实现了对跨学科卫星数据的统一管理,能够较好满足国家空间科学数据中心对多类型、多来源数据管理与共享的业务需求,是发挥数据价值,支撑科技创新的有效保障,能够较好地在项目数据汇交过程中发挥指导性作用。同时在学科资源交叉管理方面,组织模型具有较高的可移植性,不存在明显地学科壁垒,能够便捷地推广至其他学科领域,并且通过调整元数据的体系设计和标准规范保证了数据的专业性与学科特色,为数据资源关联发现、综合分析与应用提供保障。
来源:此文为缩减版,全文请见《中国科技资源导刊》2022,(1):83~88,96
推荐阅读 >

