
科情智库
黄 琪,曾建勋,刘 伟
(中国科学技术信息研究所,北京 100038)
大数据时代背景下科学技术水平飞速发展,各个领域积累了丰富的科技资源。作为科技创新活动中的核心要素,科技资源是推动国家科技发展的重要支撑,国家科技创新和核心竞争力的形成很大程度依赖于科技资源的质量,以及对科技资源的优化配置、高效开发以及利用水平。但目前科技资源松散孤立,缺少有效的互通协调和配置管理,使得“资源孤岛”现象产生,存在重复购置严重、利用效率较低以及不能充分发挥其应有价值与作用等问题,无法满足多样化协同服务的科研需求。所以需要深入研究如何关联分散异构、复杂多样且海量的科技资源,并将其深度聚合形成“物理上异构分布,逻辑上有序集中”的体系结构,进而在此基础上实现多种类多来源科技资源的协同服务。由于元数据是独立于具体资源表现形式的数据表示方式,同时目前科技资源共享服务平台广泛使用元数据整合科技资源也提供了一定的基础条件,所以通过元数据关联是实现科技资源聚合的良好手段,具备较强的可行性。为此,本文针对科技资源元数据特点,在分析科技资源多维度特征需求的基础上,提出面向关联聚合的科技资源元数据类别,系统地揭示科技资源关联聚合中的元数据框架,并论述基于元数据框架的科技资源关联聚合策略,从而为关联推荐科技资源提供基础依据。
科技资源元数据是描述科技资源数据的数据,是对信息、实物、人力等各种科技资源的特征属性进行数字信息化加工形成的特征元素集合。目前科技资源元数据的发展方向主要从基础性和专业性两个角度出发,前者有利于不限定类别、跨领域的科技资源进行数据交换,后者则更适合同类型跨领域或同一学科领域资源的关联。综合来看,科技资源元数据具备规模庞大、多源异构、复杂多样以及规范标准不统一四个特点,从而导致关联聚合科技资源中不仅存在通用型和专用型元数据的矛盾,同时各个独立的元数据集之间存在内容相互交叉或元数据项命名冲突等问题,不利于异构分散的科技资源进行映射集成。所以需要建立统一规范的科技资源元数据体系,以便于系统化整合科技资源。
从科技资源共享服务角度来看,科技资源的外部特征、内容特征以及服务需求是目前相关研究中关联聚合科技资源的三个特征维度,而差异化环境导致科技资源的共享信息也是影响服务的重要因素之一。同时由于服务需求特征难以直接从科技资源元数据角度体现,所以本文主要围绕外部特征、内容特征以及共享特征三个特征维度展开讨论。
基于三个特征维度梳理总结得出可用于关联聚合的科技资源元数据类别,具体划分为标识型元数据、来源型元数据、描述型元数据、分类型元数据、时空型元数据和限定型元数据六种类型,并针对每一类元数据提出规范化的元数据元素。同时,为方便理解以及说明该类别的适用性,以科技文献、科学数据、仪器设备以及种质资源四类科技资源为例进行示例说明。
基于符合关联聚合需求特点的科技资源元数据类别,提出面向关联聚合的科技资源元数据框架。整体上需要通过抽取多源异构的科技资源元数据,对科技资源元数据进行元数据识别、格式转化以及语义映射,完成从多来源元数据到统一规范化的关联特征项元数据索引的标准化加工,在此基础上进一步实现科技资源的多维度关联聚合。由于科技资源特征的差异性,所以针对不同类型科技资源的元数据关联特征项需要结合资源特点进行适当调整。
基于面向科技资源关联聚合的元数据框架,提出科技资源的关联聚合框架,以框架为基础对不同维度下的关联聚合策略展开论述。基于外部特征维度的科技资源关联聚合,主要围绕相同资源、来源网络以及引用关联三个方向;基于内容特征维度展开的科技资源关联聚合,主要从科技资源的学科领域、主题分类以及内容对象三个方向出发;而对于共享特征维度则主要针对科技资源的共享范围。由于三个特征维度互联互通,总体上能够实现科技资源多维度综合性的关联聚合。
科学技术的飞速发展,使得用户对于科技资源协同服务的需求愈加迫切,但科技资源松散孤立的状态阻碍了科技资源协同服务的发展。本文结合科技资源元数据特点,从科技资源的外部特征、内容特征以及共享特征三个关联维度出发,在对比分析各类型科技资源元数据的基础上,将符合关联聚合需求特征的科技资源元数据类别分为标识型元数据、来源型元数据、描述型元数据、分类型元数据、时空型元数据和限定型元数据六类。在科技资源元数据类别基础上提出通用的面向科技资源关联聚合的元数据框架,并基于元数据框架提出科技资源的关联聚合框架以及论述不同维度下的关联聚合策略。但针对具体实现关联聚合部分的内容还不够全面深入,后续研究需要重点关注和完善多源异构科技资源元数据的映射实现以及基于元数据框架的科技资源关联聚合方法两个方面的问题。
来源:《中国科技资源导刊》,2020,(4):38~46,此文为缩减版。
推荐阅读 >
识别下方二维码,关注「科情智库」
持续关注产业动态及科技领域报告

