大数跨境
0
0

基于关系代数的多源异构数据聚合模型研究

基于关系代数的多源异构数据聚合模型研究 科情智库
2021-11-22
2
导读:近年来,随着数据密集型科研活动快速发展,数据管理的重要性日益上升,对科学数据管理和科学数据知识库提出了新的要求,需要考虑更加多源化的数据进行知识库的构建,而多源异构数据融合问题的理论部分研究依然匮乏,



   科情智库   



张军欢1 庞 正1 张 辉2

(1.北京航空航天大学经济管理学院,北京 100191;2. 北京航空航天大学计算机学院,北京 100191)

近年来,随着数据密集型科研活动快速发展,数据管理的重要性日益上升,对科学数据管理和科学数据知识库提出了新的要求,需要考虑更加多源化的数据进行知识库的构建,而多源异构数据融合问题的理论部分研究依然匮乏,需要做进一步探索。综合利用和挖掘多元异质异构数据的基础就是数据聚合。本文认为数据聚合主要需要处理更高级别信息组结构的构建和多种低层次信息在高级别信息组中的标识两方面问题,基于此构建了二源异构数据的聚合模型,并在实际数据的应用中取得了较好的效果。


对于高级别信息组结构构建这一问题,本文采用模式识别与人工制定规则相结合的方法来解决。本文将属性分为实例值为纯字符串的纯字符串属性和实例值为字母或数字编码的编码类属性两类。本文采用模式匹配的方法计算两个异构数据表中纯字符串属性之间的相似度,首先使用Word2Vec将属性实例值转化为词向量,再通过加权平均的方式得到属性的数值向量,进而计算属性间的余弦相似度,最后选取相似度超过设定阈值的属性对进行匹配。对于编码类属性,本文将其细分为日期类、类别类、ID类三类,根据其不同的特点人工设定不同规则来实现此类属性的匹配。同时,本文发现ID类属性在不同情境下的格式相差较大,认为在一组实例值中通过发现可能存在的特定格式进而识别出ID类属性目前较为困难,需要进一步探索。


对于多种低层次信息在高级别信息组中的标识问题,本文在二源异构数据聚合情境下使用关系代数为该过程建立了模型。该过程主要分为调解阶段和整合阶段。在调解阶段,通过人工制定一张调解辅助表实现将原关系模式的主键映射为数据仓库中目标关系模式的主键;在整合阶段,又分为更新原有数据和新数据写入两种过程,主要思想均为利用调解阶段提供的目标关系模式的主键来实现记录的匹配与更改。


本文将上述构建的模型应用在了EXCEL存储的专利数据和XML存储的论文数据的聚合问题上,成功构建了目标表的结构,匹配属性的余弦相似度最高达到了0.748,经过人工验证后认为结果具有较好的可解释性,但仍需要一定程度的人工调整作为辅助。此外,本文发现属性与记录对象之间暗含关系的挖掘也是目前的难点之一,例如论文与属性“journal”、专利与申请地之间都存在归属关系,但这种关系难以通过计算得到,因此人工干预仍必不可少。最后本文成功将论文和专利数据写入目标表,并以XML文件的形式储存。


本文对数据聚合的整个流程进行了建模,在一定程度上弥补了此前研究相对局限于部分流程的问题,使用更加完整的数据聚合模型可以为整个过程提供更完善的理论指导,使得在不同情境下的多源数据聚合能够更加方便的构建整个流程框架。



来源:此文为缩减版,全文请见《中国科技资源导刊》2021,(5):1~10


  推荐阅读 > 

基于内容特征元数据的多源异构科技资源关联聚合研究

基于结构复杂性的科研团队类型划分及特征分析——以电动汽车领域为例

基于中国东部10个省份比较下的河北省研发机构研究

【声明】内容源于网络
0
0
科情智库
宣传科技信息资源及科技情报研究成果,关注产业最新动态、发展热点和重大变革,为科技创新提供新媒体渠道。
内容 1586
粉丝 0
科情智库 宣传科技信息资源及科技情报研究成果,关注产业最新动态、发展热点和重大变革,为科技创新提供新媒体渠道。
总阅读6
粉丝0
内容1.6k