大数跨境
0
0

元数据获取协议OAI-PMH介绍

元数据获取协议OAI-PMH介绍 数字罗塞塔计划
2024-01-16
0
导读:新《档案法》第四十一条指出:“国家推进档案信息资源共享服务平台建设,推动档案数字资源跨区域、跨部门共享利用”。应该说这一应用场景和OAI-PMH高度契合。

如今我们提倡开放档案共享利用,让更多的档案能够发挥其应有的价值。而新的问题又接踵而至,开放档案数据难以被找到,实际还有很多数据隐藏在海平面以下,露出海面的只是冰山一角。

这一方面是由于档案数字化和开放进程尚在推进过程中,数据提供者(比如档案馆)没有十分便利的检索工具来帮助数据的使用者获取数据,并且每个档案馆官网的界面和搜索路径都有所区别;另一方面则是源自单一数据源的数据不够全面,利用者需要从多个数据源获取数据,但网络上能找到的数据源却非常有限。


显然一般的搜索引擎无法解决这个问题,所以我们常常会希望有一个平台能提供一站式的数据服务,来帮助我们寻找并获取所需的数据,而这需要以建立一套被广泛遵守的标准规范为前提,否则反而会因为不同来源的数据过于杂乱而起到反作用。


今天要介绍的OAI-PMH(the Open Archives Initiative Protocol for Metadata Harvesting,开放档案倡议-元数据获取协议)就是这样一套被广泛遵守的开放数据共享协议,它为线上的学术资源查询提供了便利,后来也为档案馆的数据共享提供了技术支撑。



PART 01

OAI-PMH简介


OAI-PMH是由OAI组织发起、制定并推广的元数据获取协议,虽然OAI组织的名称叫“开放档案倡议”,但这个协议起初并不是为档案行业而开发的,而是为电子预印本信息的共享提供规范路径,也就是说它是为更广泛的学术信息传递而发起的。


1991年,第一个电子预印本平台ArXiv发布,随后市场上出现了多个电子预印本平台,不同专业电子预印本的平台层出不穷且相互独立,导致学术交流依然具有孤立性和时效性。基于这种现状,OAI的创始机构(美国图书馆和信息资源委员会、美国数字图书馆联盟)在1999年的一场关于电子出版的研讨会上提出了一种开放档案元数据获取模型,使多个学术机构能够被链接起来,让信息共享。这一设想得到了Andrew W. Mellon 基金会、 网络信息联盟、国家科学基金会以及 Alfred P. Sloan 基金会等机构的支持,OAI正式成立。


后来OAI-PMH在档案行业的应用前景也被发现,因为不是只有论文预印本有元数据,档案馆馆藏的各种历史档案经过数字化之后也包含结构化元数据。在某些专业的研究过程中,查阅这些档案必不可少,但依然要像文章开头提到的那样,在多个数字档案馆中查找非常困难,而OAI-PMH正好可以为包含档案行业在内的许多专业领域解决这个问题。



PART 02

OAI-PMH如何找到开放档案?


OAI是在数据源不断增长的背景下被提出的,为了便于开发者使用,OAI-PMH的结构也较为简单。在传输协议的两侧对应着两个角色,数据提供者和服务提供者。数据提供者提供开放档案的元数据;服务提供者不是最终的数据使用者,而是通过获取数据为使用者提供多样化服务。数据的储存与传输则通过XML文件格式进行。


通过OAI-PMH获取的是档案的元数据而非全部数据。元数据可以看作是档案的属性,所以OAI的主要作用不在于数据的直接获取,而在于数据的检索。通过OAI能够先找到数据,再通过数据提供者提供的链接跳转到数据源,从而解决了多源数据检索的难题。


以档案馆为例,每个档案馆都会有自己的元数据结构,但对于集成平台而言,需要将不同来源的元数据的结构统一,所以在OAI中规定,档案馆所提供的元数据结构可以保持原样,但要有能够将规定的几个关键元数据转换(映射)成OAI元数据格式标准的能力。服务提供者在获取元数据时,就可以经由OAI-PMH获得统一标准的元数据,而无需服务提供者去基于各个档案馆数据结构的差异做二次开发。开发者可以通过OAI-PMH的6个指令来确认信息源或获取指定元数据。

元数据的获取分为两种方式:

一种是服务提供者定时获取数据提供者库中的元数据到自己的数据库中,要使用数据时,直接从服务提供者的库中寻找数据并提供服务;

另外一种则是使用者在使用服务时,服务提供者向各个数据提供者发送指令实时获取元数据。两种方式各有优劣,定时任务会受到时效性影响,不能实时获取最新档案数据,但对数据提供者的服务器压力更小,响应时间也更快,因此适用于不同的场景。


通过传输元数据而非所有的档案数据的好处:

一方面促进了服务提供者的发展,元数据所占用的储存空间较小,搜索数据的效率也就得到了提升;

另一方面也保护了档案信息的安全,确定档案内容数据的来源是唯一的,对于每一份档案,都有唯一的标识符来代表数据的来源,确保了档案的真实性和权威性。


基于这一系列规则,对数据提供者做更多的规范,为服务提供者的开发提供了便利,让更多的数据源能够被集合在一起。而提供这样专业的搜索引擎,使用者自然能获取更加可靠且丰富的结果,以满足多元化的需求。



PART 03

OAI-PMH的应用案例


OAI-PMH为各地开放档案集成方案的建设提供工具,而这些元数据还能通过OAI-PMH被二次使用在更大的数据集中,从而为使用者提供了一个内容全面的开放档案搜索平台,有时还能提供除数据查找外的其他服务,比如某个事件的专题,丰富了使用者的使用体验。

Europeana上基于历史档案的博客

(※文章中引用的档案都可以跳转)


数字图书馆联合会(FBC)是一个收集、处理和共享有关波兰科学与历史文化档案数据的组织。FBC建立了数字档案馆平台,要求每个想要加入的档案机构开放他们的OAI-PMH接口,如果他们没有,FBC也会提供建议、工具及帮助。这使平台整体的元数据得到规范,为数据的二次使用提供基础,也就是将收集到的数据传输到其他网站(比如欧洲数字图书馆Europeana,FBC就是其重要的波兰地区历史档案数据来源)。


Europeana是欧盟对欧洲图书馆和档案馆进行数字化的产物,收录了来自欧盟各国的公开档案资料,也就是Europeana作为更大的数据集体,能为更广泛的欧盟地区内的个人和组织,提供跨国家的开放档案搜索服务。2015年5月,Europeana正式成为欧盟委员会的数字服务基础设施(DSI)之一,让欧盟地区的档案机构能够更有效地进行馆藏数据的在线共享,也为这些档案机构的数字化起到推进作用。截至2023年年初,Europeana能够提供对超过5500万份数字档案的搜索与筛选,包括历史书籍、音乐、艺术品等。



PART 04

OAI-PMH的不足与扩展


对于开放档案,由于OAI-PMH只提供元数据获取协议,因此具有一定局限性。服务提供者肯定希望获取包括内容数据在内的全部数据,而不仅仅是元数据,但内容数据并不能通过OAI-PMH进行传输与获取。


事实上,OAI-PMH只提供元数据获取协议并不是技术原因,就技术而言,OAI-PMH实际上属于一种API接口,而不同的API接口能调用不同的平台服务,这也使得内容数据实际上是可以被获取的,只要数据提供者开放接口。但关键是,数据提供者是否会开放接口?这其中包含着安全性和保密性的问题,特别是对于档案馆这样相对敏感的部门而言。


关于内容数据的获取,OAI在2008年发布了另外一个协议OAI-ORE,拟定了一个多媒体资源的交换标准,重在对档案数字对象的重用。通过OAI-ORE,可以将单个档案处于分布式存储系统中的多媒体资源(文本、图像、数据、视频等)进行整合,这样服务提供者就可以提供更多样的服务,例如提供PDF全文的预览与下载,同时也让使用者的体验得到了显著提升。

通过OAI-ORE将资源(AR-1, AR-2, AR-3)整合



PART 05

  总结  


经过20多年的发展,OAI-PMH已经非常成熟,并且在国外学术资源、图书资料、档案数据共享方面得到广泛应用。目前在国内,OAI-PMH的应用在高校学术系统中居多,而各个档案馆之间开放共享档案机制的建立还有个过程。


新《档案法》第四十一条指出:“国家推进档案信息资源共享服务平台建设,推动档案数字资源跨区域、跨部门共享利用”。应该说这一应用场景和OAI-PMH高度契合,我们相信在不久的将来,OAI-PMH会在国内跨地区档案信息资源共享服务平台的建设中得到借鉴或应用。


数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明,我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见,共同为人类文明的传承而努力奋斗!


热文推荐

企业数字档案馆(室)建设之“七个怎么?”

【ARCHE-2024】加强智慧档案建设,推动档案工作创新

档案新媒体,罗塞塔定义!

【测评办法可下载】湖北省局版与国家局版馆室测评办法对比

培训讲师专访:档案数字化管理实务与操作


档案信息化

就看罗塞塔

高端交流群已开

加小罗,秒进群

 欢我们就点“”和“在看”分享给小伙伴哦~

档案信息化,就看罗塞塔!

【声明】内容源于网络
0
0
数字罗塞塔计划
保存社会记忆,传承人类文明! 我们始终秉持中立的立场客观公正地分享和交流档案信息化与档案文化领域的知识和观点,致力于成为全国领先的档案”两化”新媒体平台。
内容 524
粉丝 0
数字罗塞塔计划 保存社会记忆,传承人类文明! 我们始终秉持中立的立场客观公正地分享和交流档案信息化与档案文化领域的知识和观点,致力于成为全国领先的档案”两化”新媒体平台。
总阅读467
粉丝0
内容524