大数跨境
0
0

数字资源长期保存国际项目巡礼(八):CASPAR

数字资源长期保存国际项目巡礼(八):CASPAR 数字罗塞塔计划
2023-10-12
0
导读:CASPAR项目承担了很多关于数字信息保存方面的研究工作,特别是在提供安全、可靠和经济有效的保存数字编码信息的工具和技术方面取得了显著成果。

去年笔者在介绍《可信数字仓储(TDR)及其实践应用案例》时,就曾提到过“用于保存、获取、检索的文化、艺术、科学知识”(Culture, Artistic and Scientific knowledge for Preservation, Access and Retrieval, CASPAR),事实上,除了对可信数字仓储(TDR)的研究应用之外,CASPAR项目还承担了很多关于数字信息保存方面的研究工作,特别是在提供安全、可靠和经济有效的保存数字编码信息的工具和技术方面取得了显著成果。本文我们将对CASPAR项目进行介绍。


一、项目概述

CASPAR是欧盟第六框架计划资助下的一个综合项目,于2006年4月1日正式启动,致力于研究、实施和传播基于OAIS参考模型(ISO 14721)的数字保存创新解决方案。(有关OAIS参考模型的相关介绍参见本公众号文章《OAIS模型及其数字资源长期保存要求》)。


CASPAR是一个涵盖科学、文化和创意方面的重要数字资产联盟,也是数字信息保存领域的商业合作者和世界领先者,由包括联合国教科文组织、欧空局、格拉斯哥大学等在内的共17家单位组成。为应对可能存在的风险和挑战,CASPAR成立了由与保存数字信息有利害关系并分享、支持项目使命的个人和组织组成的全球网络,包括数字资源创造者、馆长(博物馆、美术馆、档案馆等)、服务供应商、记忆机构、研究人员和用户。这是一个开放的合作空间,人们可以就数字保存的相关问题在此寻找合作伙伴,分享知识、经验和资源。


发展至今,CASPAR已经形成了相对完整的功能模型、工作流、信息打包方法等,在数字信息保存实践中发挥着重要作用。欧空局总部的数据保存、法国现代音乐研究所和法国国家视听研究院音乐表演的数字信息、联合国教科文组织在保护文化遗产方面的文化数据等都有CASPAR组件、系统发挥作用的影子。CASPAR将其项目的成果以系列视频形式通过官网予以展示,并且,项目期间开发的所有软件和文档都可以在SourceForge中获取。正如视频中的介绍者大卫·兰姆所言:“CASPAR对数字信息保存的重要性就像罗塞塔石碑对解释古埃及语言一样重要。


CASPAR的目标如下:

1


实施、扩展和验证OAIS参考模型(ISO 14721);

2


提高捕获内容对象的表示信息和其他保存的相关信息的技术能力;

3


尽管底层计算(硬件和软件)、存储系统和指定社区发生了变化,但设计虚拟化服务仍支持长期数字资源保存;

4


将数字版权管理、身份验证和达标作为CASPAR的标准特征;

5


研究保存数字资源的复杂访问和使用,包括直观查询和浏览机制;

6


开展案例研究,验证不同用户社区的CASPAR数字资源保存方法,并评估成功复制的条件;

7


积极为CASPAR所涉及领域的相关标准化活动做出贡献;

8


提高相关用户群体对数字保存重要性的认识,推动产生多样化的数字资源保存系统和服务。


二、功能模型与工作流

功能模型

基于OAIS标准,CASPAR界定了数字档案保存6个宏功能组件的功能模型,如下图。

此外,CASPAR体系架构团队定义了“CASPAR整体组件体系结构和组件模型”,识别了11个CASPAR关键组件:表示信息(REPINF)、虚拟化(VIRT)、注册表(REG)、包装(PACK)、保存数据存储(PDS)、查找辅助工具(FIND)、知识管理器(KM)、保存编排管理器(POM)、数据访问和安全(DAMS)、数字版权(DRM)、真实性(AUTH)。

这些关键组件可以看作是6个OAIS宏功能组件的组成部分,它们共同完成在一次存档的全部流程中OAIS应尽的全部职责。具体而言,主要可分为5个功能模块:

信息包管理

负责这些活动的主要CASPAR关键组件是PACK,由REPINF、REG、PDS、FIND和VIRT支持

信息访问

负责这些活动的主要CASPAR关键组件是FIND,由KM、PACK和PDS支持

指定社区和知识管理

负责这些活动的主要CASPAR关键组件是KM,由REG和POM支持

通信管理

负责这些活动的主要CASPAR关键组件是POM,由KM、REG和AUTH支持

安全管理

负责这些活动的主要CASPAR关键组件是DAMS,由DRM和AUTH支持

数字信息保存工作流

CASPAR的使命是通过制定和构建关键组件来形成一个框架,并使这个框架适用于保存所有类型的数字编码信息。而以此形成的数字信息保存工作流也能够对全部类型的数字信息进行保存,并力求维护数字信息的可访问性、可理解性和可用性。


CASPAR的方法和技术解决方案:

1


符合OAIS参考模型(数字保存的主要参考标准);

2


技术中立:可以使用任何类型的新兴技术来保护环境;

3


采用分布式、异步、松散耦合架构,每个关键组件都具有独立性和便携性:它可以不依赖于特定的平台和框架进行部署;

4


域独立:它可凭借低附加工作量应用于多个域/上下文;

5


保存知识和可理解性,不仅是“比特”;

6


保证所保存信息的完整性和身份,以及保护数字版权


三、基于OAIS的CASPAR信息打包

长期数字保存包括用于长期存储和访问数据的过程、策略和工具,在此期间,技术、格式、硬件、软件和技术社区很可能发生变化。为了保证日后能够对保存数据进行获取、解释,数据应同描述它们的元数据一起打包。因此,信息打包成为CASPAR的研究重点之一。


CASPAR封装子系统体系结构

CASPAR封装子系统体系结构包括包装(Packaging, PACK)、表示信息注册表(RepInfo Registry, RIR)和保存数据存储(Preservation DataStores, PDS)三个子组件,如下图。这些组件构成了一个集成的保存环境,适用于信息包的摄取、存储和检索。

为了追踪档案信息包(Archival Information Package, AIP)的不同部分和彼此关系,系统采用了名为清单的“目录”。清单是存储在档案信息包中的XML文档,包含与档案信息包内容有关的有价值的信息。清单将内容数据对象(Content Data Object, CDO)、表示信息(Representation Information, RepInfo)和保存描述性信息(Preservation Descriptive Information, PDI)关联起来,并表达这些信息对象之间的复杂关系。因为清单是XML格式的,其描述与平台无关,即可以在异构数据系统之间轻松移动、读取和解释。可以通过将信息添加到清单中来支持档案管理服务,例如提供信息以发现资助包、数字版权管理、格式迁移和转换、数据分析和数据验证。

XML格式数据单元的封装格式

CASPAR联盟(CASPAR Consortium)研究确定采用XML格式数据单元(XML Formatted Data Unit, XFDU)来进行信息封装。CASPAR的合作伙伴欧空局(The European Space Agency, ESA)已成功采用XML格式数据单元,并开发了欧洲标准存档格式(the Standard Archive Format for Europe, SAFE)——一种与XML格式数据单元完全兼容的打包格式。


CASPAR利用现有的开源Java工具包和API来构建、编辑和分析基于XML格式数据单元的信息包,如下图。


其中,packageHeader记录了信息包本身的信息,包括版本、序列、位置等。dataObjectSection和metadataSection分别用于连接内容数据对象、表示信息和保存描述性信息。数据对象和元数据对象要么通过引用连接,要么在清单本身中编码。每个对象都分配了一个XML标识符,用于在两个部分之间链接对象。这两个部分中的对象都可以被赋予内置分类或与用户定义的分类方案相关联。


ContentUnit记录了有关内容单元的信息,这些信息用于将dataObjectSection中的数据与metadataSection中的元数据相关联。这种关联是通过XML标识符完成的,并映射到OAIS的内容信息对象,即一个数字对象及其表示信息的集合。下图显示了XFDU使用清单的ContentUnit部分表示的内部和外部关系。


XML格式数据单元的标准模式使所有的档案信息包保持一致,同时增强实现的灵活性和可适应性。模式扩展包含额外的信息,同时保持标准化和一致性。


四、应用实践

欧空局与CASPAR

欧空局是CASPAR的主要合作伙伴之一。其为CASPAR提供的数据集主要来自全球臭氧监测实验(Global Ozone Monitoring Experiment, GOME)的数据。数据主要分类如下图。通过特定处理,1级数据(原始校准数据,也称L1B数据)能生成1C级数据(完全校准数据),单个1级数据也可以生成多个1C级数据。

下图说明如何根据不同的知识库将不同的表示信息返回到不同的指定社区:一是知识模块定义了理解数据含义所需的内容(地球观测专业知识、地球观测数据存档专业知识和GOME数据专业知识)。二是指定社区知识概况(通用用户、GOME专家、存档专家或系统管理员)。


欧空局科学试验台方案的完整事件链如下表所示:

CASPAR与GENESI-DR的联合方法

欧洲地球科学地面协作网—数据仓库(Ground European Network for Earth Science Interoperations - Digital Repositories, GENESI-DR)是欧空局领导、欧盟委员会资助的项目。该项目和CASPAR有深度合作,两者的联合已确定两个集成阶段。


第一阶段

1

执行GENESI-fication。这允许用户访问CASPAR保存的数据;

2

开发一种验证服务,用户使用GENESI-DR处理软件和保存在CASPAR中的GOME L1数据获得臭氧剖面信息;

3

开发从GOME L1数据开始生成GOME L1C数据的验证服务;

4

用户可以通过GENESI-DR门户网站发现和选择GOME L1C。



第二阶段

1

使以前提供的服务可以从GENESI-DR门户网站外部访问;

2

将处理结果存储在CASPAR-DR中;

3

向欧洲地球科学地面协作网用户返回基于配置文件的表示信息;

4

制定将CASPAR特性传播给其他相关欧洲地球科学地面协作网数字存储库的策略。



数字资源长期保存是数字罗塞塔计划的核心研究内容。数字罗塞塔计划是由杨安荣博士联合国内知名投资机构发起的一项利用蓝光存储、数字胶片、玻璃存储等技术,旨在解决电子档案乃至数字资源长期保存的国产化替代科技攻关工程项目,以实现“保存社会记忆,传承人类文明”的最终目标。



热文推荐

档案信息化,就看罗塞塔!

户籍审批电子档案”单套制“管理研究

PRONOM:电子文件格式登记系统

红色报纸,记录74年前的开国大典

巅峰对决,来为您支持的“门派”打call吧!


档案信息化

就看罗塞塔

高端交流群已开

加小罗,秒进群

点点“分享”“在看”,给我充点儿电吧~

【声明】内容源于网络
0
0
数字罗塞塔计划
保存社会记忆,传承人类文明! 我们始终秉持中立的立场客观公正地分享和交流档案信息化与档案文化领域的知识和观点,致力于成为全国领先的档案”两化”新媒体平台。
内容 524
粉丝 0
数字罗塞塔计划 保存社会记忆,传承人类文明! 我们始终秉持中立的立场客观公正地分享和交流档案信息化与档案文化领域的知识和观点,致力于成为全国领先的档案”两化”新媒体平台。
总阅读467
粉丝0
内容524