点
击
蓝
字
关
注
我
们
笔者去年曾写过一篇文章介绍数字资源长期保存的典型案例——LOCKSS(Lots Of Copies Keep Stuff Safe,大量拷贝确保数据安全),详情可参见《LOCKSS项目对档案数字资源长期保存的启示》。但近期笔者发现LOCKSS项目有一个“升级版”—CLOCKSS(Controlled LOCKSS,即受控LOCKSS,或者说是“大量受控副本确保数字资源安全”),相较于较为早期的LOCKSS项目,CLOCKSS在很多方面有了进一步的改进和完善。今天笔者就对CLOCKSS项目进行介绍,分享给大家。
01
CLOCKSS项目概述
自2006年以来,世界顶尖的学术出版商和科研图书馆共同参与管理了一项非营利性项目——一个全球的隐性存档(Dark Archive)系统——CLOCKSS,致力于建立可持续的、全球分布式的存档系统,确保基于网络的学术资源的长期保存,无限期地保存学术作者的遗产。CLOCKSS是图书馆领域LOCKSS项目关于存档资源在存储、利用等方面进一步的延伸。
如今,CLOCKSS与300多所图书馆和500多家出版商合作,在全球领先的学术机构建立了12个归档站点。共同保存了超过5,200万篇期刊文章和450,000册书籍的权威版本,以及不断增加的补充材料和元数据。
CLOCKSS的使命是为全球所有图书馆和学者保存数字资源。目前,全球12个主要学术机构的镜像存储库站点保证了长期保存和访问,能够抵御来自潜在技术、经济、环境和政治挑战的威胁。即使在某一个位置发生了破坏性事件,也不会危及已保存的数字资源,因为其他位置可以作为镜像站点,对被破坏位置的档案进行备份和修复。由于12个存档节点的独特分布式架构,CLOCKSS被认为是“受控LOCKSS”存档。
02
CLOCKSS触发事件
CLOCKSS采用经过验证的LOCKSS开源技术构建,以原始格式保存学术出版物,轮询和修复机制确保了数据的长期有效性。触发时,内容将迁移到最新格式,以保持长期可用。正常情况下,存储在CLOCKSS的内容是不能被访问的,只有当“触发”事件出现,才能恢复访问。
CLOCKSS委员会定义了存档内容的触发事件如下:
(1)出版商不再营业
出版商不再经营/不再从事出版内容/不再提供访问先前出版内容的业务,并且没有继承权益/没有权利的恢复或转让。
(2)不再提供内容访问
出版商不再提供对内容的访问权限,并且没有继承权益/没有权利的恢复或转让。
(3)旧刊不再发行
出版商已停止提供对部分/全部过期内容的访问权限,并且没有继承权益/没有权利的恢复或转让。
(4)灾难性故障
虽然仍然在发布内容,但由于技术或类似的灾难性和永久性故障,发布者无法以电子方式提供对内容的访问。
当委员会确认出版商无法再提供某个存档的内容时,受触发事件影响的资源将从CLOCKSS存档箱中释放输出至一个合适的平台,供所有人使用,无论该用户是否曾订购过该资源。
03
CLOCKSS技术概述
数字资源进入CLOCKSS存档箱存储的步骤如下:
第一步
由出版商签署永久授予CLOCKSS保存权的协议,并向CLOCKSS系统提供数字资源。
出版商需要将源文件放置在指定的FTP站点上(允许CLOCKSS访问)。
第二步
位于赖斯大学、印第安纳大学和斯坦福大学的特殊CLOCKSS存档箱用于收录出版商提供的内容。
第三步
每个CLOCKSS存档箱的内容都需要经过验证(匹配),以确保每份存档版本相同,这样也确定了资源的权威版本。
第四步
大多数CLOCKSS存档箱都作为保存设备来执行主要的存储和审核功能,CLOCKSS存档箱进行资源收集前需对采集设备上的内容进行质量验证。
第五步
CLOCKSS存档箱通过联网对所存内容进行轮询和恢复/替换。如果发现某个CLOCKSS存档箱里的内容损坏或不完整,将根据其他存档箱里的数据或参考出版商提供的原始演示文档进行恢复/替换。这种存档箱之间的合作机制避免了对每个存档箱进行单独备份,同时也保证了系统的持续运行以及资源的真实可用。
第六步
当发生“触发事件”且CLOCKSS董事会决定发布资源时,CLOCKSS存档箱里的内容将复制到CLOCKSS主办机构(目前为爱丁堡大学图书馆和斯坦福大学图书馆)的公开网络服务器上。同时,为保持其可用性,资源会迁移到最新格式。
第七步
发布的内容可以从斯坦福大学和爱丁堡大学的站点免费获得。也可通过Crossref的Open URL直接获得,或者通过以下任一渠道:
A.本地库链接解析器
B.触发内容列表
相较于LOCKSS,在CLOCKSS项目中图书馆保存的内容不再仅限于订阅的电子期刊,而是出版商的所有期刊;图书馆保存的不仅是电子期刊论文的出版文件,还包括作者提交的文件。因此,图书馆需要运行两个存档库;当遇到突发事件,出版商无法向用户提供访问时,图书馆的保存副本将向所有用户(而不是仅限于本馆用户)提供访问服务。
04
CLOCKSS项目的启示
数字化时代的到来使得学术出版物以电子形式广泛传播,但数字资源也面临着风险,例如硬件故障、技术失效或数据丢失。通过CLOCKSS项目,可以采用多个备份的分布式存储策略,提高学术出版物的存储可靠性,保护学术出版物的长期可持续性和可访问性,减少信息丢失的风险,并为学术社区提供一个可靠的存档保护机制。CLOCKSS项目也为数字资源的长期保存提供了一些重要的启示,主要包括以下几点:
1、分布式存储备份
CLOCKSS通过分布式存储的方式,提高了数据的冗余性和可靠性。这种方式可应用于其他数字资源长期保存的项目中,确保数据在多个地点进行备份,以防止由于单点故障或灾难性事件导致数据丢失。
2、自动化监测和修复机制
CLOCKSS引入了自动化工具和流程来监测存储内容的完整性,及时对损坏的数据进行恢复或替换。这种自动化的监测和修复机制可以减轻人工干预的工作量,同时提高数据的完整性和可访问性。
3、合作伙伴网络
CLOCKSS建立了一个合作伙伴网络,由出版商、图书馆等学术机构组成,共同管理和支持保存的资源。通过共同决策、资源共享和技术合作,提高数字资源的可持续性和可访问性,在数字资源长期保存中起到重要作用。
数字资源长期保存是数字罗塞塔计划项目的核心研究内容。数字罗塞塔计划是由杨安荣博士联合国内知名投资机构发起的一项利用蓝光存储、数字胶片、玻璃存储等技术,旨在解决电子档案乃至数字资源长期保存的国产化替代科技攻关工程项目,以实现“保存社会记忆,传承人类文明”的最终目标。
热文推荐
档案信息化
就看罗塞塔
高端交流群已开
加小罗,秒进群
喜欢我们就点“赞”和“在看”分享给小伙伴哦~
档案信息化,就看罗塞塔!

