大数跨境
0
0

要取得新发现,就得抓紧时间抢救旧数据

要取得新发现,就得抓紧时间抢救旧数据 学术头条
2017-05-17
2
导读:旧研究资料中有着难以替代的宝贵信息,特别适于研究长期趋势。

从19世纪末起,天文学家开始用棱镜和光栅拍摄星星。他们记录了恒星光谱(将星光分解为各个颜色),以了解恒星的构成。从那时起,这些照相底片可以用作另一个用途:可以让科学家研究过去地球平流层的臭氧浓度,并揭示臭氧空洞的某些变化是否是自然原因所导致。这种研究的难点是是找到这些玻璃板。我深知这一点,从德国澳大利亚,我曾在世界各地的天文台花了好几个星期的时间来搜寻这些玻璃板。


还有什么其他历史数据可能派上用场?这样的事还有很多。过去几个世纪的船舶航行记录中的成千上万的日志,就是今天研究天气变化模式的一个宝库。来自过去和现在的冰川对比照片让世界震惊,并成为气候变化的无可争辩的有力证据。人们在20世纪50年代后期遗弃的打卡式医疗记录,在尘封数十年之后重新解码,表明胆固醇水平的变化可以预测即将到来的疾病。


为了建立面向未来的模型,我们需要考察过去。但是,由于一些误解和疏忽,让我们得以回顾过去的机会正在慢慢消失。无论是存储在玻璃板、纸张、旧磁带还是软盘上,仅有极少数“遗留数据”可以很容易地用于今天的研究,所以这些数据携带的信息实际上丢失了。


科学家曾经抱怨自己无法获得足够的数据。而今天,当我们提到大数据时,就好像是在面对一头不可驯服的野兽。现在收集的测量数据越来越复杂,但是这些数据只能告诉我们现在的情况。很久以前记录的测量数据可以告诉我们,地球的天气、生态系统以及更多方面的变化情况,在过去几十年里获取的个人数据,可以指导现代医疗和政策方针的制定。如果我们想利用这些数据,现在就需要开始进行数据恢复了。


为什么来自各个领域的科学家都没有争相保留旧记录?旧记录本来是研究长期趋势的更好的工具。其中一部分原因是人类的心理学因素所致。在一次演讲中,我提出需要将天文学上已近乎丢失的数据转化为持久、易于共享的格式,一位听众就对此表示了异议。“现代的数据好用多了。”他说。


这位听众没有理解我的意思。几乎没人想要使用过去的技术去收集过去数据,但这些数据能够提供的信息,是任何其他数据都无法提供的。南非开普敦的水文学家已经成功转化了70年前的手写水流数据,以推断非本土树种会对环境中的水分布造成什么影响。现有的鸟类的高分辨率全彩照片,并不能代替已灭绝的旅个鸽和笑枭的图像。


拯救过去遗留资料的时机已经成熟。在许多案例中,原来记录数据的科学家仍然健在,可以提供数据的背景资料。用于将多种记录进行数字化处理的技术也越来越便宜和方便。


数字化并不能保留一切。至少,曾有一位流行病学家通过闻信封来跟踪伊比利亚半岛霍乱的蔓延情况。怎么回事呢?几个世纪以来,邮局一直用醋对疫区城镇的外送邮件进行消毒,几百年过去,醋的气味依然存在。


那么我们要怎么做?抢救数据兴趣小组(Data Rescue Interest Group)隶属于国际研究数据联盟,该小组指导研究人员如何进行初始阶段的数据抢救,确定需要哪些设备,以及如何才能最有效地解决数据抢救的问题。现在人们已经意识到,最重要的是抢救那些大规模人类变化之前产生的数据。现在,像生物多样性(http://rebind.bgbm.org)、火山学和海洋学等领域在保留旧数据方面取得了长足进展,但未来仍有更多工作要做,并需要更充分的协调。


我们不可能挽救所有数据,这项工作必须按优先级来做,也就是说优先寻找那些对解释某些问题必不可少的数据。研究人员经常忽视过去的资料,没有考虑到它们可能的用途。这些珍贵的数据和它们能够提供的知识一起,被遗弃在了档案架上。


在抢救数据上,每个人都可以作出贡献。首先要面对的挑战就是对记录、照片或其他项目的定位,或者就是辨识这些项目的价值。大部分数据都已多年未使用过,并且存储在一些几乎被遗忘的潮湿角落,时刻面临被蜘蛛和老鼠毁坏的风险。


第二是要确定必要的元数据(例如日期,位置和限制)处于可用状态,以便将数据转换为现代格式时,可以准确地确定数据所在的时间和地点。


寻找需要保护的资源往往很困难,经常面对经费稀缺且不稳定的情况。但现在,爱好者已获得了美国航空航天局,美国国际开发署和德国研究基金会等机构的资助。建立一个更广泛的网络是值得的。大学里的档案工作者可以提供专业知识。公民科学团体也已经被动员起来。


一个被忽视的资源背后就是一个成功的故事。当研究人员成功将让忽视的数据获得重生,并将其转化为现代观点时,他们自己更有可能认识到这背后蕴含的机会。下一个英雄救险的故事的主角可能就是你。


但请抓紧时间。有些数据正在凋零,有些数据可能在明天就再也无法获得,而那些赋予它们意义的日渐老去的记忆可能不会存在太长时间了。


原文链接:https://www.nature.com/news/rescue-old-data-before-it-s-too-late-1.21993

【声明】内容源于网络
0
0
学术头条
致力于学术传播和科学普及,重点关注大模型、AI4Science 等前沿科学进展。
内容 1019
粉丝 0
学术头条 致力于学术传播和科学普及,重点关注大模型、AI4Science 等前沿科学进展。
总阅读0
粉丝0
内容1.0k