答案似乎并不乐观。
数据如何才能大?
大数据的基础就在于数据量的“大”,离开大,大数据就是一个伪命题。数据如何才能大?可以通过计算来回答。

▲ 数据共享
假定,E是某个有交换意愿的科学工作者独自创造的数据量,en是与第n个人交换获得的数据量,En是其他某个科学工作者独自创造的数据量。图中依次为(1) 所有人都不愿意共享、(2) 所有人都只愿意等量交换、(3) 所有人都愿意无私分享时的数据量情况
由图可见,数据共享是成就数据大、大数据的核心路径。没有数据共享,就没有科学大数据。
共享!你愿意吗?
科学工作者是否愿意共享数据?答案似乎并不乐观。
针对生物多样性相关领域科学家的调查研究发现,超过90%的科学家认为数据共享非常重要,但超过65%的科学家不愿意共享未发表的原始数据。
其情状或可用经济学上的囚徒困境来模拟,以得到初步解释 :
在此制度之下,某一科学工作者可进行如下两种选择,共享数据(I1)或不共享数据(I0)。对于其他科学工作者,该科学工作者可以做两种设想,即其他科学工作者选择共享数据(R1)或不共享数据(R0)。
假设,制度对乐于共享数据资源的科学工作者没有任何奖励,且在该制度下科学工作者主要关心自身的成果发表、以及项目申请。
于是对选择方案的常见顺序可以用如下形式来表示(根据偏好的递减顺序):
I0R1>I1R1>I0R0>I1R0
因为:根据制度,即使有科学工作者慷慨、高效的分享数据,该人也不会得到直接的丰厚回报。
所以,不管其他科学工作者选择R0还是R1,每个科学工作者自己都偏好于不分享数据,也就是说,都会偏好于I0而不是I1。
但同时,每个科学工作者都偏好于大家都共享数据,而不是大家都不共享。因为所有人都明白,如果都不共享,其结果对所有科学工作者都是灾难,也对科学研究是灾难。
从经济学上而言,这是一个严格占优战略,而个体的理性计算将把所有人引向深渊。正如亨利.西奇威克所言:努力尝试使个人幸福最大化,却可能会产生一种使幸福难于取得的配置效应。若中国科学不幸衰落,谁能一枝独秀?
科学工作者关于数据共享的选择的深刻原因值得探究。
科学数据共享面临的问题
共享的实质与现实之间存在诸多不协调——或者可以说——相悖。
第一,科学数据共享的实质是科学工作者的合作。
合作是共享的第一步,是共享的基础。而现实中,科学界对个人研究的回报高于其对合作研究,对职业早期阶段的青年工作者尤甚。当科学工作者认识到这种对个人的激励时,随之减少合作研究。
而实际上,这与人的发展规律似乎有所抵触。首先,如心理学家所认为,人们在其能独立完成的任务中进步极少;而主要须通过完成挑战性任务,也就是与更有能力的人间接或直接合作才能完成的任务,才可得到发展。其次,人们在发展过程中会经历“心理社会”的八个阶段。青年期属于亲近感对孤立感阶段。青年人渴望并相对较易于与他人形成亲密的相互的关系,而且情愿为之做出一定的牺牲和妥协。当青年人不能形成这种关系时,孤独感就会产生。由此可见,合作有助于所有科学工作者的个人能力提升,且更符合青年工作者的本能。
第二,科学数据共享的实质是科学方法、理论的多元化。
这是数据共享与数据利用间的桥梁。而现实中,在进行同行评议时,若某位科学工作者使用的方法为“同行”所不熟稔,则其得出的结论以及研究成果往往难以得到恰如其分的评价;而在职称晋升时,非本学科的杂志上发表的文章认可度也较低。如此,使用多元方法、利用多学科知识的学者往往得到冷淡、矛盾的评价,其生存环境较差。
一般而言,人们对所储备的信息已有与之匹配的理解途径,并往往试图用其解释新信息。并期待新信息可以强化固有理念,而忽略或怀疑其它的证据,这是人们的通性。此外对于科学工作者而言又有另一层挑战,其知识体系往往已呈组织化,在这种情况下,貌似只需要承认或改变方法或理论的某一点,其实或已影响到整个科学关的架构。显然非常艰难甚或痛苦。这些都是多元化的障碍。
第三,科学数据共享的实质是跨学科研究。
这是数据多元化的基本保障与需求刺激。而现实中,从个人而言,进行过跨学科学习的年轻科学工作者发现,他们争取体面职位以及良好的学界认可度比接受单科培训的工作者更难。从项目组织而言,当一个项目跨度过大,既涉及到自然学科、又涉及社会学科,还包含了人文学科、艺术学科时,有什么样的资助部门愿意为其买单?
其原因除第二点中所陈述的以外,还有一点不容忽视,相同学科的科学工作者更容易形成或已经形成了团体,现在的专业团体划分极端细致,跨学科者去哪里寻找组织?势单力薄,在个人发展及项目争取上难免有所制约。
而实际上,来自于不同学科的科学工作者有不同的知识基础,在这种情况下,建立共同体具有特别的价值。因为每个科学工作者掌握多种方法其难度极大,而每个科学工作者掌握一种方法,以其合力提高学术研究的整体水平则较为现实。最关键的是,该共同体提供了一种融合的情境,避免了个人的偏见和片面,这对于科学工作者对理解和研究世界的多元化极为关键。
第四,科学数据共享的实质是对科学工作者对科研的积极贡献和奉献。
贡献和奉献成全了良好的数据供应侧。但现实是:如若将多种学科方法与知识融入数据收集和分析的合作研究,几乎每个人都可以从中受益。但是,不能保证其中的任一项工作都能取得突破或得到认可。
于是,对于科学工作者而言,更专注于自身分支学科技能,并力图在专业期刊上发表自身领域更深入的研究成果,似乎是最佳的选择。因为这样个人收益最高。然而,如果有更多的科学研究利用了多方法和多学科的综合思考,那么学术界和社会界的整体收益将提高。
第五,科学数据共享的实质是科学研究的可持续发展。
数据共享与科学研究可持续发展互为因果。没有数据共享,科学研究的研究对象将会萎缩,研究所需证据支撑将严重不足,研究的成果也难以寻求与之匹配的应用端。而没有科学研究的可持续发展,数据积累将严重不足,尤其会出现时序的断层,则无法实践大数据的核心应用——预测未来。但现实中,各种与年龄挂钩的人才项目、以及某些结构实行的计时升等制度也对速成研究成果而不是长期研究项目的发展给予更多激励;此外,资助机构提供的长期支持也较为有限。如此,则数据往往会产生断裂,审视世界的时间尺度被迫缩小,这对于一些牵涉到全人类的命运的重大研究是极其严重的打击。
第六,科学数据共享的实质是解放科研生产力。
数据共享意味着科研成本降低、资源更易获得,意味着对于科学研究感兴趣的人可以突破一些客观条件制约、进行相关研究的可能性大幅度提高。也使得人们可以不歆羡于体制,而利用科学数据随时进行研究与沟通。也就是说,科学数据共享在试图打造无界实验室。但现实是,拥有国际平台的科学工作者的可获取资源量及影响力大于国家平台 ,而国家平台大于地方平台,地方平台大于民间平台。
那么,科学数据共享的根本理念与现实之间的矛盾的核心症结在哪里?
在于小数据时代造成的科学研究传统!彼时数据量较少,数据的深度则倍受重视。投射于科学研究上则表现为传统科学研究鼓励专业、鼓励专业技能、鼓励专业的人。就个人自身建设而言,传统科学工作者们全身心致力于专业化,而对掌握其他方法、以及学科融合兴趣欠缺。就合作发展而言,传统科学的职业激励鼓舞个人专精于某种学科与方法;对个人通过合作实现专业技能互补提升缺乏积极引导。总之,小数据造成的学术割裂是当今学科方法、学科视角、学科发展相融合的重大障碍。当科学工作者们本身的倾向与外界的刺激相作用时,科学工作者的学科差异、理论差异与世界观相结合时,彼此之间产生了怀疑而不是信任。
但是,“所有科学的界限,必然是天然折衷的;知识是统一的整体,它分划成各个学科是对人类软弱的一种让步”。科学数据共享就是为了模糊学科以及科学的界限。
【相关阅读】重磅 | 中国科研信息化蓝皮书2015

本文由刘四旦节选自中国科学院等编《中国科研信息化蓝皮书2015》(北京:科学出版社,2016.03)一书中:中国科学院地理科学与资源研究所孙九林、任博所撰《数据与科学大数据》报告“四、科学大数据的共享”,标题为编者所加。

ISBN 978-7-03-047716-3
《中国科研信息化蓝皮书2015》由中国科学院联合国家互联网信息办公室、中华人民共和国教育部、中华人民共和国科学技术部、中华人民共和国工业和信息化部、中国社会科学院、国家自然科学基金委员会共同编著而成,旨在系统地展示中国科研信息化的整体发展情况,推动中国科研信息化的发展进程。本书邀请了国内外科研信息化领域的专家、学者撰稿,深入分析和探讨了科研信息化的发展战略与态势,客观阐述了科研信息化基础设施建设情况,重点总结了过去两年间我国科研信息化的成果、经验和典型案例,力求推动科技创新与创新模式的转变,为中国未来科技创新提供全局性、战略性的参考,向国内外读者展示中国科研信息化的全貌和前沿成果。

一起阅读科学!
科学出版社│微信ID:sciencepress-cspm
专业品质 学术价值
原创好读 科学品味
点击“阅读原文”可购买本书

