大数跨境
0
0

观点 | NIH公共数据库访问受限,中国本土数据库国际化任重道远

观点 | NIH公共数据库访问受限,中国本土数据库国际化任重道远 Dr.X的基因空间
2025-04-07
1
导读:中国生物信息本土数据库国际化之路

感想与回忆:NIH公共数据库访问受限,中国本土数据库国际化任重道远

前两天发布的关于NIH宣布将对其下的部分公共数据库对中国(包括香港澳门特别行政区)、俄罗斯、朝鲜、伊朗、古巴委内瑞拉等国实施访问限制后,收到了许多网友和粉丝的留言或私信。交谈中碰撞出些许感想,大家的共识是,无论NIH当前或未来是否还会加大对我们的访问限制,我们现在就应该要做好最坏打算。其实这些共识在我2018年进入中国科学院读研时已经被科学院内的导师熏陶。其实现在回想起来,也佩服当年科学院的领导和老师们的前瞻性和危机意识。

重要公共数据切要常更新常备份

       自2018年我入学中国科学院武汉病毒研究所起,我的导师危宏平研究员会经常在和我吃午餐闲聊时说到未来中美关系一定是合作与对抗共存,至于何时对抗大于合作,何时合作大于对抗,这都是说不准的。但是中国生命科学起步比美国晚,并且围绕生命科学领域的相关仪器、耗材甚至是软件、数据库等都是晚于美国的。因此美国生命科学相关的全部软硬件生态链相对于中国具有起步早、配置先进完善、经验足等多方面优势。那时,美国的总统正好是Trump,贸易战也刚刚开打不久。危老师说很多领域往深了走都是相通的,贸易战表面上是金融战,本质上最后都会成为科技战,所以为了防患于未然,我们最好要定期将我们研究所涉及用到的NCBI中的关键数据库、软件等进行定期备份,实时更新。当时,他不仅对我这样提醒,也在要求课题组内其他做实验的成员尽早将自己手中做实验的耗材试剂替代为国产产品,他作为课题组组长也在积极推进课题组内部的实验仪器进行国产平替。那段时间我们课题组确实经历了一波快速的进口试剂国产化的平替运动,诺维赞、ABClone、华大基因等本土试剂商很快成为了我们课题组的主要供货商。伴随这个过程,我也养成了定期备份NCBI公共数据和软件的习惯。现在回顾2018年的时光,当时课题组的快速国产化平替运动确实是完成了降低实验经费支出和防卡脖子的双重任务。

认识本土自主化数据库

       伴随读研的时光流逝,我也有了一些成果产出,在我准备投稿论文时,危老师给我转发了一封邮件,大概是讲根据中科院要求,院内科研人员在国外出版的期刊上发表论文时,有论文关联数据的,须选择中科院数据存储库(ScienceDB)进行数据汇交和首发。

https://www.scidb.cn/en

       ScienceDB这个数据库是我第一次听说的中科院的本土自主化的科研数据库。这个数据库涵盖了多个学科,生命科学只是其数据库中的一个子库。当时我按照要求进行了原始测序数据的提交和归档。考虑到ScienceDB数据库涵盖的学科太多,如果有读者在读完我发表的论文后想再分析我提交的测序数据,可能会因为不熟悉ScienceDB数据库的使用和数据下载方法而变得繁琐,因此我通过ScienceDB数据库内部关联的信息,进一步找到依托于中国科学院北京基因组研究所(国家生物信息中心)的网页National Genomics Data Center,这个网站应该就是对标美国NCBI的。

       当时国家基因组数据中心提交的数据还没有现在这么多,网站内部的信息多样性也没有现在这么丰富,不过我看到了这个网站在以后的发展潜力。跟危老师商量后,我们决定以后也把测序数据提交到这个数据库中。其实我个人觉得国家基因组数据中心做的挺好的,一方面是数据的提交有多种方式还并且还有专门的QQ群用于帮助许多不知道如何提交数据的用户提交数据,另一方面是网站有中英双语。在之后的时间中我一步步看着国家基因组数据中心不断完善其网站,衍生了多组学数据、多组学软件汇总的子网页。网站的信息量也指数级地增加。这对于国家生命科学数据的国际化发展确实是起到了中流砥柱的作用。随着我国科研人员在国际高水平高影响力发表的科研论文越来越多,这些本土自主化数据库在国际学术舞台中亮相的机会也越来越多,现在我也能从数据库中检索到来自其他国家提交的一些数据了。

对于本土数据库国际化的一些看法

       从前两天的推送网友和粉丝的反馈来看,有一些人仍然对我国当前的生命科学实力抱有不自信的态度,他们觉得现在搞数据库的目的可能也是灌水发论文。我个人恰恰持有相反的意见,我很看好国家生命科学未来的长期发展,也认可现在的数据库。并且我觉得对数据库和发表论文我也是持有积极的态度的。因为事实是,我国的生命科学起步晚于美国,相关的各类配套也是晚于美国的,例如NCBI在1988年成立,至今NCBI的网站已经有至少30年的运营历史了。NCBI占据了生物信息发展的先机,使得全世界过去30年的数据大部分汇都集到这个网站了,我们的数据库起步晚,就像我们不能拿着一个30岁的成年人力量去对比一个可能刚满10岁的孩童的力量一样,我们也不能去横向比较两个发展历程显著不一样的数据网站。特别是,我们国家的网站还没有被全世界所知晓的时候,我们仍然有很长一段路要走。但是我很坚定地看好我们未来的发展潜力的,这是因为中国科学研究目前已经进入了世界前列,每年生命科学领域都有相当大量的学术论文产出,这里面有许多论文都涉及到多组学研究或生物信息数据分析。如此大量的高水平高影响力论文势必会吸引国外的学者利用我们产出的数据进行二次挖掘,如果这些数据都发表在国家本土数据库上,外国学者想获取这些数据,只能通过访问我们的国产数据库进行下载,在整个数据下载的过程中,外国学者就有充足的机会去了解我们的本土数据库的全貌。我自己本身就是生物信息领域相关的工作者,我个人觉得我们的本土生物信息数据库里面的内容和配套是非常好的。因此我个人也很有自信,海外学者看到我国的数据库后,大概率能接受并适应使用我们的数据库。基于此,我个人觉得,通过大量发表高影响力学术论文,然后在学术论文中引用自己的本土数据库,是一个能快速在学术界宣传自己数据库的方法。当然这些看法仅仅是我作为一个渺小的个体发表的浅薄之见。对于保护中国人遗传数据安全,这些问题我相信国家自有多套有效的方法,这里的讨论和看法,仅仅只是在符合国家利益的情况下,仅仅是学术用途、科学交流而言,对本土数据库国际化的看法。


【声明】内容源于网络
0
0
Dr.X的基因空间
【中国科学院博士】10年生命科学数据挖掘研究经验,关注生物医药领域体外诊断(IVD)方向,如肿瘤早筛、传染病未知病原快速检测中的技术创新及其与人工智能(AI)的赋能应用
内容 176
粉丝 0
Dr.X的基因空间 【中国科学院博士】10年生命科学数据挖掘研究经验,关注生物医药领域体外诊断(IVD)方向,如肿瘤早筛、传染病未知病原快速检测中的技术创新及其与人工智能(AI)的赋能应用
总阅读92
粉丝0
内容176