用专业知识打破伪科学谣言
事情源头
最近,我的朋友圈被很多所谓的“阴谋论”信息炸屏,如果我没有记错的话,这些信息都是在印度某科学家发表了一篇论文以后爆炸式出现的,这篇论文标题是Uncanny similarity of unique inserts in the 2019-nCov spike protein to HIV-1 gp120 and Gag,于前一段时间(具体什么时间我没有查清楚,已经在其余科学家批评其分析方法有误后撤稿了)发表在冷泉港实验室运营的论文预印本(bioRxiv)上。这篇论文刚出现时,不少朋友发微信问我是不是真的,真的会有人进行所谓的生物武器改造吗。当然,问我的朋友多数都是高中和初中同学,他们大部分人已经不在生物学及相关领域,但因为发达的互联网会有无数的方式推送到他们,于是他们开始担忧、惊慌!
我对此表示非常理解。不是每个人都可以拥有全面的科学知识,何况是这样的全国性突发疫情面前,关系每个人的生活。
中国语言实在内涵丰富,每个人都可以从同一词汇或词语中解读属于自己的观点或者含义,所以这里我并不是想抨击那些担心是阴谋论、人为改造生物武器的人,不是每个人都可以拥有全面的科学知识,也不是每个人对广为传播的言论进行科学、理性、合理的判断,这是正常的,
但是还有一些人,具有生命科学背景的人也在支持那些并不科学的观点,对于这些群体这类现象,我作为国科大的学生,作为一名生命科学专业的学生,有我自己的想法想和大家探讨,也可以是争论,因为在我看来如果连具备专业知识的群体都无法用科学理性的思维去判断是非,即使不能判断是非,至少不是盲从。如果我们这些青年学生都不来发声,还有谁能发出真实的声音。所以,这篇推文,我期待能够得到一些具备生命科学知识的人,至少是青年学生的共识。
在这场突发疫情中,就全国人民而言,没有人是受益者,所以也不应该有故意为之的故事!每一个学生命科学的人都有能力去识破并且打破一个又一个谣言!去识破所谓的伪科学,伪科学谣言!由于我平时还在进行科研工作,没有充裕的时间去一一破除最近流传的阴谋论谣言,我以这篇已经撤稿的文章为例子,告诉大家如何用最基本的生物学知识去分析这些言论!请看文章内容:

从截图中来看,这篇文章的作者是将武汉爆发的新型冠状病毒(2019-nCov)的S蛋白(氨基酸序列)与SARS-GZ02(SARS病毒的某一毒株)和普通冠状病毒的序列进行了比较,发现有4个插入。由此,他们把这4个插入的序列再放回数据库比对(现在对方也撤稿了,我无法仔细分析原文),然后发现找到了高度相似的HIV序列,所以他们怀疑这个似乎不是自然形成的,于是乎他们便把他们的怀疑原封不动写在了文章里,然后某些公众号就开始脑补人为改造了,于是就有那个可怕,让朋友圈很多人跟转的、评价的、关联的、恐怖的人为改造的生物武器言论。虽然稿件撤了,但是预热不减,尤其在中国。
就事论事地反击
让我们仔细回顾之前发表的文章,例如,之前发表在China life Science 期刊的郝沛研究员的文章通过全基因组序列(Full length)对2019-nCov和SARS-Cov, MERS-Cov及其他冠状病毒进行系统发育。

通过系统发育结果来看,尽管2019-nCov属于beta冠状病毒类群(图中红色字体标出部分是2019-nCov),但是依然与SARS-Cov和MERS-Cov有较大的遗传距离(可以理解为有较大差异),且相对于MERS-Cov的遗传距离更大(可以理解为相对于MERS-Cov的差异比相对于SARS的更大)也可参见原文(Overall, there is considerable genetics distance between the Wuhan CoV and the human-infecting SARS-CoV, and even greater distance from MERS-CoV. )这个信息告诉了我们Wuhan-Cov和SARS-Cov还有MERS-Cov是有差异的,所以比对他们之间的核酸或者蛋白序列,一定是有差异的。于是乎,印度科学家就拿着2019-nCov的S蛋白和其他SARS的S蛋白进行比对了(之所以选择S蛋白比对是因为S蛋白分为两个具有功能的部分S1, S2,其中S1的C端结构域是与宿主受体直接相互作用的RBD结构域),但是印度科学家只是比较了另外两个距离较远的SARS病毒S蛋白序列,却忽略了前段时间中国科学院武汉病毒研究所石正丽老师发表的论文,论文中石老师已经分析出来2019-nCov与她们团队在2013年云南省采样的时候搜集到RaTG13毒株具有约96%相似性,我们可以这样想想,如果Wuhan爆发的2019-nCov序列真的如印度人所说有4个非自然产生的插入,那么RaTG13基因组上一定不存在这4个插入。为了让我的这次科普结果更具有说服力,更能被广大人民群众重复验证,我将我的分析结果展示出来,我选择了4条序列作为分析序列,一条是2019-nCov的序列(Genbank号:MN908947.3),RaTG13(Genbank号:MN996532.1),SARS-GZ02(印度人选择的比较序列,Genbank号:AY390566.1),以及其他任意一条冠状病毒序列(我选择了浙江舟山冠状病毒序列,这是除去RaTG13以外与2019-nCov最接近的一条序列,Genbank号:MG772933.1),那么接下来我提取了这4个病毒基因组中编码的S蛋白的氨基酸序列,如下图

我们将这几条序列进行多序列比对,得到比对后结果,好,此时我们来一一对照是否真的这4个插入只存在于2019-nCov的S蛋白上呢




上面4幅图分别对应印度科学家文章里的4个插入,显而易见,有3个插入都存在于RaTG13中,只有一个插入是独立存在的,那么我们把这一个插入的序列及其周围5个氨基酸都拷贝放去NCBI进行BLAST,看看到底是什么样的比对结果?


就可以非常明显的看出排名靠前的结果并没有他们提到的HIV片段!!我猜想,印度科学家可能故意下载了一些HIV片段和其他不相关序列构建了本地BLAST库,然后把这几个短片段只比对本地BLAST库,最后输出排名前几的就是HIV了,这种自欺欺人的手法,我等佩服啊!
从特殊到一般地反击
这一部分需要有一点点数理逻辑知识,我们都知道,无论是核酸还是蛋白质,写成一维的序列都是由有限个字符组成。例如核酸的AT(U)CG,蛋白质的MNTR…(共20个),那么我们考虑一个有限长度的生物序列字符串,例如考虑一个10个单位长度的氨基酸序列,每一个位点都可以是这20个字符中的一个,那么对于一个任意的10个单位长度的氨基酸序列则有(1/20)^10的概率在这个任意组合的10个单位长度的氨基酸序列总集合中被取到,我们来计算一下,如果我们存在一个3T大小的非冗余氨基酸序列数据库,我们有多大的概率找到一个相同的序列?(1/20)^10*3*1024*1024*1024*1024,大约是32%的概率找到完全一样的,如果允许一定程度的mismatch,例如允许一个氨基酸错配即寻找最低相似度为90%的氨基酸序列,那么就是(1/20)^9*3*1024*1024*1024*1024,大约为644%的概率,也就是说一定可以找到。由于目前已经有基因组的物种实在太多太多了,动物、植物、微生物、病毒,大家可以看看NCBI数据库中储存了多少大小的基因组,蛋白质组,例如你可以把NCBI的nt或者nr库解压缩,还原为原始序列,你看看那个数据占了多大储存空间,你再想想,是不是很容易能找到一条完全一样的短片段。
所以,可以看出,印度学者他们并没有全面的科研数据甚至是调研数据,仅仅用了一部分剪接式的数据就定下结论。
总结
对科学的批判性思维从来不缺少,也是因为这样,才有了科技的不断发展,有了日新月异的科研成果。所以是不是我们在对待任何一个言论的时候,至少在看待科学言论的时候,是不是应该全方位,全角度地思考过,实际考量过你们表达支持观点的、认为对的事情?我们是否能像我这个青年学生表达真实的言论进行反击一样,拿出广大人民群众可以重复、可以实现的方法、数据、结果?如果你们拿不出,你们有什么理由对在一线的科学家们造谣、造阴谋?
我想表达的
我其实不是想通过这篇推文而今后再不出现不实(科学)言论,也不可能,只有要看官,就一定要有“戏文”上演,以我小小的力量无法阻止任何言论的出现,但是我想通过这篇推文呼吁大家,尤其是具有生名科学背景的人,每个任都可以用自己的知识去识破那些伪科学言论,并适当发表观点,以阻碍不良言论的继续扩展,以至于去影响更多人的观点。尤其疫情当前,生命当前,于任何事都不利。
写到这里我想起了癌症生物学家李治中的一些经典的话:任何伪科学,它的第一句话绝对是真的,是科学的。科学家们日常做科研,兼职做科普辟谣,但是总有一群全职造谣的人,他们的精力和制造速度惊人,拿一句话就可以写小说的。科学家是没有有精力陪跑的,然后就会有人质疑“如果是假的,为什么不站出来说话”,科学家是没有时间看这些的,他们全部精力都在一线研究,希望尽快提供一个有利于疫情的成果,所以是真的没有时间站出来,在我看来是不屑于站出来。
所以,大家日常说“不造谣,不信谣,不传谣”,所有人都知道的道理,前提却要“识破”谣言,我们不怕那种天马行空的谣言,我们怕的就是那种第一句话是正确的,是科学的伪科学谣言,一般没有相关知识背景的人是无法识破的,所以道理也就成了空理。好在还有我这样的有相关知识背景的热血学生,我知道奋战一线科学家们每天的的辛苦和坚定的目标,我懂得他们为心中的真理而奋斗的决心,所以我站出来,分析谣言,识破谣言,反击谣言!
我呼吁:各位生命科学专业的学生或本圈领域的人,我们的职责不仅仅是学习、科研、毕业,还有全民科普的责任,或许我们的知识和技能距离大咖还有很远的距离,但是至少我们可以用我们现有所学知识,用导师前辈告诉我们的理性思维、科研态度以及科研诚信,去为这个纷乱的言论世界,扫清一点阴霾,给正在疫情笼罩下的中国人民一点希望。谣言止于智者!我们就是正向智者发展的那批人,而捍卫科学的路上一定有我们留下的痕迹。如果你们看到这篇推文,希望获得你们的支持!
作者简介
Мишка,中国科学院大学硕士研究生,擅长方向转录组分析,噬菌体组分析,宏基因组分析,Perl语言编程,R语言编程。



