本文内容整理自:中国科学院生态环境研究中心助理研究员 王东麟老师在第四届“氮素生物地球化学循环”学术论坛的报告实录
随着大家对生命未知领域的探索,越来越多的需要依靠测序技术对生物的过程、代谢的特性进行解析。尤其是现在广泛利用的二代测序技术,也是基于短序列的测序方式,它能够以一种较高性价比的方式,给广大的科研工作者以及实际的生产过程中的工作人员,提供非常有用的信息。
这种测序技术需要我们对生物学过程,包括对计算机代码有些理解的基础,其中会包含一些生物信息学领域的专属名词,甚至会要求具备编程基础。这也造成了大家对环境宏基因组的分析过程上手难度的增加。宏基因组的测序量,一般在6~10GB+,往往带来的是对计算成本,尤其是计算时长高的消耗。基于北京超级云计算中心(以下简称北京超算)的算力资源和平台,我们搭建了能够对环境宏基因组数据进行分析的软件和平台,在这个平台上能实现群落功能的分析,并且整合了宏基因组分箱技术,以及基于深度学习的病毒组分析。
1Tb的数据大约100个样本,每个样本测序深度在10个G左右。单纯使用服务器进行分析大约需要150天,在基于北京超算搭建的宏基因组数据分析平台上进行计算,7-20天之内就可以完成数据分析,大大的节约了时间成本和计算费用成本。
北京超算能够提供非常强的硬件支持,满足计算需求的同时提供7X24小时的专属客服支持。近几年来通过与北京超算的合作达成了一些论文计算的分析过程,并发表了一些文章。

