科情智库
10月30日,北京理工大学邵斌教授研究团队在《Nature Communications》发文,实现了生成式DNA大语言模型——megaDNA。该模型利用无标注的噬菌体基因组数据进行预训练,不仅能准确预测噬菌体的必需基因,而且能够生成长达10万碱基对的崭新基因组片段。
人类的语言和生命的语言DNA本质上都是序列信息,语言模型在基因组学领域也存在诸多应用,例如功能基因的标注和调控片段的预测等。已有的DNA语言模型多采用BERT架构,尽管可以理解DNA序列,但难以像GPT模型那样创造性地生成全新序列。同时,BERT架构输入窗口较为狭窄,一次只能处理较短的DNA片段,难以对完整基因组进行分析。基于此,研究团队收集了NCBI GenBank等公开数据库中约10万个高质量噬菌体完整基因组作为训练数据。分词环节中,团队没有采用传统的BPE分词器或以k-mer切割DNA的方式,而是将每个碱基看作独立的文字单元(token),不仅避免了可能带来的偏差,而且使语言模型学习到单碱基精度的DNA调控和设计信息。团队在模型架构上借鉴了Meta公司开发的多层transformer架构,每层注意力机制用以处理不同精度的DNA信息,克服了传统模型只能处理短序列的限制。最终模型使用了三层transformer结构,包含1.5亿个参数,可以一次性分析长达10万个碱基的DNA序列,足以覆盖多数噬菌体的完整基因组。针对λ噬菌体基因组进行了基因敲除的模拟实验,计算发现模型预测的高突变损失区域与实验验证的必需基因高度重合,相应的预测准确度(AUROC)达到0.86。另外,模型在学习过程中获取的DNA序列信息能够应用于一系列的下游预测任务。比如在蛋白质突变效果预测上,模型表现和专业工具DeepSequence接近,甚至能够准确预测训练数据中没有出现过的细菌蛋白对应的突变效果。该研究展示了生成式语言模型在基因组序列分析和生成上的巨大潜力,为噬菌体基因组注释和功能序列设计开辟了全新的路径,有望在医疗、农业、食品安全等多个领域取得广泛应用。
来源:颠覆性技术中心供稿
推荐阅读 >

