点击蓝字 关注我们
近年来,人工智能在生物学领域的应用不断深化,特别是在基因组学研究中,大规模语言模型展现出前所未有的潜力。2024年,由Patrick Hsu 和 Brian Hie 等团队联合发布的Evo模型,标志着生物基础模型进入了一个新纪元。2025 年 2 月 19 日,来自 Arc Institute、英伟达、斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的科学家们,再次联合发布了升级版 Evo2,系统性地展示了这一模型在基因组建模与设计中的突破性进展,其核心在于通过海量数据训练和创新的架构设计,实现了对生命三大域(原核生物、古菌、真核生物)基因组的统一建模能力,并在功能预测、序列生成和表观遗传调控设计等方面树立了新的标杆。
研究背景与科学问题
基因组是生命信息的核心载体,其复杂性远超人类直觉所能解析。尽管基因测序和编辑技术已极大推动了生物学研究,但理解基因组编码的深层逻辑仍面临巨大挑战。传统方法依赖领域知识和实验验证,效率有限。近年来,基于深度学习的基因组语言模型虽在原核生物中取得进展,但在真核生物中的应用受限于基因组结构的复杂性——如长非编码区、可变剪接和表观遗传调控网络等。Evo 2的提出正是为了突破这一瓶颈,构建一个能够跨生命域、跨分子尺度的通用生物基础模型,从而实现对基因组功能的系统性解码与设计。
方法与技术创新
Evo 2的核心创新体现在三个方面:数据规模、模型架构和训练策略。首先,其训练数据集OpenGenome2涵盖了9.3万亿DNA碱基对,包含细菌、古菌、真核生物及噬菌体的基因组,并通过严格去冗余和功能区域加权,确保模型优先学习基因编码区等关键生物学元件。其次,模型采用StripedHyena 2架构,这是一种新型的卷积混合架构,通过组合短、中、长程的卷积操作符和注意力机制,显著提升了长序列处理的效率。例如,在40B参数规模下,其训练速度比传统Transformer快3倍,且支持百万级令牌的上下文窗口,能够捕获染色体尺度的基因组相互作用。最后,两阶段训练策略(短上下文预训练和长上下文中期训练)使模型既能掌握局部功能元件,又能理解全局基因组架构。
关键实验结果
论文通过多维度实验验证了Evo 2的卓越性能。在功能预测方面,Evo 2首次实现了对非编码变异致病性的零样本预测,其AUROC在ClinVar非编码SNV分类中达到0.83,超越现有所有模型。特别值得关注的是其对剪接变异(SpliceVarDB)的预测能力,AUROC高达0.91,这对解析罕见病机制具有重要意义。对于BRCA1/2等临床关键基因的变异分类,基于Evo 2嵌入的监督模型AUROC达到0.95,较AlphaMissense等专用模型提升显著。这些成果表明,模型不仅捕捉了基因组的进化约束,还隐含了复杂的调控逻辑。
在机制可解释性方面,研究团队通过稀疏自编码器(SAE)揭示了模型内部丰富的生物学特征。例如,特征f/19746能特异性激活原核基因组中的前噬菌体区域,而f/1050和f/25666则分别对应外显子起始和终止位点。更令人惊叹的是,模型从DNA序列中自发学习到蛋白质二级结构特征(如α螺旋和β折叠),这为跨尺度生物学研究提供了新视角。此外,将SAE特征应用于已灭绝物种(如猛犸象)的基因组注释,验证了这些特征的普适性,暗示模型可能捕捉到跨物种的进化保守规律。
基因组生成与表观设计
Evo 2的生成能力是其另一大亮点。研究显示,模型可生成完整的人类线粒体基因组(16kb),其编码基因数量与天然序列一致,且生成的蛋白质经AlphaFold 3预测具有正确折叠结构。在酵母染色体生成任务中,模型虽在tRNA密度上略低于天然序列,但成功保留了启动子定位和内含子结构。更前沿的是,通过结合Enformer和Borzoi等表观预测模型,Evo 2实现了染色质可及性区域的可控生成。例如,研究者将莫尔斯电码编码为开放染色质峰,生成的DNA序列不仅符合设计模式,还保持了天然核苷酸频率,展示了"生成表观基因组学"的可能性。这一突破为合成生物学提供了新范式——未来或可通过指定表观特征设计人工基因回路。
开放科学与伦理考量
Evo 2的全面开源(包括参数、代码和数据集)体现了开放科学的理念。作为目前最大的全开源AI模型之一,其释放将加速生物医学研究的民主化进程。然而,论文也审慎讨论了潜在风险:训练数据排除了真核感染病毒,导致模型在此类序列上表现随机化,这种"功能沉默"设计旨在防止恶意滥用。此外,模型在人群偏倚分析中表现出与其他无种群数据方法相当的公平性,但其临床转化仍需严格验证。
未来展望与挑战
尽管Evo 2取得了里程碑式进展,其发展仍面临多重挑战。首先,当前生成序列的功能验证依赖计算预测(如AlphaFold),亟需湿实验验证其生物学活性。其次,模型对病毒序列的回避虽降低了生物安全风险,但也限制了其在病毒学研究中的应用,未来需探索更精细的风险控制策略。此外,如何整合多组学数据(如转录组、表观组)构建"虚拟细胞"模型,将是下一代生物基础模型的重要方向。
Evo 2的诞生标志着生物计算从单一任务优化迈向通用智能的新阶段。其不仅为基因组学研究提供了强大工具,更重新定义了"生命作为信息系统"的理解框架。从解析远古基因组的进化密码,到设计治疗疾病的人工染色体,这项研究为合成生物学和精准医学开辟了前所未有的可能性。随着计算与实验的深度融合,我们正站在解码生命语言的门槛上,而Evo 2无疑是这趟旅程中照亮前路的重要火炬。
关于舒桐
如需获得更多信息,请咨询我们:
电话:
400-6309596
18437963580(同微信)
企业官网:
http://www.generulor.com
产品订购/技术支持:
service@generulor.com

