2025第23期 总第65期
阅读本文默认已阅读并同意文末免责及版权声明。
生物序列大语言模型(下)
4、以基因组学为例
遗传信息传递中心法则
在中心法则中,遗传信息可以从DNA流向DNA,即DNA复制;也可以从DNA流向RNA,进而流向蛋白质,即遗传信息的转录和翻译。
人类基因组中仅有约2%的序列负责编码蛋白质,剩余广阔的非编码区域的功能,特别是其在基因表达调控中的复杂规则(即“基因组语法”),很大程度上仍是未解之谜。传统的生物学实验和计算方法在破译这种复杂性方面遇到了瓶颈,难以全面揭示调控元件(如增强子、启动子)之间以及它们与基因之间的精确相互作用模式,尤其是在不同的细胞类型和环境条件下。
因此,基因组语言模型目标是开发能够直接从大规模DNA序列数据中学习潜在生物学规则和模式的计算模型,期望能够揭示新的生物学见解,特别是在理解非编码区功能和基因调控网络方面取得突破。
5、数据源
生物的基因组是由其完整的DNA序列集合定义的,仅使用四种不同的核苷酸(A、T、G、C),所有的信息被编码在连续的DNA片段中,DNA具有双链结构,两条互补的链结合在一起并以相反的方向读取,生物体内DNA被缠绕并包装成数百万碱基对长的染色体,每条染色体包含许多基因,即转录成RNA的DNA区域,在转录过程中,许多不同的蛋白质复合物以特定顺序被招募,通常是通过被称为基序的核苷酸模式。
这些基序存在于基因周围的非编码DNA序列中。有一些非编码DNA序列的例子可以影响数千碱基对远的基因的调控,作为启动子、增强子、抑制子或绝缘子发挥作用。DNA是以片段的形式进行测序,然后组装成研究充分的物种的全基因组参考序列,并存储在GenBank和RefSeq等公共数据库中。对于研究较少的物种,完整的组装体可能尚不存在。
DNA序列数据在输入深度学习模型时要么被一位有效编码,要么被分词。DNA的一位有效编码将长度为N的序列转换成一个4×N的零和一的矩阵,表示在序列中每个位置上特定核苷酸的存在或缺失。分词策略各不相同,单核苷酸token、k-mers或字节对编码(BPE)创建了不同大小的词汇表。
图3:gLMs在基因组学中的多样化应用(来源:《Transformers and genome language models》)
k-mers分词借鉴了生物信息学原理,将长度为k的核苷酸子序列视为基因组语言的“单词”,BPE迭代地合并基因组中最常见的共同出现的核苷酸,构建一个指定大小的基因组词汇表,其中包含不同长度的“单词”。

图4:基于 DNA 深度学习建模的历史发展(来源:Journal Club)
6、EVO2模型技术原理
基因组大语言模型虽然发展时间不长,但已完成多个技术迭代,早期模型适用范围窄,例如DNABERT等工具虽聚焦DNA研究,但其训练数据集仅涵盖演化空间中的狭窄片段。初代EVO模型基于3000亿个来自细菌等单细胞生物的核苷酸进行训练,因此预测能力受限,该模型仅能预测原核生物(非人类)基因表达如何受突变影响。
近期,人工智能在合成生物学领域又迈出坚实的一步,加利福尼亚州帕洛阿尔托的ARC研究所发布了EVO2模型,这是一个在9万亿个基因序列上训练的大语言模型,与DeepSeek不同的是,EVO2以基金组数据为基础,生成基因组序列。EVO2首次公开了生物序列大语言模型的训练代码、推理代码、数据集和模型参数,这不仅打破了传统生物信息学模型的封闭性壁垒,更开创了跨物种基因组研究的新范式,有望打造成新的“应用商店”。
图5:EVO2的模型架构、训练过程、数据集和评估的概述(来源:Genome modeling and design across all domains of life with Evo2)
与过去的模型相比,EVO2进行全面升级,其训练所用基因组数据既包含编码序列(携带制造蛋白质的指令),也包含非编码DNA,后者包括可以控制基因何时、何地和如何活跃的序列,展现出前所未有的创造力。正如上图中A部分所示,EVO2虽基于DNA序列训练,却能预测RNA稳定性、蛋白质结构等生物学多维度特征。
[该部分省略内容请扫文后二维码获取]
作为首个全开源的生物大语言模型,EVO2标志着AI在生命科学领域从辅助工具向创造主体的跨越,其展现的多模态理解能力,不仅涵盖基因编码规则,更触及表观遗传调控等深层生命机制,随着在线研究平台开放,硅基智能与碳基生命将有望展开对话。
在生命科学与人工智能深度交融的时代,生物序列大模型正从实验室走向产业前线,成为产业升级的核心引擎。与通用大模型不同,生物序列大模型需直面生物学的动态复杂性、跨学科协作壁垒以及多模态数据鸿沟三大痛点,未来可能我们会看到类似于生物序列大模型的各类“小”模型,大模型与小模型的发展可能将会演变成科技树的两条并行分支,这些小模型具备不弱于大模型的与人交互的泛化能力,也展现出某些特定领域的强大专业性。
因此,大胆想象未来生物序列大模型迭代的趋势有如下三点:
[该部分省略内容请扫文后二维码获取]
国内大模型应用情况一览
部分代表性科技公司介绍
1、英矽智能(上海)
英矽智能成立于2014年,是一家全球领先的人工智能驱动的生物科技公司,专注于利用生成式人工智能、量子计算等前沿技术加速药物研发进程。是首家在其人工智能药物发现平台使用大模型实现问答功能的生物技术公司,在其靶点发现平台PandaOmics上整合了AI问答功能,该功能基于大模型,并与PandaOmics知识图谱功能相结合,提供一种更有效、更准确、更个性化的方式来获得分子生物学、治疗性靶点发现和药物开发相关的信息。目前拥有31条内部研发管线,覆盖29个药物靶点。融资进展:自2018年启动A轮以来共经历8轮融资,今年2月份完成E轮(第8轮),投后估值13.305亿美元,股东阵容豪华,不乏淡马锡、华平投资、礼来亚洲基金、复星医药、上海国资等,同时在今年5月份第三次递表港交所。
2、晶泰科技(深圳)
2015年由三位麻省理工学院(MIT)物理学家温书豪、马健、赖力鹏联合创立,并于2024年6月港交所上市(股票代码:2228.HK),成为“中国AI制药第一股”,核心业务:覆盖药物发现(如小分子、抗体药物)、智能自动化实验室解决方案及材料科学(新能源、化工等)研发服务。其技术架构包括:AI+量子物理计算,基于第一性原理计算与深度学习算法,快速筛选化合物、预测晶型稳定性,缩短早期药物研发周期40%-60%;全球最大规模生物医药自动化实验集群(日均实验量提升10倍),实现7×24小时无人化操作与数据闭环优化;ProteinGPT等专有技术用于大分子药物设计及蛋白质结构预测。
3、水木分子(北京)
清华大学智能产业院(AIR)于2023年孵化成立,主要从事生物医药行业基础大模型研究,并开发了对话式药物研发助手工具ChatDD,清华大学国强教授、AIR首席研究员聂再清担任公司首席科学家。2025年,水木分子更新发布生物医药行业知识图谱和水木分子智能体知识图谱平台、PharMolix-FM 全原子基础大模型以及ChatDD药物研发智能体系列,构建便于客户使用的新架构,该架构共分三层:知识基础层为行业知识与企业私有知识层;中间层为 AI Agent 智能体引擎层,包括大型推理模型与生物医药模型和工具;最上层为行业和私有任务智能体层,可助力新药立项与决策、临床前药物发现、临床试验以及企业私有任务等。
4、冰洲石生物科技(上海、纽约)
复旦大学本科、康奈尔大学博士的范捷于2015年创建冰洲石,公司在上海和纽约均设有研发中心,是一家专注于利用AI技术进行创新药物研发的生物技术公司,公司科学顾问包括诺贝尔医学奖得主Gunter Blobel博士、美国科学院院士Jerry Hurwitz博士。冰洲石的核心是其AI驱动的药物发现平台,该平台结合了基于物理模型的计算化学、深度学习以及高通量实验数据,其特色在于能够精确预测小分子与靶蛋白的结合模式和亲和力,从而指导药物设计。
尽管生物序列大模型在生命科学领域展现出巨大潜力,已广泛应用于药物研发、精准医疗、生物制造等多个关键方向,但在实际应用中,仍存在诸多需要优化或解决的问题:
[该部分省略内容请扫文后二维码获取]
“不过话说回来,各类大模型都是缝合怪,比wow里的憎恶还夸张,还是老老实实看选品吧!”
文字:陈家琪
编辑:恽馥溢
审核:徐 澄
元毅公司焕新推出“产研说2.0”品牌服务:
▶免费发布宏观经济及财经时事相关分析报告。
▶部分免费提供行业深度、热点赛道分析、知识专题内容,并按读者需求提供完整单篇全文、行业合订本、月度合订本、半年度合订本等付费知识服务(请扫描专属二维码并留下联系方式)。
▶采取收费服务模式,定制化提供深度研究报告:
1.宏观经济研究:利用计量模型,对经济数据及产业指标进行分析。
2.行业深度研究:对于具体产业赛道,结合地区现状进行分析。
3.地方产业链分析:结合地区区位禀赋、产业链优势,分析产业方向。
4.具体项目分析:对具体的企业和项目,进行建模分析,出具完整的深度研究报告。

免责及版权声明
本文信息仅为研究学习使用,不构成任何投资建议。任何读者不应以上述信息取代其独立判断或仅根据该等信息做出决策。作者力求所载信息准确可靠,但对这些信息的准确性或完整性不作任何保证,亦不对因使用该等信息而引发或可能引发的损失承担任何责任。同时,以上内容亦受版权保护,未经我司事前书面同意,不可对此等材料的任何部分有下列侵权行为,包括但不限于修改、翻版、储存于检索系统、传送、复制、分发或以任何其它方式作商业或公共用途。

