大数跨境
0
0

常投格物·产研说(总第63期)| 合成生物学系列——生物序列大语言模型(上)

常投格物·产研说(总第63期)| 合成生物学系列——生物序列大语言模型(上) 常州人才科创集团
2025-06-09
2


2025第21期 总第63期

阅读本文默认已阅读并同意文末免责及版权声明。

生物序列大语言模型(上)


要点

1、人工智能技术的飞速发展重新定义了生物分析语言模型。

2、大模型是分析、学习、理解生物序列数据的全新解决方案。

3、AlphaFold模型集和EVO模型集代表了最先进技术。

4、数据质量、技术成熟度、实验验证是大模型迭代的制约因素。



引言

生物序列(如DNA、RNA和蛋白质序列)是生命系统的源代码,其蕴含的信息决定了生物体的遗传特征与功能调控。随着高通量测序技术的发展,全球生物序列数据量已突破百亿级,传统分析方法在解析复杂生物系统时面临效率与精度的双重瓶颈,近年来人工智能技术的发展为这一领域带来革命性变革。

语言模型是人工智能发展里程碑式的创新,其发展经历了从统计语言模型、神经网络语言模型、预训练语言模型和大语言模型(LLMs)四个阶段,生物序列大语言模型是人工智能技术在生物领域的应用之一,正在加速生物学的发展。





什么是生物序列大语言模型

生物序列大语言模型通过模仿自然语言处理(NLP)的Transformer架构,将生物序列视为分子语言进行深度学习,实现了从序列到功能的跨维度预测与设计。例如:在生物研究中可以使用自然语言(如英语)或生物语言(如单细胞数据中的基因序列或蛋白质序列),无论哪种情况,输入都会被分解成称为标记(tokens)的单元(如单词或氨基酸),这些标记由模型处理。

如图1所示,大语言模型可以通过以下三种方式适应生物研究:

图1:大语言模型在生物研究中的应用方法(来源:Language models for biological research

1、迁移学习方法(左侧):预训练的模型可以选择性地修改(如扩展模型结构),然后进一步训练(微调),以解决其最初未被训练的任务。

2、直接预测方法(中间):模型直接应用于基于输入数据进行预测,例如预测句子中的下一个单词。

3、嵌入分析方法(右侧):模型计算的输入表示(即嵌入表示)用于降维和聚类等分析任务。

生物序列大语言模型发展的驱动因子

1、合成生物学的复杂性与工程化需求

①生物系统的复杂性:合成生物学旨在设计、构建和优化人工生物系统,如基因回路、代谢通路等。然而,合成生物学涉及多层级调控(基因组、蛋白质、代谢网络)和高度非线性相互作用,传统试错法效率较低、成本偏高。

②工程化:合成生物学逐渐从人工试错转向理性设计,需要更系统化的工具支持,例如将生物元件启动子、基因等视为标准零件,需要高效组合策略,以及利用机器自动化实验推进高通量实验数据,快速完成DBTL(设计-构建-测试-学习)的迭代。

2、人工智能技术的突破与生物数据积累

大语言模型如GPT-4、AlphaFold3通过自监督学习从海量文本和序列数据中捕捉模式,其核心能力(生成、推理、关联)与合成生物学的需求高度契合。而数十年来生物数据爆发式增长,如医学论文(PubMed超3000万篇)、专利、实验数据库(如KEGG、BioCyc)形成庞大但分散的知识网络、基因组蛋白质组数据也已达PB级,传统的计算方法在处理分析这些繁杂数据时显得力不从心。

除了上述驱动因子之外,由于生物技术的触角远远超出了实验室的范畴,像国防、医疗、农业、能源这些战略领域都可以通过生物技术获得发展,也可能因此遭到破坏,所以近年来各国纷纷将生物科技纳入国家级战略发展方向,随之而来的各种配套政策赋能了整合行业的发展。

生物序列大语言模型关键技术

1、预训练与微调

预训练是大语言模型开发的关键阶段,模型通过在大规模无标注数据上进行自我监督学习,学习语言的基本规律和模式。在生物领域,预训练通常使用DNA、RNA或蛋白质序列数据,以及相关的生物医学文献和数据库。

微调则是在预训练模型基础上,针对特定的任务进一步训练,以提高模型在特定任务上的性能,如在基因表达调控预测任务中,可以使用特定的基因表达数据集对预训练模型进行微调,使其更好地适应该任务。

2、注意力机制

注意力机制是大语言模型的核心组成部分,它使模型能够关注输入序列中与当前任务最相关的部分,从而提高模型的自然语言处理等任务的性能和可解释性,在生物领域,注意力机制可以用于识别DNA序列中的关键基序、蛋白质序列中的功能域以及基因表达数据中的重要基因。

3、多模态融合

生物领域的数据具有多模态的特点,包括序列数据、结构数据、图像数据、文本数据等,通过多模态融合技术,这些数据可以整合分析,如:将蛋白质序列数据与蛋白质结构数据相结合,可以提高蛋白质功能预测的准确性;将基因表达数据与病理图像数据相结合,可以更好地理解疾病发生和发展机制。

生物序列大语言模型数据集分析

“巧妇难为无米之炊”,数据集对于大模型就像食材对于厨师的重要性一样,而高质量数据集是构建和优化大模型的关键,有助于微调大模型(如BERT、LLaMA)提升性能或开发新应用。

[该部分省略内容请扫文后二维码获取]

随着生物大模型价值的不断挖掘,底层数据集的建设变得尤为重要,目前我国生物数据库与欧美等国在基础设施、数据交互、搜索方面有差距,但生物数据安全是国家重要战略资源,美国已通过生物法案明确扩大生物制造业,推动生物技术本土化。随着中美在各领域竞争加剧,预计未来生物数据共享也将受到影响,因此当前需要建立面向生物信息大数据的基础设施环境,研发多维数据资源的生物数据库、信息库和知识库系统,便于后续开发生物序列大语言模型。

1、大模型在蛋白质组学的应用

蛋白质是生命活动的主要执行者,科研界一直痴迷于对其结构和功能的预测,而大模型在蛋白质组学中的应用主要体现在蛋白质结构预测、功能预测和蛋白质与蛋白质之间相互作用等。

目前蛋白质大模型主要包括结构预测模型:如AlphaFold3、ESMFold(3B+0.69B);蛋白质序列表示模型:如ESM-C(6B)、ESM2(15B);蛋白质序列生成模型:如ProGen2(6.4B)、ProGen(1.2B);蛋白质序列结构表示模型:如ProSST(0.11B)、ESM3(98B);蛋白质结构到序列生成模型:如ESM3(98B)、ProstT5(3B);蛋白质序列结构生成模型:如AlphaProteo、DPLM2(3B),2024年的AlphaFold3模型代表了大模型最先进的技术,业内人士赞誉蛋白质大模型之价值共一石,AlphaFold独得八斗,ESM得一斗,自古至今共用一斗,这些模型极大的推动了蛋白质研究工作的效率。

图2:AlphaFold3模型结构(来源:《使用AlphaFold3进行生物分子相互作用的精确结构预测》)

2、蛋白质大模型的数据源

蛋白质大模型的数据集是训练和评估蛋白质相关机器学习模型(如LLM、结构预测模型)的基础资源,涵盖序列、结构、功能、进化等多维度信息。

[该部分省略内容请扫文后二维码获取]

3、AlphaFold3技术原理

AlphaFold3最根本的创新在于实现了通用生物分子复合物预测,不再局限于单一蛋白质结构。从数学角度看,这意味着AlphaFold3的预测对象从单一蛋白质序列空间扩展到了包含蛋白质、核酸、小分子配体等多种分子类型的复合空间。

[该部分省略内容请扫文后二维码获取]



Proteins are organic moleculessimpler than cells though not formally“alive”in any sense of the word.




文字:陈家琪

编辑:恽馥溢

审核徐   澄




产研说2.0 焕新升级

元毅公司焕新推出“产研说2.0”品牌服务:

▶免费发布宏观经济及财经时事相关分析报告。

部分免费提供行业深度、热点赛道分析、知识专题内容,并按读者需求提供完整单篇全文、行业合订本、月度合订本、半年度合订本等付费知识服务(请扫描专属二维码并留下联系方式)。

采取收费服务模式,定制化提供深度研究报告:

1.宏观经济研究:利用计量模型,对经济数据及产业指标进行分析。

2.行业深度研究:对于具体产业赛道,结合地区现状进行分析。

3.地方产业链分析:结合地区区位禀赋、产业链优势,分析产业方向。

4.具体项目分析:对具体的企业和项目,进行建模分析,出具完整的深度研究报告。


免责及版权声明

本文信息仅为研究学习使用,不构成任何投资建议。任何读者不应以上述信息取代其独立判断或仅根据该等信息做出决策。作者力求所载信息准确可靠,但对这些信息的准确性或完整性不作任何保证,亦不对因使用该等信息而引发或可能引发的损失承担任何责任。同时,以上内容亦受版权保护,未经我司事前书面同意,不可对此等材料的任何部分有下列侵权行为,包括但不限于修改、翻版、储存于检索系统、传送、复制、分发或以任何其它方式作商业或公共用途。



【声明】内容源于网络
0
0
常州人才科创集团
常州人才科创集团坚持“政府引导、市场运作”的工作思路,聚焦“人才+科创+资本”服务模式,系统构建“科创人才招引、科创项目孵化、科创投资集聚、科创生态服务”四大功能平台,助推新兴产业人才项目落地壮大。
内容 140
粉丝 0
常州人才科创集团 常州人才科创集团坚持“政府引导、市场运作”的工作思路,聚焦“人才+科创+资本”服务模式,系统构建“科创人才招引、科创项目孵化、科创投资集聚、科创生态服务”四大功能平台,助推新兴产业人才项目落地壮大。
总阅读5
粉丝0
内容140