Nat. Commun. | mRNABERT：基于双重词元化和跨模态对比学习的通用mRNA大模型- 大数跨境

Nat. Commun. | mRNABERT：基于双重词元化和跨模态对比学习的通用mRNA大模型

DrugFlow

2025-11-26

导读：该研究提出了一个名为mRNABERT的通用mRNA基础模型，旨在解决mRNA序列设计中的训练数据匮乏和全长序列建模难的问题。mRNABERT在包含1800万条mRNA序列的迄今最大数据集上进行预训练。

转自DrugAI

本文介绍一篇来自碳硅智慧创始人及浙江大学教授侯廷军、谢昌谕团队发表的论文。该研究提出了一个名为mRNABERT的通用mRNA基础模型，旨在解决mRNA序列设计中的训练数据匮乏和全长序列建模难的问题。mRNABERT在包含1800万条mRNA序列的迄今最大数据集上进行预训练，创新性地采用了双重词元化（Dual Tokenization）策略，将非翻译区（UTR）的核苷酸和编码区（CDS）的密码子分别编码。此外，该模型引入了跨模态对比学习（Cross-modality Contrastive Learning）框架，融合了蛋白质序列的语义信息。mRNABERT在包括5'UTR、CDS、3'UTR及全长mRNA性质预测在内的多种下游任务中均展现出最先进（SOTA）的性能，标志着mRNA疗法研发迈出了重要一步。

研究背景

近年来，mRNA疗法作为一种革命性技术在基因治疗领域崭露头角，特别是在COVID-19疫苗的快速开发中展现了巨大潜力。与传统方法相比，mRNA疫苗具有无插入突变风险、生产效率高和成本低等优势，预示着设计药物新时代的到来。然而，设计高效且稳定的mRNA序列仍是一项艰巨挑战，复杂的序列-结构-功能关系难以通过传统实验完全解析。尽管将大型语言模型（LLM）应用于生物序列（如蛋白质和DNA）已取得显著进展，但针对mRNA语义表示的语言模型仍相对匮乏。现有模型面临三大瓶颈：首先，公开的mRNA序列数据有限且质量参差不齐，现有RNA基础模型主要依赖非编码RNA（ncRNA）数据，忽略了mRNA的独特性；其次，现有模型往往将mRNA割裂为5'UTR、CDS或3'UTR等独立区域进行处理，无法捕捉全长mRNA中各区域协同作用的全局模式；最后，传统的Transformer架构在处理超长mRNA序列时面临巨大的计算成本，限制了其应用范围。因此，开发一种能够整合不同区域特征、处理长序列并融合多模态生物信息的通用mRNA大模型，成为该领域亟待突破的关键问题。

方法概述

本研究提出了通用mRNA预训练语言模型mRNABERT。为了构建高质量的训练基础，研究团队收集并清洗了包含1800万条非冗余mRNA序列的数据集，这是目前已知的最大mRNA专用数据集。在模型架构上，mRNABERT基于12层Transformer编码器构建，并引入了多项关键技术创新。首先，模型采用了双重词元化策略（Dual Tokenization），打破了传统单一的编码方式，将5'和3'UTR区域按单个核苷酸（Nucleotide）进行词元化，而将CDS区域按密码子（Codon）进行词元化。这种混合编码方式不仅符合mRNA的生物学特性，还有效解决了长序列的输入限制问题。其次，为了克服长序列带来的计算挑战，模型引入了线性偏差注意力（ALiBi）替代位置编码，并结合Flash Attention技术，显著提升了模型处理超长序列（超过1022个token）的能力和训练效率。最后，考虑到mRNA与蛋白质之间紧密的功能联系，研究团队在掩码语言模型（MLM）预训练之后，设计了一个自定义的对比学习任务。通过将mRNA的CDS区域与对应的蛋白质氨基酸序列映射到同一潜在空间，使模型能够学习到深层的跨模态语义信息。

图1. mRNABERT的设计与应用概览

结果与讨论

多维生物信息的捕获

为了验证模型是否学到了生物学知识，研究人员对mRNABERT的嵌入向量进行了可视化分析。结果如图2所示，即便在无监督训练下，mRNABERT也能成功识别同义密码子的相似性，并根据氨基酸的化学性质对密码子进行聚类。此外，模型能够清晰区分mRNA的不同区域（UTR与CDS）以及lncRNA，并能根据物种来源对序列进行聚类。这表明mRNABERT有效地从海量数据中捕获了进化同源性和结构功能信息。

图2. mRNABERT捕获多层级的进化同源信息

5'UTR：精准预测核糖体负载

研究人员在多个局部区域的下游任务上对mRNABERT进行了全面评估。在5'UTR核糖体负载预测任务中，mRNABERT在8个合成文库数据集上的表现与专门针对5'UTR设计的SOTA模型（UTR-LM）相当，并在最大的两个数据集上取得了最佳结果（图3）。

图3. 5'UTR核糖体负载预测任务对比

CDS：全面提升表达与稳定性预测

在CDS性质预测方面，涵盖蛋白表达、mRNA稳定性及SARS-CoV-2疫苗降解等6个任务，mRNABERT的表现优于或持平于所有基线模型（包括CodonBERT、RNA-FM等）。特别是在涉及结构稳定性的任务中，得益于核苷酸级别的信息整合，mRNABERT显著优于纯密码子模型（表1）。

表1. CDS下游任务的性能对比

3'UTR：高效识别RBP结合与修饰位点

在预测22种RNA结合蛋白（RBP）位点和m⁶A修饰位点的任务中，mRNABERT展现了卓越的性能，在多数任务中超过了专门设计的3UTRBERT模型（图4），证明了其在非编码区域的强大特征提取能力。

图4. 3'UTR预测任务对比

跨模态应用：蛋白质性质预测的突破

除了mRNA本身的任务，mRNABERT还在蛋白质工程任务中展现了出色的跨模态能力。如图5所示，在预测蛋白质熔点和溶解度任务中，引入对比学习后的mRNABERT性能显著提升，甚至在某些指标上超越了专门的蛋白质语言模型（如ESM2）。在跨越7个物种的转录丰度预测中，mRNABERT在大多数物种（如人类、酵母）中击败了包括CaLM在内的所有对比模型。这表明整合氨基酸语义信息是提升模型对翻译过程理解的高效途径。

图5. 蛋白质性质预测任务对比

全长mRNA：攻克长序列设计难题

全长mRNA序列的优化设计是mRNA药物开发中最核心、也是最具挑战的一环，因为序列的微小变化可能导致稳定性和蛋白表达水平的剧烈波动。然而，现有的模型往往面临两难的困境：由于输入长度限制，它们被迫对全长序列进行截断，导致关键的长程相互作用信息丢失；或是由于单一的编码方式，无法同时精确捕捉非编码区的调控信号和编码区的翻译语义。为了验证mRNABERT在这一关键任务上的突破，研究人员首先在包含丰富UTR和CDS组合的真实mRNA数据集上进行了全方位评估。结果显示，mRNABERT在预测翻译效率、细胞内及溶液中稳定性等所有关键属性上，均显著优于现有的RNA基线模型，展现了显著的性能领先。

这种卓越的表现主要归功于模型独特的双重词元化设计与ALiBi机制的结合，前者确保了模型能以混合精度理解全长序列，后者则使其从底层架构上突破了传统Transformer的长度限制。为了进一步挑战极限，研究团队利用包含数千个全长转录本的大规模哺乳动物细胞数据集进行了测试，其中人类和小鼠数据的平均长度分别达到4040 nt和3645 nt。这一测试场景远超一般模型及训练数据的长度范围。结果如表2所示，即使面对长度超过训练数据的超长序列，mRNABERT依然表现稳健，其平均R²值达到0.66，比次优模型高出1.6至10.4倍。这一结果不仅证明了模型卓越的泛化能力，更充分展示了其在真实世界复杂场景下，辅助设计长链mRNA药物的巨大应用潜力。

表2. 超长mRNA序列翻译效率预测任务对比

总结

本研究发布了mRNABERT，这是首个基于大规模高质量数据预训练、专为全长mRNA设计的通用基础模型。通过创新的双重词元化策略和跨模态对比学习，mRNABERT成功克服了现有模型在处理全长mRNA和整合多维生物信息方面的局限。它不仅在各个局部区域的预测任务中表现优异，更在全长mRNA设计这一关键领域确立了新的技术标杆。随着未来对结构信息的进一步整合，mRNABERT有望成为mRNA疫苗研发和基因治疗领域的通用智能引擎。

参考文献

Xiong, Y., Wang, A., Kang, Y. et al. mRNABERT: advancing mRNA sequence design with a universal language model and comprehensive dataset. Nat Commun 16, 10371 (2025). https://doi.org/10.1038/s41467-025-65340-8

关于碳硅智慧 (www.carbonsilicon.ai)

碳硅智慧是一家聚焦于新药研发的科技公司，我们的定位是新药研发领域的人工智能基础设施和服务提供商。我们希望将最先进的生命科学技术与人工智能等信息科学技术深度融合，面向新药研发，利用深度生成（AIGC）、自监督预训练、强化学习等人工智能先进技术，并深度融合物理计算及软硬件自动化技术，通过提高新药研发领域生产数据、管理数据以及对数据进行AI建模的能力，将新药研发各环节数字化和智能化，形成干湿试验数据闭环，解决新药研发难题。

关于DrugFlow (www.drugflow.com)

DrugFlow是由碳硅智慧研发的AI驱动的一站式创新药发现平台，核心算法均具有自主知识产权，以SaaS或混合云方式提供给第三方客户使用。DrugFlow涵盖靶标发现，苗头化合物发现和先导化合物优化等环节，集成世界领先的靶标发现、活性预测、成药性预测、分子生成优化、虚拟筛选、AI建模、结构式及表格提取、蛋白预处理等模块，帮助药化专家更高效便捷地找到潜在成药分子。DrugFlow努力打造覆盖药物研发完整流程的软件平台，基于自动化硬件产生的数据迭代模型，并将专家融合到流程中，最终形成数据驱动人机协同的统一设计平台，显著提高药物研发的确定性。

【声明】内容源于网络

DrugFlow

关注AI驱动的新药研发（AIDD）方向，提供有价值的科研资讯和服务。

内容 31

粉丝 0

DrugFlow 关注AI驱动的新药研发（AIDD）方向，提供有价值的科研资讯和服务。

总阅读15

粉丝0

内容31