如果您喜欢我们的文章,请设“关注”哦~
前言
近年来,单细胞测序几乎成为生命科学领域最火热的研究方向之一。
每一次单细胞实验都能够捕捉数百万个细胞、数千个基因的动态表达状态,使研究者能够更深入地探索细胞异质性、发育轨迹以及疾病机制等关键科学问题。大语言模型(Large Language Models, LLMs)与新兴的 agentic frameworks 也正逐渐被引入单细胞研究领域。
它们通过自然语言推理、生成式注释以及多模态数据整合等能力,从海量单细胞信息中挖出那些隐藏的生物学故事。相关研究成果也日益增多,陆续发表于 CNS(《细胞》《自然》《科学》)及其子刊等国际顶级期刊。
今天要为大家介绍的这篇论文《LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology》,由弗吉尼亚理工大学等机构的研究团队撰写,是一篇内容全面、结构完善的综述性论文。
文章系统梳理了 58 个面向单细胞研究的大模型,涵盖RNA、ATAC、多组学以及空间等多种数据模态,并根据方法特点将其分为五大类,同时评估了这些模型在 八种下游任务 中的表现。
此外,论文还整理了 40 余个公开数据集,并通过十维度评估框架,从生物学基础、公平性与可解释性等角度对模型进行了深入分析。无论是刚开始接触组学大模型研究的读者,还是希望从更宏观角度了解该领域进展的科研人员,这篇综述都值得一读。
组学大模型都有哪些?
他们的有什么区别?

针对单细胞组学的大模型主要基于Transformer架构或其变体,利用大规模预训练来处理转录组(RNA)、表观组(ATAC)、多组学和空间数据。根据LLM4Cell综述,这些组学大模型可被归纳为五大类别,它们在数据模态、预训练方式、推理能力和适用任务上存在显著区别。
一、基座模型(Foundation Models)
基础模型(Foundation Models)是当前领域的主流。这类模型的目标是从大规模、通常无标签的单细胞数据中学习可迁移的细胞和基因嵌入(Embeddings),类似于NLP中的BERT或GPT。
这类模型主要处理的是基因表达水平,即每个细胞中各个基因的表达量,因此很自然地将基因视为一个基本单元(token)。然而,基因表达水平是连续数值,而深度学习模型(尤其是Transformer架构)通常更擅长处理离散的 token。
因此,一般需要借助不同方法对连续表达值进行转换。例如,scGPT将基因ID与经过量化(即离散化处理)后的表达值配对,构成词元;Geneformer 将基因按表达量高低排序后作为输入序列,基因名本身即是词元;scBERT 则对表达值进行离散化,并融合对应基因的名称信息进行嵌入(embedding)。
此外,也有模型如 scFoundation 直接使用原始表达值进行嵌入。不同的处理方法在应对批次效应、泛化能力以及下游任务表现等方面,均展现出各自不同的特点。
主流模型的核心架构是Transformer,但它存在两种不同的分支架构:
第一种是以GPT为代表的自回归(Autoregressive)架构。其运行机制是依据前序的标识符序列来预测下一个标识符,其预训练任务也同样是“预测下一个标识符”。
第二种是类似于BERT的双向(Bidirectional)架构。其预训练任务(如掩码语言模型)主要通过对序列中的部分标识符进行遮盖(mask),然后利用该标识符两侧的双向上下文信息来预测被遮盖的未知内容。
这种根本的架构差异,决定了它们在不同生物学任务中的适用性。GPT作为自回归模型,仅依据上文标识符来预测下一个标识符。与之相反,BERT这类双向编码器能同时访问整个序列的上下文,从而构建对序列的全面理解。
例如,对于“敲除基因X后,细胞将如何变化?”这类生成式(Generative)任务,其目标是构建一个合理的新细胞状态,scGPT这样的自回归生成模型便天然适合。而对于“这是什么类型的细胞?”这类判别式(Discriminative)任务,关键在于获取细胞全面而丰富的表征。
此时,像scBERT这样的双向编码器,通过同时考量所有基因间的相互作用来构建嵌入表示,因而在此类需要深度上下文理解的任务中更具优势。

在完成预训练后,模型能够将输入的单细胞数据映射为一个信息丰富的向量表示。这个向量可以应用到多个下游任务当中,例如通过线性回归、轻量级神经网络或进一步微调 (fine-tuning) 来实现特定功能。
其中一种常见的下游任务是细胞类型标注 (Cell Type Annotation)。模型根据单细胞的基因表达谱和其嵌入表示 (embedding)即预训练模型输出的向量,预测其所属的细胞类型(如 T 细胞、B 细胞等)。高效、准确的自动标注能够显著提升科研人员对大规模单细胞数据的解析效率,从而有助于发现关键靶点并探索疾病的发生与演化机制。
此外,模型还可用于基因表达预测与插补 (Gene Expression Prediction and Imputation)。这个任务主要是为了解决单细胞测序数据中经常出现的“漏测”或“缺失”问题,让最终的表达数据更真实、更全面。
如果忽视这种稀疏性,可能会导致后续分析结果产生系统性偏差,从而影响生物标志物的识别等一系列的分析。具备这一功能的模型可支持 AI 驱动的基因组学研究,例如在癌症研究中预测突变对基因表达的影响,为新药开发提供有力支持。
另一项重要应用是扰动响应预测 (Perturbation Response Prediction)。该任务旨在预测细胞在经历基因敲除、药物处理或 CRISPR 编辑等扰动后的响应(如基因表达变化或表型变化)。通过这种高通量的虚拟模拟,研究者可以在体外实验前快速筛选潜在药物作用或基因功能,从而大幅节省湿实验所需的时间与资源。
参考文献
1.《LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology》
作者:余弦
⭐ SDbioinfo-往期回顾 ⭐
【栏目1:播客分享会】
【栏目2:前沿信息早知道】
诺奖给了Treg,如何用单细胞测序寻找它的“主控开关”?
【栏目3:知识解读】
马尔科夫链蒙特卡洛方法mcmc原理
【栏目4:最新招聘】
SDbioinfo嘉宾-张心仪博士组招聘
【?我是谁?】
SDbioinfo,专注「计算生物学」领域的学习智库
我们汇聚了来自哈佛剑桥港大、北清复交等高校科研工作者。我们的愿景:链接领域最强大脑,用数据和分析改变生命。
不管你是:
⭐ 找实习、找工作、出国留学
⭐ 找校友、找搭子、找资源
⭐ 找科研方法、前沿信息、大咖分享
统统可以帮你,加入SDbioinfo,和全球生信人一起成长!
(添加微信:SDbioinfo_2023)

