大数跨境

AI首次精准预测细胞命运!华人科学家发布虚拟细胞重磅成果,或改变药物研发试错范式

AI首次精准预测细胞命运!华人科学家发布虚拟细胞重磅成果,或改变药物研发试错范式 DeepTech深科技
2026-05-30
13
导读:最初相同的 DNA,为何最终有的长成神经元,有的成为血细胞,有的是胰岛细胞?

拥有相同 DNA 的细胞,为何最终分化为神经元、血细胞或胰岛细胞等不同命运?数十年来,生物学家虽理解细胞分化机制,但难以准确预测关键基因改动对细胞命运的具体影响。

近期,德国亥姆霍兹慕尼黑中心 Fabian J. Theis 教授与英国牛津大学 Tatjana Sauka-Spengler 教授团队合作,开发出端到端深度学习模型 RegVelo(Regulatory Velocity)。该模型首次将神经网络与细胞动态变化过程融合,作为可操作的计算机模拟“细胞模型”,通过模拟调控扰动生成可验证假说,揭示细胞命运决定机制。

RegVelo 结合微分方程与神经网络建模细胞内部调控方式,拟合细胞动态表达数据。研究人员可通过计算机模拟改变基因调控关系(如敲除转录因子、下调特定回路),精准预测细胞命运的演变路径。

在多个复杂多谱系分化系统的应用中,无论小鼠胰腺内分泌发育、人类造血分化,还是斑马鱼神经嵴发育,RegVelo 均表现出稳定且准确的终端状态识别能力。

图丨研究人员用 RegVelo 测试动态生物系统类型,图为斑马鱼胚胎的荧光成像显示早期发育过程中的细胞群(来源:受访者)

从观测轨迹到预测干预:RegVelo 的核心逻辑

RegVelo 的核心在于从观测细胞运动轨迹中推断驱动运动的内在调控逻辑,并据此预测干预后的新轨迹。论文第一作者、亥姆霍兹慕尼黑中心博士生汪伟旭比喻道:“这如同考驾照,不同考生(目标基因)与考官(转录因子)的组合产生不同结果。理解考官调控机制后,即可预测更换或移除考官时的行车轨迹。”

除了电脑模拟实验,RegVelo 在类器官研究中潜力巨大。针对类器官分化效率不稳定、成熟度不足及关键细胞类型难诱导等瓶颈,该模型能精准回答“哪些转录因子在哪个时间窗口驱动了正确分化”这一核心问题。

具体应用中,研究人员可在现有类器官单细胞数据上建模,计算机模拟预测“在特定发育窗口激活或抑制某转录因子”后的细胞组成变化,再对高潜力预测进行实验验证。这将分化协议优化从纯粹试错转变为计算引导的定向验证。

此外,利用患者来源的诱导多能干细胞(iPSC)建立疾病模型,RegVelo 可模拟不同基因干预,预测将异常细胞命运纠正回正常轨道的方案,有望成为药物靶点筛选的前端计算平台。

虚拟细胞的历史演进与理论基石

理解虚拟细胞的意义需追溯其历史演进。1943 年,埃尔温·薛定谔在《生命是什么》中提出活细胞底层的物理学原理,推测遗传物质为非周期性晶体,生命依靠负熵维持有序。这一思想为分子生物学奠定基础,并启发了 DNA 双螺旋的发现及中心法则的提出。

然而,相同遗传物质如何决定不同细胞类型仍是未解之谜。2024 年,斯坦福大学教授 Stephen Quake 将此称为“细胞法则”,视为虚拟细胞的真正母题。1957 年,Conrad Waddington 提出“景观隐喻模型”,将细胞发育比作小球滚入山谷,认为遗传调控网络塑造了分化方向。

随着单细胞测序技术(scRNA-seq)成熟及 GPU 深度学习的发展,混合模型应运而生:常微分方程提供动力学骨架,神经网络学习未知调控关系。Waddington 的景观从隐喻变为方程,进而发展为可从数据学习的计算问题。

突破传统局限:为何过往模型会“看反”

AI for Biology 的核心挑战在于如何在生物数据中实现泛化。RegVelo 旨在解决“细胞分化如何被基因调控回路确定”这一问题。传统 AI 擅长处理“从有序到有序”的过程(如蛋白质折叠),但细胞分化输出往往无序,需找到合适的有序框架进行检验。

传统 RNA 速度模型假设转录速率恒定,这在造血系统等场景中常导致误判:当基因处于强诱导状态时,模型却错误判断为抑制状态,推断出的速度场与生物学认知相反。

RegVelo 通过两点改进解决该问题:一是拟合更灵活的动力学轨迹;二是认为每个基因的转录速率受上游转录因子影响,即由当前细胞状态决定转录速率,而非恒定不变。

图丨RegVelo 通过将单细胞 RNA 测序数据与先验知识相结合来推断调控动态;结合 CellRank 技术可实现计算机模拟中的调控扰动及细胞命运预测(来源:Cell)

实验验证:预测准确率接近翻倍

研究团队结合课题组建立的 CellRank 框架,描述细胞命运的分化概率,并将模拟结果与 Perturb-seq 实验对齐,以统计量直接检验模型有效性。

在斑马鱼实验中,团队进行了 11 种转录因子敲除。RegVelo 的预测结果与实际实验数据的斯皮尔曼相关性达到 0.52,而其他方法均低于 0.25,准确率接近翻倍。这得益于体内发育过程的真实扰动实验与计算模拟的高度对齐。

RegVelo 还能识别发育过程中早期高表达、终末状态已下调的谱系驱动因子(如 ets1、nr2f5 等),避免了依赖终末细胞高表达关系的方法将其漏掉或误归类的情况。

图丨RegVelo 的核心模型(来源:Cell)

图丨从左至右分别为:Fabian J. Theis、Tatjana Sauka-Spengler 和胡致远(来源:受访者)

图丨RegVelo 的扰动预测流程(来源:Cell)

外部信号响应与 CellFlow 模型

除 RegVelo 外,Theis 课题组还推出了基于流匹配的生成框架 CellFlow,这是首个用于解决表达扰动问题的生成模型。CellFlow 主要回应“细胞学说”中关于外部信号刺激下细胞状态转换的问题,即给定形态因子(如 CRISPR、药物)后,细胞表达状态如何从 A 变为 B。

相较于早期基于 VAE 架构的 scGen,CellFlow 具有更强的可扩展性,能训练十亿级别数据,且生成效果更优。未来可基于该模型设计类器官分化方案,或逆向合成形态发生素,指导 CRISPR 引导细胞生成目标状态。

图丨一种用于探索细胞表型空间的工具 CellFlow(来源:bioRxiv)

展望未来:AI 科学家与虚拟细胞的协同

目前 RegVelo 仍存在局限性,如对全局潜在时间的处理、调控模型的简化以及计算成本较高等。未来计划整合代谢标记 RNA、染色质可及性、空间转录组等多组学数据,并探索外部信号输入对内部调控逻辑的影响。

在 AI for Science 的分工中,学界负责定义特定场景下“有序到有序”的问题,工业界则利用算力和新框架工程化解决。RegVelo 提供有物理约束的专有模型生成结构化假设,AI 科学家则负责推理和优先级排序,两者结合形成可信的新假设验证闭环。

未来,研究团队希望能将 RegVelo 代表的细胞模型与 Evo、AlphaGenome 等基因组学模型耦合,直接回答当引入基因组突变后如何影响细胞命运的关键问题,推动虚拟细胞研究迈向新台阶。

相关论文《RegVelo:基于基因调控信息的单细胞动态变化建模》已发表在 Cell 期刊。

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 5487
粉丝 1
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读68.6k
粉丝1
内容5.5k