拥有相同 DNA 的细胞,为何最终分化为神经元、血细胞或胰岛细胞等不同命运?数十年来,生物学家虽理解细胞分化机制,但难以准确预测关键基因改动对细胞命运的具体影响。
近期,德国亥姆霍兹慕尼黑中心 Fabian J. Theis 教授与英国牛津大学 Tatjana Sauka-Spengler 教授团队合作,开发出端到端深度学习模型 RegVelo(Regulatory Velocity)。该模型首次将神经网络与细胞动态变化过程融合,作为可操作的计算机模拟“细胞模型”,通过模拟调控扰动生成可验证假说,揭示细胞命运决定机制。
RegVelo 结合微分方程与神经网络建模细胞内部调控方式,拟合细胞动态表达数据。研究人员可通过计算机模拟改变基因调控关系(如敲除转录因子、下调特定回路),精准预测细胞命运的演变路径。
在多个复杂多谱系分化系统的应用中,无论小鼠胰腺内分泌发育、人类造血分化,还是斑马鱼神经嵴发育,RegVelo 均表现出稳定且准确的终端状态识别能力。
图丨研究人员用 RegVelo 测试动态生物系统类型,图为斑马鱼胚胎的荧光成像显示早期发育过程中的细胞群(来源:受访者)
从观测轨迹到预测干预:RegVelo 的核心逻辑
RegVelo 的核心在于从观测细胞运动轨迹中推断驱动运动的内在调控逻辑,并据此预测干预后的新轨迹。论文第一作者、亥姆霍兹慕尼黑中心博士生汪伟旭比喻道:“这如同考驾照,不同考生(目标基因)与考官(转录因子)的组合产生不同结果。理解考官调控机制后,即可预测更换或移除考官时的行车轨迹。”
除了电脑模拟实验,RegVelo 在类器官研究中潜力巨大。针对类器官分化效率不稳定、成熟度不足及关键细胞类型难诱导等瓶颈,该模型能精准回答“哪些转录因子在哪个时间窗口驱动了正确分化”这一核心问题。
具体应用中,研究人员可在现有类器官单细胞数据上建模,计算机模拟预测“在特定发育窗口激活或抑制某转录因子”后的细胞组成变化,再对高潜力预测进行实验验证。这将分化协议优化从纯粹试错转变为计算引导的定向验证。
此外,利用患者来源的诱导多能干细胞(iPSC)建立疾病模型,RegVelo 可模拟不同基因干预,预测将异常细胞命运纠正回正常轨道的方案,有望成为药物靶点筛选的前端计算平台。
虚拟细胞的历史演进与理论基石
理解虚拟细胞的意义需追溯其历史演进。1943 年,埃尔温·薛定谔在《生命是什么》中提出活细胞底层的物理学原理,推测遗传物质为非周期性晶体,生命依靠负熵维持有序。这一思想为分子生物学奠定基础,并启发了 DNA 双螺旋的发现及中心法则的提出。
然而,相同遗传物质如何决定不同细胞类型仍是未解之谜。2024 年,斯坦福大学教授 Stephen Quake 将此称为“细胞法则”,视为虚拟细胞的真正母题。1957 年,Conrad Waddington 提出“景观隐喻模型”,将细胞发育比作小球滚入山谷,认为遗传调控网络塑造了分化方向。
随着单细胞测序技术(scRNA-seq)成熟及 GPU 深度学习的发展,混合模型应运而生:常微分方程提供动力学骨架,神经网络学习未知调控关系。Waddington 的景观从隐喻变为方程,进而发展为可从数据学习的计算问题。
突破传统局限:为何过往模型会“看反”
AI for Biology 的核心挑战在于如何在生物数据中实现泛化。RegVelo 旨在解决“细胞分化如何被基因调控回路确定”这一问题。传统 AI 擅长处理“从有序到有序”的过程(如蛋白质折叠),但细胞分化输出往往无序,需找到合适的有序框架进行检验。
传统 RNA 速度模型假设转录速率恒定,这在造血系统等场景中常导致误判:当基因处于强诱导状态时,模型却错误判断为抑制状态,推断出的速度场与生物学认知相反。
RegVelo 通过两点改进解决该问题:一是拟合更灵活的动力学轨迹;二是认为每个基因的转录速率受上游转录因子影响,即由当前细胞状态决定转录速率,而非恒定不变。
图丨RegVelo 通过将单细胞 RNA 测序数据与先验知识相结合来推断调控动态;结合 CellRank 技术可实现计算机模拟中的调控扰动及细胞命运预测(来源:Cell)
实验验证:预测准确率接近翻倍
研究团队结合课题组建立的 CellRank 框架,描述细胞命运的分化概率,并将模拟结果与 Perturb-seq 实验对齐,以统计量直接检验模型有效性。
在斑马鱼实验中,团队进行了 11 种转录因子敲除。RegVelo 的预测结果与实际实验数据的斯皮尔曼相关性达到 0.52,而其他方法均低于 0.25,准确率接近翻倍。这得益于体内发育过程的真实扰动实验与计算模拟的高度对齐。
RegVelo 还能识别发育过程中早期高表达、终末状态已下调的谱系驱动因子(如 ets1、nr2f5 等),避免了依赖终末细胞高表达关系的方法将其漏掉或误归类的情况。
图丨RegVelo 的核心模型(来源:Cell)
图丨从左至右分别为:Fabian J. Theis、Tatjana Sauka-Spengler 和胡致远(来源:受访者)
图丨RegVelo 的扰动预测流程(来源:Cell)
外部信号响应与 CellFlow 模型
除 RegVelo 外,Theis 课题组还推出了基于流匹配的生成框架 CellFlow,这是首个用于解决表达扰动问题的生成模型。CellFlow 主要回应“细胞学说”中关于外部信号刺激下细胞状态转换的问题,即给定形态因子(如 CRISPR、药物)后,细胞表达状态如何从 A 变为 B。
相较于早期基于 VAE 架构的 scGen,CellFlow 具有更强的可扩展性,能训练十亿级别数据,且生成效果更优。未来可基于该模型设计类器官分化方案,或逆向合成形态发生素,指导 CRISPR 引导细胞生成目标状态。
图丨一种用于探索细胞表型空间的工具 CellFlow(来源:bioRxiv)
展望未来:AI 科学家与虚拟细胞的协同
目前 RegVelo 仍存在局限性,如对全局潜在时间的处理、调控模型的简化以及计算成本较高等。未来计划整合代谢标记 RNA、染色质可及性、空间转录组等多组学数据,并探索外部信号输入对内部调控逻辑的影响。
在 AI for Science 的分工中,学界负责定义特定场景下“有序到有序”的问题,工业界则利用算力和新框架工程化解决。RegVelo 提供有物理约束的专有模型生成结构化假设,AI 科学家则负责推理和优先级排序,两者结合形成可信的新假设验证闭环。
未来,研究团队希望能将 RegVelo 代表的细胞模型与 Evo、AlphaGenome 等基因组学模型耦合,直接回答当引入基因组突变后如何影响细胞命运的关键问题,推动虚拟细胞研究迈向新台阶。
相关论文《RegVelo:基于基因调控信息的单细胞动态变化建模》已发表在 Cell 期刊。

