AI首次精准预测细胞命运！华人科学家发布虚拟细胞重磅成果，或改变药物研发试错范式- 大数跨境

首页

AI首次精准预测细胞命运！华人科学家发布虚拟细胞重磅成果，或改变药物研发试错范式

DeepTech深科技

2026-05-30

导读：最初相同的 DNA，为何最终有的长成神经元，有的成为血细胞，有的是胰岛细胞？

拥有相同 DNA 的细胞，为何最终分化为神经元、血细胞或胰岛细胞等不同命运？数十年来，生物学家虽理解细胞分化机制，但难以准确预测关键基因改动对细胞命运的具体影响。

近期，德国亥姆霍兹慕尼黑中心 Fabian J. Theis 教授与英国牛津大学 Tatjana Sauka-Spengler 教授团队合作，开发出端到端深度学习模型 RegVelo（Regulatory Velocity）。该模型首次将神经网络与细胞动态变化过程融合，作为可操作的计算机模拟“细胞模型”，通过模拟调控扰动生成可验证假说，揭示细胞命运决定机制。

RegVelo 结合微分方程与神经网络建模细胞内部调控方式，拟合细胞动态表达数据。研究人员可通过计算机模拟改变基因调控关系（如敲除转录因子、下调特定回路），精准预测细胞命运的演变路径。

在多个复杂多谱系分化系统的应用中，无论小鼠胰腺内分泌发育、人类造血分化，还是斑马鱼神经嵴发育，RegVelo 均表现出稳定且准确的终端状态识别能力。

图丨研究人员用 RegVelo 测试动态生物系统类型，图为斑马鱼胚胎的荧光成像显示早期发育过程中的细胞群（来源：受访者）

从观测轨迹到预测干预：RegVelo 的核心逻辑

RegVelo 的核心在于从观测细胞运动轨迹中推断驱动运动的内在调控逻辑，并据此预测干预后的新轨迹。论文第一作者、亥姆霍兹慕尼黑中心博士生汪伟旭比喻道：“这如同考驾照，不同考生（目标基因）与考官（转录因子）的组合产生不同结果。理解考官调控机制后，即可预测更换或移除考官时的行车轨迹。”

除了电脑模拟实验，RegVelo 在类器官研究中潜力巨大。针对类器官分化效率不稳定、成熟度不足及关键细胞类型难诱导等瓶颈，该模型能精准回答“哪些转录因子在哪个时间窗口驱动了正确分化”这一核心问题。

具体应用中，研究人员可在现有类器官单细胞数据上建模，计算机模拟预测“在特定发育窗口激活或抑制某转录因子”后的细胞组成变化，再对高潜力预测进行实验验证。这将分化协议优化从纯粹试错转变为计算引导的定向验证。

此外，利用患者来源的诱导多能干细胞（iPSC）建立疾病模型，RegVelo 可模拟不同基因干预，预测将异常细胞命运纠正回正常轨道的方案，有望成为药物靶点筛选的前端计算平台。

虚拟细胞的历史演进与理论基石

理解虚拟细胞的意义需追溯其历史演进。1943 年，埃尔温·薛定谔在《生命是什么》中提出活细胞底层的物理学原理，推测遗传物质为非周期性晶体，生命依靠负熵维持有序。这一思想为分子生物学奠定基础，并启发了 DNA 双螺旋的发现及中心法则的提出。

然而，相同遗传物质如何决定不同细胞类型仍是未解之谜。2024 年，斯坦福大学教授 Stephen Quake 将此称为“细胞法则”，视为虚拟细胞的真正母题。1957 年，Conrad Waddington 提出“景观隐喻模型”，将细胞发育比作小球滚入山谷，认为遗传调控网络塑造了分化方向。

随着单细胞测序技术（scRNA-seq）成熟及 GPU 深度学习的发展，混合模型应运而生：常微分方程提供动力学骨架，神经网络学习未知调控关系。Waddington 的景观从隐喻变为方程，进而发展为可从数据学习的计算问题。

突破传统局限：为何过往模型会“看反”

AI for Biology 的核心挑战在于如何在生物数据中实现泛化。RegVelo 旨在解决“细胞分化如何被基因调控回路确定”这一问题。传统 AI 擅长处理“从有序到有序”的过程（如蛋白质折叠），但细胞分化输出往往无序，需找到合适的有序框架进行检验。

传统 RNA 速度模型假设转录速率恒定，这在造血系统等场景中常导致误判：当基因处于强诱导状态时，模型却错误判断为抑制状态，推断出的速度场与生物学认知相反。

RegVelo 通过两点改进解决该问题：一是拟合更灵活的动力学轨迹；二是认为每个基因的转录速率受上游转录因子影响，即由当前细胞状态决定转录速率，而非恒定不变。

图丨RegVelo 通过将单细胞 RNA 测序数据与先验知识相结合来推断调控动态；结合 CellRank 技术可实现计算机模拟中的调控扰动及细胞命运预测（来源：Cell）

实验验证：预测准确率接近翻倍

研究团队结合课题组建立的 CellRank 框架，描述细胞命运的分化概率，并将模拟结果与 Perturb-seq 实验对齐，以统计量直接检验模型有效性。

在斑马鱼实验中，团队进行了 11 种转录因子敲除。RegVelo 的预测结果与实际实验数据的斯皮尔曼相关性达到 0.52，而其他方法均低于 0.25，准确率接近翻倍。这得益于体内发育过程的真实扰动实验与计算模拟的高度对齐。

RegVelo 还能识别发育过程中早期高表达、终末状态已下调的谱系驱动因子（如 ets1、nr2f5 等），避免了依赖终末细胞高表达关系的方法将其漏掉或误归类的情况。

图丨RegVelo 的核心模型（来源：Cell）

图丨从左至右分别为：Fabian J. Theis、Tatjana Sauka-Spengler 和胡致远（来源：受访者）

图丨RegVelo 的扰动预测流程（来源：Cell）

外部信号响应与 CellFlow 模型

除 RegVelo 外，Theis 课题组还推出了基于流匹配的生成框架 CellFlow，这是首个用于解决表达扰动问题的生成模型。CellFlow 主要回应“细胞学说”中关于外部信号刺激下细胞状态转换的问题，即给定形态因子（如 CRISPR、药物）后，细胞表达状态如何从 A 变为 B。

相较于早期基于 VAE 架构的 scGen，CellFlow 具有更强的可扩展性，能训练十亿级别数据，且生成效果更优。未来可基于该模型设计类器官分化方案，或逆向合成形态发生素，指导 CRISPR 引导细胞生成目标状态。

图丨一种用于探索细胞表型空间的工具 CellFlow（来源：bioRxiv）

展望未来：AI 科学家与虚拟细胞的协同

目前 RegVelo 仍存在局限性，如对全局潜在时间的处理、调控模型的简化以及计算成本较高等。未来计划整合代谢标记 RNA、染色质可及性、空间转录组等多组学数据，并探索外部信号输入对内部调控逻辑的影响。

在 AI for Science 的分工中，学界负责定义特定场景下“有序到有序”的问题，工业界则利用算力和新框架工程化解决。RegVelo 提供有物理约束的专有模型生成结构化假设，AI 科学家则负责推理和优先级排序，两者结合形成可信的新假设验证闭环。

未来，研究团队希望能将 RegVelo 代表的细胞模型与 Evo、AlphaGenome 等基因组学模型耦合，直接回答当引入基因组突变后如何影响细胞命运的关键问题，推动虚拟细胞研究迈向新台阶。

相关论文《RegVelo：基于基因调控信息的单细胞动态变化建模》已发表在 Cell 期刊。

【声明】内容源于网络

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

内容 5487

粉丝 1

DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

总阅读68.6k

粉丝1

内容5.5k