大数跨境

重大突破!扎克伯格夫妇旗下机构推出rBio,用虚拟细胞训练AI,跳过昂贵实验,生物医药研究要加速了

重大突破!扎克伯格夫妇旗下机构推出rBio,用虚拟细胞训练AI,跳过昂贵实验,生物医药研究要加速了 洞见畏来
2025-08-22
2
导读:重大突破!扎克伯格夫妇旗下机构推出rBio,用虚拟细胞训练AI,跳过昂贵实验,生物医药研究要加速了

2025年8月21日,Chan Zuckerberg Initiative(CZI)宣布推出rBio——首个无需依赖昂贵实验室实验,而是通过虚拟模拟来学习细胞生物学知识的人工智能模型。这一突破或许会彻底改变生物医药研究与药物研发的速度,相关研究成果已发表在bioRxiv平台的论文中。


一、rBio:让AI“读懂”细胞,打破交互壁垒

在生物学研究领域,AI应用一直存在一个关键难题:像ChatGPT这样的大型语言模型擅长处理文本,可生物基础模型(如GREmLN、TranscriptFormer)多依赖复杂分子数据,科学家难以用自然语言与之交互,只能通过复杂方式“提示”模型。

rBio的出现解决了这一问题。它从CZI的TranscriptFormer(基于12个物种、1.12亿个细胞,涵盖15亿年进化史训练的虚拟细胞模型)中提炼知识,打造出能让研究人员用通俗英语查询的对话式AI系统。

二、核心创新:“软验证”,让AI用概率思考

传统推理模型从答案明确的问题(如数学方程)中学习,但生物学问题存在不确定性和概率性结果,无法简单归为“是”或“否”。

CZI的研究团队(由AI高级总监Theofanis Karaletsos和研究负责人Ana-Maria Istrate带领)采用“带比例奖励的强化学习”攻克这一难题。模型不会只得到“是/否”的验证,而是根据其生物预测与虚拟细胞模拟所判定的“现实”的吻合概率,获得相应比例的奖励。

借助这种方法,科学家能提出复杂问题(如“抑制基因A的活性是否会导致基因B的活性增加?”),并得到关于细胞变化(包括从健康状态到疾病状态转变)的科学依据充分的回答。

三、性能亮眼:超越基准,迁移学习能力突出

在针对基因扰动预测的标准数据集PerturbQA的测试中,rBio展现出与基于实验数据训练的模型相当的竞争力:

  • 性能超过基础大型语言模型;

  • 在关键指标上与专业生物模型持平。

更值得关注的是,rBio具备出色的“迁移学习”能力。它能将从TranscriptFormer中学到的基因共表达模式知识,成功应用于基因扰动效应预测这一完全不同的生物任务中,还能对分布外细胞系进行泛化,可能无需依赖细胞系特定的实验数据进行训练。

此外,当结合“链式思维提示”技术(鼓励逐步推理)时,rBio实现了“最先进性能”,超越了此前领先的模型SUMMER。

四、CZI的底气:多年积累,数据与平台双保障

rBio的推出并非偶然,而是CZI近十年基础工作的成果。

  • 数据层面:CZI运营着CZ CELLxGENE——全球最大的单细胞生物数据仓库之一,数据经过严格质量控制。其打造的转录组学旗舰数据图谱,在细胞类型、祖先、组织和供体等方面注重多样性,最大程度减少模型训练中的偏差,这对可能影响医疗决策的AI模型至关重要。

  • 平台与目标:CZI一直致力于构建细胞图谱(记录不同物种不同细胞类型中活跃基因的综合数据库),并开发训练大型生物模型所需的计算基础设施,目标是“到本世纪末治愈、预防和控制所有疾病”。

不过,CZI近年也经历了组织变革,从涵盖社会正义、教育改革的广泛慈善使命,转向更聚焦科学研究,这一调整虽遭部分前员工和受资助者批评,但对长期参与科学计划的Istrate而言,聚焦生物AI是长期优先事项的自然演进。

五、开放共享:免费开放,推动科学民主化

与谷歌DeepMind、制药公司等开发专有AI工具的商业机构不同,CZI秉持开源理念。包括rBio在内的所有模型,都可通过其“虚拟细胞平台”免费获取,还附带能在免费Google Colab笔记本上运行的教程。

CZI认为开源至关重要,这是其创立以来的核心价值观。开放这些工具旨在推动科学加速发展,让资源有限的小型研究机构、初创公司也能使用先进的生物AI工具,实现研究资源的民主化,同时产生加速科学进步的网络效应。

六、应用前景:从加速 drug discovery 到构建“通用细胞模型”

  1. 缩短药物研发周期

rBio的应用远不止学术研究。它能让科学家快速测试基因相互作用和细胞反应的假说,大幅加速药物研发早期阶段。要知道,传统药物研发通常需要数十年时间,耗费数十亿美元。

尤其在神经退行性疾病(如阿尔茨海默病)研究中,rBio预测基因扰动对细胞行为影响的能力极具价值,有助于研究人员弄清特定基因变化如何推动疾病发展,为早期干预甚至彻底阻止疾病提供可能。

  1. 迈向“通用虚拟细胞模型”

rBio是CZI实现更宏大愿景的第一步——打造能整合多个生物领域知识的“通用虚拟细胞模型”。目前,研究人员需使用针对不同生物数据类型(转录组学、蛋白质组学、成像数据)的单独模型,难以整合各模型的见解。

研究团队已展示出整合能力:他们训练的rBio模型结合了多种验证来源(用于基因表达数据的TranscriptFormer、用于扰动预测的专业神经网络、Gene Ontology等知识数据库),其性能显著优于单一来源模型。未来,如何将所有这些生物模型的知识整合到一起,是CZI面临的重要挑战。

七、挑战与影响:前路有障碍,变革已开启

1. 当前挑战
  • 专业范围有限:rBio目前主要专注于基因扰动预测,虽理论上可纳入TranscriptFormer覆盖的所有生物领域,但仍需拓展;

  • 用户体验与安全防护:团队需持续优化用户体验,并设置防护机制,防止模型回答超出其专业范围的问题——这也是专业领域部署大型语言模型普遍面临的难题。

2. 行业与社会影响

当前,AI驱动的药物研发竞争激烈,大型制药公司和科技企业纷纷投入巨资。CZI的开源模式能让更广泛的研究群体(学术界、生物技术初创公司、老牌制药企业)获得先进工具,加速行业变革。

与此同时,特朗普政府提议大幅削减美国国立卫生研究院(NIH)预算,可能威胁生物医药研究的公共资金支持。在此背景下,CZI对生物AI基础设施的持续投入,有望在政府资助减少的时期,维持研究的发展势头。

八、结语:生物学研究的“速度革命”

rBio的推出不只是又一项AI突破,更标志着生物学研究方式的根本转变。CZI证明,虚拟模拟能像昂贵的实验室实验一样有效训练模型,为全球研究人员开辟了一条新道路——摆脱时间、资金和物理资源的传统限制,加速研究进程。

如今,CZI正准备通过其“虚拟细胞平台”免费开放rBio,同时还在拓展生物AI能力(如用于癌症检测的GREmLN模型、成像技术研发等)。“软验证”方法的成功,或许会影响其他机构的科学AI训练方式,减少对实验数据的依赖,同时保持科学严谨性。

对于以“本世纪末治愈所有疾病”为宏大目标的CZI来说,rBio为医学研究人员带来了长期缺失的能力——快速提出生物学领域最棘手的问题,并在输入一个句子的时间内获得科学可靠的答案。在这个以数十年为进步单位的领域,这样的速度,或许就是让某些疾病从“世代困扰”变为“遥远记忆”的关键。


【声明】内容源于网络
0
0
洞见畏来
专注于前沿科技趋势,剖析底层算法逻辑,深耕商业化场景落地
内容 0
粉丝 0
洞见畏来 专注于前沿科技趋势,剖析底层算法逻辑,深耕商业化场景落地
总阅读0
粉丝0
内容0