——Asimov Press 中国团队
Abhishaike Mahajan(Abhi)是一名高级机器学习工程师,现就职于 Dyno Therapeutics,这是一家致力于利用 AI 设计更优质的腺相关病毒载体(AAV)的生物技术初创公司。在此之前,他曾在 anthem.ai(现更名为 Carelon) 担任机器学习科学家,专注于临床信息学研究。
除了科研工作,Abhi 还运营着博客 Owl Posting(owlposting.com),专注于生物学与计算的交叉领域,涵盖写作、播客和艺术创作。他的受众主要是希望拓展跨学科知识的科学家和工程师。
如果你对相关话题感兴趣,或者想要讨论、赞助或提出建议,可以通过订阅博客支持他的工作,或直接通过邮件(abhishaike@gmail.com) 联系他。
Eryney Marrogi 是佛蒙特大学(University of Vermont)医学院的医学生,拥有丰富的生物工程研究经验。他曾在哈佛大学 George Church 实验室研究蚊媒基因工程,在 Dyno Therapeutics 参与腺相关病毒(AAV)基因治疗载体的开发,并在加州理工学院(Caltech)研究新型生物传感器。
Marrogi 的研究兴趣涵盖合成生物学和医学,并在 eryney.substack.com 上撰写相关文章,分享生物技术领域的最新创新。
从零开始构建全新的酶——即能够催化特定化学反应的蛋白质——一直是蛋白质设计领域的终极目标之一。这些分子机器驱动着各种细胞过程,从将糖转化为能量到控制基因开关。比如, Cas9 以及在乳制品和洗涤行业广泛应用的水解酶(hydrolases),都是酶的一种。
传统上,科学家通常是在自然界中发现酶,并通过反复试验进行改造。但是,研究人员能否直接从头设计专门定制的酶呢?
尽管人工智能(AI)技术近年取得了长足进展,但这一目标仍然是一个巨大挑战。酶在催化反应时往往会发生剧烈的形态变化,而大多数蛋白质设计方法仍然依赖于静态结构,将蛋白质视为固定(fixed)而非动态流动的实体(dynamic, fluid entities)。这主要是因为目前用于训练 AI 模型的蛋白质结构数据库,大多来自蛋白质晶体或其他“冻结”状态的图像(protein crystals or other “frozen” images)。这种偏差使得计算酶设计(computational enzyme design)变得异常困难。
然而,今天发表在《科学》(Science)杂志上的一篇新论文,提供了一条可行的解决方案。
原文链接:science.org/doi/10.1126/science.adu2454
华盛顿大学蛋白质设计研究所(Institute for Protein Design)的 David Baker 团队开发了一种计算方法,成功设计出了一类称为丝氨酸水解酶(serine hydrolases)的酶。该类酶广泛参与血液凝固、消化和神经信号传递等重要生物过程。这项研究不仅证明了计算设计这类酶的可行性,还为构建其它动态蛋白质(dynamic, moving proteins)提供了一条路线图。
现代酶设计的基本原则可以追溯到 20 世纪 80 年代 Bill DeGrado 等人的一项关键发现:仅仅通过定位氨基酸以模拟天然酶的活性位点(positioning amino acids to mimic natural enzyme active sites),所产生的催化剂的反应速度往往比天然酶慢数千到数百万倍。由此可见,酶设计的关键问题并非只是正确定位反应基团(getting initial positioning of the reactive groups),而是如何精确协调一系列结构变化,以完成催化过程——引导底物进入位点、稳定中间态、并高效释放产物(but orchestrating a sequence of structural shifts needed for catalysis: guiding substrates into place, stabilizing intermediate states, and releasing products efficiently)。
尽管这一问题极其复杂,仍然有许多研究尝试设计动态酶(dynamic enzymes)。2008 年的一项研究(同样来自 Baker 实验室)通过分子动力学模拟(molecular dynamics simulations)筛选潜在设计方案,成功从头(de novo)设计了一种催化 Kemp 消除反应(Kemp elimination)的酶催化剂,这一反应可以打开苯异噁唑(benzisoxazole)环。在更近期的一项研究中,科学家们使用了一种名为 ZymCTRL 的语言模型(language model),成功设计了碳酸酐酶(carbonic anhydrase)和乳酸脱氢酶(lactate dehydrogenase)。
>登录 press.asimov.com 输入邮箱成为订阅会员<
那么,这篇新论文的重要性何在?
此前的研究所设计的酶相对较简单:它们的催化过程通常只有一到两个化学步骤,在反应中基本保持刚性(remained largely rigid),并且不会产生中间产物(intermediate byproducts)。尽管许多实用酶确实较为简单,但大多数酶要复杂得多,并且迄今为止仍然难以通过计算方法进行设计。
丝氨酸水解酶(Serine Hydrolases) 就属于这类复杂酶。它们的活性位点由丝氨酸(Serine)、组氨酸(Histidine)和天冬氨酸(Aspartate) 三种核心氨基酸构成,并通过水分子催化酯键的断裂work together with water to break ester bonds)。整个过程涉及六个步骤:
1. 底物(substrate)与酶的催化位点结合;
2. 酶被修饰,形成中间体(intermediate form);
3. 第一个产物被释放;
4. 第二个底物与酶的催化位点结合;
5. 第二个产物被释放;
6. 酶恢复至原始状态。
在步骤 1-3 中,丝氨酸氨基酸会攻击底物,形成一个稳定的酰酶(acyl-enzyme)中间体,并释放出醇类分子,但此时酶仍处于修饰状态。接下来的步骤 4-6 中,水分子在组氨酸的活化下攻击该中间体,最终释放出酸,并使酶恢复原状。这个多步骤的催化过程涉及多个中间状态和副产物,使得丝氨酸水解酶的设计极具挑战性。酶不仅要能正确结合底物,还要在每个催化阶段保持稳定,并能有效释放中间产物,而不被其抑制。
为了设计出新的丝氨酸水解酶,Baker 团队采用了一种名为 RFDiffusion 的蛋白质设计工具。这是他们实验室于 2022 年开发的一种 AI 模型,能够从已有模式中学习并生成新的蛋白质结构,相当于蛋白质设计的“瑞士军刀”。研究人员利用 RFDiffusion 生成了 10000 个 可能的丝氨酸水解酶设计方案,每个设计都围绕固定的催化位点(丝氨酸、组氨酸、天冬氨酸)。
为了筛选出哪些设计可能具备实际的丝氨酸水解酶功能,团队使用了 AlphaFold2 预测蛋白质结构,并检查每种设计的预期结构是否与 RFDiffusion 生成的结构匹配。虽然这一步并未完全解决酶功能的复杂性,但它提供了一个快速的初步筛选方法(quick initial filter)。然而,结果令人失望:在实验室测试中,仅 1.6% 的设计表现出催化活性(关于实验方法的细节,后文会详细介绍)。
一组计算设计的丝氨酸水解酶。TM 指“模板建模”(template modeling)评分,用于评估两个蛋白质结构之间的相似性。RMSD(均方根偏差)同样用于衡量结构相似性。图片来源:Lauko A. et al. (2025)
在第二轮筛选中,研究团队引入了一种名为 PLACER(Protein-Ligand Atomistic Conformational Ensemble Resolver,蛋白-配体原子构象集解析器)的方法,它基于物理和化学原理预测原子应如何排列。
团队利用 Protein Data Bank(蛋白质数据库)中的结构训练 PLACER,让模型学会预测符合蛋白质与小分子相互作用的物理和化学规则的原子排列。例如,PLACER 了解到哪些氢键几何结构(hydrogen bond geometries)是有效的,蛋白质侧链(protein sidechains)通常如何堆积在一起,以及哪些旋转异构体(rotamer,或侧链取向,sidechain orientation)组合在物理上是合理的。在测试过程中,研究人员向 PLACER 输入一个化学结构,模型随后生成约 50 种可能的输出。研究人员评估这些输出,检查 PLACER 是否添加了合理的化学特征。如果特征看起来正确,他们就“信任”该设计。
在这第二轮筛选中,团队使用 PLACER 来筛选设计方案,但仅检查了“apo 状态”(即酶在没有任何结合分子时的结构)。具体而言,他们检查 PLACER 预测中丝氨酸和组氨酸之间是否始终形成氢键。如果没有,该设计便被淘汰。仅凭这一项调整,酶的催化活性提升了 4 倍——有 5.2% 的酶表现出催化活性。然而,这些酶仍然在第一轮反应循环后被“卡住”,形成乙酰酶(acyl-enzyme)中间体,但无法完成完整的催化循环。
在第三轮筛选中,团队进一步提高了筛选标准。他们要求设计方案在“apo 状态”和“乙酰酶中间体状态”(acyl-enzyme intermediate state)下都能通过 PLACER 检测,并且满足额外的特定化学特征要求。这一更严格的筛选标准带来了另一轮突破:18% 的设计表现出催化活性,更重要的是,其中两种设计(1.6%)能够进行多次催化循环(multiple turnover catalysis),也就是说,它们可以完成完整的催化周期,而不会在中间步骤被“卡住”。这是一个重要的里程碑,因为通常酶需要每秒催化成千上万甚至百万次反应才能在实际应用中发挥作用。
尽管天然丝氨酸水解酶的转换速率(turnover rates)可达 10²–10⁵ 次/秒,而设计出的酶仅达到 10⁻³–10⁻¹ 次/秒,仍然相当缓慢,但考虑到任务的复杂性,这依然是一个巨大的进步。事实上,这是科学家首次成功设计出如此复杂的人工酶,并实现非零的催化转换速率(non-zero turnover rate)。
在每个计算设计步骤完成后,研究人员都会在实验室中测试他们的设计方案。他们首先合成编码每种蛋白质变体的 DNA,在大肠杆菌中表达这些蛋白质,并使用两种基于荧光的检测方法(fluorescence-based assays)来评估酶的功能。其中一种检测使用 fluorophosphonate 探针(简称 FP)验证丝氨酸是否被正确激活,而另一种检测则用于测量催化活性。这种两步筛选法经过优化,可适用于 96 孔板进行高通量筛选,使研究人员能够测试数百种设计方案,并区分那些只能完成单个催化步骤的酶,和那些能够执行完整催化循环的酶。
引入这些实验验证方法后,成功率有了显著提升:在第一轮筛选中,仅 3% 的设计展现出丝氨酸活化(serine activation),而在第三轮中,这一比例增长至 84%,催化活性从 1.6% 提高至 18%。最重要的是:在第三轮测试的 100 多种设计方案中,有两种酶成功实现了多次催化循环(multiple turnover catalysis)。
为了证明这些成功的蛋白变体确实是经过多轮密集的机器学习引导设计(ML-guided)的产物,研究团队使用高分辨率晶体学(X-ray crystallography)对最成功的酶进行了验证。这种方法通常需要数月甚至数年的时间才能解析单个蛋白质的结构。他们最终解析了两种成功催化剂的原子结构,以及几个优化后的变体。这些晶体结构表明,酶的活性位点几何结构与计算机设计的模型在原子尺度上精确匹配。此外,研究团队还投入大量精力分析了每一轮测试失败的原因,深入研究了那些能够持续催化的设计版丝氨酸水解酶(the designed serine hydrolases that managed to continue catalyzing)的独特之处,以及其它诸多关键因素。(他们共对 812 种蛋白设计进行了实验验证。)
尽管这项研究取得了重要突破,但仍有改进空间。例如,这些人工设计的酶的催化效率仍远低于天然酶。此外,Baker 团队当前复杂繁琐的筛选流程也引发了一个问题:是否可以设计一种 AI 模型,让它能“直觉性”地设计出多步催化酶,而无需如此多的精细筛选步骤?(Shouldn’t we aim for a model that can intuitively design multi-step enzymes without requiring so many curated filtering steps?)
从长远来看,答案是肯定的。未来的研究方向应该朝着一体化(all-in-one)的解决方案发展。然而,就目前而言,研究人员已经找到了一种有前景的方法来设计地球上最复杂的酶之一,这种方法甚至有望扩展到全新的酶类别。
引用:
Mahajan A. & Marrogi E. “AI-Designed Enzymes.” Asimov Press. DOI: 10.62211/97ry-32pk
原文发表于 2025 年 2 月 13 日。
英文原文链接:https://press.asimov.com/articles/ai-enzymes
∗∗∗
在 2025 年,我们也会通过“前沿科技与人文精神” 的内容在中国和美国的科学技术交流当中架起一座桥梁。如果你想对这篇文章提出问题,以及希望加入 Asimov Press 的中国读者社区,或者想找寻我们合作,欢迎发送一句话的简介,到联系邮箱:asimovpresschina@163.com,或者添加个人微信 ID: 2871981198, 期待与你交流。
点击“阅读原文”即可查看英文原文
请星标我们🌟,欢迎点赞+在看+转发!:)
版权声明:Asimov Press 发布的所有内容,包括英文原版及中文版本,均受版权保护,未经授权严禁转载、翻译或发布。如有疑问或合作需求,请联系邮箱:asimovpresschina@163.com。
Copyright © 2024 Asimov Press
>登录 press.asimov.com 输入邮箱成为订阅会员<

