原理类似于Midjourney,最新AI工具能够根据需求生成蛋白结构
iSynBio造物
"好的,我们开始吧。”David Juergens是华盛顿大学(University of Washington)的计算化学家。他正在西雅图进行前所未有的任务:设计一种蛋白质,这种蛋白质在超过30亿年的演化过程中从未被创造出来过。
在一次视频通话中,尤尔根斯打开了名为RFdiffusion的人工智能工具的云端版本。这个神经网络和类似的工具正在帮助人们将定制蛋白质的创造引入主流科学,这在过去曾是一项高度技术性的、往往难以成功的追求。
这些定制的蛋白质可以成为疫苗、治疗药物和生物材料的基础。马萨诸塞州萨默维尔的生物技术公司Generate Biomedicines的联合创始人兼首席技术官Gevorg Grigoryan表示:“这是一个彻底变革的时刻。”该公司正在将蛋白质设计应用于药物开发。
这些工具受到了用于合成逼真图像的AI软件的启发,比如今年广泛使用的Midjourney软件,该软件以穿着设计师白色连帽夹克的教皇弗朗西斯的形象而出名。
研究人员发现,使用类似的概念方法可以根据设计师的指定条件生成合乎要求的逼真蛋白结构,从而可以进一步设计出与其他生物分子紧密结合的新蛋白质。初步实验表明,在研究人员根据软件的建议制造这些蛋白质时,其中的部分确实可以正常工作。
研究人员表示,过去一年,这些工具已经彻底改变了蛋白质设计的过程。哥伦比亚大学纽约分校的计算生物学家Mohammed AlQuraishi表示:“这是有关能力的一次革命。”“现在,您可以创造具有所需特性的设计。”
“您正在构建一个根据问题定制的蛋白质结构,”华盛顿大学的计算生物物理学家David Baker说到。他的研究团队,其中包括Juergens,开发了RFdiffusion工具。该团队于2023年3月发布了该软件,并在《自然》杂志上发表了有关该神经网络的论文 (2022年底发布了一份预印本版本,与AlQuraishi的研究团队和Grigoryan的团队等其他团队几乎同时报告了类似的神经网络)。
https://www.nature.com/articles/d41586-023-02227-y
这是首次,蛋白质设计师们拥有了可复制且稳定的工具,围绕这些工具可以建立一个新的产业,Grigoryan补充道:“接下来的挑战是,您要如何利用它?”
在类似在线税务计算器的网页表单中,尤尔根斯输入了他想要的蛋白质的规格。它必须由100个氨基酸组成,并能形成一种被称为同源二聚体的对称二蛋白复合体。
许多细胞受体都采用这种结构,因而新的同源二聚体可以成为合成细胞信号分子,UW计算生物化学家Joe Watson插话道,他也是RFdiffusion的共同开发者,并参与了这次视频通话。
多年来,研究人员一直在努力构建新的蛋白质。起初,他们试图将现有蛋白质的有用部分(比如酶中一个催化化学反应的袋状结构)拼凑在一起。
这种方法依赖于对蛋白质折叠和工作过程的理解,以及直觉和大量的试错。科学家有时必须筛选成千上万个设计,才能找到符合预期的设计。
Baker表示,随着AlphaFold(由伦敦的AI公司DeepMind开发,现在归Google DeepMind所有)和其他可以准确预测氨基酸序列的蛋白质结构的AI模型的出现,人们开始意识到这些神经网络也可以帮助从头开始构建蛋白质。
在过去的几年中,Baker的团队和该领域的其他团队发布了许多基于AI的蛋白质设计工具。这些工具使用一种叫做hallucination的方法,该方法需要先创建一个由随机氨基酸组成的字符串,然后通过AlphaFold或类似工具如RoseTTAFold来优化,直到它呈现出神经网络建议的可能折叠成特定结构的外形。
还有另一种叫做inpainting的方法,它接受一个指定的蛋白质序列或结构片段,并使用RoseTTAFold在其周围构建其余部分的分子。
然而,这些工具远非完美。实验表明,在实验室中制造这些通过hallucination方法设计的结构时,它们并不总是能够形成良好折叠的蛋白质,而只是变成了一堆杂乱无章的物质。
此外,hallucination方法也难以制造除小蛋白质之外的物质(尽管其他研究人员在今年2月的预印本中展示了如何使用该技术设计较长的分子)。
inpainting方法在给定较短片段时也很难形成蛋白质。即使这种方法确实产生了理论上的蛋白质结构,但也没有更多可供使用的解决方案来增加成功的可能性。
相比之下,RFdiffusion和最近几个月发布的类似的蛋白质设计AI体现出了优势。它们基于生成逼真图像的神经网络的相同原理,比如Stable Diffusion、DALL-E和Midjourney。
这些“扩散”网络基于数据进行训练,无论是图像还是蛋白质结构,数据逐渐嘈杂,最终变得与初始图像或结构没有相似之处。之后该网络又会对数据进行“去噪”处理,以相反的方式执行任务。
像RFdiffusion这样的网络会使用存储在PDB(Protein Data Bank,PDB)库中的成千上万个真实蛋白质结构进行训练。当它们生成新的蛋白质时,会从完全的噪音——一组随机的氨基酸开始。经过几轮去噪,它会生成类似于真实但确实是全新的蛋白质。
在Baker的团队进行的测试中,当不提供除蛋白质长度外的任何指导时,RFdiffusion生成了与PDB中训练数据不同但多样且逼真的蛋白质。
然而,研究人员还可以在去噪过程中根据特定的设计约束来指导程序制造蛋白质,这个过程被称为调整。
例如,Baker的团队将RFdiffusion调整成能制造具有特定折叠方式的蛋白质,或者可以与另一种分子表面紧密结合的蛋白质。
Grigoryan的团队甚至开发了一个名为Chroma的扩散网络,该网络被调整为能够制造形状类似于英文字母和阿拉伯数字的蛋白质。
Juergens的电脑屏幕上最初显示的是噪音,即AI系统起始状态下的随机氨基酸组合。它们被呈现为红色、模糊的涂鸦,类似于幼儿的涂鸦。然后,它们逐帧地转变成越来越复杂的形状,具有蛋白质的特征,如紧密的α-螺旋和自交叉的β-折叠带结构。
Juergens微笑着欣赏着一个只花了几分钟就能制造出来的作品。他说:“这是一个很好的α-β混合拓扑结构。” “看起来很不错。”
这个工具在Baker的实验室中得到了广泛应用。他说:“与一年前相比,设计过程几乎变得不可辨认。”这种神经网络在以前的方法中,对于效率低下、困难或不可能完成的设计挑战表现得很好。
在他们研究所报告的一项分析中,研究人员从另一个蛋白质中截取了一个片段,例如被免疫细胞识别的病毒蛋白质的一部分,并要求基于AI的工具制造出100种不同的新蛋白质,以查看有多少个能包含所需的特定模体(motif)。
该团队使用25种不同的初始形状进行了这项挑战。结果并不总是包含起始片段,但RFdiffusion至少为23个模体产生了至少一个包含起始片段的蛋白质,相比之下,hallucination和inpainting分别只有15和12个。
RFdiffusion在制造可以自组装成复杂纳米颗粒的蛋白质方面也表现出色,这些纳米颗粒可能能够传递药物或疫苗成分。以前的AI方法也可以制造这些类型的蛋白质,但Watson说,RFdiffusion的设计要复杂得多。
像RFdiffusion这样的神经网络似乎在制定可以与其他特定蛋白质结合的蛋白质方面表现出色。Baker的团队已经使用该网络创建了与癌症、自身免疫疾病和其他疾病相关的蛋白质强结合的蛋白质。
在一项尚未公开发表的研究中,他设计了能用于难以靶向的免疫信号分子的强结合剂,这种信号分子被称为肿瘤坏死因子受体,是产生数十亿美元收入的抗体药物的靶标。
Watson说:“它正在扩展我们制造结合物和制造有意义的治疗蛋白质的空间。”
随着Baker团队的不断设计,测试这些设计是否按照预期工作已成为一个严重的限制。
微软生物医学与机器学习方面的研究员Kevin Yang说:“一个机器学习专家可以生成足够多的设计,以使100名生物学家忙碌数月。”他的团队已经开发出了自己的基于扩散的蛋白质设计工具。
不过,初步的迹象表明,RFdiffusion的设计是实际有效的。在他们的研究中,Baker的团队要求该工具设计含有关键的p53片段的蛋白质,p53是一种在许多癌症中过度活跃的信号分子(也是一种受欢迎的药物靶标)。
研究人员基于软件生成了95个设计,经验证,超过一半的设计保持了p53与其天然靶标MDM2结合的能力。
相比于野生型p53蛋白,最优设计的这种结合能力提高了约1000倍。然而,当研究人员尝试使用hallucination方法进行这项任务时,虽然预测结果显示有效,但其在实际验证中却没有产生结果,Watson说。
总之,Baker表示,RFdiffusion的设计中有10-20%可以与其预期目标强烈结合,以实现其目的,而早期的pre-AI方法只有不到1%的成功率(Watson表示,以前的机器学习方法无法可靠地设计结合物)。
他的同事、华盛顿大学的生物化学家Matthias Gloegl表示,在他最近的设计中,成功率已接近50%,这意味着只需要一两个星期就可以设计出可行的设计,而不再需要数个月。
据哈佛大学的进化生物学家Sergey Ovchinnikov所述,在6月底每天约有100名用户使用基于云的RFdiffusion。
澳大利亚悉尼大学的生物化学家Joel Mackay一直在尝试使用RFdiffusion设计能够与他实验室研究的其他蛋白质结合的蛋白质,这些蛋白质包括控制细胞基因转录的分子(即转录因子)。他发现设计过程很简单,而计算机模拟验证结果也显示,理论上,这些蛋白质应该能够与转录因子结合。
Mackay目前正在测试这些蛋白质在细胞中表达时的实际表现。他对此充满乐观,因为这样的发现可能促成一种简单的方法,即通过在细胞内简单地切换特定的转录因子,而无需使用可能需要多年才能确定的药物。
他说:“如果这种方法能够在我们的蛋白质类型上可靠地应用,那将会彻底改变游戏规则。”
牛津大学免疫信息学家Charlotte Deane表示,RFdiffusion等最新模型的出现标志着“一个重大的改变”。然而,仍然存在关键性挑战。她指出,这将鼓励人们探索将这些扩散网络方法推向更高水平。
她和其他科学家以及生物技术公司特别感兴趣的一个应用是设计更复杂的结合蛋白质,比如抗体或T细胞(一种免疫细胞)使用的蛋白质受体。
这些蛋白质具有与其靶标互锁的灵活环状结构,与RFdiffusion在夹层状、平坦界面上的表现形成对比。目前Baker已经表示,他们在抗体方面已经取得了进展。
Ovchinnikov和其他人认为,总体上来说,设计生物分子的功能是有挑战性的,因为要赋予它们能够转换成许多不同形状的可变区域。这些特征在使用人工智能建模时已经被证明是非常困难的。
Ovchinnikov说:“如果问题是我们是否能够将其与其他物质结合并抑制它,我认为这个问题是能通过这些方法解决的。但是如果要实现一些更复杂、更类似天然蛋白的功能,就需要引入一些灵活性。”
加利福尼亚大学旧金山分校的计算生物学家Tanja Kortemme正在利用RFdiffusion设计蛋白质,以用作控制细胞蛋白质的传感器或开关。她表示,当蛋白质的活性位点取决于少量氨基酸的位置时,人工智能网络表现出色。
但在设计具有更复杂活性位点的蛋白质时,需要更多关键氨基酸的参与。这是她和同事们目前正在努力解决的挑战之一。
然而,最新的扩散网络方法存在一个限制,即无法创造出与天然蛋白质差异较大的蛋白质。
研究人员Yang指出,这是因为人工智能系统只是针对科学家已经表征过的现有蛋白质进行了训练,因而往往只能创造出与这些蛋白质相似的结构。要生成与现有蛋白质差异较大的蛋白质,可能需要对赋予蛋白质功能的结构特性有更好地理解。
这可能会使设计出能执行天然蛋白从未演化出来的功能的蛋白质变得更加简单。Yang说:“还有很大的发展空间。”
最新的蛋白质设计工具已经被证明在创造能够完成特定任务的蛋白质方面非常强大,只要这种功能可以通过形状(比如与蛋白质结合的表面)来描述。
不过,他补充到,像RFdiffusion这样的工具还不能处理其他类型的范式,例如制造一种无论形状如何都能执行特定反应的蛋白质。这好比“你只知道你想要什么,但你不知道具体的几何形状”。
未来的蛋白质设计工具还需要具备根据多种不同标准生成蛋白质的能力。
Grigoryan表示,潜在的治疗性蛋白质不仅需要与其靶标结合,还必须不能与其他物质结合,此外,这些蛋白结构应该具备易于大规模生产的特性。
研究人员正在探索的一个方向是,是否可以利用类似于Midjourney等图像生成工具提供的纯文本描述来设计蛋白质。
Watson说:“你真的可以想象,我们将来能够通过描述蛋白质的特性,来进行合成和测试。”
Grigoryan和他的同事已经朝着这个目标迈出了一步。在2022年12月的预印本中,他们训练了Chroma,将描述与设计相结合,从而基于文本进行设计。
这些描述包括“带有CHAD结构域的蛋白质”(一种包含多个螺旋的蛋白质形状)或“氨基转移酶的晶体结构”(参与蛋白质合成和分解的酶)。
Juergens今早花几分钟创造出来的蛋白质只是3D结构模型。在这之后,他又使用另一个人工智能工具来生成氨基酸序列,这些氨基酸应该能被折叠成该结构。
最后,他又将这些序列输入到AlphaFold中进行检查,以查看软件预测的折叠结构是否与设计相匹配。
结果表明,预测与设计的平均差距仅为1埃(氢原子的宽度),准确性达到了能定义为设计成功的水平。
Watson说:“这个准确度达到了我们认为的设计成功的标准。”剩下的事情仅仅是看看这些蛋白质在现实中的表现如何。
https://www.nature.com/articles/d41586-023-02227-y
iSynBio造物
合成生物学科普&最新合成生物学产学研资讯。
iSynBio造物
合成生物学科普&最新合成生物学产学研资讯。