大数跨境

“原创”设计自然界中不存在的蛋白质,AI变革生命科学的下一个方向崛起

“原创”设计自然界中不存在的蛋白质,AI变革生命科学的下一个方向崛起 芯航资本
2022-09-23
2
导读:AI蛋白质设计前景更加广阔

作为生命活动的体现者和承担者,蛋白质在人类社会的生产和生活中扮演了重要的角色,近半个世纪以来,科学家们一直在孜孜不倦地研究如何理解和运用它。而在过去5-7年里,RaptorX-Contact、AlphaFold 等 AI 工具的出现,颠覆了蛋白质预测领域的研究范式,让人类进一步加深对生命的理解的同时,也为应用范围更广泛的蛋白质设计开启了一扇大门。现在,越来越多的研究者正在尝试运用 AI 设计创造出自然界中没有的蛋白质,进而将其应用在人类社会的方方面面,包括开发出更多疫苗、清理有毒废物、加快癌症治疗研究、开发全新的可持续生物材料等等。


今年六月,韩国监管机构批准了首款由人类设计的新型蛋白质制成的新冠肺炎疫苗,该疫苗基于一种球形蛋白质“纳米颗粒”。但这种新型蛋白质的研发,耗费了众多研究人员近十年的反复试错,成本高昂。


仅仅过去了三个月,就有科学家运用 AI 在几秒钟之内“原创”设计出类似的、自然界中原本不存在的蛋白质了。这一最新的研究成果是一种基于深度学习的蛋白质序列设计方法——ProteinMPNN,由华盛顿大学 David Baker 团队在《科学》杂志上发表。




01

从10000台计算机运行数周
 到几秒即可从头设计蛋白质序列
过去 3 年里,David Baker 实验室一直在探索制造新的蛋白质。1998年,该实验室曾开发出一种蛋白质结构预测算法平台 Rosetta。通过该平台,研究人员构想出一种新蛋白质的形状,即将其他蛋白质的片段拼凑在一起,然后利用软件推导出与形状对应的氨基酸序列。


但是,在实验室制造的过程中,这些蛋白质很少能折叠成预期的形状,甚至可能会折叠成多种形式。因此需要另一个步骤来调整蛋白质序列,使其仅折叠成一个所需的结构。然而,这一步涉及模拟不同序列可能折叠的所有方式,所需时间长且成本很高。据曾在 Baker 实验室工作的研究者透露:“你真的会需要 10,000台计算机运行数周来执行此操作。”


直到2021年,David Baker 团队又介绍了两种机器学习方法,分别是“constrained hallucination”和“in painting”。在研究中,他们设计了100 多种小的“hallucination”蛋白质,发现大约1/5与预测的形状相似。然而,当研究团队指导微生物在实验室中设计蛋白质序列时,150个设计都没有成功。“它们根本没有折叠,只是粘在试管底部。”Baker 说。



与此同时,David Baker 实验室的机器学习科学家 Justas Dauparas,开发出一种名为 ProteinMPNN 的深度学习工具来解决逆折叠问题,确定与给定蛋白质结构相对应的氨基酸序列。这是一种从头设计蛋白质的全新深度学习工具,可以充当使用 AlphaFold 和其他工具过程中的“拼写检查”,在研究人员有了确定的蛋白质结构基础上,推导出折叠成三维结构的氨基酸序列。


Baker团队将 ProteinMPNN 应用于幻觉蛋白质纳米粒子(hallucinated protein nanoparticles),取得了比之前更大的成功。研究人员使用冷冻电镜和其他实验技术确定了30种新蛋白质的结构,其中27种与 AI 主导的设计相匹配。


“Alphafold 通过解决蛋白质结构预测问题,显示出了 AI 以及深度学习在生物学领域中的变革作用,并将生物学带入了一个新的时代。ProteinMPNN 则是为特定任务设计蛋白质序列,是这种范式转变的另一个证明。”DeepMind 的 AI for Science 团队负责人对此表示。而 David Baker 也认为:“(现有的 AI 蛋白质设计)方法已经非常强大了,而且未来它们会变得更强大,问题是你要用它们解决什么问题。”


02

国内外机构
争相布局 AI 蛋白质预测与设计
Baker 团队并不是唯一一个将 AI 应用于蛋白质设计的研究团队。本月一篇发布在 bioRxiv 的一篇评论论文显示,近年来使用各种方法开发的 AI 蛋白质设计工具多达40多种。而且,不止是海外企业和研究机构的新方法层出不穷,国内的研究者们也正在积极投入,快速推动中国的 AI 蛋白质预测与设计研究,很多成果甚至领先于世界。


例如近期,国内蛋白质预测与设计领域的新兴企业分子之心就宣布,其自主研发的基于 AI 的蛋白分子发现、优化与设计平台“MoleculeOS”,首创无需模板的蛋白质配体生成算法,可以生成自然界不存在的、全新的结合蛋白质;而其公布的蛋白质主链结构设计算法,全球首次突破复杂结构的蛋白质主链结构从头设计,可以设计出各种各样自然界不存在的、非常复杂的蛋白质构象,比自然界的蛋白质更稳定。


而这也只是分子之心及 MoleculeOS 平台取得的诸多成果其中之一。目前, MoleculeOS 已经具备全球领先的蛋白质结构及特性预测和蛋白质设计能力,在蛋白质从头设计、蛋白质优化、抗体重设计、蛋白质以及复合物结构预测、蛋白-蛋白对接、蛋白质侧链预测、蛋白质功能预测、蛋白质语言模型等关键算法和模块方面,目前已开发出十余项世界领先的 AI 算法,计算结果远超文献报道及全世界已公开发表的最好结果。

03

从干实验走向湿实验
从实验室走向广阔的工业级应用
科学家们的远见不止于此,将研究成果投入广泛的工业应用才是更长远的目标。Baker 团队就认为,制造一种新型蛋白质是对他们方法的最终测试。Baker 团队中的生物物理学家 Basile Wicky 就表示:“AlphaFold 认为它们研究出的是非常棒的蛋白质,但它们显然在湿实验室中不起作用。”


RaptorX-Contact 方法的发明人、分子之心创始人兼首席科学家许锦波教授也指出,并非所有为蛋白质设计开发 AI 工具的科学家都能轻松获得实验装置。许锦波教授于今年在国内创立 AI 蛋白质设计平台公司“分子之心”,致力于通过顶级 AI 算法为蛋白质的发现、优化与设计带来革命性的变化,进而改变药物研发范式,促进工农业生产、材料设计和环境改善等全领域创新。


芯航资本一直致力于打造“智能+生命科学”交叉科技的早期孵化器平台,专注于在生物科技领域寻找和培养初创型企业,驱动生命科学前沿领域的探索和创新。芯航聚焦生物创新药创新疗法、基因编辑、合成生物、AI 生物计算平台、脑机接口、生物芯片等方向,通过系统的,深度孵化的方法达成生物科技领域的突破创新,并为此构建了覆盖中美两地的投资网络,包括哈佛、MIT、斯坦福、卡耐基梅隆、清华、北大、科大等顶尖高校一流实验室与一流团队项目。着力吸引海外优秀学生回到国内开展创业,为中国生物科技的长远发展贡献顶尖且新鲜的力量。芯航希望,依托中国的学术与产业沃土,开启智能生命科学的大航海时代。


【声明】内容源于网络
0
0
芯航资本
芯航资本
内容 0
粉丝 0
芯航资本 芯航资本
总阅读0
粉丝0
内容0