作为生命活动的体现者和承担者,蛋白质在人类社会的生产和生活中扮演了重要的角色,近半个世纪以来,科学家们一直在孜孜不倦地研究如何理解和运用它。而在过去5-7年里,RaptorX-Contact、AlphaFold 等 AI 工具的出现,颠覆了蛋白质预测领域的研究范式,让人类进一步加深对生命的理解的同时,也为应用范围更广泛的蛋白质设计开启了一扇大门。现在,越来越多的研究者正在尝试运用 AI 设计创造出自然界中没有的蛋白质,进而将其应用在人类社会的方方面面,包括开发出更多疫苗、清理有毒废物、加快癌症治疗研究、开发全新的可持续生物材料等等。
今年六月,韩国监管机构批准了首款由人类设计的新型蛋白质制成的新冠肺炎疫苗,该疫苗基于一种球形蛋白质“纳米颗粒”。但这种新型蛋白质的研发,耗费了众多研究人员近十年的反复试错,成本高昂。
仅仅过去了三个月,就有科学家运用 AI 在几秒钟之内“原创”设计出类似的、自然界中原本不存在的蛋白质了。这一最新的研究成果是一种基于深度学习的蛋白质序列设计方法——ProteinMPNN,由华盛顿大学 David Baker 团队在《科学》杂志上发表。
但是,在实验室制造的过程中,这些蛋白质很少能折叠成预期的形状,甚至可能会折叠成多种形式。因此需要另一个步骤来调整蛋白质序列,使其仅折叠成一个所需的结构。然而,这一步涉及模拟不同序列可能折叠的所有方式,所需时间长且成本很高。据曾在 Baker 实验室工作的研究者透露:“你真的会需要 10,000台计算机运行数周来执行此操作。”
直到2021年,David Baker 团队又介绍了两种机器学习方法,分别是“constrained hallucination”和“in painting”。在研究中,他们设计了100 多种小的“hallucination”蛋白质,发现大约1/5与预测的形状相似。然而,当研究团队指导微生物在实验室中设计蛋白质序列时,150个设计都没有成功。“它们根本没有折叠,只是粘在试管底部。”Baker 说。

与此同时,David Baker 实验室的机器学习科学家 Justas Dauparas,开发出一种名为 ProteinMPNN 的深度学习工具来解决逆折叠问题,确定与给定蛋白质结构相对应的氨基酸序列。这是一种从头设计蛋白质的全新深度学习工具,可以充当使用 AlphaFold 和其他工具过程中的“拼写检查”,在研究人员有了确定的蛋白质结构基础上,推导出折叠成三维结构的氨基酸序列。
“Alphafold 通过解决蛋白质结构预测问题,显示出了 AI 以及深度学习在生物学领域中的变革作用,并将生物学带入了一个新的时代。ProteinMPNN 则是为特定任务设计蛋白质序列,是这种范式转变的另一个证明。”DeepMind 的 AI for Science 团队负责人对此表示。而 David Baker 也认为:“(现有的 AI 蛋白质设计)方法已经非常强大了,而且未来它们会变得更强大,问题是你要用它们解决什么问题。”
芯航资本一直致力于打造“智能+生命科学”交叉科技的早期孵化器平台,专注于在生物科技领域寻找和培养初创型企业,驱动生命科学前沿领域的探索和创新。芯航聚焦生物创新药创新疗法、基因编辑、合成生物、AI 生物计算平台、脑机接口、生物芯片等方向,通过系统的,深度孵化的方法达成生物科技领域的突破创新,并为此构建了覆盖中美两地的投资网络,包括哈佛、MIT、斯坦福、卡耐基梅隆、清华、北大、科大等顶尖高校一流实验室与一流团队项目。着力吸引海外优秀学生回到国内开展创业,为中国生物科技的长远发展贡献顶尖且新鲜的力量。芯航希望,依托中国的学术与产业沃土,开启智能生命科学的大航海时代。


