论文链接:https://www.science.org/doi/10.1126/sciadv.adr2641今年以来,天鹜科技已经完成两轮融资,11月刚刚宣布完成超亿元A轮融资。此前,耀途资本领投天鹜科技种子轮。01 研究背景2024年的诺贝尔化学奖颁发给了DeepMind团队,以奖励该团队开发的AlphaFold2解决了生物学上长达大半个世纪的难题——蛋白质序列到三维结构的预测。在后Alphafold时代,蛋白质科学的关键是什么?一定是蛋白质功能,因为只有具备好的功能(如高活性、高选择性、高稳定性等),蛋白质才能成为商业化的蛋白产品。然而蛋白质功能预测非常困难。一个基本的生物学常识是:一条蛋白质序列只要改变1%,获得的新蛋白活性大幅降低甚至完全没有生物功能的概率达95%,但用AlphaFold2去预测这些序列的结构基本没有变化,这表明蛋白质结构不等于功能,结构是功能的必要非充分条件。为了解决蛋白质功能预测难题,上海交通大学洪亮教授组织的联合团队(上海交通大学自然科学研究院、物理天文学院、药学院、张江高等研究院、生命科学技术学院、上海人工智能实验室、华东理工大学信息与科学工程学院及上海科技大学生命科学与技术学院)在过去几年长期致力于数据收集、清洗、打标签、AI模型探索,打造了蛋白质设计通用人工智能Pro系列。其团队近日在《Science Advances》期刊上发表了《A General Temperature-Guided Language Model to Design Proteins of Enhanced Stability and Activity》,该工作就是一个典型代表。经湿实验检测,在5款蛋白质中(如图一所示),洪亮团队开发的Pro-PRIME模型(Protein language model for Intelligent Masked pretraining and Environment prediction)通过零样本预测技术得到的top-45的单点突变阳性率都超过30%,准确率比传统高通量随机筛选高出十倍以上,其中包括催化活性、热稳定性、极端pH耐受性、合成非天然产物能力等各类型蛋白质功能的优化与提升,具有极强的通用能力。而且通过小样本微调方法,在不到100个湿实验样本下,该模型仅需2-4轮设计就能产生功能非常优异的蛋白质突变体,例如T7 RNA聚合酶经过4轮干湿迭代成功获得了具有高活性和高稳定性的多点突变体,最高的多点突变体Tm高出野生型12.8℃,活性是野生的近4倍,且部分产品性能超越国际领先的生物科技公司统治市场10年之久的同类产品。图一、Pro-PRIME在5款蛋白质上的湿实验结果,其中上面3个蛋白质只做了单点突变,下面两个蛋白质Cas12a和T7 RNA聚合酶在不超过4轮干湿迭代下做到10-15点位突变体。02 应用前景 Pro-PRIME提供了一种全新的蛋白质突变体设计方法,不需要庞大的实验数据积累,极大地提高了突变体筛选的效率和准确性。通过有效减少实验筛选的依赖,Pro-PRIME不仅在突变体的设计上提高了成功率,还为传统方法未能解决的工程难题提供了创新的解决方案。它能够有效预测出一种蛋白质的多种属性,为科学家在不熟悉的蛋白质领域也能获取成功设计提供了宝贵的工具。这项技术的潜力不仅限于目前的研究实例,还可以应用于广泛的工业和医药领域,尤其是在那些需要蛋白质表现出极端温度或环境特性耐受性的场景中。未来,借助这项创新,蛋白质工程将迎来更广泛的应用场景,显著降低实验成本,并加速产品开发进程。这项研究显著推动了蛋白质设计的边界,是一项有望改变行业规则的重要突破。同时,Pro-PRIME的correlation多任务预训练模式,为以后的大模型预训练中引入生物物理先验知识提供了重要借鉴意义。综上所述,Pro-PRIME的创新性通过结合深度学习和大数据资源,为蛋白质工程提供了一种高效且实用的新途径。它不仅提升了蛋白质稳定性和活性设计的成功率,还在资源有限的条件下,提高了实验效率。随着这项技术的持续开发和应用,蛋白质工程领域必将迎来新的突破,推动科学研究和工业应用的蓬勃发展。上海交通大学自然科学研究院/物理与天文学院/张江高等研究院洪亮教授,上海人工智能实验室青年研究员谈攀,上海科技大学刘佳和中国科学院杭州医学院宋杰为通讯作者。上海交通大学物理天文学院博士生姜帆,上海人工智能实验室实习生李明辰,上海科技大学董家君,上海交通大学余元玺和吴邦昊以及中国科技大学孙鑫宇为共同第一作者。本研究获得了国家自然科学基金(12104295),上海市科委计算生物学项目(23JS1400600),上海交通大学科技创新基金(21X010200843)以及重庆市科技创新重大项目(CSTB2022TIAD-STX0017) ,上海人工智能实验室以及上海交通大学高性能计算和学生创新中心的支持。