

Nat Com Sci | 超越折叠：机器学习设计天然无序蛋白

图灵基因

2025-11-28

导读：哈佛大学与西北大学的研究人员开创了一种新方法。他们开发的物理驱动机器学习框架能够设计具有定制特性的内在无序蛋白质，为深入理解其生物学作用及潜在治疗应用铺平道路。

图灵基因掌上高精度数字切片扫描仪, 开启个人显微数智化新时代

微信号:aipathology 邮箱:product@turingene.com

数十年来，科学家一直依靠结构来理解蛋白质功能。AlphaFold等工具彻底改变了研究人员预测和设计折叠蛋白的方式，使得新疗法和酶制剂能够通过计算机模拟进行建模。但当蛋白质拒绝折叠时又会发生什么？近30%的人类蛋白质组由不断变换形态的内在无序蛋白质（IDPs）构成——它们拒绝形成稳定结构，这使得基于人工智能的预测工具始终无法破解其奥秘。

如今，哈佛大学John A. Paulson工程与应用科学学院（SEAS）与西北大学的研究人员开创了一种新方法，为这种生物混沌现象带来了秩序。他们开发的物理驱动机器学习框架能够设计具有定制特性的内在无序蛋白质，为深入理解其生物学作用及潜在治疗应用铺平道路。这项题为“Generalized design of sequence–ensemble–function relationships for intrinsically disordered proteins”的研究已发表于《Nature Computational Science》。

与依赖三维结构模板的传统蛋白质设计方法不同，这种新方法能够有效利用无序结构。“我们要么需要开发更优秀的人工智能模型，要么需要找到一种方法，既能获得精准预测，又能免费获取物理参数。”该研究的资深作者、西北大学化学与生物工程系助理教授Krishna Shrinivas博士如是说。

对标可微分Mpipi力场的实现

该方法的核心在于自动微分技术——这种源自深度学习的数学方法可使计算机自动计算导数。在此应用中，算法通过对分子动力学模拟进行梯度优化，从而筛选出能展现特定整体行为特征的氨基酸序列。

抽取足够代表性的参考总体

研究人员将这一过程比作一个强大的氨基酸序列搜索引擎。该框架通过迭代模拟和调整序列，能够了解单个氨基酸的变化如何影响蛋白质的整体行为，而无需依赖海量的实验数据集。“我们并不想通过收集大量数据来训练机器学习模型以设计蛋白质。”SEAS研究生、共同第一作者Ryan Krueger表示，“我们的目标是利用现有且足够精确的模拟技术，在此模拟层级上实现蛋白质设计。”