大数跨境
0
0

APSB | MF-SuP-pKa: 一种基于多精度学习和子图池化的通用pKa预测模型

APSB | MF-SuP-pKa: 一种基于多精度学习和子图池化的通用pKa预测模型 DrugFlow
2022-11-24
2
导读:该论文提出了一种将化学领域知识和图神经网络算法相结合的通用pKa预测模型MF-SuP-pKa,与现有的开源模型相比适用范围更广,使得多步电离预测成为可能。
(全文共有2663字,预计阅读7分钟)
2022年11月,碳硅智慧联合浙江大学在Acta Pharmaceutica Sinica B(简称APSB)期刊发表论文《MF-SuP-pKa: Multi-fidelity modeling with subgraph pooling mechanism for pKa prediction》。碳硅智慧首席科学家,浙江大学药学院侯廷军教授为该文章的通讯作者。该论文提出了一种将化学领域知识和图神经网络算法相结合的通用pKa预测模型MF-SuP-pKa,在微观pKa(micro-pKa)和宏观pKa(macro-pKa)的预测实验中均取得了最优性能,与现有的开源模型相比适用范围更广,使得多步电离预测成为可能。


图. APSB官网

研究背景

酸解离常数(pKa)是反映化合物电离能力的关键参数,决定了药物在生理环境下的存在形式,进而影响其体内吸收、分布、代谢、排泄等药代动力学性质,对先导化合物优化具有重要的指导意义。由于实验测定方法耗时耗力,且无法应用于水溶性或稳定性差的小分子,开发快速、准确的pKa预测模型具有重要的应用价值。目前pKa的准确预测仍然具有挑战性。Graph-pKa和MolGpKa是两个典型的基于图神经网络(GNN)的工作,充分证明了GNN的潜在优越性,但它们的适用范围较为有限,仅能预测中性分子的pKa,不能处理多步电离问题;其中Graph-pKa将微观pKa的预测定义为节点回归任务,可能会损失解离官能团的语义信息,导致泛化能力不佳。


针对上述不足,MF-SuP-pKa实现了化学领域知识和深度学习算法的有机结合:(1)基于子图池化(subgraph pooling, SuP)机制提高模型对分子局部和全局信息的表征能力;(2)利用解离反应的可逆性进行数据增强(data augmentation, DA),将模型适用范围拓展至带电分子;(3)采用多精度学习(Multi-fidelity learning,MFL)的训练策略充分利用高-低精度数据集,有效提高了模型的泛化能力。

模型简介

MF-SuP-pKa模型的训练和预测流程如图1所示。模型首先在低精度ChEMBL数据集上预训练,再迁移到高精度DataWarrior数据集上微调。
图1. MF-SuP-pKa模型架构示意图:(A)多精度学习流程;(B)pKa预测流程
在ChEMBL数据集中,作者采用了知识引导的数据增强(图2),将质子化的碱性位点定义为酸性位点,脱质子化的酸性位点定义为碱性位点。根据解离反应的可逆性,同一个共轭酸碱对的酸性和碱性pKa数值应是相同的,该策略可以丰富低精度数据集中的化合物类型,从而有利于下游任务的预测。
图2. 知识引导的数据增强示意图(实线表示原有数据,虚线表示新增数据)
基于MF-SuP-pKa的pKa预测流程包括四个步骤:
  1. 图表征:输入小分子SMILES,根据SMARTS列表识别解离位点并构建分子图,包括节点特征,边特征,邻接矩阵和节点间拓扑距离矩阵。
  1. 图卷积:采用两层Attentive FP进行消息传递更新节点表征:
  1. 子图池化:将每个解离位点及其k阶邻(k的取值根据超参数优化实验确定)定义为子图(),每张子图对应一个和分子中每个原子相连的虚拟节点。首先,将子图内原子()表征根据距离衰减相加得到虚拟节点的初始表征:
式中,是一个常数,表示子图内节点和解离中心之间的最短距离。
其次,将原子表征和子图表征合并获得,并用邻接矩阵表示从原子节点到子图节点的有向边:
最后,采用两层Attentive FP利用分子内所有原子的信息更新虚拟节点表征;
  1. pKa预测:将更新后的子图虚拟节点表征输入全连接层,预测micro-pKa,再通过近似公式转化为macro-pKa,在模型训练时将macro-pKa和已知标签比较,在实际应用时可向用户同时提供micro-pKa和macro-pKa的预测结果:


性能评估

  1. Macro-pKa预测
内部测试集:如表1所示,MF-SuP-pKa在酸性和碱性数据集中的性能均显著优于基准模型MolGpKa与Graph-pKa。MF-SuP-pKa不仅将适用范围拓展到了带电分子,即使在中性测试集上也实现了大幅度的性能提升。此外,MF-SuP-pKa的10次独立运行结果的标准差显著降低,说明模型具有更好的鲁棒性。
表1. 不同模型在内部测试集中的Macro-pKa预测性能
外部测试集:如表2所示,除了在SAMPL6中性测试集上的MAE指标外,MF-SuP-pKa的性能均为最优,证明模型在真实应用场景下同样有效。MAE指标较差的原因主要在于模型对SAMPL6-SM21预测的绝对误差较大。长共轭效应、分子内氢键、非常见官能团、插烯作用等因素可能导致预测难度增大而引入较大误差。
表2. 不同模型在外部测试集中的Macro-pKa预测性能
    • Micro-pKa预测
MF-SuP-pKa对不同强度解离位点的micro-pKa具有优异的区分能力。如图3所示,MF-SuP-pKa在酸性和碱性分子中各有1次和7次超过了Graph-pKa,仅有2次在碱性分子中劣于Graph-pKa。值得注意的是,MF-SuP-pKa所用的 pKa实验数据仅为Graph-pKa的1/3左右。
图3. 模型对micro-pKa的预测性能比较(纵坐标表示模型预测和专家标注的最强解离位点一致的分子个数,多质子酸性和碱性分子共有4个和17个)

消融实验

消融实验证明,多精度学习(MFL)、子图池化(SuP)和数据增强(DA)策略均对模型的性能提升有效(表3)。其中,MFL和DA缓解了数据稀缺问题,SuP能够更好地捕获与pKa相关的化学环境信息。MFL能够有效避免自监督预训练可能导致的负迁移(negative transfer)问题。从不同子集的预测结果来看,DA策略不仅提高了模型对带电分子的预测能力,中性分子也有所获益。
表3. MF-SuP-pKa消融实验结果


结论

综上所述,本文提出了一种新型的基于GNN的pKa预测模型MF-SuP-pKa,将化学领域知识通过数据增强和子图池化的方式有机结合到现有的GNN框架中,并通过多精度学习有效提高了模型对少量高精度数据的拟合能力。广泛的内部和外部测试实验表明,MF-SuP-pKa与基准模型相比具有更好的泛化能力和鲁棒性。此外,MF-SuP-pKa保留了带电分子的质子化状态,为多步电离预测提供新的策略。与SOTA模型Graph-pKa相比,MF-SuP-pKa仅采用1/3左右的实验数据实现了相当甚至更优的性能,可以预期随着pKa实验数据质量和数量的增长,模型性能还有较大的提升空间。


该论文的代码已经开源,请参考https://github.com/wujialu/MF-SuP-pKa。DrugFlow平台后续将在ADMET模块中集成MF-SuP-pKa模型,向用户提供更加完善的成药性预测功能,帮助用户快速开发具有目标属性的候选药物分子。
参考文献
Wu J, Wan Y, Wu Z, et al. MF-SuP-pKa: multi-fidelity modeling with subgraph pooling mechanism for pKa prediction[J]. Acta Pharmaceutica Sinica B, 2022.
https://www.sciencedirect.com/science/article/pii/S2211383522004622
如果您对该模型有兴趣,可以在公众号留言加小编微信,拉您入群。

关于碳硅智慧 (www.carbonsilicon.ai)

碳硅智慧是一家聚焦于新药研发的科技公司,我们的定位是新药研发领域的人工智能基础设施和服务提供商。希望将最先进的生命科学技术与人工智能等信息科学技术深度融合,面向新药研发领域,利用人工智能、物理计算,以及自动化软硬件技术,三轮驱动,通过提高新药研发领域生产数据、管理数据以及对数据进行AI建模的能力,将新药研发的各个环节数字化和智能化,解决新药研发难题。

关于DrugFlow (www.drugflow.com)

DrugFlow是由碳硅智慧研发的AI驱动的新药发现SaaS平台,其创造性地将人工智能与物理计算技术深度结合,在提升底层计算模型精度的同时,还提供了优秀的数据管理能力,以此构建了一个涵盖靶标发现与验证,先导化合物发现和先导化合物优化等药物发现全过程的一站式计算平台。

【声明】内容源于网络
0
0
DrugFlow
关注AI驱动的新药研发(AIDD)方向,提供有价值的科研资讯和服务。
内容 31
粉丝 0
DrugFlow 关注AI驱动的新药研发(AIDD)方向,提供有价值的科研资讯和服务。
总阅读20
粉丝0
内容31