大数跨境

6+:提高网药预测准确性的机器学习方法

6+:提高网药预测准确性的机器学习方法 中科生信
2021-11-07
2
导读:基于相互作用网络和ontology的用于预测药物-靶点相互作用的机器学习方法

早!本次小编分享一篇在2021年7月28日发表于Bioinformatics杂志的文献《DTI-Voodoo: machine learning over interaction networksand ontology-based background knowledge predictsdrug–target interactions》,影响因子6.937。该文献介绍了一种基于相互作用网络和ontology的用于预测药物-靶点相互作用的机器学习方法——DTI-Voodoo。该算法的优势是:(1)改进了几种先进的方法,将分子特征和功能信息与一个交互网络结合起来,使用神经网络图来预测可能针对特定蛋白质的药物;(2)DTI预测数据集存在一些固有偏差,影响模型的性能,该算法将这种偏差也计算在内,推动了预测的准确性。

# 摘    要 #

在靶标药物相互作用(DTI)中,预测对药物发现和药物再利用具有重要意义。预测DTIs的方法可以是间接的,自上而下的,利用药物的表型效应来识别潜在的药物靶点,也可以是直接的,自下而上的,利用分子信息直接预测结合亲和力。这两种方法都可以结合有关交互网络的信息。

我们开发了DTI-Voodoo作为一种计算方法,将药物的分子特征和本体论编码的表型效应与蛋白质-蛋白质相互作用网络结合起来,并使用图卷积神经网络来预测DTIs。我们证明,药物效应特征可以利用相互作用网络中的信息,而分子特征则不能。DTI-Voodoo被设计用来预测特定蛋白质的候选药物;我们使用公式来表明,常见的DTI数据集包含内在偏差,这些偏差对DTI预测方法的性能评价和比较有重大影响。使用改进的评估方案,我们证明DTI- voodoo显著改进了最新的DTI预测方法。

#介   绍#

药物-靶标相互作用(DTIs)的识别是药物开发的关键步骤;为已批准的药物寻找新的DTIs可以用于药物再用途,要么为已知靶点寻找新药,要么为疾病过程中涉及的新靶点寻找药物。推测药物与靶点之间的相互作用有助于分析和识别潜在的预期或不良药物效应以及预期的治疗效果。用计算方法确定DTIs有助于降低药物开发的成本和风险。

计算方法被广泛应用于DTIs的预测,目前已经发展了许多这方面的计算方法。这些方法可以大致分为“自上而下”和“自下而上”的方法。自上而下的方法从DTI产生的可观察特征开始,如副作用或药物治疗的疾病,并利用这些观察推断可能的分子机制(即相互作用)。自下而上的方法从与药物和蛋白质相关的分子结构或指纹等分子特征出发,并根据这些信息预测相互作用。

自下向上和自上向下的DTI预测方法都有一些优点和局限性。一般来说,自下而上的方法面临着一个挑战,即预测一种化学结构是否与给定的分子特性的蛋白质结合;两个实体是否相互作用不仅取决于实体的分子结构(需要确定结合位点和分子作用力以便准确预测),还取决于蛋白质表达的细胞类型和解剖结构等属性。自上而下的方法使用药物的生理效应信息进行DTI预测,如副作用相似性,这在很大程度上是对从分子属性获得的知识的补充。依赖于分子信息的方法是直接预测两个分子是否会相互作用,而自上而下的方法则是基于更间接的方法,从相互作用产生的可观察的影响中推断出DTI。

这两种方法都可以与网络推理结合使用。用于DTI预测的生物网络包括蛋白质-蛋白质相互作用网络和包括其他几种生物关系类型的网络,包括被代表实体之间的相似性。基于网络的DTI预测方法使用关联罪责原理,并假设如果蛋白质相互作用网络中的许多邻居是药物的靶标,则该蛋白质可能是药物的靶标。基于网络的方法已成功地应用于DTI预测。然而,如果DTIs被认为是药物和蛋白质之间的直接物理相互作用,那么基于网络的罪责关联假说是否正确,或者药物和蛋白质的相互作用是否导致了蛋白质相互作用伙伴的失调,仍然是一个悬而未决的问题。因此产生的影响不是直接的相互作用,而是相互作用的下游后果。

基础数据集产生的潜在偏差可能会影响模型的评价和比较,这对DTI预测提出了挑战。首先,新药物的开发通常是通过改变药物的非功能成分,从而产生两种或更多非常相似的药物,以相同的蛋白质为目标。这会导致偏差,它会导致隐藏副本或高度相似的化合物分布在训练数据集。其次,一些蛋白质(我们称之为中枢蛋白)与药物的相互作用比其他的要明显的多。在STITCH数据库中,5%的蛋白质具有40%的相互作用,其他数据集中也存在类似的分布;优先预测这些蛋白质可能会提高预测性能,但在应用于新蛋白质(即不知道相互作用的蛋白质)时,不能反映实际性能。针对特定蛋白质的药物数量上的这些差异可能是研究偏见的结果,因为更“有价值”的蛋白质涉及更常见的疾病(或药物可以更有利可图地营销的疾病),所以有更多的药物设计来针对它们。这可能会影响常见的评估方案。

我们开发了DTI-Voodoo作为预测DTIs的方法。我们使用基于本体的机器学习方法来编码DTIs的表型结果,并使用深度学习方法来编码分子特征。我们利用蛋白质相互作用网络将两者结合起来,我们利用图神经网络开发蛋白质相互作用网络。我们使用这个模型来测试分子或表型特征是否受益于网络信息。我们进一步评估和比较了DTI- voodoo与几种DTI预测方法,并证明了DTI- voodoo在预测以蛋白质为靶点的药物方面的重大改进。我们还确定和描述了训练和评估DTI预测方法中的几个偏差,并提出了如何避免这些偏差的建议。

DTI-Voodoo:识别以蛋白质为靶点的药物的计算模型

我们开发了DTI-Voodoo作为预测DTIs的计算模型。给定一种蛋白质,DTI-Voodoo将识别和排序可能针对这种蛋白质的药物。作为结构特征,DTI-Voodoo使用了来自SMILES转换器的药物的结构表征和来自DeepGOPlus的蛋白质氨基酸序列的表征。DTI-Voodoo使用基于本体论的机器学习方法DL2Vec和基于本体论的药物和蛋白质注释来学习药物效应和蛋白质功能的表示。

我们构建一个以蛋白质为节点,蛋白质相互作用为边的图,将蛋白质特征映射到每个目标作为节点特征。然后DTI-Voodoo利用图卷积步骤在PPI网络之间传播信息,计算药物和蛋白质表示的相似性,并预测是否存在相互作用。完整的工作流方案如图1所示。

图1. 基于预先训练的可学习特征变换的全DTI预测模型(无论是分子结构还是基于本体的特征)。将转化后的蛋白质符号添加到每个对应的蛋白质中,作为图卷积步骤的节点特征


我们使用不同的方法和数据集评估我们的模型识别DTIs的能力。首先,我们对蛋白质进行交叉验证并验证结果。对蛋白质进行交叉验证的目的是评估模型在识别可能针对“新”蛋白质的药物时的表现,例如,在训练中未见的蛋白质,或针对该蛋白质的药物应该被预测的蛋白质。我们对所有考虑的模型在STITCH数据集上进行了训练、验证和最后测试,使用了一个蛋白分裂的5倍交叉验证;然后,我们选择了性能最好的模型,并在基准数据集上对它们进行5倍蛋白分裂交叉验证,以避免验证过拟合,并产生更真实的测试结果。为了分别评估不同特征的影响,并确定它们是否“定位”在PPI图上(因此可以被图神经网络成功利用),我们分别训练和评估具有不同类型特征的模型,以及包含和不包含PPI图的模型。我们比较了基于分子(MolPred)和基于表型(OntoPred)的预测模型,并将两种类型的特征连接起来。实验结果如表1所示。

表1. 对STITCH和基准数据集的DTI-Voodoo结果进行5倍交叉验证


Protein-centric评估

DTI-Voodoo的目标是找到针对特定蛋白质的候选药物;然而到目前为止,我们没有评估这个应用程序,而是评估DTI-Voodoo如何在所有可能的交互中找到可信的DTIs(因为我们使用MacroAUC作为主要的评估度量)。这种评价与DTI-Voodoo在寻找针对特定蛋白质的药物方面的应用并不相符。为了更好地估计DTI-Voodoo对单个蛋白质靶点的性能,我们使用了蛋白质之间的微平均值并计算MicroAUC。

此外,我们假设,机器学习模型可以利用DTI数据中的偏差来实现相对较高的预测性能,而无需获得具有生物学意义的信号。例如,枢纽蛋白可能有大量的相互作用,或者某些药物可能与许多蛋白质相互作用,即使在没有任何生物学特征的情况下,优先预测这些相互作用也可能提高预测性能。为了验证这一假设,我们设计了一个“naïve”基线模型,仅根据蛋白质已知DTIs的数量预测每种药物的相同蛋白质列表。

我们评估了所有模型在交叉验证中推荐的拆分方案,测量了它们各自的AUROC。我们的实验结果如表2所示;我们计算了所有比较方法的性能。我们发现,与蛋白质分裂相比,药物-靶对分裂在性能上有很大的差异,通常使用药物-靶对分裂可以获得更高的性能。其次,当对相同的方法在蛋白质分裂上进行评估时,我们发现与最初评估每个方法时使用的分裂方案相比,有很大的性能差异。DTI-CDF最初在所有三个分离方案上进行了评估,强调了这一点。虽然DTI-Voodoo在MacroAUC方面提供了与naïve预测器和DTI-CDF相当的性能,但与MicroAUCp相比,它的结果要好得多。我们也发现,使用蛋白质分离方法训练结果通常会导致MicroAUCp高于使用药物对分割方法的训练结果。

表2. 对所有模型在交叉验证中推荐的拆分方案的评估结果

由于不同的拆分方案在性能上的差异很大,我们进一步评估了在其他数据集上训练和评估的额外的DTI和药物靶标亲和预测方法。根据MolTrans的结果,我们对DeepDTI、DeepDTA 、deepconvd - dti和MolTrans本身在BioSnap数据集上进行了重新评估,并将其与我们的“naïve”预测器以及DTI-Voodoo进行比较(见表3)。

表3. BioSnap数据集上DTI- voodoo与最新DTI预测方法的比较


# 结   论 #

我们开发了DTI-Voodoo作为一种机器学习模型,它将分子特征和功能信息与一个交互网络结合起来,使用神经网络图来预测可能针对特定蛋白质的药物。在这项任务中,DTI-Voodoo改进了几种先进的方法。此外,我们还发现,DTI预测数据集存在一些固有偏差,影响模型的性能。这使我们得出结论,DTI预测不是一个单一的计算问题,而是多个问题的集合。DTI预测方法的实验评价必须仔细设计,以反映模型所要解决的问题,对性能结果的解释应与具体问题相一致。

#>>>end




微信号 : 中科生信

致力于提供“一站式”科研定制服务


【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读1.6k
粉丝0
内容580