本次小编分享一篇于2021年9月17日发表于Brief Bioinform的文献,题目为《STALLION: a stacking-based ensemble learning framework for prokaryotic lysine acetylation site prediction》,影响因子11.622。该文献介绍了一种用于原核赖氨酸乙酰化位点预测的方法。原核赖氨酸乙酰化(Kace)位点的鉴定是生物信息学中的一项具有挑战性的任务。到目前为止,已经开发了几种基于机器学习的方法来识别Kace位点。尽管这些方法具有诱人的优点和性能,但它们也有一定的局限性。因此,本研究提出了一种新的预测工具STALLION (STacking-based predictor for ProkAryotic Lysine AcetyLatION),使用6个原核物种特异性模型来准确识别Kace位点。为了提取Kace位点周围的关键模式,使用了代表三种不同特征的11种不同编码。随后,采用系统的、严格的特征选择方法,分别对5种基于树的集成算法进行了最优特征集的识别,并建立了各自的基线模型。最后,利用基线模型的预测值,使用合适的分类器进行训练,使用叠加策略开发STALLION。实验表明,STALLION在独立测试中显著优于现有的预测器。
摘 要
赖氨酸乙酰化(Lysine acetylation, Kace)是最重要的普遍存在的PTMs之一,在原核生物和真核生物中都高度保守。鉴于乙酰化在细胞生物学和疾病病理中非常重要,识别Kace位点对于理解其调节机制是必要的。
目前,已有十几种Kace预测工具,如PAIL、LysAcet、EnsemblePail、N-Ace、BPBPHKA、PLMLA、PSKAcePred、KAcePred、LAceP、AceK、SSPKA、iPTM-mLys、KA-predictor、ProAcePred、ProAcePred 2.0、Ning和DNNAce等。大多数用于鉴定真核生物中的乙酰化的预测工具,在预测时缺乏物种特异性。而在原核生物中已经发展出了一些用于识别Kace的预测工具。Chen等人开发了一种名为ProAcePred的预测器,用于九种原核生物,古生菌、枯草芽孢杆菌、谷氨酸棒状杆菌、淀粉状Erwinia amylovora、大肠杆菌、考斯特氏Geobacillus kaustophilus、结核分枝杆菌、鼠伤寒杆菌和副溶血性弧菌。随后,同一小组开发了ProAcePred预测器的更新版本,称为ProAcePred 2.0,适用于6种原核生物:枯草芽孢杆菌、谷氨酸C.谷氨酸、大肠杆菌、考斯特氏杆菌、结核分枝杆菌和鼠伤寒链球菌,训练数据集略大于ProAcePred所使用的数据集。这些ML研究为了解原核生物和真核生物底物位点特异性的差异提供了机会。
尽管Kace位点的计算预测已经取得了进展,但仍有一些限制需要解决。首先,大多数最先进的方法使用简单的ML算法,如支持向量机(SVM)或随机森林(RF)来训练模型。由于尖端技术的进步,深度学习(deep learning, DL)、迭代特征表示或基于集成的叠加方法等先进的ML方法可以用来开发更稳健、更稳定的预测器,提高Kace站点的预测性能。其次,现有Kace预测方法所使用的特征空间比较有限。最后,最先进的方法使用简单的特征选择技术来识别最优特征子集。不幸的是,这种简单的方法可能会忽略Kace站点预测中的关键特征。
考虑到这些局限性,我们开发了一种新的基于堆栈的预测器,称为STALLION (stacking-based predictor for ProkAryotic Lysine AcetyLatION),以提高对6种不同原核物种Kace位点的准确预测。本文提出的方法相对于其他方法的主要优点如下:(i)STALLION是第一个基于堆积集成的原核生物Kace位点识别预测器;(ii)我们对每个物种的11种不同编码方案进行了综合评估和比较,试图提取代表广泛序列、特定位置和物理化学特征的模式。随后,我们分别使用三种不同的计算密集方法来识别五种流行的基于树的集成算法的最优特征集,并训练基本分类器;(iii)使用来自基本分类器的预测信息和5倍交叉验证来训练堆栈模型STALLION的合适分类器。在独立数据集上的比较分析表明,该方法显著优于现有的预测器,从而突出了利用我们的系统方法在STALLION中进行Kace预测的重要性。
我们在当前的研究中使用了与ProAcePred 2.0相同的数据集,因为它们是最近构建的,并使用了一种严格的方法来确定最佳长度。一般来说,使用这种高质量的数据集开发预测模型可能有更全面的实际应用。我们使用平衡训练数据集进行预测模型开发,使用非平衡独立数据集检验模型的鲁棒性(robustness)。
研究结果
STALLION的总框架
图1总结了一种基于堆叠集成学习的STALLION框架。它涉及整个工作流程中的三个关键步骤,描述如下:
图1
不同特征编码方法和分类器的性能评价
我们使用5个基于树的集成分类器(RF、GB、ERT、XGB和AB)和11个特征编码(包括基于序列的、物理化学性质的和特定位置的评分矩阵),系统地研究了各种特征编码和分类器在原核生物Kace位点预测中的作用。我们对构建每个物种数据集的每个模型进行了10次随机5次交叉验证,并比较了55个模型(11编码× 5分类器)的性能。从图2可以看出,4种编码(AAI、Zscale、BINA和BLOS)在大多数原核物种(B. subtilis、C. glutamicum、E. coli、G. kaustophilus和M. tuberculosis)中表现相似,且明显优于其他7种编码。然而,我们注意到,对于鼠伤寒沙门氏菌,6种编码获得了相似的性能,并显著高于其他5种编码(AAC、DPC、NRF、GTPC和GDPC)。总的来说,有四种编码(AAI, Zscale, BINA和BLOS)优于其他编码。然而,其他编码也拥有支持Kace站点预测的必要信息。为了了解每个分类器在Kace预测上的性能,我们计算了每个分类器66个模型(11个编码× 6个物种)的平均性能。结果表明,AB、XGB、RF、ERT和GB的平均MCCs分别为0.261、0.255、0.241、0.232和0.230。值得注意的是,所有分类器在Kace位点预测中均表现良好,AB略胜一筹。与其寻找最好的模型,还不如综合上述信息,开发一个健壮的模型。在这项研究中,我们采用了类似于最近研究的叠加方法。
图2
对6个物种的每个分类器的最优模型进行识别
我们应用了三个不同的评分函数来对功能进行排名,每个功能都有其优缺点。例如,F-score和RFIS为所有给定的功能分配一个相对评分。然而,XFIS排除了约70%的特征,并为其余特征指定了一个相对评分。在这里,我们观察到,对于F-score和RFIS,大多数分类器的性能稳步提高,达到了最大的准确性,随后保持在平衡状态。而对于XFIS,无论使用何种分类器,其性能都会缓慢增长,直到达到最优状态,然后随着添加更多特性而恶化。
对于三种不同的方法(F-score、RFIS和XFIS)中的每一种方法,最佳特征集的大小在五个分类器之间有所不同。例如,RF、ERT、GB、XGB和AB分别拥有1000、520、790、260和410个SFS识别的F-score最优特征集。对应的分类器从RFIS得到140、1290、211、120和150D最优特征集,从XFIS得到30、38、31、52和44D最优特征集。同样,三种不同方法中每个分类器的最佳模型显示出不同规模的最优特征集。例如,RF拥有三种具有1000、140和40D最佳特征集的模型。我们基于最大的精度选择最佳模型,对其他分类器采用同样的方法,每个分类器选择最佳的3种模型,并与对照进行性能比较。
从图3可以看出,最优模型的性能始终优于控制模型,这表明了特征选择技术从原始维度中排除不相关信息的必要性。对于3个物种(C.谷氨酸菌、大肠杆菌和结核分枝杆菌),XFIS获得的最优特征集在5个分类器上取得了优于其他分类器(F-score和RFIS)的性能。在两个物种(鼠伤寒沙门氏菌和枯草芽孢杆菌)中,与其他分类器(XFIS和RFIS)相比,F-score提取的最优特征集在5个分类器中取得了较好的性能。然而,对于G. kaustophilus,由F-score得到的最优特征集在RF和ERT分类器上表现出了更好的性能。在从XFIS获取最优特征后,其余三个分类器的性能得到了改善。出乎意料的是,从RFIS得到的最优特性集并没有显示出最好的性能。值得注意的是,五种分类器的最佳模型已被视为每个物种的基线模型,并用于后续分析。总的来说,我们的系统特征选择分析表明,应用不同的评分函数对特征进行排序,并对SFS分别使用不同的分类器来获得其相应的最优特征集是必要的。
图3
构建STALLION
堆叠是一种综合技术:考虑不同的预测模型来生成稳定的叠加模型。该方法采用了一种有效的方案来降低各种预测模型的泛化错误率。将5个基线模型的预测值(Kace和class label的预测概率)进行组合,生成10D特征向量。与之前的方法不同,我们使用一个新的10D特征向量进行训练,使用10个随机的5倍交叉验证(图4)系统地评估了6个不同的分类器。结果表明,5个分类器(RF、ERT、AB、XGB和SVM)获得了相似的性能,略优于GB。在这5个分类器中,我们选择了枯草芽孢杆菌(B. subtilis)、谷氨酸芽孢杆菌(C. glutamicum)、考斯特氏菌(G. kaustophilus)3种AB分类器,结核病芽孢杆菌(M. tuberculosis)和鼠伤寒杆菌(S. typhimurium)2种SVM分类器,大肠杆菌(E. coli)XGB分类器,其分类性能略优于同类分类器。6种种模型通常被命名为STALLION,枯草芽孢杆菌的ACC、MCC和AUC分别为0.403、0.700和0.745;谷氨酰胺分别为0.513、0.756和0.809;大肠杆菌分别为0.357、0.678和0.733;kaustophilus的分别为0.603、0.801和0.836;结核分枝杆菌分别为0.557、0.779、0.782;鼠伤寒链球菌的检出率分别为0.571、0.785和0.770。
图4
STALLION与单一特征模型的比较
为了显示我们提出的堆叠方法的优势,我们比较了STALLION与单一的基于特征的模型。我们从图2中选择了前10个基于单一特征的模型,并将它们与6个物种的STALLION进行了比较。图5显示,STALLION显著优于单一特征模型,枯草芽孢杆菌的MCC提高6.9-9.4%,谷氨酸芽孢杆菌提高8.8-11.1%,大肠杆菌提高3.7-6.1%,考斯特氏菌提高24.9-28.2%,结核分枝杆菌提高8.6-11.7%,鼠伤寒链球菌提高26.2-29.3%。与基于单一特征的模型相比,STALLION的优越性能主要是由于我们的方法引入了新颖性,包括(i)特征融合策略;(ii)从混合特征中为每个分类器独立选择最优的特征集,并分别构建它们各自的基线模型;(iii)选择合适的分类器进行叠加模型构建。
图5
功能贡献分析
为了了解不同的特征在每个物种的最佳特征集中的贡献,我们分析了它们的组成和分布。值得一提的是,五种分类器模型对每种物种有不同的最优特征子集。我们没有关注每一个子集,而是考虑了最优特征子集的最大大小,该特征子集可能包括5个物种(枯草芽孢杆菌、谷氨酰胺C. coli、结核分枝杆菌和鼠伤寒杆菌)的其他4个子集。以谷氨酸菌为例,RF、ERT、GB、XGB和AB分别包含30、38、31、52和44D最优特征子集。在这里,52D有其他特征子集。然而,在G. kaustophilus中,不同的最优子集被组合在一起来研究它们的作用。
从图6可以看出,在最优特征集中,6种物种的特征分布存在显著差异;然而,也有一些微妙的相似之处。其中,AAI分别占枯草芽孢杆菌、谷氨酸芽孢杆菌、大肠杆菌、考斯特氏菌、结核分枝杆菌和鼠伤寒杆菌最优特征的22.4%、59.6%、44.2%、28.8%、50.0%和24.4%。这一结果表明AAI特征对6个物种的贡献是重要的,表明它们在Kace预测中至关重要。六种编码(AAC, DPC, CKSAAGP, CTF, Zscale和BLOS)一致贡献了所有物种的最佳特征集。尽管如此,他们之间的贡献水平不同,表明在Kace预测中发挥了支持作用。此外,我们还观察到,GTPC和gpc、GTPC、NRF和GTPC和BINA分别对谷氨酸C.谷氨酰胺、大肠杆菌、考斯特氏菌和结核分枝杆菌的最终预测没有贡献。总体而言,除AAI外,其他特征贡献在不同物种之间存在较大差异,这表明这些物种的Kace位点可能具有不同的特征。
图6
使用独立测试进行性能验证
我们进一步使用独立的数据集对STALLION进行了评估,并与现有方法进行了性能比较。自2009年以来,已经报道了几种计算工具用于Kace站点预测。值得注意的是,Chen等人最近使用独立数据集评估了特定物种的ProAcePred 2.0预测器,并与现有方法(包括特定物种的ProAcePred、一般预测器,如ensemble PSKAcePred、Phosida和PLMLA)进行了性能比较。结果表明,ProAcePred 2.0显著优于通用预测因子及其之前版本的ProAcePred。因此,本研究仅考虑ProAcePred 2.0进行比较,排除了其他方法,原因如下:(i)物种特异性预测因子与一般预测因子的比较不公平,这从以往的研究中可以看出;(ii) ProAcePred 2.0是ProAcePred的升级版本。
将每个物种的独立数据集提交到ProAcePred 2.0 web服务器,并根据给定的默认阈值计算预测结果。值得注意的是,ProAcePred 2.0返回Kace站点及其预测概率值,但不返回非Kace预测概率值。因此,用部分概率信息计算AUC值可能是不可行的。然而,我们从MCC的角度比较了两种方法之间的性能,MCC是处理不平衡数据集时的一种直观和直接的度量,如上文所述。我们的评价结果显示,STALLION对枯草芽孢杆菌、谷氨酸芽孢杆菌、大肠杆菌、考斯特氏菌、结核分枝杆菌和鼠伤寒杆菌的MCC分别达到0.295、0.329、0.390、0.259、0.380和0.202(图7)。STALLION的MCC值比ProAcePred 2.0(枯草芽孢杆菌、谷氨酸芽孢杆菌、大肠杆菌、考斯特氏菌和结核分枝杆菌)高出20.0%,鼠伤寒杆菌的MCC值高出9.1%。STALLION的性能优于ProAcePred2.0,原因如下:(i)与ProAcePred2.0不同,我们在交叉验证中识别了KNN编码的过拟合性质,通过系统分析将KNN特征编码从叠加框架中剔除;(ii)与ProAcePred 2.0的简单特征选择方法不同,我们采用了一个严格的过程,利用三个不同的评分函数和SFS来独立地为每个分类器识别最优特征集,这是耗时的;(iii)与ProAcePred 2.0中的单一模型不同,我们的叠加策略集成了5个基于树的集合基线模型,从而获得更准确的Kace站点预测。
图7
就像STALLION和最佳单特征模型的交叉验证性能比较一样,我们进行了独立测试。从图8中可以看出,STALLION的MCC优于单一特征模型,枯草芽孢杆菌的MCC比单一特征模型高2.39-10.68%,谷氨酸芽孢杆菌的MCC比单一特征模型高1.18-6.08%,大肠杆菌的MCC比单一特征模型高4.0-9.5%,考斯特氏菌的MCC比单一特征模型高2.5-8.7%,结核分枝杆菌的MCC比单一特征模型高3.51-10.89%,鼠伤寒链球菌的MCC比单一特征模型高11.29-19.54%。这些结果再次强调了我们系统方法在模型构建中的重要性。
图8
>>>end
中科生信
致力于提供“一站式”科研服务

