大数跨境

基于可解释的机器学习模型预测溃疡性结肠炎的衰老相关基因鉴定

基于可解释的机器学习模型预测溃疡性结肠炎的衰老相关基因鉴定 中科生信
2025-04-25
2
导读:4+!!! 机器学习+实验验证

今天小编和大家分享一篇253发表在Journal of Inflammation Research IF: 4.20)杂志的文章《Identification of Senescence-Related Genes for the Prediction of Ulcerative Colitis Based on Interpretable Machine Learning Models》。作者通过GEO数据库基于可解释机器学习模型研究UC发病机制中细胞衰老的分子机制,为指导UC患者的诊断和治疗策略提供新的途径。

背景

溃疡性结肠炎(UC)是一种慢性复发性炎症性肠病(IBD),主要影响结肠和直肠,呈弥漫性浅表炎症。常见症状包括慢性腹泻、血便、腹痛和体重减轻。UC的发病率和患病率在全球范围内呈上升趋势,长期UC患者罹患结直肠癌的风险升高,10年后每年以0.5%-1%速度稳步上升。因此,深入了解UC的病理和分子特征对于推进研究和改善临床管理至关重要。

UC的确切病因尚未完全明了,涉及环境因素、遗传学、感染性病原体、肠道微生物群、免疫调节失调和肠上皮损伤等复杂的相互作用。衰老细胞释放各种生物活性分子,加剧炎症并促进周围细胞的衰老。相反,炎症会加速免疫细胞衰老,损害免疫功能。值得注意的是,UC患者结肠组织中DNA损伤的积累是衰老的一个重要标志。此外,研究还发现肠道细胞衰老与结肠炎症之间存在新的联系。例如,研究表明核酸镰刀菌可通过TIMELESS介导的衰老途径诱导DNA损伤和细胞衰老,同时在UC模型的结肠粘膜中观察到端粒过短的现象。

本研究旨在通过确定与衰老相关的关键基因和开发具有潜在临床应用价值的诊断模型,阐明细胞衰老在UC中的作用。

方法:

1.衰老相关DEG的数据预处理和鉴定;

2.UC中衰老亚型的构建;

3.衰老相关UC亚组之间的不同免疫模式

4.使用机器学习算法识别特征生物标志物;

5.LR模型的构建和评估;

6.特征生物标志物验证和有效性评估;

7.活动UC结肠粘膜浸润与衰老之间的关联

8.UC患者的免疫浸润情况

研究结果:

1.衰老相关DEG的数据预处理和鉴定

分析了从GSE87466GSE75214数据集中提取的161UC32hC患者结肠组织的基因表达谱。在主成分维度上按数据集而不是样本类型进行初始聚类揭示了主要的批次效应,数据源影响掩盖了样本类型(图 1A)。批次校正后,样品主要按UC状态与HC进行聚类,表明样品类型是影响变异的主要因素(图 1BC)。校正后分析确定了703DEGs(图 1DE)。对DEGs进行功能富集和KEGG通路分析。生物过程(BP)富集主要涉及对细菌分子和脂多糖的反应,以及白细胞和中性粒细胞迁移,以及细胞因子介导的信号通路(图 1F)。在质膜的外侧、分泌颗粒膜、细胞的顶端部分和含有胶原蛋白的细胞外基质中观察到细胞成分(CC)富集(图 1G)。分子功能(MF)富集侧重于免疫受体活性、趋化因子活性和趋化因子受体结合(图 1H)。KEGG分析中突出显示的前20种代谢途径包括IL-17信号传导、TNF信号传导和NF-kappa B信号传导途径(图 1I)。

2.UC中衰老亚型的构建

为了阐明衰老在UC发展中的作用,将DEGs866个衰老相关基因的列表相交,得到48个衰老相关DEGssene-DEGs)(图 1J)。在STRING数据库中分析这些基因以构建PPI网络(图 2A)。使用MCODE插件识别基因簇,重点关注得分最高的模块。对该模块中的14个基因进行了相关性分析,以评估衰老在UC进展中的作用(图 2B)。此外,基因关系网络图揭示了sene-DEGs之间显著的相互联系,表明这些衰老相关基因之间存在很强的协同作用(图 2C)。

基于14sene-DEGs,无监督聚类分析将UC患者分为两个不同的亚型,12(图 2D-F)。热图分析突出了这些亚型之间基因表达谱的显著差异(图 2G)。虽然14sene-DEGs的表达水平变化很明显,但ABCB1GJA1表达的差异没有达到统计学意义(图 2H)。

进行GSVA以探讨两种亚型之间功能和通路富集的差异。亚型1在与初级活性跨膜转运蛋白活性、分子内氧化还原酶活性、氧化还原酶活性、有机酸代谢、NADP 代谢、单羧酸代谢、硫醇酯水解酶活性和脂肪酸代谢相关的途径中表现出上调。相反,亚型2在次级腭发育、钙离子输入胞质溶胶、内皮细胞凋亡负调节、骨骼肌收缩调节、自然杀伤细胞活化负调节和鞘脂结合等途径中表现出上调(图 2I)。

KEGG通路分析进一步显示,亚型1具有上调的代谢途径,包括糖酵解和糖异生、丙酮酸代谢、丙酸代谢、氧化磷酸化、脂肪酸代谢以及柠檬烯和蒎烯降解。相比之下,亚型2表现出与 MAPK 信号传导、JAK/STAT信号传导、ECM受体相互作用和趋化因子信号传导相关的升高通路(图 2J)。

3.衰老相关UC亚组之间的不同免疫模式

免疫因子在UC中起着关键作用,而细胞衰老是衰老和年龄相关疾病的重要驱动因素,是UC病理学的核心。炎症和衰老之间的相互作用形成了一个复杂的、自我延续的循环。为了阐明UC患者细胞衰老与免疫功能之间的关系,分析了亚型12的免疫细胞分布和活性(图 3A)。图3BC说明了28种免疫细胞类型之间的免疫细胞数量差异和相关性。亚型1表现出活化的树突状细胞、CD56明亮自然杀伤细胞、中枢记忆CD8 T细胞、未成熟树突状细胞、记忆B细胞、浆细胞样树突状细胞、17T辅助细胞和2T辅助细胞的浸润。相比之下,亚型2显示嗜酸性粒细胞、肥大细胞、髓源性抑制细胞(MDSC)和调节性T细胞的存在增加(图 3C)。

免疫相关基因表达的进一步分析显示,免疫检查点相关基因,包括CD27CD40CD86CTLA4HAVCR2在亚型2中显著上调。这表明与衰老相关的亚型1可能从基于免疫的疗法中受益更多(图 3D)。此外,大多数免疫激活相关基因(图 3E)和免疫抑制相关基因(图 3F)在亚型2中上调,表明与亚型1相比,免疫反应更明显。

4.使用机器学习算法识别特征生物标志物

利用各种机器学习算法(AdaBoostNaïve BayesDTKNNLightGBMRFSVM 和 XGBoost)来识别与UC相关的特征基因。表1总结了每种算法的性能指标。所有型号的回收率均超过50%。图 4A-H描述了每种算法的14个基因的ROC曲线和重要性图。其中,LightGBMAUC值最高,为0.978,而AdaBoost的准确率(0.8426)、kappa0.4894)和F1分数(0.9040)最高。

Table 1. Comparison of the Diagnostic Efficacy Among Eight Distinct Machine Learning Models

ML Algorithms

Accuracy

Kappa

Sensitivity

Specificity

Precision

Recall

F1

AUC

Decision Tree

0.6759

0.2652

1

0.2391

0.6392

1

0.7799

0.82

SVM

0.8148

0.4395

1

0.3548

0.7938

1

0.8851

0.969

Naïve Bayes

0.787

0.3959

1

0.3235

0.7629

1

0.8655

0.961

LightGBM

0.8241

0.4554

1

0.3667

0.8041

1

0.8914

0.978

Random Forest

0.7963

0.4098

1

0.3333

0.7732

1

0.8721

0.978

KNN

0.8148

0.4395

1

0.3548

0.7938

1

0.8851

0.968

Adaboost

0.8426

0.4894

1

0.3929

0.8247

1

0.904

0.972

XGBoost

0.8333

0.472

1

0.3793

0.8144

1

0.8977

0.972


5.LR模型的构建和评估

基于变量重要性分析,通过选择LightGBMAdaBoost共有的前五个sene-DEGsABCB1LCN2HIF1A来确定最终的特征基因集。使用这些基因构建logistic回归(LR)模型,最终风险评分计算为(-1.9777 * ABCB1+1.0733 * LCN2)。从GSE87466数据集的LR模型生成的列线图如图5A 所示。如图 5B所示,与GSE87466数据集中的HC相比,UC患者表现出的风险评分明显更高。该模型的拟合用1000bootstrap样本进行了验证,校准曲线(图 5C)证实了LR模型的稳健预测准确性。决策曲线分析(DCA)一致表明,该模型的预测为UC患者提供了临床益处,基于模型的决策曲线保持在参考线以上(图 5D)。该模型通过10倍交叉验证实现了0.985AUC(图 5E)。此外,GSE75214数据集的校准和DCA曲线也表明具有很强的诊断性能(图 5FG),AUC0.979(图 5H)。UC患者的风险评分大大高于GSE75214中健康对照的风险评分(图 5I)。

6.特征生物标志物验证和有效性评估

GSE87466数据集的ROC分析显示ABCB1AUC值为0.971LCN2AUC值为0.954(图 6AB),表明它们对UC的有效诊断潜力。用于测试的GSE59071数据集证实UC患者的LCN2表达升高和ABCB1水平降低(图 6C)。在这组中,ABCB1LCN2AUC值分别为0.9780.928(图 6DE)。使用GSE206285数据集进行的外部验证还表明,UC患者表现出较高的LCN2表达和较低的ABCB1表达水平(图 6F)。该验证的AUC值为ABCB10.981LCN20.882(图 6GH)。对活动性UC患者病变结肠组织的分析显示,与非炎症组织相比,LCN2水平增加,ABCB1水平降低(图 6I)。此外,与非活动性UC患者相比,活动性UC患者的LCN2水平显着升高,而ABCB1表达未显示出统计学上的显著变化(图 6J)。

人体组织验证进一步支持了这些结果,在UC结肠组织中,ABCB1显著下调,LCN2显著上调(图 7AB)。

7.活动性UC结肠粘膜浸润与衰老之间的关联

生物制剂,包括TNF-α抑制剂,如戈利木单抗(GLM)和IL-12/IL-23抑制剂,如乌司奴单抗(Ust),已被确定为中度至重度UC的一线治疗。使用GSE92415GSE206285数据集评估这些生物制剂对细胞衰老的影响。

Ust治疗之前,粘膜愈合组和无反应者之间未观察到ABCB1LCN2表达的显着差异(图 8A)。此外,对Ust有反应的UC患者ABCB1LCN2的基线表达模式与无反应者相似(图 8B)。

对于GLM治疗,与HC相比,活动性UC患者的ABCB1表达显著降低,而LCN2水平显著升高(图 8C)。用GLM治疗后,临床反应组的ABCB1表达显著增加,LCN2水平降低(图 8D)。

9.UC患者的免疫浸润情况

为了进一步了解UC中的免疫微环境,分析了免疫细胞的分布和活性。UCHC患者的免疫细胞分布如图 9A所示。图 9B显示了28种免疫细胞类型之间的相关性,图 9C突出显示了各组之间免疫细胞数量的差异。与HC相比,UC患者的结肠组织表现出更高水平的浸润活化B细胞、活化的CD4CD8 T细胞、中枢记忆CD4 T细胞、效应记忆CD8 T细胞、未成熟的树突状细胞、肥大细胞、髓源性抑制细胞(MDSC)、中性粒细胞和调节性T细胞。

对免疫细胞与sene-DEGs之间关系的进一步分析揭示了显著的关联。ABCB1与中枢记忆CD8 T细胞和MDSCs的相关性最强(图 9D),而LCN2与效应记忆CD8 T细胞和T滤泡辅助细胞的相关性最强(图 9E)。



【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读1.5k
粉丝0
内容580