大数跨境

基于机器学习算法的糖尿病肾病肾小球损伤诊断生物标志物的识别与验证

基于机器学习算法的糖尿病肾病肾小球损伤诊断生物标志物的识别与验证 中科生信
2024-07-26
3
导读:基于机器学习算法的糖尿病肾病肾小球损伤诊断生物标志物的识别与验证
大家好!今天小编和大家一起分享一篇20225月发表在Endocrinology杂志的文章《Identification and Verification of Diagnostic Biomarkers for Glomerular Injury in Diabetic Nephropathy Based on Machine Learning Algorithms》。

背景

糖尿病肾病(DN)是终末期肾病的严重原因,导致沉重的经济和医疗负担。肾小管间质病变、肾小球基底膜增厚、系膜基质积聚和结节性肾小球硬化是DN的基本病理特征。目前的治疗策略是加强血糖控制或降低肾小球囊内压以减缓肾损伤的进展。事实上,由于糖尿病穿刺的个体异质性,并非所有患者都能从这些药物中受益。由于生物信息学分析和高通量测序技术的进步和广泛应用,可以从公共数据库中轻松获得全基因组表达谱,并在R平台上进行分析和可视化。高通量微阵列技术已鉴定出参与 DN 起始和进展的基因表达谱的变化
根据附图S1所示的流程图,获取并分析了DN患者和正常样本的基因表达谱,以鉴定差异表达基因(DEGs)。确定了高度相关的模块以确定关键生物标志物,并基于生物标志物开发了诊断模型。此外,还进行了富集分析,以探索DN中鉴定出的生物标志物的潜在机制。它特别说明了生物标志物与免疫细胞浸润之间的关系。

方法

1. 数据收集和预处理

从基因表达综合数据库(http://www.ncbi.nlm.nih.gov/geo/)下载了15个人类微阵列数据集,即GSE96804GSE47183-GPL11670GSE47183-GPL14663GSE99339-GPL19109GSE99339-GPL19184GSE104948-GPL22945GSE104948-GPL24120GSE30122GSE1009GSE30528GSE30529GSE47184-GPL11670GSE47184-GPL14663GSE104954-GPL22945GSE104954-GPL24120。表1提供了收集数据集的更多详细信息。通过替代变量分析(SVA)算法消除批量效应后,将7个肾小球DNGDN)数据集(GSE96804GSE47183-GPL11670GSE47183-GPL14663GSE99339-GPL19109GSE99339-GPL19184GSE104948-GPL22945GSE104948-GPL24120)、3GDN数据集(GSE30122GSE1009GSE30528)和5个肾小管间质DNTDN)数据集(GSE30529GSE47184-GPL11670GSE47184-GPL14663GSE104954-GPL22945GSE104954-GPL24120)合并并用作GDN分别是训练队列、GDN 测试队列和 TDN 测试队列。通过主成分分析(PCA)可视化DN和正常样品之间的分布模式。

2. DEG的识别

使用 limma R 包检测 GDN 训练队列中 GDN 与正常受试者之间的 DEG,其中|log2 fold change (FC)|>1adjusted p < 0.05作为临界阈值。同时,使用clusterProfiler软件包对DEGs进行基因本体(GO)富集分析。还进行了基因集富集分析(GSEA),以分子特征数据库(MSigDB)衍生的基因集“c2.cp.kegg.v7.4.symbols.gmt”为参考,研究了GDN与正常样本之间京都基因和基因组百科全书(KEGG)通路的显著差异。p < 0.05 且错误发现率 (FDR<0.25 的富集通路被认为具有统计学意义。

3.共识聚类分析

使用ConsensusClusterPlus算法进行聚类分析,以识别GDN训练队列中GDN样本的潜在子聚类。选择最大累积分布函数(CDF)指数作为最佳k值。同时,采用主成分分析(PCA)对不同亚组间基因表达模式进行验证。

4.加权基因共表达网络分析

应用加权基因共表达网络分析(WGCNA)方法构建与81GDN样本的不同亚簇相关的电位模块。在过滤异常样本并计算Pearson相关系数后,构建了相关邻接矩阵。选择高度相关的模块进行后续分析。使用 ClusterProfilerDOSE ggplot2 软件包对给定模块中的基因进行功能富集,以解释基于 KEGGGO 和疾病本体 (DO) 分析的不同生物学效应。

5.诊断基因筛选与诊断模型构建

采用最小绝对收缩与选择算子(LASSO)逻辑回归、支持向量机递归特征消除(SVM-RFE)和随机森林(RF)算法独立筛选所选模块的诊断基因。最终,在三种机器学习算法之间重叠的基因被视为诊断生物标志物。生成受试者工作特征(ROC)曲线,计算ROC曲线下面积(AUC)值,以估计使用pROC包识别的生物标志物的预测效用。生物标志物的差异表达和预测可靠性在外部测试队列中得到进一步证实。使用logistic回归分析构建诊断模型,并以列线图可视化,以预测DN患者的肾小球损伤。采用一致性指数(C-index)、校准曲线和决策曲线分析(DCA)来可视化其判别性能。此外,利用训练数据集(表1),还探讨了已鉴定的生物标志物在其他慢性肾脏疾病(CKD)中的表达,包括高血压肾病(HN)和系统性红斑狼疮性肾病(SLEN)。此外,根据各基因的中位表达水平,将GDN训练数据集中的81GDN样本分为两组(高表达组和低表达组),然后采用基因集变异分析(GSVA)以MSigDB基因集“c2.cp.kegg.v7.4.symbols.gmt”为参考,阐明富集的KEGG通路。

6.已识别生物标志物的验证和临床相关性分析

Nephroseq v5 在线数据库 (http://v5.nephroseq.org) 再次确认了已鉴定生物标志物的表达模式 (15)。还进行了生物标志物与肾功能之间的相关性分析。

7.免疫细胞浸润的评估

基于单样本基因集富集分析 ssGSEA) 方法和 29 个免疫相关反应基因集,对 ssGSEA 评分进行量化,旨在代表 GDN 训练队列和 TDN 测试队列中免疫细胞和通路的活性和浸润部分。ssGSEA的结果显示为热图。此外,通过估计 RNA 转录本的相对子集 (CIBERSORT) 算法 (17) 进行细胞类型鉴定,以计算 GDN 训练队列和 TDN 测试队列中每个样本中浸润免疫细胞的相对比例。使用 vioplot 包比较和可视化 DN 患者和正常受试者中浸润免疫细胞的丰度。阐明了所鉴定生物标志物低表达和高表达的样品之间免疫特性的差异。在GDN训练队列中,使用corrplot包,还研究了浸润免疫细胞的富集水平与诊断基因表达之间的相关性。

8.动物实验

共购自重庆医科大学动物实验中心(中国重庆)15只雄性C57BL/6小鼠(8周龄;~25 g)。将小鼠随机分为正常组(n = 5)和高糖诱导的肾损伤模型(n = 10),并给予正常饮食(NCD)或高脂肪饮食(HFD4周。腹膜内注射链脲佐菌素(STZ;Sigma-Aldrich美国)。注射后 72 小时随机血糖水平 ≥16.7 mmol/L 被认为是成功的建立 (18)。8周末,禁食5只非传染性疾病小鼠和6HFD/STZ诱导的小鼠过夜,采集血液和24小时尿样,然后处死小鼠。采集肾脏用于后续研究。所有动物实验均按照《实验动物护理和使用指南》进行,程序经重庆医科大学研究伦理委员会批准。
使用罗氏动态血糖监测系统(罗氏,曼海姆德国)通过尾静脉采样来测量血糖水平。使用自动生化分析仪(日立,东京,日本)检测尿白蛋白、血尿素氮 BUN) 和血清肌酐 (Scr)。将获得的肾组织固定、包埋并切成薄片。随后,对选定的生物标志物进行苏木精和伊红 (H&E)、Masson、高碘酸-银 (PAS)、油红 O 染色和免疫荧光 (IF) 染色。用光学或荧光显微镜(奥林巴斯,东京,日本)对染色的切片进行可视化和拍照。根据制造商的说明,进行了RT-qPCR。采用2ΔΔCt方法定量蛋白激酶cAMP依赖性调节型IIβ(PRKAR2B)和转化生长因子β诱导(TGFBI)表达,GAPDH作为内部对照。引物序列如附表S1所示。进行蛋白质印迹分析。分别使用了针对PRKAR2B的一抗(美国加利福尼亚州圣克鲁斯)和针对TGFBI的抗体(Abcam,剑桥,英国)。

结果

1. DEGs鉴定和富集分析

GDN和正常样品之间存在明显的区别(图1A)。共鉴定出140DEGs,包括75个上调基因和65个下调基因,显示在火山图和热图中(图1BC)。这些DEG主要参与细胞外结构组织和肿瘤坏死因子产生相关的生物过程(p < 0.05,图1D)。GSEA的结果表明,代谢相关通路在正常样本中富集,而免疫相关信号通路在GDN受试者中富集(图1E)。

2. 无监督集群构建与关键模块识别

去除批量效应后,根据 GDN 训练队列中合并的 81 GDN 样本的基因表达谱进行共识聚类,当 k = 2 时,分类高度可靠且稳定(图 2A-C)。PCA证实两个亚簇之间存在明显差异(图2D)。GDN样品分为簇1C1N=48 )和簇2C2N=33)。 设置β = 12(无标度R2 = 0.906)的软阈值功率并计算相应的Pearson相关系数(图2E),确定了四个模块(图2F)。棕色和蓝色模块与子类集的相关性最高,因此被选为相关模块进行进一步分析。来自两个选定模块的基因主要负责细胞外结构组织和细胞因子趋化性反应(补充图S2A)。KEGG分析表明,它们在补体和凝血级联反应、PI3K-Akt信号通路和细胞因子-细胞因子受体相互作用中显著富集(补充图S2B)。溶氧分析显示,这些基因主要与泌尿系统疾病、泌尿系统癌症和肺部疾病有关(补充图S2C)。

3. 诊断性生物标志物鉴定和验证

使用LASSO回归算法,将所选模块中的22个基因鉴定为潜在的诊断生物标志物(图3AB)。通过SVM-RFE算法,从这些模块中提取13个基因作为候选生物标志物(图3C)。通过RF算法鉴定了两个诊断基因(图3D)。然后通过维恩图将两个基因(PRKAR2BTGFBI)重叠,并作为可靠的诊断生物标志物(图3E)。与正常对照组相比,在GDN训练队列的肾小球样本中观察到PRKAR2B表达降低(p < 0.001)和TGFBI表达增加(p < 0.001)(图4A)。结果在GDN测试队列中得到验证,并获得了一致的基因表达模式(图4B)。有趣的是,TGFBI的表达在TDN测试队列的肾小管间质样品中仍然显着上调(p < 0.001),而PRKAR2B的表达没有显着变化(图4C)。为了估计预测效用,进行了ROC曲线,发现PRKAR2BTGFBI显示出显着的区别效率,AUC值分别为0.95295%CI0.910-0.985)和0.95295%CI0.915-0.982)在GDN训练队列中(图4D)。一致地,在GDN测试队列中,PRKAR2BAUC值为1.00095%CI1.000-1.000),TGFBIAUC值为0.78595%CI0.640-0.908)(图4E)。与PRKAR2B的低AUC值(0.548,95%CI0.411-0.668)不同,TGFBITDN测试队列中仍保持0.899的高AUC值(95%CI0.826-0.955)(图4F)。此外,在HNSLEN中也观察到相似的表达模式(补充图S3)。

4. 列线图的建立

基于GDN训练队列中PRKAR2BTGFBI的表达式,通过逻辑回归构建诊断模型,并可视化为列线图(图5A)。诊断模型的 C 指数为 0.976,具有适当的校准图。此外,该模型显示出较高的AUC值(0.965),证实了出色的预测性能(图5BC)。此外,DCA曲线表明,与其他单一生物标志物模型相比,联合列线图模型在预测DN患者肾小球损伤方面显示出最高的疗效(图5D)。

5. 生物标志物的表达模式和临床相关性

基于Nephroseq v5在线工具,进一步确认了PRKAR2BTGFBIDN患者肾小球和肾小管间质组织中的表达模式(图6AB)。与正常受试者相比,PRKAR2BDN肾小球组织中的表达下调,但在DN肾小管间质组织中没有下调。TGFBIDN患者肾小球和肾小管间质组织中的表达均上调。相关性分析显示,DN肾小球组织中PRKAR2B表达与肾小球滤过率(GFR)呈正相关(r = 0.687p = 0.013 ),与Scr呈负相关(r = −0.699p = 0.011)(图6C)。 发现DN肾小管间质组织中的TGFBI表达与GFR呈负相关(r = −0.749p = 0.0005),与Scr呈正相关(r = 0.664p = 0.003)(图6D)。 奇怪的是,TGFBIDN肾小球组织中的表达与GFRScr无关。它表明生物标志物与DN患者的肾功能有关,而它们的作用可能不同。

6. 两种生物标志物与免疫细胞浸润的相关性

DN的免疫浸润格局明显改变(补充图S4)。根据GSVA结果,高PRKAR2B表达的GDN样本中的基因集与多种活化的代谢相关途径和免疫抑制生物学功能显著相关,而TGFBI低表达的GDN样本中则显著相关(图7A)。因此,鉴于PRKAR2BTGFBI在免疫调控中的作用,还探讨了它们对免疫细胞浸润和生物过程的影响。观察到中性粒细胞、调节性 T 细胞 (Tregs)、巨噬细胞和浆细胞样树突状细胞 (pDC) 的增殖。此外,检查点、肿瘤浸润淋巴细胞(TIL)、趋化因子C-C-基序受体(CCR)、T细胞共抑制和II型干扰素(IFN)反应的活性在低PRKAR2B表达的GDN受试者或TGFBI高表达的受试者中显著增强(图7B)。相关性分析显示,幼稚B细胞浸润与PRKAR2B呈正相关,与TGFBI呈负相关。然而,γ-δ T细胞的浸润与PRKAR2B呈负相关,与TGFBI呈正相关(p < 0.001)。更多细节如图7C所示。

7.在动物模型中的验证

根据治疗方案(图8A),HFD + STZ组中的四只小鼠不符合既定方案并被排除在外。与NCD小鼠相比,HFD / STZ诱导的小鼠的血糖,ScrBUN24小时尿蛋白水平显着升高(p < 0.01,图8B)。如图8C所示,在HFD/STZ诱导的小鼠模型的肾组织中观察到肾小球肥大、肾小球系膜细胞增殖、系膜基质扩张以及肾小球和肾小管基底膜不规则增厚。Masson 染色显示肾蓝色染色细胞外胶原的形成,主要在肾小球组织中。油红O染色显示脂滴数量增加,肾小球内脂质堆积比肾小管间质更明显。因此,HFD联合高糖诱导的肾损伤模型被认为是成功的。观察到小鼠模型中肾小球组织中PRKAR2B表达下调(图8D)和肾小球和肾小管间质组织中TGFBI表达上调(图8EF)。此外,通过RT-qPCR和蛋白质印迹法也证实了小鼠模型的肾组织中PRKAR2B表达降低和TGFBI表达增加(p < 0.01,图8GH)。

讨论

糖尿病肾病是由多个基因相互作用引起的。然而,其潜在机制仍不清楚。最近,大量的研究集中在相关生物标志物的筛选上。Wang 等人分析了 5 DN 相关基因数据集,并确定了纤连蛋白 1 FN1) 和补体成分 3 C3) 作为 DN 的免疫浸润相关生物标志物。Wang等揭示了DN中肾小球和肾小管之间的不同病理异常,并指出甲基化状态中关键调控基因的变化可能有助于DN的发病机制。然而,尽管已经做出了许多努力来探索DN的新靶点,但目前的知识似乎还不够。仍然迫切需要具有高特异性和高灵敏度的潜在生物标志物。
PRKAR2B 是一种 cAMP 依赖性蛋白激酶 (PKA)调节亚基,在各种肿瘤组织中大量表达。然而,关于PRKAR2B在糖尿病病变进展中的作用的研究很少。我们的研究发现,具有极好诊断价值 (AUC >0.95) 的 PRKAR2B 在肾小球中下调,但肾小管间质没有显着变化。TGFBI 是一种由 TGF-β 在各种细胞中诱导的分泌蛋白,可在血清和尿液中检测到。结果表明,TGFBI 通过影响细胞外基质的合成和降解参与慢性环孢菌素诱导的肾病的纤维化过程。本研究显示,TGFBI在肾小球和肾小管间质组织中的表达均上调,对DN具有可靠的诊断能力。据报道,TGFBI在糖尿病患者肾脏中的表达显着增加,而尿液中TGFBI的浓度也升高。尿液的TGFBI 浓度升高已被证明可预测 DN 的预后。该证据增强了TGFBI作为诊断标志物的临床应用的可及性和可行性。然而,目前尚不清楚为什么肾小球组织中TGFB表达与DN患者肾功能指标(如GFRScr)之间没有显着相关性。最值得注意的是,开发了一种结合两种生物标志物的新型诊断模型,该模型具有高AUC值和良好的校准性,在估计DN患者肾小球损伤方面表现出出色的准确性和可靠性。与任何其他单一生物标志物相比,上述模型在 GDN 训练队列中对肾小球损伤预测的疗效最高。
在这项研究中,我们发现肾小球组织中PRKAR2B表达的下调可能表明 DN 患者的肾功能恶化,肾小管间质组织中 TGFBI 的上调也是如此。然而,在HNSLEN患者中也发现了相似的PRKAR2BTGFBI表达模式,这表明PRKAR2BTGFBI的差异表达对DN没有特异性,但与肾损伤有关。
据报道,细胞外基质组织和细胞外基质结构成分导致细胞外基质加速沉积和肾纤维化在 DN 中。在这项研究中,DEGs被证明参与DN肾小球组织的这一过程。多种代谢相关通路主要富集在正常样本中,而免疫炎症通路主要集中在GDN样本中。它证实了代谢紊乱和异常免疫炎症反应在 DN 中起关键作用的观点。同时,PRKAR2BTGFBI均被披露参与DN肾小球损伤的免疫相关通路和细胞功能。此外,它们都与各种免疫细胞有关,例如幼稚 B 细胞、γ δ T 细胞、Tregs、静息 NK 细胞、静息肥大细胞和巨噬细胞。先前的研究报告称,巨噬细胞的沉积是 DN 的一个重要特征,可以在 DN 患者的肾组织中发现,表明肾功能下降。据报道,肥大细胞参与肾间质纤维化,肥大细胞密度与 DN 中的血清肌酐水平相关。据报道,增加的Tregs有助于改善DN,并促进了对DN诱导的肾脏同种异体移植物的移植耐受性。 然而,幼稚 B 细胞和 γ δ T 细胞在 DN 病理过程中的作用尚未见报道。总体而言,浸润免疫细胞参与 DN 的发生和进展,通过靶向 PRKAR2B TGFBI 改善异常免疫状态可能是治疗 DN 的一种有前途的方法。
需要考虑一些限制。首先,DN的不同病理阶段可能会影响研究结果。其次,由于不同注释平台和样本临床协变量的潜在异质性,数据集之间的批次效应无法完全消除。第三,样本量可能不够大。最后,本研究基于公开数据,因此这两种生物标志物的生物学功能需要通过进一步的实验来验证。
在这项研究中,使用 WGCNALASSOSVM-RFE RF 算法,PRKAR2B TGFBI 被确定为糖尿病的潜在生物标志物。建立PRKAR2BTGFBI相结合的诊断模型,以高灵敏度和准确性评估糖尿病肾小球损伤的风险。还证明了与浸润免疫细胞的潜在关联,为它们在 DN 中的作用提供了新的视角。因此,这些发现可能有助于糖尿病患者的管理和治疗。


【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读1.1k
粉丝0
内容580