Identifying potential biomarkers of idiopathic pulmonary fibrosis through machine learning analysis
(通过机器学习分析识别特发性肺纤维化的潜在生物标志物)
Scientific Reports 综合性期刊2区,IF:3.8
摘要
特发性肺纤维化(IPF)是最常见和最严重的特发性间质性肺炎类型,其特征为慢性、进展性和低存活率,而病因不明。直到最近,由于缺乏有效的早期诊断和预后工具,IRF患者的预后不佳,死亡率高,治疗选择有限。因此,我们旨在基于多种机器学习方法识别IRF的生物标志物,并评估免疫浸润在疾病中的作用。IRF患者的基因表达谱及其相应的临床数据从基因表达综合数据库(GEO)下载。接下来,通过R包“DESeq2”分析差异表达基因(DEGs),以假阳性发现率(FDR)< 0.05和|log2 foldchange (FC)| > 0.585为阈值,并在R软件中进行GO富集和KEGG通路分析。然后,利用最小绝对收缩和选择算子(LASSO)逻辑回归、支持向量机-递归特征消除(SVM-RFE)和随机森林(RF)算法组合筛选IRF的关键潜在生物标志物。通过接收者操作特征(ROC)曲线评估这些生物标志物的诊断性能。此外,使用CIBERSORT算法评估免疫细胞的浸润情况以及浸润免疫细胞与生物标志物之间的关系。最后,我们通过使用小鼠模型和细胞模型来理解生物标志物(SLAIN1)在IRF中的潜在致病作用。本研究共鉴定出3658个IRF的差异表达基因,其中2359个上调,1299个下调。通过LASSO逻辑回归、RF和SVM-RFE算法鉴定出FHL2、HPCAL1、RNF182和SLAIN1作为IRF的生物标志物。ROC曲线确认了这些生物标志物在训练集和测试集中的预测准确性。免疫细胞浸润分析表明,IRF患者的记忆B细胞、浆细胞、CD8 T细胞、滤泡助手T细胞、调节性T细胞、M0型巨噬细胞和休息状态的肥大细胞的水平较对照组高。相关性分析显示FHL2与浸润免疫细胞显著相关。qPCR和蛋白质印迹分析表明SLAIN1可能是诊断IRF的标志。在本研究中,我们鉴定了四个潜在的生物标志物(FHL2、HPCAL1、RNF182和SLAIN1)并评估了SLAIN1在IRF中的潜在致病作用。这些发现在指导理解疾病机制和IRF的潜在治疗靶点方面可能具有重大意义。
主题
临床研究,生物技术,生物信息学,生物模型
结果详解

Fig. 1:本研究的工作流程。

Fig. 2:IRF和正常样本之间的差异表达基因鉴定
使用来自GSE150910的103个正常样本和103个IRF样本,通过“DESeq2”包鉴定两种样本之间的差异,发现有2359个基因上调,1299个基因下调。
(A)GSE150910数据集的火山图,截断标准为|log2FC|>0.585且FDR<0.05
(B) IRF和正常样本差异表达基因的热图可视化
Fig. 3:功能富集分析的结果
为进一步探索人类IRF差异表达基因的潜在生物功能,进行了GO和KEGG富集分析。GO富集分析结果显示,差异表达基因主要在生物过程方面富集于外部包裹结构、细胞外基质和细胞外结构的组织。在细胞组分方面,这些基因主要涉及含胶原的细胞外基质、运动纤毛和轴丝。在分子功能方面,它们主要集中在信号受体激活、受体配体活性和细胞外基质结构成分上。KEGG富集分析揭示,这些差异表达基因主要富集在15个通路中,例如神经活性配体-受体相互作用、细胞因子-细胞因子受体相互作用和病毒蛋白与细胞因子及细胞因子受体的相互作用。这些结果表明,细胞外基质在IRF中扮演了重要角色。
(A,B) DEGs的GO分析
(C,D) DEGs的KEGG通路富集分析

Fig. 4:IRF的生物标志物鉴定
应用了三种经验证的机器学习算法(LASSO, RF, SVM-RFE)来识别与IRF相关的关键特征基因。通过LASSO算法鉴定出46个特征基因。RF算法筛选出60个特征基因。此外,基于SVM-RFE算法鉴定了34个作为生物标志物的特征基因。最终只有交集基因(FHL2, HPCAL1, RNF182和SLAIN1)被选为IPF的生物标志物。
(A)通过LASSO算法选择特征基因
(B)通过RF算法选择特征基因
(C)通过SVM-RFE算法选择特征基因
(D) Venn图显示了三种算法得到的特征基因的交集,作为IRF的生物标志物

Fig. 5:生物标志物在训练集中的表达箱形图
选定的生物标志物在训练集中表现出良好的差异表达,FHL2的表达在IRF组中升高,而SLAIN1、HPCAL1和RNF182的表达在IRF组中降低。
(A)FHL2
(B) HPCAL1
(C) RNF182
(D) SLAIN1

Fig. 6:生物标志物在测试集中的表达箱形图
测试集的生物标志物表达差异分析结果与训练集的结果一致。FHL2的表达在IRF组中升高,而SLAIN1、HPCAL1和RNF182的表达在IRF组中降低。
(A)FHL2
(B) HPCAL1
(C) RNF182
(D) SLAIN1

Fig. 7:生物标志物在训练集和测试集中的表达热图
四个生物标志物在训练集和测试集中的表达热图显示,FHL2的表达水平与IPF组呈正相关,而SLAIN1、HPCAL1和RNF182的表达水平与IPF组呈负相关。
(A)训练集中四个生物标志物的表达热图
(B)测试集中四个生物标志物的表达热图

Fig. 8:SLAIN1在体内和体外的作用的验证
为确保研究发现的稳健性,通过建立小鼠模型和细胞模型进行研究。Masson和HE染色显示,用博莱霉素处理的小鼠肺组织中的肺纤维化明显比用PBS处理的小鼠肺组织严重,从而确认了小鼠模型的成功构建。随后关注SLAIN1的表达水平,发现与正常样本相比,SLAIN1的表达在IPF样本中显著降低。进一步扩展研究以评估A549和HFL1细胞中SLAIN1的表达水平。为了在体外模拟IPF的条件,让A549和HFL1细胞暴露于TGF-β。发现A549和HFL1细胞中SLAIN1的mRNA表达水平显著降低。此外,蛋白质印迹分析显示,A549和HFL1细胞中SLAIN1的表达水平逐渐降低。总之,对SLAIN1表达的全面分析,无论是在体内还是在体外,都加深了对SLAIN1作为生物标志物的潜在角色以及其在IRF发病机制中的参与的理解。
(A) 分别用Masson染色和HE染色的PBS处理和博莱霉素处理的肺部切片的显微照片。
(B) 小鼠模型中SLAIN1 mRNA表达水平的量化。
(C) 小鼠模型中SLAIN1的蛋白质印迹。博莱霉素处理组为实验组,PBS处理组为对照组。 (D) A549细胞中SLAIN1表达水平的量化。
(E) A549细胞中随着纤维化时间的推移SLAIN1的蛋白质印迹。
(F) HFL1细胞中SLAIN1表达水平的量化。
(G) HFL1细胞中随着纤维化时间的推移SLAIN1的蛋白质印迹。

Fig. S1:生物标志物在IRF中的诊断价值
为进一步评估在IRF中鉴定的基因的诊断价值,对训练集和测试集中的四个关键基因进行了ROC分析。结果显示,这四个通过机器学习算法确定的诊断生物标志物,在训练集中展示出强大的诊断能力。FHL2的AUC值为0.954(95% CI 0.924–0.978),HPCAL1的AUC值为0.955(95% CI 0.926–0.979),RNF182的AUC值为0.917(95% CI 0.875–0.955),SLAIN1的AUC值为0.916(95% CI 0.874–0.954)(Fig. S1A-D)。

Fig. S2:生物标志物在IRF中的诊断价值验证
生物标志物的诊断效能在独立的测试集中得到了验证,FHL2的AUC值为0.926(95% CI 0.822–0.992),HPCAL1的AUC值为1.000(95% CI 1.000–1.000),RNF182的AUC值为0.946(95% CI 0.843–1.000),SLAIN1的AUC值为1.000(95% CI: 1.000–1.000)。所有四个基因对IRF都展示出强大的区分能力(Fig. S2A-D)。

Fig. S3:免疫浸润
利用CIBERSORT算法评估了IRF组与对照组之间22种类型的免疫细胞的浸润状态。展示IRF组与对照组22种免疫细胞的百分比在条形图中(Fig. S3A)。22种类型免疫细胞的相关性分析显示,滤泡辅助T细胞与浆细胞呈正相关(r=0.41),静息NK细胞与CD4末成熟T细胞呈正相关(r=0.37),而滤泡辅助T细胞与静息记忆CD4 T细胞呈负相关(r=−0.51),静息NK细胞与滤泡辅助T细胞呈负相关(r=−0.39)(Fig. S3B)。免疫细胞浸润差异的小提琴图表明,IRF患者的记忆B细胞、浆细胞、CD8 T细胞、滤泡辅助T细胞、调节性T细胞(Tregs)、M0型巨噬细胞和静息肥大细胞的水平高于对照组(Fig. S3C)。

Fig. S4:生物标志物与免疫细胞的相关性
根据生物标志物与免疫细胞相关性分析的结果,SLAIN1与嗜酸粒细胞呈正相关(r=0.26, p<0.001)、单核细胞(r=0.47, p<0.001)、中性粒细胞(r=0.22, p<0.05)、静息NK细胞(r=0.49, p<0.001)、静息记忆CD4 T细胞(r=0.45, p<0.001)以及末成熟CD4 T细胞(r=0.2, p<0.05),并与记忆B细胞呈负相关(r=-0.28, p<0.001)、末成熟B细胞(r=-0.2, p<0.05)、M0型巨噬细胞(r=-0.19, p<0.05)、活化的肥大细胞(r=-0.18, p<0.05)、活化NK细胞(r=-0.15, p<0.05)、浆细胞(r=-0.53, p<0.001)、CD8 T细胞(r=-0.15, p<0.05)、滤泡辅助T细胞(r=-0.43, p<0.001)以及调节性T细胞(Tregs)(r=-0.39, p<0.001)(Fig. S4A-J)。由此可以得出结论,SLAIN1与免疫细胞之间存在相关性。
结论
总结来说,这项研究成功地确定了四个有前景的生物标志物(FHL2、HPCAL1、RNF182和SLAIN1),并探讨了SLAIN1在IRF发病机制中的潜在作用。这些发现对于深化我们对该病症机理的理解以及识别IRF治疗干预的潜在途径具有重大意义。

