纯生信也能发高分!!!机器学习+单细胞+孟德尔随机化,锁定糖尿病肾病双部位诊断标志物VCAN。没有自测序数据也能发高分!这篇发表在《Diabetes & Metabolism J》(IF 8.5,中科院2区,JCR Q1)的研究,仅利用GEO公共数据库数据,整合机器学习、单细胞转录组和孟德尔随机化三大核心技术,成功筛选出糖尿病肾病(DKD)肾小球与肾小管共有的诊断标志物VCAN,思路清晰、可复制性极强,生信人必看!
研究背景:
糖尿病肾病是糖尿病诊断的核心痛点,是其最主要的并发症之一,全球超40%的糖尿病患者会进展为DKD,最终可能导致终末期肾病,亟需透析或肾移植维持生命。根据肾脏病变部位,DKD可分为肾小球型(GDKD)和肾小管型(TDKD),两者病理机制不同,传统生物标志物也各有侧重(如肾小球标志物 nephrin、肾小管标志物肾损伤分子1)。但临床中两者常同时受累,目前缺乏同时适用于双部位的共享诊断标志物,给早期筛查和病情监测带来极大挑战。
核心设计:3大技术+公共数据(机器学习+单细胞+孟德尔随机化),层层递进验证。
数据来源:纯公共数据库挖掘,研究数据全部来自NCBI-GEO数据库,分为肾小球数据集(GSE96804、GSE30528)和肾小管数据集(GSE30529、GSE104954),另用GSE99325、GSE30122作为外部验证集,单细胞数据来自GSE195460和K.I.T.数据库,孟德尔随机化数据源自ebi-a公共GWAS数据集,无需任何自测序实验。
研究思路:从“筛选-验证-机制”的完整闭环
1.数据预处理:合并肾小球/肾小管数据集,用ComBat函数去除批次效应,筛选差异表达基因(DEGs);
2.核心基因筛选:通过WGCNA构建共表达网络,结合STRING数据库构建PPI网络,再用LASSO回归+SVM-RFE两种机器学习算法交叉验证,锁定双部位共有的枢纽基因;
3.多维度验证:① 外部数据集验证基因诊断效能(ROC分析);② 单细胞转录组定位基因表达细胞类型;③ 免疫浸润分析探索关联免疫细胞;④ 孟德尔随机化验证因果关系;⑤ 临床数据关联GFR、蛋白尿等关键指标。
关键结果:
首先从合并后的公共数据集中,初步锁定肾小球与肾小管病变共有的差异基因,为后续核心标志物筛选缩小范围。通过火山图分别展示肾小球、肾小管数据集的差异基因分布,明确肾小球数据集含 66 个上调基因、148 个下调基因,肾小管数据集含 221 个上调基因、72 个下调基因;再通过韦恩图交集分析,最终得到 3 个共上调、26 个共下调的 DEGs,合计 29 个双部位共表达差异基因,这些基因是后续研究的核心候选池,为挖掘跨部位诊断标志物奠定基础
图1肾小球与肾小管差异表达基因(DEGs)筛选
随后通过 WGCNA 构建基因共表达网络,筛选与 DKD 疾病表型关联最紧密的基因模块,进一步聚焦核心基因。分别对肾小球、肾小管合并数据集进行分析:肾小球数据集被划分为 4 个模块,其中 ME brown 模块与 DKD 呈最强负相关(r=-0.66,P=2e-11);肾小管数据集被划分为 5 个模块,ME grey 模块与 DKD 呈最强正相关(r=0.83,P=2e-11)。将这两个核心模块的基因与图 1 筛选的 29 个共表达 DEGs 取交集,得到新的 DEG 数据集,结合后续 GO/KEGG 富集分析( Supplementary Fig.4 ),发现这些基因主要富集于细胞外基质(ECM)- 受体相互作用、PI3K-Akt 等与肾脏纤维化、炎症相关的通路,为后续机制研究和标志物筛选提供方向。
图2加权基因共表达网络分析(WGCNA)鉴定关键模块
接下来,通过免疫浸润分析显示,肾小球数据集中DEGs主要富集于中枢记忆CD4 T细胞和浆细胞样树突状细胞。与对照组相比,DKD患者在活化的CD4 T细胞、调节性T细胞、记忆B细胞和肥大细胞中表现出显著活化。在小管数据集中,DEGs主要集中于未成熟树突状细胞、CD56dim自然杀伤细胞、中央记忆CD4 T细胞和浆细胞样树突状细胞。与对照组相比,DKD患者中自然杀伤细胞、效应记忆CD8 T细胞、活化树突状细胞和肥大细胞均显示显著活化。因此,可以得知肥大细胞参与了肾小球和肾小管的共同免疫浸润模式。
图3 肾小球和小管的常见免疫浸润模式
进一步的,通过单细胞测序技术,精准定位 VCAN 在肾脏组织中的表达细胞类型及病理状态下的差异,明确其与 DKD 的细胞水平关联。从数据预处理(肘部图确定 PCA 主成分数量)到细胞聚类注释(得到 13 种肾脏主要细胞类型),再到 VCAN 表达分布分析,最终证实:在 DKD 患者中,VCAN 显著富集于肾小球壁层上皮细胞(PEC)和近端曲小管细胞(PCT)—— 这两种细胞分别是肾小球、肾小管病变的核心参与细胞,且表达水平显著高于对照组;同时,K.I.T. 公共数据库的验证结果与本研究一致,进一步确认 VCAN 的细胞特异性表达特征,为后续探究 VCAN 的病理功能提供了明确的细胞载体
图4 VCAN 在单细胞转录组中的表达特征
图5 VCAN 与 DKD 的双向孟德尔随机化(MR)分析
最后,将VCAN 表达与临床关键指标关联,直接验证其临床诊断价值,是实现基础研究向临床转化的关键环节。结果显示:DKD 患者血清 VCAN mRNA 水平显著上调;且 VCAN 与估算肾小球滤过率(eGFR)呈显著负相关(R=-0.6268,P=0.0002),与蛋白尿水平呈显著正相关(R=0.7843,P=0.0043)—— 这两个指标分别是反映肾脏滤过功能和损伤程度的核心临床参数;而另一候选基因 FN1 与临床指标无显著相关性。该图充分证明 VCAN 可有效反映 DKD 患者的肾脏功能状态,具备作为临床诊断标志物的实用价值
图6 VCAN 与 DKD 临床指标的相关性
总结:
本研究通过识别DKD肾小球和管状病变中观察到的共同特征,发现了许多不同基因,强调了在ECM形成和炎症途径中的作用。此外,还鉴定了VCAN诊断标志物,为临床诊断提供了补充选择。MR分析确认血清VCAN蛋白水平是DKD的风险因素,且无反向关联。该研究在估算DKD中GFR和蛋白尿方面具有良好诊断潜力,从而为DKD病理学提供了新见解,并可能成为DKD的诊断标志物。
这篇研究堪称生信发文的“高分模板”,完美诠释了“小数据也能发高分”的核心逻辑——聚焦临床痛点,用成熟的技术组合构建完整论证链,无需依赖自测序数据,仅通过公共数据库挖掘和多维度验证,就能产出有临床价值的研究成果。 其核心思路可直接复用:“公共数据整合+机器学习筛选+单细胞定位+孟德尔随机化验证”,适用于肿瘤、心血管、自身免疫病等多个领域的生物标志物筛选研究。

