大数跨境

【纯生信必看!】2025爆款!8+ 转录组+单细胞组学+机器学习,思路清晰,复刻性价比相当高~!

【纯生信必看!】2025爆款!8+ 转录组+单细胞组学+机器学习,思路清晰,复刻性价比相当高~! 中科生信
2025-12-24
2
导读:【纯生信必看!】🔥2025爆款!8+ 转录组+单细胞组学+机器学习,思路清晰,复刻性价比相当高~!

题目:Identification of CACNB1 protein as an actionable therapeutic target for hepatocellular carcinoma via metabolic dysfunction analysis in liver diseases: An integrated bioinformatics and machine learning approach for precise therapy

杂志:Int J Biol Macromol.

2025年影响因子/JCR分区:8.5/Q1

Highlights

1.创新的评分体系与预测模型:构建代谢功能障碍评分(MBDS),并结合高斯混合模型(GMM)和逻辑回归(LR)算法开发纤维化预测模型AUC值最高达0.982

2.多组学与单细胞技术融合:结合单细胞RNA测序(scRNA-seq)、转录组、拷贝数变异(CNV)、体细胞突变等多组学数据,揭示了NAFLD相关肝硬化微环境中细胞特异性代谢活性

一、背景

非酒精性脂肪性肝病(NAFLD)的患病率正迅速攀升,全球约25%的成年人受其影响。NAFLD涵盖一系列肝脏病理变化,从单纯性肝细胞脂肪变性(即非酒精性脂肪肝,NAFL至少5%肝细胞脂肪沉积到更严重的非酒精性脂肪性肝炎(NASH)。NASH作为NAFLD的进展期病变,以脂肪变性、肝细胞气球样变、小叶性炎症及几乎不可避免的纤维化为特征。与单纯脂肪变性患者相比,NASH患者更易进展为肝硬化及肝细胞癌(HCC),其中纤维化是关键的组织学预测指标。此外,NAFLD最重要的特征之一是代谢紊乱,其与遗传易感性、肥胖、胰岛素抵抗及代谢综合征密切相关。2020年,亚太肝脏研究协会(APASL)提出代谢相关性脂肪性肝病(MAFLD)定义以替代NAFLD,强调代谢紊乱在脂肪性肝病中的重要性。因此进一步挖掘NAFLD的致病基因及药物预测将有助于掌握疾病发展关键分子特征,为有效治疗提供参考。

主要结果

1. NASH中发现了两种不同的代谢亚型

本研究GEO数据库中获得了三个非酒精性脂肪性肝病(NAFLD)数据集(GSE135251GSE162694GSE83452经整合后作为训练队列使用,共包含393NASH样本通过选择最优k2,利用114条代谢通路的定量矩阵将合并的NASH队列划分为两个亚组(MBC1MBC2)。主坐标分析显示两个代谢亚组存在显著差异性(p<0.001)。多数免疫细胞(如γδ T细胞和单核细胞)在两种代谢亚群间呈现显著失调。MBC2亚群的基质评分显著高于MBC1(图1I)。此外,我们观察到Notch信号通路、细胞外基质组装及成纤维细胞TGFβ反应信号通路的ssGSEA评分均显著上调。

1. 代谢景观的综合分析揭示了NASH中的两种不同代谢亚型。(A) 主成分分析显示三个数据集存在明显批次效应。(B) 批次效应已校正。(C) 通过选择最优k2,利用114条代谢通路的定量矩阵将合并的NASH队列划分为两个亚组(MBC1MBC2)。(D) 基于成分分析的聚类分析(PCoA)显示两个代谢亚组存在显著差异(p<0.001)。(E-F) MBC1MBC2中显著上调的前10大代谢通路。

2. 非酒精性脂肪性肝病(NAFLD)晚期阶段的代谢功能障碍评分(MBDS)显著升高

在这些数据集中,MBDS在健康对照样本中表现出最低值,而在NASH样本中表现出最高值三个独立队列的NAFLD样本显示:MBDS值从F0-1期(无或轻度纤维化)到F2期(中度)再到F3-4期(重度)呈阶梯式显著升高。此外,在全部806份非酒精性脂肪性肝病样本中,观察到MBDS与细胞外基质组装特征存在显著正相关(r = 0.736p < 0.001)。MBDS与多种代谢过程及细胞外基质重塑功能存在显著关联,包括“胺代谢过程”、“α-氨基酸代谢过程”、“嘌呤核苷酸代谢过程”、“细胞间连接组装”及“间充质细胞增殖”。这些发现表明,MBDS与非酒精性脂肪性肝病(NAFLD)的晚期阶段及纤维化表型存在显著关联。

2. 批量样本代谢功能障碍评分(MBDS)的建立。(A)概述了MBDS的计算流程。(B)在NASH中,MBC2组的MBDS评分显著高于MBC1组。(C-G)五个非酒精性脂肪性肝病(NAFLD)数据集(GSE59045GSE167523等)的分析结果。

3. 基于MBDS的预测模型得以开发,可精确区分非酒精性脂肪性肝病(NAFLD)的纤维化程度

鉴于单个基因在纤维化评估中的预测能力有限,本研究尝试基于MBDS特征构建预测模型,运用机器学习方法准确区分非酒精性脂肪性肝病样本中的纤维化程度。首先,将上述16MBDS基因纳入GSE49541非酒精性脂肪性肝病样本(标注为F0-1F3-4期)进行高斯混合模型(GMM)构建。共生成65,535个逻辑回归(LR)模型并划分为九个簇。在这些聚类中,第9聚类呈现出最高的曲线下面积(AUC)分布值随后深入分析聚类9中的3623个模型,筛选出最佳逻辑回归模型,其AUC值达0.928。该模型的预测性能在三个独立的非酒精性脂肪性肝病队列中得到验证。GMM-LR模型在区分纤维化程度方面表现卓越。此外,对比了GMM-LR模型与三项生物学特征的预测能力。这些结果表明MBDS衍生的GMM-LR模型是卓越的纤维化水平预测器,其预测能力可与公认的纤维化特征相媲美。

3. 基于MBDS的机器学习模型用于区分非酒精性脂肪性肝病(NAFLD)的纤维化程度。(A) 采用高斯混合模型(GMM)算法,共生成65,535个逻辑回归(LR)模型并划分为9个簇。(B) 9簇在所有簇中呈现最高曲线下面积(AUC)分布。(C) 从第9簇的3623个模型中筛选出最佳逻辑回归模型,其AUC值达0.928(D-F) 该模型在三个独立NAFLD队列(标注为F0-1级与F3-4级)中进行预测性能验证。(G-I) GMM-LR模型的预测能力与三项生物学特征进行比较。

4. 在非酒精性脂肪性肝炎衍生的肝硬化中,观察到不同细胞类型和亚群存在异质性代谢活动

我们从单细胞RNA测序数据集(GSE136103)进一步探究NAFLD诱导的肝硬化微环境中的代谢紊乱。经Seurat标准化处理后,UMAP图谱中鉴定并标注了10种细胞类型(T细胞、上皮细胞、巨噬细胞、内皮细胞、固有淋巴细胞、间质细胞、B细胞、树突状细胞、浆细胞、周期细胞)。采用单样本基因富集分析(ssGSEA)算法量化谷胱甘肽代谢水平,并通过颜色梯度映射至各细胞类型以显示代谢强度。比较结果显示:上皮细胞中谷胱甘肽代谢活性最高,而B细胞和T细胞中活性最低。所有细胞群体均被划分为谷胱甘肽代谢水平低或高的细胞,其中代谢水平不同的T细胞间呈现最强烈的信号传递发现Annexin信号通路和PARs信号通路是差异最大的两条通路。此外,发现谷胱甘肽代谢水平较低的上皮细胞中存在特异性TGFB3-TGFBR相互作用。

4. 单细胞RNA测序分析揭示了非酒精性脂肪性肝病(NAFLD)衍生的肝硬化中不同细胞类型代谢活动的异质性。(A) UMAP图谱中鉴定并标注了NAFLD来源肝硬化样本中的10种细胞类型。(B) 采用单样本基因表达富集分析(ssGSEA)量化谷胱甘肽代谢水平,并通过颜色梯度映射至各细胞类型以显示代谢强度。(C) 上皮细胞谷胱甘肽代谢水平最高,免疫细胞最低。(D) 不同谷胱甘肽代谢水平的T细胞间呈现最强信号传递。(E-G) 不同谷胱甘肽代谢水平细胞群体的信号网络。(H & I) 上皮细胞与其他细胞类型的配体-受体相互作用。

5. 在非酒精性脂肪性肝炎衍生的肝硬化中,观察到不同细胞类型和亚群存在异质性代谢活动

鉴于间充质细胞在非酒精性脂肪性肝病(NAFLD)进展中起关键作用,提取间充质细胞并进行高分辨率重新聚类分析,将所有间充质细胞分为三个亚群。肝星状细胞(HSC)特异性标志物COL1A2在状态12再到3的转变过程中逐渐降低。研究了间充质细胞中MYH11的表达分布,并观察到从状态12再到3的阶梯式上调。此外,所有间质细胞均用于单细胞轨迹分析,揭示出从状态1到状态2再到状态3的分化方向。随着分化伪时间的推进,间质细胞中COL1A2表达逐渐下降而MYH11表达持续上升。此外,114条代谢通路在HSC、中间状态和MFB中聚类为6种独特模式。具体而言,动态热图展示了间充质分化过程中6种模式中特定标记物的表达变化。进一步分析了HSCMFB中的114条代谢通路HSCMFB细胞间差异显著的前10大代谢通路,视黄醇相关代谢在两种状态间呈现最显著变化10个代谢特征组合能精准区分HSCMFB

5. 在肝星状细胞(HSC)向肌成纤维细胞(MFB)分化过程中观察到代谢特征的显著改变。(A)间充质细胞被划分为三个亚群。(B-C)间充质细胞三个亚群中COL1A2MYH11的表达分布。(D) 状态1到状态2,最终到状态3的分化方向。(E) 间充质细胞中COL1A2MYH11的表达逐渐变化。(F) 114条代谢通路聚类为6种独特模式。(G) 间充质分化过程中6种模式中特异性标记物的表达变化。(H) 间充质细胞三种状态关联性详情及(I)活性差异。(J) HSCMFB细胞间显著改变的代谢通路。(K) HSCMFB细胞间前10位显著改变的代谢通路。(L) 代谢特征组合能精确区分HSCMFB

6. 不同的生物学功能、基因组改变和免疫特征与肝细胞癌中的MBDS水平显著相关

基于TCGA-HCC样本的转录组数据及其对应的MBDS值,采用WGCNA方法构建了无标度共表达网络生成18个基因模块。棕色模块包含848个基因,与MBDS呈正相关;蓝色模块包含465个基因,与MBDS呈负相关。GO富集分析显示,棕色模块内的848个基因显著富集于与ECM相关功能相关的通路,如血管发育、ECM组织及间充质干细胞功能。蓝色模块中的基因富集于多种代谢通路,包括单羧酸代谢、小分子分解代谢过程及脂质定位。

6. 不同MBDS水平的HCC样本中观察到不同的生物学功能。(A) 基于359TCGA HCC样本转录组数据及其对应MBDS值进行WGCNA分析。(B) 848个基因的棕色模块与MBDS呈正相关,(C) 而含465个基因的蓝色模块则与MBDS呈负相关。(D-E) GO富集分析。

7. HCC中,不同MBDS组之间观察到明显的基因组改变和特征差异

接下来,研究了不同MBDS水平的HCC样本中的基因组改变。HCC样本中突变频率最高的10个基因(TP53TTNCTNNB1MUC16ALBPCLOABCA13APOBRYR2MUC4)及其相应的MBDS评分MBDS低表达与高表达样本间的差异突变基因,其中CTNNB1位列首位,RB1位列第二。此外,纳入了三个具有全外显子组测序数据的HCC队列(TCGA-HCCMSK-HCCINSERM-HCC),结果显示CTNNB1RB1基因突变呈互斥关系。此外,与CTNNB1突变样本相比,CTNNB1野生型肝细胞癌样本的MBDS显著更高。

7. HCC中,不同MBDS组之间观察到明显的基因组改变和免疫特征差异。(A) 森林图揭示MBDS低表达与高表达样本间差异突变基因。(B-C) MBDS低表达与高表达HCC样本中CTNNB1RB1的突变热点。(D) CTNNB1RB1突变互斥性。(E) CTNNB1野生型HCC样本的MBDS显著高于突变型样本。(F)鉴定并匹配四种突变特征(G) MBDS低表达与高表达样本中的分布情况。

全文总结

本研究通过整合生物信息学与机器学习方法,系统解析了NAFLDHCC的代谢功能障碍特征及分子机制。首先,通过对大规模NAFLD样本的代谢通路分析,鉴定出两种具有不同纤维化倾向和免疫微环境特征的代谢亚型,并构建了高准确性的纤维化预测模型;其次,利用单细胞测序技术揭示了NAFLD相关肝硬化微环境中细胞特异性代谢异质性及HSCMFB分化的关键代谢通路;再者,结合多组学数据明确了HCCMBDS相关的基因组改变、免疫特征及药物敏感性差异,鉴定出CACNB1为 MBDS HCC的潜在治疗靶点;最后,建立了基于机器学习的HCC预后风险分层模型,并发现MBDS与泛癌EMT特征的紧密关联。

【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读1.6k
粉丝0
内容580