大数跨境

不用再找了!多组学+10种机器学习99种组合算法!打动审稿人的纯生信思路已备好,准备好抄作业就欧了!

不用再找了!多组学+10种机器学习99种组合算法!打动审稿人的纯生信思路已备好,准备好抄作业就欧了! 生信日报
2025-06-20
3

要问小记者当下什么思路最能打动审稿人?那小记者回答宝子们四个字:联合分析。无论什么技术整上联合分析,都有不错的效果,这就是所谓的1+1>2,今天小记者给大家带来的这篇联合分析的文章,非常容易抄作业,它就是南通大学团队发表的《MultiOmics analysis of metabolic dysregulation and immune features in breast cancer》,感兴趣的宝子们跟着小记者一起看下去吧~

1.机器学习:本研究采用了10种不同的机器学习99种组合算法来构建乳腺癌代谢风险模型并验证,机器学习在构建模型,数据处理方面的能力大家都有目共睹,一般光是这几种算法摆出来,就很有说服力。

2.多组学:本研究在单细胞水平上检测了与乳腺癌相关的免疫细胞中已鉴定基因的表达,用转录组数据构建预后模型。多组学技术的引入,使这篇文章从代谢紊乱对疾病的影响,提供了多角度分析。

3.本研究筛选的都是代谢相关基因,因为代谢与免疫系统之间的相互作用是癌症研究的关键交点,在肿瘤进展中起着重要作用。

Ps:这篇文章涉及到的多组学技术,机器学习分析,在当下生信研究中的地位都很高,发文竞争力也很客观,趁现在还算简单,宝子们有想法就抓紧行动,担心生信分析有难度,就来找小记者的专业团队,毕竟老师傅带队,经验丰富的很!

定制生信分析

生信云服务


题目:乳腺癌代谢失调和免疫特征的多组学分析

杂志:International Immunopharmacology

影响因子:4.8

发表时间:2025.3

研究背景

代谢紊乱和免疫反应下降是肿瘤的显著特征。然而,目前将代谢和免疫因素全面整合以评估或预测癌症患者预后的研究有限。

数据来源

Dataset

Platform

Number of samples(groups)

TCGA-BASAL

UCSC-XENA

140个TN样本

GSE58812

GEO

107个TN样本

研究思路

本研究利用MsigDB数据库中72个代谢通路基因集,对来自TCGA和GEO数据库的247例乳腺癌样本进行GSVA、单因素回归和预后分析,对乳腺癌样本进行非监督聚类,比较不同聚类之间基因表达、临床病理特征、免疫浸润水平及预后的差异,通过单细胞测序分析这些特征基因的空间表达模式,应用机器学习算法重建代谢风险模型,用于评估乳腺癌患者的预后。

研究结果

乳腺癌与代谢相关通路的关联分析

通过计算72条代谢相关通路的GSVA评分,并对代谢相关通路之间进行相关性分析和单因素回归分析,维生素B2及核黄素代谢、NOS3的激活相关通路存在统计学差异,均为预后危险因素,而保护因素均与这些通路相关。将coxp小于0.05的5条通路进行分类。随后利用R包“ConsensusClusterPlus”进行无监督聚类,将其分为前三大类,五条途径的总体生存分析显示,这些代谢途径共同显著影响乳腺癌患者的预后。五种代谢相关途径在不同类型的乳腺癌之间表现出明显的表达差异,并且与乳腺癌患者的临床特征、基因表达和类型有关。

乳腺癌三种代谢亚型与免疫微环境的相关性分析

乳腺癌各代谢表型与免疫细胞之间存在显著的正相关或负相关。利用PCA进行了可视化分析,显示乳腺癌的三种代谢分型呈现出合理且一致的合并分型分布。大多数免疫细胞在三种代谢表型之间没有显著差异。乳腺癌中 CD56dim NK细胞、嗜酸性粒细胞和2型辅助T细胞三种代谢表型存在显著差异。

乳腺癌三种代谢亚型差异基因的鉴定及功能富集

对三种代谢亚型进行差异分析,分别绘制BA、CA和CB火山图。筛选出729个差异基因进行GO功能注释。差异基因的功能主要与伤口愈合、细胞外基质、等过程相关。KEGG通路富集分析显示,这些差异基因在PI3K-Akt信号通路和细胞因子-细胞因子受体相互作用的富集最为显著。通过代谢分型表征的乳腺癌与免疫微环境之间存在显著关联。

乳腺癌代谢特征基因的鉴定及机器学习模型的开发

采用了十种不同的机器学习算法和各种集成方法来构建预后模型。得到的 C 指数值如图 5B所示。利用随机森林算法,根据变量贡献强调基因重要性并建立评分模型。CLDN7、S100B、TSTA3、ADCK5、AP1M2、PRSS12、FBXL6、MAF1 和 KLF16 具有显著重要性。使用 TCGA 训练数据和随机森林模型预测了预后能力,实现的 AUC 值在 1 年时为 0.998,在 3 年时为 0.988,在 5 年时为 0.986。时间依赖性ROC曲线趋近于1,且特征基因高表达组的生存曲线显示预后显著低于低表达组。纳入代谢性状相关基因的风险预测模型能够可靠地预测患者的生存结果。

乳腺癌机器学习模型验证及预后分析

基于机器学习模型在 GSE58812 队列和合并数据集中绘制的 ROC 曲线、时间依赖性 ROC 曲线和生存曲线均表现出稳健的预测准确性。高表达组、肿瘤分期较高、淋巴结转移晚期和肿瘤较大的患者死亡率较高。

乳腺癌代谢风险模型相关基因的综合富集及预后分析

CC分析显示,与乳腺癌高代谢风险相关的基因显著富集在线粒体内膜、线粒体蛋白复合物。MF分析表明,这些基因参与了钙粘蛋白结合和细胞间粘附介导等活动。KEGG通路分析,发现与HPV感染相关的通路显著富集。高风险评分联合分期指数与乳腺癌患者预后不良及复发风险较高相关。只有分期与不良预后和复发风险显著相关。这些发现表明,本研究建立的代谢风险模型可以准确预测乳腺癌患者的生存预后。

乳腺癌代谢风险模型与免疫评分综合分析

乳腺癌代谢风险评分与趋化因子CCL11、CCL16、CCL17、CCL18、CCR1、CCR10、CXCL1以及细胞因子IL10、IL11和IFNA1均呈正相关和负相关。相关性如下:CCR6(0.27)、CSF2RB(0.20)、CX3CR1(0.20)、CXCL12(0.20)、FAS(0.22)、IFNAR2(0.22)、IL12B(0.22)、IL12RB2(0.22)、IL33(-0.23)、TGFBR3(-0.27)、PDGFD(-0.25)、PDGFRA(-0.28)和TGFBR2(-0.34)。所有这些相关性均有显著差异。这些发现表明高代谢风险评分与免疫浸润水平降低之间存在显著关联。

乳腺癌组织及单细胞水平代谢特征基因表达谱分析

利用TISCH数据库分析了CLDN7、S100B、TSTA3、ADCK5、AP1M2、PRSS12、FBXL6、MAF1和KLF16的单细胞表达谱。与GEPIA数据库的结果一致,这些代谢特征基因在肿瘤上皮细胞中表现出特定的高表达水平,而在免疫细胞、内皮细胞和成纤维细胞中则保持较低的表达水平。

文章小结

这篇文章用了多组学技术探究代谢紊乱对乳腺癌免疫微环境的复杂影响,用机器学习算法基于转录组数据用来构建预后模型,最后还用单细胞数据分析代谢特征基因的表达谱。像这篇文章无论是构建模型还是单细胞分析,在处理庞大数据量时,一定少不了功能强大的服务器,小记者的团队做生信服务十多年,为宝子们准备的服务器肯定也是相当顶尖,有需要来滴滴!


如果您时间、科研条件有限,“生信日报”非常乐意为您提供如下服务:生信分析和方案设计,有意向的小伙伴欢迎咨询小记者哦!

定制生信分析

生信云服务器

课题思路设计

单细胞测序

机器学习

网络药理学

临床数据库



【声明】内容源于网络
0
0
生信日报
内容 283
粉丝 0
生信日报
总阅读67
粉丝0
内容283