上午好!今天小编和大家分析一篇23年3月发表在Journal of Translational Medicine(IF:8.46)杂志的文章《Comprehensive analysis of scRNA-Seq and bulk RNA-Seq reveals dynamic changes in the tumor immune microenvironment of bladder cancer and establishes a prognostic model》。Bulk RNA-seq测序数据已被用作许多癌症的预后标志物,但不能准确检测肿瘤细胞中的核心细胞和分子功能。在本研究中,作者将Bulk RNA-seq和单细胞RNA测序(scRNA-seq)数据结合起来,构建膀胱癌(BLCA)的预后模型。此外,作者探索了风险模型和浸润免疫细胞之间的关系,以更好地了解BLCA进展过程中的潜在分子免疫过程。总之,作者的研究提供了一个新的见解,可能有利于BLCA的临床管理。
背景:
膀胱癌(BLCA),简称尿路上皮癌,是最常见的泌尿系统恶性肿瘤之一,90%以上起源于尿路上皮。据估计,每年诊断出超过55万例新发病例,死亡超过20万例。它已分别成为男性和女性中第四和第十大最常见的恶性肿瘤。循证指南推荐将根治性膀胱切除术与盆腔淋巴结切除术作为BLCA患者的主要治疗手段。尽管患者接受了积极的治疗,包括手术、免疫治疗、化疗和放疗,但5年总生存率(OS)仍不令人满意,中位OS约为14个月;造成这种不良预后的原因包括诊断的延误和缺乏有效的治疗。但最重要的是,预后不佳与癌细胞的侵袭性和高度增殖能力以及疾病特征的异质性密切相关。因此,迫切需要揭示参与肿瘤发生的分子机制,从而探索新的潜在分子生物标志物,这对BLCA患者的早期诊断、靶向治疗和预后评估至关重要。
随着近几十年来癌症基因组学的快速发展,批量转录组测序(bulk RNA-seq)已成为转录组学的主要工具,越来越多的基因改变被确定为BLCA的有效治疗靶点。例如,外显子环形TPRA可以通过内源性阻断IGF2BP1对m6A修饰的RNA的识别来抑制癌症的发展。然而,与探查细胞群平均基因表达的Bulk RNA-seq或微阵列实验相比。目前,单细胞RNA-seq(scRNA-seq)阐明了关于细胞转录组异质性的信息,使潜在的基因表达分布分析成为可能。利用scRNA-seq,可以开发个性化的治疗策略,这对癌症诊断和癌症进展过程中的抗治疗有潜在的作用。scRNA-seq和scATAC-seq的整合分析发现CXCL14是乳腺癌淋巴结转移的关键调节因子,这提高了学者对肿瘤转移机制的理解。在这项研究中,作者利用scRNA-seq和Bulk RNA-seq数据进行了系统的生物信息学分析,构建了BLCA患者的预后模型,并通过两个外部验证队列来验证其对风险进行分层的能力。同时,作者概述了免疫浸润的情况,并确定其如何促进BLCA的发展。
方法:
(1)数据源和处理
从TCGA数据库下载TCGA-BLCA的大量Bulk RNA-seq数据、临床信息和SNP突变位点数据。从GEO数据库下载BLCA的scRNA-seq数据集GSE129845。从GEO数据库下载BLCA的数据集GSE13507和GSE32548作为外部验证集,以验证模型的可行性。
(2)核心细胞的筛选及其标记基因的功能富集分析。
(3)TCGA-BLCA中DEGs的鉴定及功能富集分析。
(4)通过WGCNA分析和Pearson相关性分析筛选与BLCA最相关的模块基因。
(5)预测模型的构建和验证
通过单因素Cox回归分析和最小绝对收缩和选择算子(LASSO)回归分析筛选特征基因和构建预后模型。通过ROC曲线评估风险模型的准确性并在验证集中验证。
(6)分析不同临床病理特征下患者风险分数的差异。
(7)独立预后分析
将风险分数和临床特征纳入单因素和多因素Cox分析,鉴定独立风险因素。整合独立风险因素构建列线图模型并通过校准曲线验证列线图的有效性。
(8)GSEA富集分析
对高低风险组样本中的所有基因进行GSEA富集分析,以探索高风险和低风险组之间的功能差异和相关途径。基于分子特征数据库(MSigDB),对来自高风险组和低风险组样本的所有基因进行GSVA富集分析。
(9)免疫微环境分析
计算高低风险组样本中免疫细胞的ssGSEA评分。用Pearson相关系数分析风险评分与免疫浸润细胞的相关性。同时,引入了与ICB反应相关的T细胞炎性GEP基因来评估癌症免疫治疗中风险评分的预测潜力。
(10)化疗药物敏感性分析
基于GDSC数据库和CTRP数据库评估高风低风险组之间的化疗药物敏感性差异。
结果:
1.BLCA细胞亚型的鉴定
首先,对scRNA-seq进行质控分析,过滤了不合格的细胞,产生了13,490个核心细胞用于后续分析(图1A)。对核心细胞进行了基因方差分析,作者发现2000个基因高度可变(图1B)。对三个单细胞样品进行PCA(图1C),单细胞样本分散分布,结果符合逻辑。。选择了20个p.value < 0.05的主成分(PCs)进行后续分析(图1D)。然后,使用umap算法将核心细胞划分为19个独立的细胞簇(图1E, F)。通过“singleR”包、CellMarker数据库和参考文献寻找标记基因对不同的簇进行标注,得到7个细胞簇,分别是B细胞、内皮细胞、T细胞、单核细胞、成纤维细胞、平滑肌细胞和上皮细胞(图1G)。气泡图显示每种细胞类型的重要标记基因的表达(图1H)。

2.核心细胞的鉴定及其标记基因功能富集分析
通过FindAllMarkers和Wilcoxon检验,共鉴定出474个显著不同的标记基因。计算每个细胞簇显著不同的标记基因的ssGSEA评分,作者发现7个细胞簇在BLCA中都显著下调,因此7个细胞簇被认为是后续分析的核心细胞(图2A)。核心细胞标记基因富集GO和KEGG功能(图2B-E)。除平滑肌细胞外,所有六种细胞类型的标记基因都与细胞激活的正向调控相关,包括淋巴细胞和白细胞(图2B)。此外,单核细胞和T细胞的标记基因与细胞因子-细胞因子受体相互作用有关。B细胞的标记基因与p53信号通路相关。内皮细胞、上皮细胞和平滑肌细胞的标记基因与黏附和ecm受体相互作用有关(图2E)。

使用Monocle 2算法对所有标注的细胞分别进行伪时间分析,探索其分化方向。结果显示,BLCA细胞逐渐向3个分化方向分化(图3A)。上皮细胞分化较其他细胞早,分化为两个分支,其中一个分支以内皮细胞为主,另一个分支以平滑肌细胞、成纤维细胞为主(图3B)。此外,细胞-细胞通信网络用以预测基于特定通路和配体受体的细胞间通信。配体-受体对数量的热图显示,成纤维细胞、T细胞、单核细胞、内皮细胞和上皮细胞的细胞通讯更为频繁(图3C)。内皮细胞与上皮细胞、内皮细胞与成纤维细胞、内皮细胞与T细胞相互作用的频率和强度较高(图3D)。而B细胞与其他细胞的相互作用相对较少。

3.Bulk RNA-seq数据中DEGs的鉴定和功能富集分析
共获得1556个显著DEGs,其中上调基因708个,下调基因848个(图4A, B)。GO分析显示,DEGs主要富集于核分裂、细胞器裂变、有丝分裂核分裂等细胞周期相关功能(图4C-E)。KEGG富集结果显示,PI3K-Akt信号通路、MAPK信号通路、粘附点和细胞周期是DEGs富集的通路(图4F)。

4.BLCA相关关键模块的识别
WGCNA用于鉴定与BLCA发生发展相关的基因。在共表达网络构建过程中,无标度拓扑的拟合指数达到0.85时,软阈值功率β为5(图5A, B)。将MEDissThres设为0.2,通过动态剪切树算法分析相似模块进行合并,合并后最终得到10个模块(图5C, D)。根据相关系数和P值,选择MEbrown作为关键模块(含2334个基因)(图5E)。图5F展示了棕色模块临床相关性散点图。

5.基于3个特征基因的预后模型的构建与验证
用Venn图展示了细胞亚型的标记基因,BLCA模块基因和DEG的交集,共获得123个交集基因定义为候选基因(图6A)。然后使用TCGA-BLCA训练集进行单变量Cox回归分析,有10个基因与OS显著相关(图6B)。然后利用LASSO算法筛选基因构建模型。结果如图6C所示。以最小的交叉验证误差筛选出3个特征基因:PCOLCE2、MAP1B和ELN。风险评分= 0.09876179 × PCOLCE2 + 0.04635731 × MAP1B + 0.01686333 × ELN。根据cut-off = 0.15将患者分为高危组和低危组(图6D)。Kaplan-Meier分析显示高风险评分患者的OS明显低于低风险评分患者(图6E)。为进一步评估风险模型的有效性,计算OS的ROC曲线,第1、2、3、4、5年的AUC值均大于0.59,表明风险模型的有效性更好(图6F)。综上所述,我们的预后模型在BLCA中显示出良好的预测效率。

6.风险评分与不同临床特征的分析
为分析风险评分表达与临床特征的相关性,根据不同临床特征分组分别比较患者风险评分的差异。结果显示,N期、T期、OS状态的风险评分有显著差异(图7B)。风险模型和临床特征的热图如图7A所示。

7.独立预后因素的筛查和列线图的构建
为了筛选独立的预后因素,临床特征和风险评分采用单因素和多因素Cox分析。RiskScore和Stage是患者的独立预后因素(图8A, B)。这两个独立预后因素被纳入nomogram模型(图8C)。此外,校准曲线显示模型具有较高的预测效果(图8D)。因此,可以推测风险评分是一个独立的预后因素,nomogram对预测BLCA患者的OS有较高的预测效果。

8.高风险和低风险组患者之间的GSEA
为了分析高风险和低风险亚群对癌症进展的影响,作者进行了GSEA以确定两组之间最显著的富集途径。结果显示,高风险组主要在参与免疫反应的细胞活化、体液免疫反应等免疫过程中明显富集(图9A)。KEGG表明,诸如趋化因子信号传导途径、补体和凝血级联等途径在高风险组中富集,而吞噬体相关途径在低风险组中富集(图9B)。作者还使用GSVA分析了高风险组和低风险组的所有基因。结果显示,高表达组在肌生成、MYC target V2、早期雌激素反应、胰腺β-细胞、DNA修复、MYC target V1、顶端连接、KRAS信号通路、过氧化物酶体、IL6 JAK STAT3和血管生成MYC target中被激活。而低表达组在缺氧、脂肪生成、血红素代谢、胆汁酸代谢、干扰素α反应通路、凝血中被激活(图9C, D)。

9.BLCA免疫疗法的可能性评估
通过ssGSEA评估不同风险组中28种免疫细胞的浸润分数。结果表明,除自然杀伤细胞、单核细胞和辅助性t细胞外,25种免疫细胞的浸润水平存在显著差异(图10A)。Pearson相关性分析显示,特征基因和风险评分与差异浸润性免疫细胞显著相关(图10B)。16个GEP基因(炎症基因)和4个免疫检查点在高风险组和低风险组中存在显著差异(图10C,F)。16个差异GEP基因和排名前4的信号通路(T细胞活化、T细胞活化调节、白细胞-细胞粘附调节、白细胞-细胞粘附)密切联系(图10D)。PPI网络显示了差异GEP基因的之间的相互作用关系(图10E)。通过在高和低风险组中进行ICB反应评估,发现CTLA-4免疫位点在Roh队列中是敏感的(图10G)。此外,BLCA患者主要的突变类型是错义突变和单核苷酸多态性(图11A)。并且高风险组的突变比例高于低风险组,高风险组的突变负荷指数TMB指数总体高于低风险组(图11B)。总之,这些结果表明免疫疗法在BLCA中有发展的潜力。


10.高风险组和低风险组患者的药物敏感性分析
在GDSC数据库中,作者共发现12种药物与风险评分呈负相关(R < -0.4 and p < 0.05),图12A展示了相关性最高的前7种药物。高风险组和低风险组患者对这12种化疗药物的敏感性显著不同(图12B)。在CTRP数据库中,药物staurosporine、CCT036477、XL765、TGX.221和sunitinib与风险评分呈最强的负相关(图12C)。同时,五种药物的AUC值在高低风险组中显著不同(图12D)。总之,这些药物有望用于BLCA的治疗。

结论
BLCA是全球最常见的恶性肿瘤之一,其发病率在许多国家呈上升趋势。尽管最近在BLCA的治疗方面做了很多努力,BLCA的异质性和侵袭性特征仍然限制了预后评估。因此,筛选新的生物标志物以帮助开发患者特异性治疗和改善预后仍然是关键和紧迫的。与关注细胞中基因平均表达水平的bulk RNA-seq不同,scRNA-seq已成为转录分层的有用工具,以定义细胞亚群并实现各种癌症(包括BLCA)中不同细胞类型之间的特异性生物标志物和异质性。因此,在这项研究中,作者对bulk RNA-seq和scRNA-seq进行了综合分析,最大限度地考虑肿瘤异质性、每个细胞群体的相互作用、免疫浸润、TMB和临床特征,并构建一种新的预后模型,能够准确区分BLCA的生存结果和免疫治疗反应,这项研究中获得的发现为BLCA患者的分层和精确治疗提供了直接证据。


