今天小编和大家分享一篇24年1月16日发表在Journal of Proteomics期刊的文章《Development of lymph node metastasis-related prognostic markers in breast cancer》。
乳腺癌(Breast Cancer,BC)是一种恶性肿瘤,主要发生在乳腺小叶、乳腺导管或结缔组织中,对全球女性健康构成巨大挑战。5%-10%的女性在首次诊断为BC时就已经出现转移,大约5%的患者可以存活5年以上。淋巴结转移(Lymph node metastasis,LNM)是指肿瘤细胞从原发部位转移到淋巴结,在淋巴结这里可以扩大形成新的肿瘤。BC的LNM往往预示着预后不良,目前对于BC中的LNM相关基因在很大程度上仍然未知,需要进一步探索。因此,作者的目的是希望在BC中寻找潜在的LNM相关基因,为BC治疗提供有意义的新型生物标志物。
首先从癌症基因组图谱TCGA和基因表达综合GEO数据库中获得公开可用的表达数据,以发现BC和正常乳房组织之间的差异表达基因(DEGs)。接着Cox单因素回归分析和LASSO回归分析构建BC的LNM相关预后风险模型。根据风险评分计算该预后模型中每个基因的风险系数。利用中位数风险评分值将样本分为低风险组和高风险组。随后,对两个风险组进行了一系列生物信息学分析(生存分析、回归分析、临床相关性分析),以检验模型的准确性和独立预后能力,并构建列线图。同时,讨论了两个风险组之间富集和免疫能力的差异。
背景
乳腺癌(BC)作为最普遍的恶性肿瘤,主要发生在乳腺小叶、乳腺导管或结缔组织中,对全球女性健康构成巨大挑战。据统计,2020年全球女性新发BC病例为230万例,占癌症相关死亡病例的11.7%。目前手术、化疗、激素治疗、免疫治疗和放疗仍是BC的主要治疗方法。因此,研究BC中新的预后生物标志物对于BC患者的预后和个体化治疗是必要的。
淋巴结是肿瘤局部转移的一部分,是肿瘤细胞从原发部位逃逸到身体其他部位的主要通道。淋巴结转移(LNM)是指肿瘤细胞从原发部位转移到淋巴结,在那里它们扩大形成新的肿瘤。许多诊断为LNM的患者有远处转移,导致预后不良。因此,了解LNM的特点和机制对治疗转移性疾病具有重要意义。目前,许多研究已经确定了可能影响LNM-BC患者治疗结果的潜在调节因子。例如,Hou等报道,细胞外Hsp90α通过作用于LRP1蛋白介导的AKT通路,上调淋巴管生成途径中CXCL8的表达和分泌,从而促进BC淋巴管生成和LNM。通过单细胞测序和染色质测序以及BC淋巴结阳性和阴性患者的分析,Xu等发现CXCL14是BC中LNM的关键调节因子,其高表达与癌症进展密切相关。综上所述,LNM在BC中的机制是复杂的,需要许多相互作用的成分。然而,BC中的LNM相关基因在很大程度上仍然未知,需要进一步探索。因此,在BC中寻找潜在的 LNM相关基因为BC治疗提供了有意义的生物标志物。
1.数据下载和差异表达分析;
2.LNM相关预后风险模型的构建与验证;
3.独立预后分析;
4.基因本体论(GO)和京都基因和基因组百科全书(KEGG)富集分析;
5.聚类分析和免疫能力分析;
6.突变分析;
7.药物敏感性的预测;
8.qRT-PCR验证;
结果
(一)差异表达基因的鉴定及预后风险模型的构建

首先对数据集TCGA-BC的肿瘤组和正常组进行差异分析,获得270个DEGs,其中120个基因显著上调,150个基因显著下调,热图和火山图对结果可视化(Fig 1A)。进一步使用单因素Cox回归分析,获得了25个预后相关基因。通过PH假设检验后使用LASSO回归分析,鉴定出18个特征基因(图1B-C)。基于这些结果,进一步进行多因素Cox回归分析,最终获得11基因构建预后模型,该模型可以表征LNM的BC患者的预后价值(图1D)。具体风险评分公式如下:风险评分 = −0.054 * AICDA +0.0230 * LHX1–0.051 * NROB1–0.031 * COL9A1–0.038 * FABP7 + 0.141 * ACAN +0.041 * BPIFB6 + 0.065 * SMR3A + 0.051 * POU3F2 + 0.060 * CDH10–0.025 * OPRPN。
(二)预后风险模型的验证

为了测试模型的预测潜力,计算训练集中所有样本的风险评分,并根据风险评分的中值将训练集中的BC样本分为高风险组和低风险组(图2 A)。随后的生存分析显示,低风险BC患者的生存时间更长,生存率更高(图2B-C)。在两个验证集中,高危组的生存率显著降低(图2D-E)。此外,值得注意的是,在两个风险组中,LNM(N+)患者的生存率明显低于没有 LNM(N-)的患者(图 2F-G)。这些结果确定了模型的良好分类性能。然后,使用 R 包分析训练集(TCGA 数据集)和验证集(GSE20685数据集和GSE42568数据集)中的样本数据,并绘制了 1 年、3 年和 5 年 ROC 曲线。结果表明,在训练集中,ROC曲线在1年、3年和5年的AUC值分别为0.79、0.74和0.73(图2H)。验证集GSE20685中 1 年、3 年和 5 年 ROC 曲线的 AUC 值分别为 0.64、0.68 和 0.67(图 2I),验证集 GSE42568 的 AUC 值分别为 0.75、0.67 和 0.7(图 2J)。此外,本研究还将预后模型的性能与TCGA数据集中p53和GATA3的性能进行了比较,结果表明本研究模型具有更好的性能和更高的AUC值(图2K)。综上所述,成功构建了具有良好预测性能的BC患者LNM相关风险预后模型。
进一步研究了模型中两个风险组之间11个特征基因的表达变化。结果显示,与低风险组相比,高风险组CDH10、SMR3A、ACAN、POU3F2、BPIFB6和LHX1下调,NROB1、OPRPN、COL9A1、FABP7和AICDA下调(图2L)。此外,两个验证集中预后特征基因的表达水平呈现相同的趋势,尤其是在GSE20685队列中(图2M-N)。这些基因被认为最有可能影响 BC 中的 LNM。
(三)BC中LNM相关基因风险模型的独立预后分析

对TCGA-BRCA的临床样本数据(年龄、性别、T、M、N、分期)进行分组,然后计算各组对应的风险评分值,确立了风险模型可以作为独立的预后因素。65岁以上的BC患者的风险评分值显著高于65岁以下的BC患者(图3A)。M1组风险评分值显著高于M0组(图3 C),性别组、T期、N期和分期组间风险评分值差异无统计学意义。
(四)BC中与LNM相关的DEGs富集分析

对训练集中两个风险组的样本数据进行差异分析,获取310个DEGs。为了阐明这些 DEG 可能参与的生物学过程,我们首先使用 metascape 数据库进行了富集分析,结果显示这些 DEG 在体液免疫反应、原发性免疫缺陷和其他免疫相关生物学功能和途径中的富集(4A-C).随后,使用 R 包对它们执行 GSEA。R包分析结果显示,癌症中B细胞受体信号通路、PD-L1表达和PD-1检查点通路中DEGs富集(4D)。
(五) 免疫细胞的免疫浸润分析

肿瘤微环境中的免疫细胞具有抗肿瘤和促肿瘤作用,可表现出促进免疫监视和阻止肿瘤进展的抗肿瘤表型。利用ssGSEA方法分析训练集中两个风险组的数据以探究两个风险组之间免疫细胞的免疫浸润水平。结果显示,低危组CD8+_T_cells、B_cells、树突状细胞(DCs、aDCs、iDCs、pDCs)、抗原呈递细胞(APC_co_stimulation和APC_co_inhibition)、中性粒细胞、调节性T细胞(Treg)、T细胞(T_cell_co抑制和T_cell_co刺激、Th1_cells和Th2_细胞)的免疫浸润水平显著高于高危组(图5除此之外,我们还进行了估计分析。从热图中也可以明显看出,低风险组的免疫浸润水平相对较高(图5 B)。从小提琴图中可以看出,低危组的免疫评分和ESTIMATE评分明显高于高危组,而肿瘤纯度评分显著低于高危组(图5C)。
(六)风险评分和免疫相关措施的联合分析

进一步分析风险评分与患者免疫力之间的关系。通过相关性分析发现,riskscore与4个免疫检查点(CTLA4、LAG3、PDCD1和CD274)的表达水平呈显著负相关(P < 0.05)(图6A)。此外,低危组的4个IPS评分均显著高于高危组(P < 0.05)(图6 B)。
(七)高低风险组人群基因突变的差异分析

基因突变会影响癌症的进展,对高危和低危人群的基因突变进行了相关性分析。对前 20 个突变基因的相关性分析确定了高危组 GATA3 和 MUC4 以及 TP53 和 PIK3CA 的相互排斥突变(图 7A)。最值得注意的是,在低风险组中,MAP3K1 和 TP53 是相互排斥的突变(图 7B)。这意味着这3对基因可能在肿瘤的发展中起相反的作用。此外,我们还发现,高危组和低危组的大多数突变是错义突变,其中大部分是C-T突变(图7C-D)。PIK3CA在高危组的突变频率最高,而TP53在低危组的突变频率最高(图7E-F)。
(八)高低风险组药物敏感性的预测

对高危和低危人群中常见癌症治疗的药物敏感性进行分析。博来霉素、pi-103 和他拉唑帕尼的 IC 较低50低危组的值表明,与高危组患者相比,低危组患者对上述三种药物的药敏性更高(图8)。
(九)PCR验证

模型基因中的一些基因被报道与BC患者的预后密切相关。因此,对这些基因在BC细胞中的表达进行了进一步验证。与数据库结果一致,CDH10、SMR3A、POU3F2、FABP7基因及其对应蛋白在BC中下调,而LHX1上调(图9)。