大数跨境

开发和验证胃癌中焦点粘附相关基因的特性

开发和验证胃癌中焦点粘附相关基因的特性 中科生信
2023-03-31
2
导读:本研究旨在建立基于焦点粘附相关基因的预后特征(FAS),以准确预测胃癌(GC)预后并确定与胃癌相关的关键预后基因。

背景  

本研究旨在建立基于焦点粘附相关基因的预后特征(FAS),以准确预测胃癌(GC)预后并确定与胃癌相关的关键预后基因。

方法  

1、GC患者的临床病理信息和相应的基因表达数据来自GEO数据库。在整个队列中检查了总共 684 个病例(GSE13861、GSE29272、GSE62254和GSE26942)。从 TCGA数据库中提取了 330 个 TCGA-STAD 样本及其相应的临床病理学数据。从 MSigDB 数据库中检索了一系列与焦点粘附相关基因。

2、每个基因矩阵文件的基因符号根据 Perl 软件使用的相应平台文件提取。整个队列以 7:3 的比例随机分为训练队列和测试队列。

3、从 MSigDB 数据库筛选出 199 个焦点粘附相关基因。通过单变量 Cox、LASSO 回归和多变量 Cox 分析这些基因与胃癌预后之间的关系。  

4、基于焦点粘附风险评分、患者的性别、年龄和美国癌症联合委员会 AJCC 分期,绘制预测列线图以预测GC患者的OS。使用校准和接受者操作特征(ROC)曲线评估列线图的精度。

5、GSEA 网站用于识别由焦点粘附相关基因调节的功能富集途径。

6、估计每个GC样本的肿瘤微环境(TME)中的免疫和基质成分评分。然后计算免疫和基质评分,以及估计的评分。

7、用ssGSEA量化16种免疫细胞的浸润状态和13条免疫相关通路在高危和低危组中的活性。

8、药敏分析使用cellminer数据库数据,筛选FDA批准和临床试验数据,分析焦点粘附相关基因表达水平与药物的关系灵敏度。进行Spearman相关性分析,确定相关性,选取排名前16位的药物。

9、从GEO网站下载GSE112301数据集,创建一个包含单细胞数据集基本信息的Seurat对象。对数据进行质量控制,包括过滤掉低质量的细胞,然后使用主成分分析(PCA)降低数据的维度。可视化 PCA 结果以更好地区分不同组织中细胞之间的差异。最后对GC样本和正常样本进行基因表达分析。

10、统计分析,KM 生存分析评估高风险组和低风险组之间的差异 OS 持续时间。p < 0.05 被设置为显着性阈值。

结果  

1、患者特征和FAS的建立

如图1,在排除存活时间少于30天的病例和正常病例后,在四个GEO数据集(GSE13861、GSE26942、GSE29272和GSE62254)中整理了684个样本。这些病例按7:3的比例随机分为训练组(478)或测试组(206)。“limma”包提取了 GEO 数据库中与焦点粘附相关的基因。在训练队列中,进行单变量Cox和LASSO回归分析以筛选与GC患者OS相关的八个基因,如图2A.根据八个焦点粘附相关基因的表达水平和相应的回归系数的线性组合计算风险评分。风险评分=CMOP×(0.3294)+FLNC×(0.2545)+ITGB5×(0.7737)+LAMC1×(0.8969)+TBHS1×(0.5076)+THBS4×(0.0156)+VEGFB×(0.8368)+VWF×(0.2495)。根据使用Survminer R 包确定的风险评分的最佳截止值,将患者分为高风险组和低风险组。对所有关键基因的进一步独立预后分析揭示了这些基因的高表达水平与训练队列中的不良预后之间存在显着关联。训练队列中患者的风险评分分布和生存状态显示在图 2B–D。K-M分析确定了训练队列中两组之间的差异(图 3A). 最后,时间相关的 ROC 展示了我们预后价值(图 3D)。

2、预后基因特征的验证和评估

进行了测试和外部验证。与训练队列结果一致,高风险患者的OS低于低风险患者(图 3B, p < 0.001 在测试队列中;图 3C,在 TCGA 队列中p = 0.007)。ROC 曲线下的面积表明该基因可以准确预测GC预后(图 3E、F)。测试和外部验证队列的AUC在3年时分别为0.667和0.627,在5年时分别为0.652和0.701。使用PCA和t-SNE分析评估基因的准确性。PCA和t-SNE图都显示高风险组和低风险组在训练中有不同的方向(图 3G,J),测试(图 3H、K),和外部队列(图 3I、L)。

3、FAS是GC的独立预测因子

Cox 回归分析证明了从预后模型获得的风险评分与其他临床参数之间的关系。基于单变量和多变量回归分析、分期(p < 0.001,HR = 3.369;p < 0.001,HR = 3.050)和风险评分(p < 0.001,HR = 3.314;p < 0.001,HR = 2.980)是训练队列中的独立 OS 预后因素(图 4A、B)。测试队列得到验证,其中两个阶段(分别为p < 0.001,HR = 3.248;p < 0.001,HR = 2.903)和风险评分(分别为p < 0.001,HR = 3.025;p = 0.002,HR = 2.676;图 4C、D)被证明是GC患者OS的独立危险因素。

4、FAS预后价值的亚组分析

为了根据临床特征研究所开发模型在不同患者人群中的预后价值,将训练队列进一步分为亚组,并在每个亚组的高风险组和低风险组之间估计OS。K-M分析表明,风险评分可以区分不同亚组之间的差异,例如年龄、性别和阶段(图 5A–F)。同样,在测试队列中,高危组和低危组在年龄和性别方面存在差异,但在I-II期亚组中未观察到显着差异,这可能与我们研究中的样本量相对较小有关。分析了GEO数据集中GC患者 ( n = 684)的风险评分与相应临床特征之间的关系。I+II期患者的风险评分显着低于III+IV 期患者(p=1.7e-09,图 6A)。年龄亚组中显示了类似的结果(p=0.0095,图 6B)。风险评分与性别之间无显著关系(p=0.72,图 6C)。

5、生成预测GC患者OS的预后列线图

为了准确预测GC患者的预后,基于单变量和多变量回归分析开发了列线图来预测1年、3年和5年OS率(图 7)。此外,3年时间依赖性ROC分析显示列线图的敏感性高于训练队列中的其他临床病理特征(图 8A),测试队列(图 8B),整个队列(图 8C)和外部群组(图 8D)。训练队列列线图的5年时间相关ROC分析(图 8E),测试队列(图 8F),整个队列(图 8G)和外部群组(图 8H)。训练、测试、整个队列和外部队列的校准图在实际OS和列线图预测之间是一致的(图 8I–8L)。从3年和5年的时间相关性ROC分析和校准图中可以看出,生成的预测GC患者1年、3年和5年OS率的列线图是准确的。这些结果表明,列线图是预测GC患者预后的一个可靠工具

6、GSEA

为了探索高风险组和低风险组之间的功能和信号通路差异,对基因集 "c5.go.v7.4.symbols.gmt "和 "c2.cp.kegg.v7.4.symbols.gmt "进行了GSEA。图9A-D显示了高风险组和低风险组的前五条路径和基因功能。

7、免疫细胞浸润和免疫相关途径

肿瘤微环境(TME)在调节肿瘤治疗抗性方面起着关键作用,并与肿瘤的发生、发展和转移有关。它包括各种成分,如肿瘤细胞、免疫细胞、基质细胞和各种细胞因子。TME的变化,包括免疫细胞成分的改变,可以促进肿瘤的进展。为了分析免疫细胞在GC TME中的分布,研究GC肿瘤与免疫细胞之间的相互作用,我们利用ssGSEA工具,根据GC基因表达谱数据预测了16种常见的免疫细胞和13种免疫相关的功能成分。

与高危组相比,低危组患者的B细胞、T调节器和滤泡辅助T细胞的比例更高(图10A)。此外,与高风险组相比,低风险组表现出更高的抗原-呈递细胞(APC)共同抑制、炎症促进和T细胞抑制水平(图10B)。此外,我们证明高危组的CD200、CD28、CD40、CD44、CD86、LAIR1、NRP1、TNFRSF4、TNFRSF8、TNFSF18、TNFSF4和VTCN1的表达水平均高于低危组(图10C)。研究结果表明,免疫微环境可能与病灶粘附相关基因高表达的GC患者的OS预后有部分关系。

8、m6A表达的相关性

N6-甲基腺苷(m6A)是真核细胞中最丰富的RNA修饰(Yue等人,2015)。广泛的RNA加工和代谢研究发现,m6A是癌症发展的一个关键因素。m6A是一个潜在的预后标志,涉及癌症治疗的多个方面(Ma等人,2019年)。为了评估m6A表达与我们的GC预后特征之间的关系,我们估算了不同GC样本中13个m6A基因的水平。结果发现,高危组与低危组相比,FTO、METTL3、YTHDC1和YTHDF1基因的表达升高(图10D)。

9、TME亚组分和病灶粘附相关基因风险评分与GC患者结局的相关性

TME由与疾病发展、预后和治疗结果有关的各种免疫和基质细胞组成。基于我们的ESTIMATE算法,TME被分成基质、免疫和估计子成分并进行评分,以研究本研究的风险分数和TME之间的潜在关系。高的免疫或基质分数表示TME中的免疫或基质成分比例高。ESTIMATE分数是免疫和基质分数之和,表示这两种成分在TME中的综合比例。在我们的研究中,整个队列中高危组的病人的基质、免疫或ESTIMATE评分(图11A)都高于低危组的病人。

为了进一步研究TME的不同组成部分对GC患者生存的影响,根据免疫、基质和ESTIMATE分数的中位数作为分界点,将整个队列分为亚组。如图11B、D所示,基质和ESTIMATE分数高的患者比基质和ESTIMATE分数低的患者的总生存率更差(分别为P < 0.001,P = 0.01)。然而,免疫评分高和低的病人的生存率相似(p = 0.933)(图11C)。为了更好地了解免疫微环境和GC预后之间的关联,我们生成了一个热图来显示高风险组和低风险组的免疫细胞得分的分布,如图12所示。

10、药物敏感性的预测

分析了药物Z评分和基因之间的相关性,图13中显示了前16个显著的药物-基因对。共有246种药物表现出统计学差异。其中,Dasatinib、XAV-939和Staurosporine与中枢基因表达的正相关度最高。相反,帕尔博克、奥沙利铂和利巴韦林与枢纽基因的表达呈负相关(图13)。

11、基于病灶粘附的预后模型在临床样本中的验证

为了研究不同枢纽基因表达的患者的预后,我们分析了KM-plotter数据库中STAD的临床数据。除THBS1外,枢纽基因高表达的患者总生存期(OS)优于低表达的患者(图14)。

12、利用scRNA-seq数据验证枢纽基因的表达

单细胞RNA测序数据集GSE112302被用于进一步的高分辨分析。我们的研究中共包括三个GC和三个正常样本。

对数据进行质量控制后,进行标准化和归一化,然后进行PCA和UMAP。共有305个正常细胞和401个肿瘤细胞被包括在分析中。不同组织中每个基因的UMAP图显示在补充图S3C中。大多数基因在肿瘤细胞中表现出高表达,除了ITGB5,这可能是由于样本量有限(图15)。

【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读1.6k
粉丝0
内容580