背景:
方法:
结果:
结论:
研究结果:
1.血管生成相关通路评分分析

2.鉴定了与血管生成相关的lncrna
从TCGA数据集中鉴定了92个与血管生成信号相关的lncRNA,从GSE39582数据集中鉴定了75个与血管生成信号相关的lncRNA。最后取交集,共获得29个lncRNA。获得了部分TCGA数据集中血管生成通路中血管生成信号相关lncRNA的GSEA模式 (Fig. 2)。

3.基于血管生成相关LncRNA的分子分型
两个数据集的并集包含138个血管生成相关的lncRNA,交集包含29个血管生成相关的lncRNA,提示不同平台的数据集之间lncRNA的一致性较差。因此,在TCGA和GSE39582数据集中使用138个lncRNA进行单因素Cox分析,共获得66个与预后相关的lncRNA用于进一步分析 (Fig. 3a)。
CDF delta area曲线表明Cluster 3具有相对稳定的聚类结果。最终选择k = 3得到3个分子亚型,分别为S1、S2、S3 (Fig. 3B-D)。进一步分析两种数据集中3种亚型的预后特征,发现存在显著的预后差异。总体而言,S1和S2预后较好,而S3预后最差 (Fig. 3E-F)。这些结果表明,基于血管生成相关lncRNAs分类的3种分子亚型在不同的研究队列中具有相似性。
4.本研究的亚型与现有亚型的比较
将现有的6个免疫亚型进行比较,发现TCGA-COAD数据中没有C5免疫亚型,而TCGA数据中的大部分患者属于C1和C2免疫亚型。在分子亚型和现有免疫亚型中的样本分布显示,S3亚型与S1亚型之间存在明显差异。TCGA亚型的4种亚型在本研究的3种亚型中的分布存在显著差异 (Fig. 3g)。而在TCGA和GSE39582中,CMS4在S3中分布最多,与其他两种亚型均有显著差异 (Fig. 3H)。

5.分子亚型间的突变特征及临床特征分析
S1、S2、S3在年龄、N分期、T分期、分期等TCGA临床特征中的分布差异在各亚型间差异有统计学意义 (Figs. 4A-D)。而TMB在S1、S2、S3中的分布情况均无显著性差异 (Fig. 4e)。然后,分析了TCGA队列中不同分子亚型的体细胞突变,并定位了每个亚型中前20个基因的突变特征,其中KRAS和FAT4为突变频率最高的基因 (Fig. 4f)。
6.分子亚型的GSEA分析
分别在TCGA和GSE39582数据集中获得了GSEA显著富集的途径结果。在TCGA和GSE39582数据集中,不同亚型的结果是一致的。与亚型S1和S2相比,HYPOXIA、EPITHELIAL _ MESENCHYMAL _ TRANSITION、TNFA _ SIGNALING _ VIA _ NFKB、TGF _ BETA _ SIGNALING等通路在S3亚型中显著富集 (Fig. 5A-B)。

7.分子亚型的免疫学特征
TCGA队列中不同亚型的免疫评分比较显示,S2的多项免疫评分低于S1和S3 (Fig. 6a)。在先天免疫和适应性免疫评分中,S2的免疫评分也低于S1和S3 (Fig. 6b)。在TCGA队列中,S2的估计免疫分数和MCP计数评估的10个免疫细胞分数也显著低于S1和S3 (Fig. 6C-D)。S2中免疫相关基因的表达量也低于S1和S3,如CTLA4、IDO1、LAG3、PDCD1LD2等。同样的结果在GSE39582数据集中得到了验证。
8.分子亚型的TIDE分析
发现S2在TCGA队列中得分最低,S3亚型TIDE得分最高,提示S3免疫逃逸的可能性更大。还分析了TIDE软件预测的免疫治疗反应状态的生存情况,发现S2中真实(治疗反应)的比例显著高于S1和S3 (Fig. 6f)。GSE39582数据集的结果与TCGA的结果一致。

9.基于血管生成相关lncrna的预后模型的设计与验证
对训练数据集中的138个lncRNAs进行单变量Cox分析,获得30个预后lncRNAs。然后使用Lasso回归进一步压缩训练数据集中的这30个基因。随着独立变量系数的逐渐增加,多个自变量的系数开始趋近于0。当lambda=0.0286时,该模型达到了最优水平。因此,有14个lambda=0.0286的lncrna,将它们作为靶lncrna。然后对8个lncRNA(LINC00973、LINC01116、LINC00839、LINC02656、AC080038.2、AC020659.1、AL354836.1、PCAT6)进行多元逐步回归分析,进行多变量Cox分析,计算各lncRNA的风险系数(图7a)。
RiskS - core模型的计算公式为:RiskS-core=0.724*LINC00973+0.176* LINC01116+0.758*LINC00839+0.668*LINC02656+0.617*AC080038.2+0.293*AC020659.1+0.265*AL35 4836.1+0.381*PCAT6
训练集和测试集的RiskS - core模型的ROC曲线显示,所有曲线均具有较高的AUC值,且测试集的AUC值均高于0.75,表明模型具有较强的预测能力。训练集和测试集的RiskS - core模型的KM曲线显示,低Risk S - core组的生存概率显著较高,P值< 0.0001 (Fig. 7B-C)。
使用3个独立的数据集GSE39582、GSE38832和GSE33113进行验证。计算了样本的RiskS - core。其中ROC曲线在验证集和训练集中显示了类似的结果。高RiskS - core组预后较差,低RiskS - core组预后较好 (Fig. 7E-G)。

10.RiskS - Core组的通路评分、免疫治疗和药物敏感性分析
两个RiskS - core组的通路得分比较显示,在27个通路中存在显著差异 (Fig. 8a)。计算了这27个通路得分与RiskS - core的相关性,发现目前的RiskS - core与KRAS _ SIGNALING _ UP,TGF _ BETA _ SIGNALING,HYPOXIA,ANGIOGENESIS,EPITHELIAL _ MESENCHYMAL _ - TRANSITION、NOTCH _ SIGNALING等通路呈显著正相关 (Fig. 8b)。
计算13个人类相关通路的标记基因评分,并在TCGA数据集中计算RiskS-core与这些评分之间的相关性。结果表明,RiskS-core与WNT靶点EMT1、EMT2、EMT3、同源重组显著正相关,而与DNA复制、碱基切除修复、细胞周期、同源重组、DDR、核苷酸切除修复,错配修复显著负相关 (Fig. 8c)。同时,在高、低RiskS - core组的这些评分的比较中检测到13个通路中的11个有显著性差异 (Fig. 8d)。
我们发现,在TCGA队列中,低RiskS核心组的TIDE评分最低,这表明低RiskS - core组从免疫治疗中获益更大 (Fig. 8E)。对传统化疗药物的敏感性分析显示,在TCGA数据集中,有100种药物,其中高RiskS - core组和低RiskS - core组分别对56种和44种药物敏感 (Fig. 8F)。

11.临床特征、RiskS - core和列线图的综合分析
在风险因素和临床病理特征的单因素和多因素Cox回归分析中,风险评分被证明是最重要的预测因素 (Figs. 9A-B)。通过结合其他临床病理变量和RiskS - core创建了一个列线图。RiskS-core对预测患者生存的影响最大 (Fig. 9c)。1年、3年、5年的预测校准曲线与标准曲线接近,验证了列线图的准确预测 (Fig. 9d)。DCA从RiskS - core和列线图中显示出比极端曲线更大的益处,表明两种工具具有很强的预测能力(图9E ) (Fig. 9E)。

总结:
本研究对与血管生成相关的lncrna进行了鉴定和筛选,并鉴定出了8个影响COAD预后的关键lncrna(LINC00973、LINC01116、LINC00839、LINC02656、AC080038.2、AC020659.1、AL354836.1、PCAT6)。设计了一个风险预测模型来准确预测COAD的预后,便于评估COAD患者的免疫治疗和药物敏感性。


