现在,单纯肿瘤的生信分析想发高分越来越难了,越来越多的期刊倾向于于泛癌或多组学的生信分析。今天小编要和大家分享的这篇文章就是关于泛癌的,这篇文章是2025年7月发表在《npj Precision Oncology 》(IF:8.0)期刊上的文章《Pan-cancer, multi-omic correlates of survival transcending tumor lineage across 11,019 patients reveal targets and pathways》。这篇文章有什么亮点呢,一起跟着小编来看一下叭~
亮点:泛癌生信分析--泛癌分析旨在通过整合多种癌症类型的数据,识别共享的分子特征、机制和潜在生物标志物,其优势包括跨癌症类型的通用性、提高数据利用效率、揭示共同的生物学机制、促进个性化医学以及提高癌症分类准确性。通过泛癌分析,可以发现共性分子标志物和共享的基因突变、表达变化或通路异常,推动癌症早期诊断、预后评估和治疗策略的发展,为癌症的个性化治疗提供新视角。PS:有需求的朋友都可以联系小编哦~个性化定制&专属服务!
Highlights
1、泛癌RNA与患者生存的相关性
2、泛癌RNA相关性分析
3、免疫系统相关的相关性
4、泛癌体细胞突变相关性
5、泛癌DNA甲基化相关性
6、关联的通路
7、关键基因
8、药物反应关联
背景介绍
对人类癌症相关基因的全面了解是改善诊断和治疗的基础。癌症基因组图谱(TCGA)是一项大规模科学计划,旨在通过多种数据平台表征超过10,000种人类癌症的分子层面,包括体细胞突变、RNA和DNA甲基化等数据。TCGA对32种主要癌症类型进行了系统的分子研究,专注于每种癌症类型的分子亚型和最常见的体细胞突变基因。这些研究为后来的“泛癌”研究提供了基础,探索跨癌症类型的分子模式。
TCGA收集了临床病理数据和多平台分子数据,用于定义患者预后与分子特征的关系。尽管许多癌症类型的随访时间较短,但通过对大样本数据的统计分析,可以揭示分子特征与生存期的关联。一些研究表明,分子签名在预测癌症复发和揭示侵袭性癌症驱动因子方面具有潜在应用。此外,泛癌研究还通过系统性编目分子生存相关性,揭示更具侵袭性的疾病生物学。以往的泛癌分子研究通常会单独按癌症类型进行分析,然后检查哪些分子特征在多个癌症类型中存在共同的生存期关联。而本研究旨在系统地编目整个TCGA队列中与生存期显著相关的基因,所有肿瘤一同评估,但会对癌症类型进行校正。
主要研究结果
(一)泛癌RNA与患者生存的相关性
本研究利用了11,019例患者的肿瘤样本及其相应的OS数据,每个患者对应一个样本,代表32种主要癌症类型。TCGA通过以下一种或多种分子表征平台生成了相关数据:RNA测序(10,271例患者)、反向相位蛋白阵列(RPPA,7757例)、SNP阵列的CNA(10,737例)、外显子组测序的体细胞小突变(10,080例)和DNA甲基化阵列(8,818例)。如预期所示,不同癌症类型的OS率差异显著(图1a),大多数癌症类型的生存曲线与先前的独立研究结果相似。这些生存差异表明,在进行泛癌分子分析时,必须考虑癌症类型的修正,因为不同组织或细胞来源所涉及的全球性差异广泛存在。
(二)泛癌RNA相关性分析
在10,271名患者中,研究了肿瘤中的RNA水平与OS之间的关联,共涉及60,660个转录本,其中19,962个为蛋白质编码基因。未考虑癌症类型修正(通过Cox分析)时,大多数转录本与生存显著相关(图1b),这主要由于癌症类型之间的分子差异。在更严格的FDR小于1%的截止标准下,5694个RNA转录本与泛癌分析中的OS相关(图1b)。如预期所示,根据FDR小于1%的泛癌RNA生存标志,TCGA患者分层显示了生存显著差异(图1c),每个分层组涉及来自队列中所有癌症类型的肿瘤。在一个独立的训练-测试情境中,使用一半TCGA患者作为训练集可以预测另一半的生存。
涉及泛癌RNA标志的基因水平生存关联模式在TCGA队列中的大多数单个癌症类型中得到了广泛反映(图1d),即使患者随访时间可能存在差异。我们发现,在RNA与生存相关的较差标志和蛋白质与生存相关的较差标志之间存在高度显著的重叠,或者在RNA与生存相关的较好标志和蛋白质与生存相关的较好标志之间也存在显著重叠(图1e)。同时,RNA和蛋白质都与较差生存相关的基因包括BRD4、EGFR、PDGFRB和TAZ,而RNA和蛋白质都与较好生存相关的基因包括PTEN和SMAD4。
RNA泛癌生存标志代表了有关个体癌症类型中不良预后风险的信息,外部数据集对TCGA的基因表达数据集进行了验证。在八个独立的肿瘤基因表达数据集中,包括膀胱癌、乳腺癌、肝癌、肺腺癌、卵巢癌、儿科脑瘤、前列腺癌和透明细胞肾癌中,我们根据TCGA基础的RNA标志模式对患者进行了分层(区分较差预后基因和较好预后基因)。对于每个数据集,TCGA标志能够根据生存结果对患者进行分层(图1f)。
(三)免疫系统相关的相关性
癌细胞的新兴标志物和使能特征包括逃避免疫细胞的攻击和消除以及肿瘤促进性炎症。我们对TCGA RNA谱进行了评分,使用一组代表免疫浸润的基因表达签名,并确定了每个签名评分与患者OS的关联。在评估的24种不同免疫签名中,有11种在泛癌分析中与患者生存相关(FDR<5%,名义p<0.01,Cox修正癌症类型),其中10种涉及与签名趋势一致的个别经典基因标记关联(图2a–d)。与所有癌症患者生存较差相关的免疫签名包括巨噬细胞和中性粒细胞,而与较好患者生存相关的签名包括T细胞、B细胞和树突状细胞。除了泛癌分析结果外,巨噬细胞和中性粒细胞分别与七种和八种单独的癌症类型的较差预后显著相关,而T细胞与10种单独癌症类型的较好预后显著相关(图2a)。特别是在检查巨噬细胞和T细胞签名时,尽管绝对风险差异较为细微,与其他基因或签名相比,仍然可以分别根据癌症类型显著地将患者分为较高风险和较低风险组(图2b)。
除了RNA签名外,涉及经典免疫细胞基因标记的泛癌生存关联也反映了免疫细胞浸润在更具侵袭性的疾病中的潜在作用(图2c,d)。免疫检查点通路的调节代表了某些肿瘤可能避免被免疫系统清除的机制。在检查与T细胞和抗原呈递细胞(包括肿瘤细胞)相互作用相关的已知基因的mRNA水平时,大多数代表T细胞成分的基因在泛癌分析中与较好的预后相关(图2c)。这些基因包括PDCD1(PD1基因)、CTLA4、CD247、CD244、BTLA、CD4和LAG3。相反,代表抗原呈递细胞的基因与患者生存的关联不一致。然而,编码癌症睾丸抗原的特定基因,包括MAGEA4和SAGE1,具有较高的mRNA水平,并与较差的生存相关。个别基因层面的生存关联可支持肿瘤相关巨噬细胞(TAM)在肿瘤微环境中的作用(图2d),包括促进多个过程,如:上皮-间质转化,其中间质标志基因与较差的生存相关;组织重塑,其中基质金属蛋白酶基因与较差的生存相关;缺氧,其中HIF1A及其靶基因与较差的生存相关。
基于RNA的巨噬细胞和T细胞签名在TCGA以外的基因表达数据集中也与患者预后相关(图2e)。我们将这些签名应用于上述评估的八个独立肿瘤基因表达数据集,以验证基于TCGA的RNA生存签名(图1f)。对于四个数据集——代表乳腺癌、膀胱癌、前列腺癌和卵巢癌——巨噬细胞签名与较差的生存相关,而对于其他四个数据集——代表肺癌、儿科脑瘤、肝癌和肾癌——T细胞签名与较好的生存相关。这些签名关联与泛癌分析中的相应方向一致。
(四)泛癌体细胞突变相关性
在10,737名患者中,我们将肿瘤中的基因级CNA与每个24,776个基因的患者OS进行了关联。与先前的观察一致25,45,46,肿瘤样本中的CNA全局程度与较差的患者OS相关(图3a),且通过全局CNA将肿瘤分组后,来自所有癌症类型的肿瘤在相对风险上的差异非常显著。与RNA分析一样,在泛癌基因级CNA分析中,将癌症类型作为协变量进行分析后,显著的生存相关因素的数量大幅减少(图3b)。在FDR<10%的情况下,有5436个基因的CNA与OS相关,其中1253个基因在RNA层面也与患者生存相关(FDR<10%),且与CNA的关联方向一致。在这1253个基因中,536个基因与较差的生存相关,而717个基因则与较好的生存相关。这些基因级CNA关联模式在TCGA队列中的多个单独癌症类型中也有广泛的反映(图3c),尽管大多数癌症类型中没有基因的生存关联。
在泛癌分析中,与患者生存相关的1253个基因的CNA和RNA关联一致,显著富集于27个细胞带区域(图3d,FDR<10%)。这27个细胞带区域中,有13个区域涉及与较差生存相关的基因,包括位于1q31、7p和8q的区域。这13个区域包含了EGFR、EIF3E、RAC1、以及7p15.2上的同源盒(HOX)簇基因等。涉及与较好生存相关基因的14个区域,包括位于4p15、8p、9p和10q的区域,以及像TCF7L2和NDUFB6等基因。与这27个细胞带区域相关的CNA模式横跨了所调查的大多数癌症类型(图3d)。在27个细胞带区域中,对于之前评估的八个独立肿瘤基因表达数据集,选取了两个感兴趣的区域进行分析,以验证基于TCGA的RNA生存签名(图1f)。分析了7p15.2区域的所有基因(包括HOX簇基因)和10q25.2区域的所有基因(包括TCF7L2)。不论这些基因在TCGA泛癌队列中的生存关联如何,都使用了各自细胞带区域内的所有基因来推导平均基因表达签名,计算归一化表达值的平均值作为签名得分。在八个数据集中,有四个数据集(分别代表卵巢癌、儿科脑瘤、前列腺癌和肺癌)中,7p15.2签名与较差生存相关(图3e)。而在另外四个数据集(分别代表膀胱癌、乳腺癌、前列腺癌和肾癌)中,10q25.2签名与较好的生存相关(图3f)。
(五)泛癌DNA甲基化相关性
在8818名患者中,分析了肿瘤中的DNA甲基化水平与整体生存期(OS)之间的关联,涉及了114,617个甲基化阵列探针和17,723个位于23,146个基因增强子附近的阵列探针。在FDR<10%和p<0.001的截断值下,6415个CGIs和2397个增强子与泛癌分析中的OS相关(图4a)。这些顶级甲基化探针的关联模式在TCGA队列中的大多数独立癌症类型中得到了广泛的反映(图4a),尤其是与较好生存相关的探针。与患者生存相关的CGI探针,尤其是与较差生存相关的探针,在基因体CGIs中富集,并且在启动子相关CGIs中则呈现反向富集(图4b)。
甲基化CGI签名代表了在TCGA以外的甲基化数据集中,个别癌症类型中不良预后的风险信息(图4c)。在四个独立的肿瘤DNA甲基化数据集中——分别代表儿科脑肿瘤、室管膜瘤、胶质母细胞瘤和乳腺癌——我们根据基于TCGA的CGI签名模式对患者进行了分层。对于每个数据集,TCGA签名能够根据生存结局对患者进行分层(图4c)。此外,与泛癌分析中与较好生存相关的CGI相关的基因,显著与RNA表达与较差生存相关的基因重叠(图4d),提示涉及基因表达增加的沉默丧失。对于3640个与较好生存相关的CGI探针,其中1087个涉及与较差生存相关的mRNA基因,代表了510个独特基因。这些基因包括许多与癌症关联良好的基因(例如,COSMIC数据库中提到的基因),如CDK6、DNMT3A、HMGA1、HMGA2、MAP2K1、MET、MYC、PIM1和SMAD3。
我们还考察了涉及基因增强子的DNA甲基化生存关联,因为远端增强子区域的DNA甲基化已被认为与基因调控相关。在具有泛癌生存关联的2397个增强子中,2971个与较好的生存相关。泛癌增强子甲基化生存关联的显著部分也涉及与增强子500kb内基因的对应RNA生存关联(图4e)。在60,660个受试RNA转录本中,具有与较好生存相关甲基化的邻近增强子(500kb内)的转录本中,分别有3419个和3733个与较差和较好生存相关,代表显著的基因集重叠。EZH2和KRAS是两个示例基因,其相关增强子在甲基化水平上显示出较好的泛癌生存关联,并且其各自基因的RNA水平与较差生存关联(图4f)。
(六)关联的通路
在泛癌基因签名中,我们对来自TCGA泛癌分析的每个基因集(wikiPathway基因集)进行了通路富集分析,这些基因集涉及与患者生存相关的mRNA。具体来说,我们考虑了与较差或较好生存相关的RNA基因集(FDR<10%),这些基因集的子集涉及共识的CNA关联(图3c)或共识的CGI甲基化关联(图4d)。共识的CNA关联表示与相应的RNA具有相同方向的关联,而共识的CGI甲基化关联则表示具有相反方向的关联。总的来说,我们检查了六个与TCGA相关的基因集,以富集wikiPathways(图5a)。在906个wikiPathways中,128个与至少一个与较差生存相关的TCGA基因集显著相关(p<0.001),而49个与至少一个与较好生存相关的基因集显著相关(p<0.001)。
感兴趣的选定富集wikiPathways涉及的通路跨越了代谢、PI3K/Akt信号传导、Wnt信号传导和TGF-beta受体信号传导(图5a)。反映在与生存相关的泛癌表达基因中的核心代谢通路包括与糖酵解相关的通路,这些通路与较差的生存相关,而与氧化磷酸化和电子传递链相关的通路与较好的生存相关(图5a,b)。糖酵解和氧化磷酸化之间的生存关联差异表明,沃尔堡效应可能是更具侵袭性的癌症的基础,其中来自较高风险患者的肿瘤倾向于表达更高水平的糖酵解通路基因,并表达较低水平的氧化磷酸化和电子传递链基因。此外,糖酵解通路基因包括几种其中较高的RNA表达和较低的CGI甲基化与较差的结果相关的基因,如HK1、HK2、PFKP、PKM和LDHA(图5b)。相比之下,电子传递链基因包括几种其中较低的RNA表达和较低的拷贝数与较差的结果相关的基因(图5b),包括复合物I基因(NDUFA7、NDUFA11、NDUFB1、NDUFB6、NDUFB8、NDUFC1、NDUFS4、NDUFS7)和复合物III基因(UQCR11和UQCRC2)。
感兴趣的其他通路富集了与生存相关的基因,包括PI3K/Akt通路(图5c),其中通路促进基因——包括AKT2、RHEB和MTOR——其RNA表达与较差的生存相关,而通路抑制基因——包括PIK3R1、PTEN、STK11和DEPDC5——其RNA表达与较好的生存相关。PI3K/Akt通路基因的共识CNA生存关联涉及AKT2、PIK3R1、PTEN和DEPDC5。与较差生存相关的Wnt信号通路基因包括WNT5B、WNT6、WNT7A、WNT11、FZD2、FZD6、FZD7、DVL1和DVL3,其中DVL1还涉及较低的CGI甲基化与较差结果的关联(图5d)。与较差生存相关的TGF-beta受体信号通路基因包括TGFB1、INHBA、TGFBR1和SMAD3,其中TGFB1和INHBA涉及共识的CNA关联,而SMAD3涉及共识的CGI甲基化关联(图5e)。
(七)关键基因
在泛癌分析中,与较差患者生存相关的mRNA中,显著比例的基因对体外细胞生长是必需的(图6a)。癌症依赖性图谱(DepMap)项目通过CRISPR敲除筛选在1070个细胞系中全球评估了基因的必需性。我们检查了每个来自我们TCGA泛癌分析的基因集,这些基因集涉及与患者生存相关的mRNA(图2b、图3c、图4d和图5a),以查看是否包含至少在10%的细胞系中发现是必需的基因(DepMap基因效应评分 < −0.7569)。在与较差患者生存相关并且在其他数据库中有代表的3935个独特RNA中,有540个(约14%)是必需的,即敲低这些基因会显著抑制大量细胞系的生长,且这种重叠高度显著(p<1E-60)。与较差患者生存相关的RNA还高度富集了癌症相关基因(COSMIC基因集57)、体细胞驱动基因2、与易感性生殖系突变相关的基因2、核心DNA损伤反应基因9、参与微卫星不稳定性(MSI)2的基因,以及具有药物靶向潜力的DrugBank基因70(图6a)。涉及540个与较差生存相关的必需基因的DepMap模式跨越了所有组织类型的细胞系,其中这些基因在超过50%的细胞系中是必需的(图6b)。
对540个必需基因进行了GO功能基因类别的分析。同时也对397个对大多数DepMap细胞系必需的基因和其他143个基因进行GO分析(图6c)。与较差生存相关且在超过一半细胞系中为必需的基因,在GO术语上高度富集于“细胞分裂”、“DNA修复”、“染色体组织”、“蛋白酶体复合物”和“RNA代谢过程”等类别。那些在不到一半但超过10%的细胞系中为必需的基因,则显著富集于“细胞连接”、“粘附点”和“核苷酸生物合成过程”等GO术语中(图6c)。总共136个基因在RNA生存关联中较差,且在DepMap中为必需,且在DrugBank中有条目,这些基因大多在多个独立的肿瘤基因表达数据集(TCGA之外)中表现为高表达与较差生存的关联(图6d)。136个基因中的激酶基因包括PGK1、PKMYT1、PLK1和TTK(图6e),其中PGK1涉及糖酵解途径(图5a)。
(八)药物反应关联
接下来,对959个癌细胞系的转录谱进行了评分,这些细胞系来自于癌症药物敏感性基因组(GDSC)数据集,使用了TCGA RNA生存特征(图7a)。对于这些细胞系中的518种药物化合物,其半最大抑制浓度(IC50)值进行了相关分析,将IC50值与细胞系中的RNA特征评分相关。研究发现,表现出较差生存特征的RNA与特定药物的反应之间存在广泛的关联,超出了预期的随机机会(图7b),其中290种药物在表现出较差生存特征的细胞系中呈现出抗药性(p<0.001),37种药物在表现出该特征的细胞系中则表现出敏感性。
在RNA特征与IC50之间呈负相关的37种药物化合物中,包括MEK1/2、PKM(糖酵解途径的核心)和HSP90的抑制剂。这三种化合物的靶基因——特别是MAP2K1、PKM和HSP90AA1——在泛癌分析中均表现出较高的表达,并且与较差的患者生存相关(图7c)。关联结果表明,具有较高特征评分的细胞系通常对这三种药物更为敏感(图7d)。此外,敏感于MEK1/2抑制的细胞系通常将MAP2K1作为细胞生长的必需基因(图7e),而敏感于PKM或HSP90抑制的细胞系则分别表现出PKM或HSP90AA1的高表达(图7e)。
RNA特征与IC50之间呈负相关的37种药物化合物包括了化疗药物以及针对细胞周期、DNA复制、基因组完整性或有丝分裂的药物(图8a)。这些基于细胞系的发现可以扩展到接受新辅助化疗的乳腺肿瘤患者的基因表达谱,治疗结束时记录了患者的反应,涵盖了1240名患者,并涉及八个不同的基因表达数据集(图8b)。当对1240个乳腺肿瘤进行泛癌RNA生存特征评分时,病理学上有化疗反应的患者的特征评分高于无反应患者(图8c),这与生存特征能够预测细胞系对化疗药物的敏感性一致。基底样乳腺癌在生存特征上的得分平均较高,基底样亚型通常对化疗反应较好。如前所述,泛癌分析中与较差生存相关的基因高度富集于DNA损伤反应和微卫星不稳定性(MSI)基因(图6a),同时还富集于与细胞周期和DNA错配修复途径相关的基因(图5a)。在1240个乳腺肿瘤的基因表达谱中,DNA损伤反应和MSI基因在化疗反应者中明显高于非反应者(图8d),这与携带广泛DNA突变并伴随DNA损伤的癌症对化疗最为敏感,同时也代表了更具攻击性的癌症的情形一致。高表达的RNA泛癌生存特征较差基因在乳腺癌患者中与化疗反应强相关的基因包括DDR/MSI基因FANCI、FEN1、MSH2、MSH6、PCNA、POLE、REV1、RFC3、RFC4、RFC5、RPA3和TOPBP1(图8d)。
总结
总而言之,本研究系统地分析了11,019名患者的全癌症类型、多组学OS相关性,并校正了癌症类型内在的OS差异。与OS相关的mRNA基因在全癌症分析中显示出与DNA拷贝数变异或甲基化的关联。T细胞和巨噬细胞肿瘤浸润基因签名与较好的和较差的OS相关。相关的通路包括代谢、PI3K/Akt、Wnt和TGF-beta受体。与较差OS相关的基因多为细胞生长必需基因。一个与侵袭性癌症相关的RNA签名在体外对MEK1/2、糖酵解通路和HSP90抑制剂更为敏感,并与乳腺肿瘤的化疗反应相关。研究结果揭示了与患者生存期相关的基因和通路,为更具侵袭性的疾病提供了潜在的治疗靶点。

