Identification of breast cancer subtypes and drug response prediction through forward and reverse translation
(通过正向和反向翻译识别乳腺癌亚型和预测药物反应)
[研究亮点]
1. 精准亚型划分:基于TCGA数据,结合BayesNMF算法和共识层次聚类,成功识别了7个乳腺癌肿瘤表达亚型(B1–B7)和5个癌细胞特异性表达亚型(C1–C5),为乳腺癌的精准分类提供了新的方法。
2. 药物反应预测:通过前向和反向转化,揭示了乳腺癌不同亚型的药物反应特性,特别是在CDK4/6抑制剂的选择性依赖性预测中取得了显著进展。C5(TNBC亚型)对CDK6抑制剂表现出较高的敏感性,而C4(Luminal A)亚型则表现出CDK4依赖性。
3. 肿瘤微环境分析:进一步探索了不同亚型中肿瘤微环境的差异,揭示了免疫细胞浸润和基质成分在不同乳腺癌亚型中的显著变化。
4. 潜在靶点发现:研究发现,TPI1(糖酵解相关酶)在C5亚型(TNBC)中高度表达,可能成为新的治疗靶点,为三阴性乳腺癌的靶向治疗提供了新的思路。
一、研究背景
乳腺癌是全球女性发病率最高的恶性肿瘤,其高度异质性给精准治疗带来了巨大挑战。在所有亚型中,三阴性乳腺癌(TNBC) 因缺乏ER、PR和HER2表达,无法从内分泌治疗或抗HER2靶向治疗中获益,预后最差。目前,化疗仍是TNBC的主要治疗手段,但仅约30%的患者能达到病理完全缓解,复发率和死亡率显著高于其他亚型。
目前临床常用的乳腺癌分型体系主要有两种:PAM50分子分型(基于基因表达谱)和免疫组化临床分型(基于ER/PR/HER2状态)。然而,这两种分型并不完全匹配,即使同为Luminal A或Luminal B的患者,预后和治疗反应仍存在显著差异,提示现有分型未能完全捕捉乳腺癌的生物学复杂性。
与此同时,高通量药物筛选和CRISPR基因依赖数据主要来自癌细胞系(如DepMap项目),而临床决策基于患者肿瘤样本。两者之间存在一道“转化鸿沟”——细胞系无法完全模拟真实肿瘤的微环境和异质性,如何将细胞系中发现的海量药物敏感性数据有效映射到患者,一直是精准肿瘤学亟待解决的核心难题。
针对这一挑战,该研究提出了一种创新性的“正向+反向翻译”研究框架:反向翻译将临床样本中识别的亚型投影到细胞系,利用细胞系的高通量数据发现亚型特异性靶点;正向翻译则利用细胞系数据训练预测模型,再应用于临床样本,预测患者对特定药物的敏感性。这一双向策略旨在打通临床样本与细胞系之间的数据壁垒,为乳腺癌的精准分型和个体化治疗提供新思路。
二、研究方法及结果
1. 数据整合与TCGA BRCA 七种群体表达亚型的基因组特征
研究者使用了BayesNMF算法和共识层次聚类方法,对1,058个TCGA BRCA样本的基因表达数据进行分析,成功识别出7个乳腺癌表达亚型(B1至B7)(补充图1A, B)。在数据预处理阶段,去除了基因表达值缺失超过10%的基因,并选择了表达变异最大的25%基因。通过对TCGA BRCA的基因表达数据进行分析,研究发现B3亚型与基底样(Basal)亚型高度相关,而B1和B5主要富集在Luminal A亚型中(图1A)。B5由LumA和正常细胞组成。此外,B3与三阴性乳腺癌(TNBC)高度富集(图1B)。将B3和B1亚型与METABRIC研究的IntClust聚类进行比较发现:B3富集于IntClust 10,该群主要由基底样三阴性乳腺癌组成,TP53突变率最高,与B3的特征一致;B1则对应IntClust 3和4ER+,分别以管腔A型和ER+为主,也与B1主要为管腔A型和ER+的分类相符(图1C, D)。
为了将表达亚型与驱动事件(点突变和插入缺失)关联起来,研究者分析了每个亚型的突变谱。PIK3CA 基因突变在所有样本中最为普遍,34% 的样本携带该基因突变。有趣的是,B3 亚型富集了TP53基因突变,85% 的 B3 亚型样本携带该基因突变(P < 0.05)(图1D)。为了探究七个亚型之间的生物学差异,我们使用 GSVA 分析 MSigDB 标志性基因集15,鉴定了各亚型间显著差异激活的通路(图1E )。B1 亚型显示细胞周期相关通路( Q < 6.28 × 10⁻⁶² )和氧化磷酸化相关通路(Q = 1.18 × 10⁻⁴³ )的下调。 B1 还显示出 EMT(Q = 2.01 × 10⁻³⁰ )和细胞黏附相关(Q < 1.89 × 10⁻³⁷ )通路的上调。B3 中细胞周期相关通路(Q < 1.19 × 10⁻⁴³ )显著上调,而雌激素反应通路(Q < 4.42 × 10⁻⁷⁴)显著下调。B4 显示细胞周期相关通路活性较低(Q < 2.58 × 10⁻⁵ ),但 EMT 相关基因集活性较高(Q = 5.53 × 10⁻⁷ )。B6 显示细胞周期和免疫相关特征较高(Q < 1.03 × 10⁻⁶ ),但 EMT 相关基因集活性较低(Q = 4.15 × 10⁻¹¹ )(表1)。
图1. BRCA 整体表达亚型图谱
2.五种TCGA BRCA癌细胞特异性表达亚型的基因组特征
研究者使用BayesPrism方法,以Wu et al.的单细胞RNA-seq数据为参考,对TCGA BRCA的群体RNA-seq数据进行反卷积,从而推断癌细胞比例和特异性表达谱。验证结果显示,推断的癌细胞比例与实际癌细胞比例具有显著相关性(R = 0.83,P = 8.3 × 10⁻⁹)(补充图5A),且癌细胞特异性基因表达与实际基因表达高度相关(补充图5B),表明BayesPrism能够有效推断癌细胞特异性表达谱。通过BayesNMF方法对癌细胞特异性表达谱进行共识聚类,研究者识别出五个癌细胞特异性BRCA亚型,分别命名为C1至C5(补充图1C、D)。
进一步比较发现,C5亚型与B3亚型高度一致,并富集在三阴性乳腺癌(TNBC)中(Fig. 2A, B)。B5亚型则在C2和C4亚型中分布,表明这两种癌细胞特异性亚型的肿瘤微环境可能相似。TME分析显示,C2和C4亚型之间的TME差异较小(补充数据6),而B1和B5亚型在C4亚型中富集,表明它们的肿瘤微环境可能不同(补充数据7)。与B5相比,B1的基质细胞和白细胞比例显著更高(平均差异>0.15,Q < 2.84 × 10⁻⁴²)。此外,B1的Th1细胞、T细胞、B细胞和树突状细胞数量显著高于B5,而B5则富含巨噬细胞和Th2细胞。
为了探讨五种癌细胞特异性亚型的生物学差异,研究者利用MSigDB的标志性基因集进行GSVA分析。结果显示,C1亚型脂肪生成相关通路上调(Q < 1.08 × 10⁻⁵)且氧化磷酸化通路下调(Q = 3.93 × 10⁻⁵)。C3亚型则显示脂肪生成和免疫相关基因集的下调(Q < 2.19 × 10⁻⁶)。值得注意的是,C4和C5亚型在雌激素反应和细胞周期相关通路上表现出相反的活性,C4上调雌激素反应通路(Q < 3.98 × 10⁻⁴⁰)并下调细胞周期通路(Q < 2.95 × 10⁻⁸⁴),C5则相反,表现为雌激素反应通路下调(Q < 4.48 × 10⁻⁷⁹)和细胞周期通路上调(Q < 1.17 × 10⁻⁷⁴)。此外,C5中的PI3K/AKT/mTOR通路显著上调(Q = 1.88 × 10⁻²⁴)(Fig. 2E)。
生存分析显示,C1亚型预后最差,C3亚型预后最佳(Fig. 2F, G)。癌细胞特异性亚型与预后的相关性(P = 4 × 10⁻⁴)强于PAM50亚型(P = 0.093)。特别是,Luminal A型的预后可以通过这些亚型进行有效区分(P = 0.00027)(补充图6A)。在ER阳性病例中,亚型之间的预后差异同样显著(ER+:P = 0.017,ER+/PR+:P = 0.0027)(补充图7C, D)。
尽管C1和C3亚型在LumA和LumB样本中占比较小,研究者发现它们与LumB(C2)相比具有独特的分子特征。GATA3是C2肿瘤中最常见的突变基因(29%),而C1(5%)和C3(11%)显示显著缺乏GATA3突变(P < 0.01)。此外,C1和C3之间的通路活性也存在显著差异,C1表现出氧化磷酸化和DNA修复通路下调(Q = 3.93 × 10⁻⁵),而C3则表现为这些通路的上调(Q = 2.08 × 10⁻¹⁶)。C3还表现出干扰素α和γ信号通路的上调(Q = 2.52 × 10⁻¹⁹),而C1中这些通路下调(Q = 1.08 × 10⁻⁵)。这些结果表明,C1和C3 LumB肿瘤可能代表具有潜在独特治疗靶点的生物学亚组。
综上所述,研究者根据先前定义的PAM50亚型和HR状态,对癌细胞特异性亚型进行了分类(图2、表2、补充图8)。Luminal A和B亚型在多个亚型中均有分布,而基底细胞亚型则在C5中富集。三阴性乳腺癌(TNBC)也在C5中富集。与之前的亚型相比,显示出更强的生存相关性(图2 F、G)。
图 2. BRCA 癌细胞特异性亚型图谱
3.亚型特异性癌症脆弱性
接下来,研究者尝试将亚型投射到乳腺癌细胞系上进行反向转化,以识别亚型特异性的癌症脆弱性。利用DepMap资源,该资源汇总了约1100个细胞系的表达数据以及CRISPR和药物筛选数据。首先,使用NMF投影,基于从TCGA BRCA样本的BayesNMF共识层次聚类中获得的亚型与亚型标记基因之间的关联矩阵(补充数据8),将47个BRCA细胞系分类到癌细胞特异性的BRCA亚型中。根据细胞系的最大亚型得分将亚型分配给细胞系,但许多细胞系的最大亚型得分较低(>0.6),表明这些细胞系可能具有几种亚型的混合特征。因此,研究者应用了更严格的关联得分阈值,以识别一组高置信度的标记细胞系进行后续分析。这些细胞系代表了一组高保真模型,研究者确信它们属于某个定义的亚型。由于只有C5被赋予了足够数量的细胞系(n = 20)高置信度标签,将后续分析的重点放在C5上。为了验证亚型分类,研究者确认C5相关细胞系与C5肿瘤具有相似特征。C5细胞系也富集了基底细胞亚型和三阴性乳腺癌(TNBC)(补充数据9)。
图 3. 亚型特异性癌症脆弱性
4.新型亚型对 CDK4 和 CDK6 的依赖性
接下来,作为正向转化,研究者尝试利用细胞系数据预测患者样本中的基因依赖性,重点关注CDK4和CDK6,因它们在多种乳腺癌亚型中具有已知的临床意义和潜在治疗作用。尽管CDK4/6抑制剂(如帕博西尼、瑞博西尼和阿贝西利)主要用于治疗ER+/HER2-乳腺癌,研究者的目标是确定不同亚型是否对CDK4或CDK6表现出不同的依赖性。研究者利用DepMap的泛癌细胞系依赖性数据和基因表达数据训练了NMF模型,该模型可预测细胞系中CDK4和CDK6的依赖性评分。研究发现,泛癌NMF模型在DepMap细胞系中对CDK4和CDK6依赖性预测效果最佳(Fig. 4A、E)。然后,将该NMF模型应用于TCGA BRCA人类肿瘤组织的癌细胞特异性表达数据,预测了TCGA BRCA亚型中潜在的CDK4和CDK6选择性抑制反应。
为了探究CDK4和CDK6基因依赖性评分或反应评分高低不同的样本之间的生物学差异,首先鉴定了与CDK4/6反应评分高低显著相关的突变。TP53是CDK4反应评分低样本(P = 3.13 × 10⁻⁴⁸)和CDK6反应评分高样本(P = 2.64 × 10⁻¹⁶)中最常见的突变基因(Fig. 4B、F,补充数据11、12)。PIK3CA是CDK4反应评分高样本(P = 5.17 × 10⁻¹⁵)和CDK6反应评分低样本(P = 1.33 × 10⁻⁷)中最常见的突变基因(Fig. 4B、F,补充数据11、12)。此外,CDH1、MAP3K1和GATA3突变在高CDK4反应评分样本中富集(P < 0.001),而MAP2K4、GATA3和FMO1突变在低CDK6反应样本中富集(P < 0.01)(补充数据11、12)。
为了进一步探究CDK4和CDK6反应评分高低不同的样本间通路活性差异,利用MSigDB标志性基因集进行GSVA分析,鉴定了样本间显著差异激活的通路(Fig. 4C、G)。CDK4低而CDK6高反应评分的样本表现出MYC/E2F信号通路上调(Q < 1.15 × 10⁻⁶⁰)和雌激素反应通路下调(Q < 1.15 × 10⁻⁶⁰)。相反,CDK4高而CDK6低反应评分的样本则表现出雌激素反应通路上调和细胞周期及免疫反应通路下调。已知的CDK4/6抑制剂耐药机制与CDK4低而CDK6高反应评分样本的发现一致,尤其是MYC/E2F信号通路高而ER信号通路低。
图 4. CDK4 和 CDK6 在癌细胞特异性亚型中的依赖性
三、总结与展望
该研究通过将BayesNMF亚型分类与BayesPrism推断的癌细胞特异性表达相结合,成功识别出5个具有临床意义的乳腺癌新亚型,并利用正向+反向翻译策略,实现了从临床样本到细胞系、再从细胞系回到临床样本的双向映射,精准预测了不同亚型对CDK4/6抑制剂的敏感性,锁定了C5(TNBC样)对CDK6抑制剂和TPI1的潜在依赖性。
尽管研究已较为准确地将部分细胞系归类至各亚型,但目前DepMap细胞系库中非C5亚型的代表性仍显不足,亟需开发更多覆盖各亚型的乳腺癌细胞系模型,以支持后续功能验证。
未来,团队将利用小鼠乳腺肿瘤模型(MMTV-PyMT) 及基因工程小鼠模型(GEMM) 的转录组数据,评估其与人类亚型的匹配度,并通过异种移植及不同治疗条件下的转录组分析,进一步验证亚型在临床前模型中的生物学意义。
与既往研究不同,该研究所识别的癌细胞特异性亚型可直接映射至肿瘤模型,极大增强了临床前模型与患者肿瘤之间的转化性。这一计算框架不仅为乳腺癌的精准分型和个体化治疗提供了新思路,也为其他癌种的亚型研究提供了可借鉴的方法学范本。

