研究方向:肿瘤精准学/乳腺癌骨转移/多组学联合机器学习/生物标志物与靶向药物发现
文献题目
Integrative multi-omics and machine learning framework identifies PRDX4 as a redox-EMT regulator and predictive marker in bone-metastatic breast cancer
Highlight
✅ 首次整合“上皮间质转化(EMT)和核苷酸代谢(NM)”双通路,构建机器学习驱动的多组学分析框架
✅ 锁定PRDX4为乳腺癌骨转移核心预后标志物,揭示其作为氧化还原-EMT调控因子的关键作用
✅ 利用共识聚类将乳腺癌骨转移患者分为2个分子亚型,为精准分层提供新依据
✅ 分子对接证实多西他赛为PRDX4高亲和力靶向药物,为老药新用、多通路干预提供实验支撑
✅ 模型经10折交叉验证,AUC达0.846,预后预测效能优异
一、研究背景
乳腺癌是全球女性最常见的恶性肿瘤,约70%-85%的晚期患者会发生骨转移,骨转移也是导致乳腺癌患者病残率和死亡率升高的主要原因。目前临床缺乏公认的乳腺癌骨转移预后模型,也无针对性的靶向治疗策略,亟待挖掘核心分子标志物与治疗靶点。
上皮间质转化(EMT)和核苷酸代谢(NM)是驱动乳腺癌侵袭、转移的两大关键通路:EMT赋予肿瘤细胞侵袭和远处定植能力,NM异常则与肿瘤进展、化疗耐药密切相关,二者共同促进乳腺癌细胞在骨微环境中的存活与增殖。
既往研究多聚焦单通路或仅转录组层面分析,而本研究创新性整合EMT和NM双通路,结合多组学数据与机器学习技术,实现了乳腺癌骨转移生物标志物发现与靶向药物筛选的一体化研究,为精准肿瘤学提供了新的研究范式。
二、研究设计
本研究以GEO(GSE39494、GSE137842)和TCGA-BRCA骨转移数据集为基础,构建了**“数据预处理→差异基因筛选→核心靶点鉴定→预后模型构建→分子亚型分析→药物筛选与验证”**的全流程分析框架,核心技术包括:
1.利用Limma包筛选EMT-NM相关差异表达基因(DEGs);
2.采用LASSO回归机器学习算法筛选核心枢纽基因;
3.通过单/多因素Cox回归构建PRDX4预后模型,结合KM曲线、ROC、DCA等验证模型效能;
4.运用TIMER、CIBERSORT等6种算法分析PRDX4与免疫浸润的关联;
5.采用无监督共识聚类进行EMT-NM分子亚型分型;
6.结合DGIdb数据库筛选靶向药物,通过分子对接验证药物与PRDX4的结合亲和力。
研究整体设计兼顾数据挖掘的严谨性与临床转化的实用性,多算法交叉验证、多数据集验证保障了研究结果的可靠性。
三、主要研究结果
Fig1:差异表达分析与富集分析筛选出EMT-NM相关差异基因
A/B为GSE39494、GSE137842数据集的箱线图、PCA图、火山图;C为Venn图展示EMT、NM与两个数据集DEGs的交集;D为热图展示16个核心EMT-NM DEGs的表达;E为16个DEGs的KEGG和GO富集分析结果。
Fig2:LASSO回归筛选出乳腺癌骨转移预后相关枢纽基因
A/B为TCGA-BRCA-BM队列中EMT-NM DEGs的LASSO回归分析曲线;C为LASSO回归筛选出的风险因子;D/E为LASSO结果的KM生存曲线和时间依赖性ROC分析。
Fig3:PRDX4被鉴定为乳腺癌骨转移核心预后标志物,模型预后效能优异
A为Cox回归分析森林图;B为PRDX4在乳腺癌和乳腺癌骨转移组的表达箱线图;C为临床信息桑基图;D为PRDX4诊断ROC图;E为PRDX4预后列线图和校准图;F为风险因子、KM曲线、时间依赖性ROC;G为DCA决策曲线。
Fig4:PRDX4与肿瘤免疫浸润密切相关,参与多种核心生物学过程
A/B为PRDX4与免疫细胞浸润的关联分析;C为PRDX4共表达基因的热图及KEGG、GO富集分析。
Fig5:PRDX4表达与免疫基因组特征、关键通路活性相关
PRDX4表达与微卫星不稳定性(MSI)呈正相关,与肿瘤突变负荷(TMB)呈负相关,提示高PRDX4表达的乳腺癌骨转移患者可能更适合免疫治疗;PRDX4表达与EMT评分、ECM降解评分显著相关,证实其作为EMT调控因子的核心作用,促进肿瘤细胞的侵袭和转移;PRDX4与嘧啶/嘌呤代谢密切关联,进一步印证其在核苷酸代谢通路中的调控作用,解释了其与肿瘤代谢重编程的关系。
A为PRDX4与MSI、TMB评分的相关性;B为PRDX4与EMT、ECM降解评分的相关性;C为PRDX4与嘧啶代谢、嘌呤代谢的相关性。
Fig6:共识聚类鉴定出2个EMT-NM分子亚型,预后差异显著
A为共识聚类的CDF曲线和delta面积曲线;B为k=2时的分子亚型鉴定结果;C为C1、C2亚型的DEGs热图;D为两个亚型的PCA图;E为两个亚型的KM生存曲线。
Fig7:C1、C2亚型的分子通路、免疫景观和临床特征存在显著差异
A为C1、C2亚型的火山图;B为亚型间GSEA富集分析;C为临床信息差异;D为免疫检查点表达差异;E为免疫浸润差异;F为肿瘤干性评分差异;G为TIDE评分差异。
Fig8:药物重定位与分子对接筛选出PRDX4靶向候选药物
构建了包含25种候选药物的PRDX4靶向药物网络,药物按作用类别进行颜色编码,直观展示PRDX4的潜在靶向药物谱;分子对接评分显示,多西他赛和紫杉醇是与PRDX4结合亲和力最高的两种药物;药物-通路弦图显示,候选药物可同时作用于EMT激活、ROS解毒、PI3K/AKT信号等5条致癌通路,为多靶点联合治疗提供了候选方案。
A为以PRDX4为核心的药物-靶点网络;B为PRDX4活性口袋中最优结合构象的分子对接图;C为前20种药物的对接评分排名;D为药物-通路弦图。
Fig9:DGIdb数据库筛选与分子对接验证多西他赛为PRDX4高亲和力靶向药物
A为DGIdb数据库筛选出的PRDX4潜在治疗药物;B为多西他赛无水物与PRDX4的分子对接验证结果(结合口袋、Vina评分)。
四、研究小结
本研究是机器学习与多组学技术结合应用于乳腺癌骨转移研究的经典范例,其核心创新点在于突破了单通路、单组学的研究局限,整合EMT和NM双关键通路,通过LASSO-Cox模型锁定PRDX4为乳腺癌骨转移的核心预后标志物和氧化还原-EMT调控因子。
研究不仅证实了PRDX4在肿瘤免疫微环境、细胞周期、代谢重编程等方面的多维度功能,还通过共识聚类构建了具有显著预后差异的EMT-NM分子亚型,为乳腺癌骨转移患者的精准风险分层提供了新的分子依据。更重要的是,通过药物重定位和分子对接,首次证实多西他赛为PRDX4的高亲和力靶向药物,揭示其可同时作用于氧化还原通路和微管稳定通路,为乳腺癌骨转移的多通路靶向治疗提供了新的临床思路。
当然,研究也存在一定局限性:TCGA-BRCA-BM队列样本量相对较小,缺乏外部大样本验证,且仅开展了计算机模拟的分子对接,尚未进行体内外实验和临床验证。未来需通过更大规模的临床队列、功能实验和预临床研究,进一步验证PRDX4的调控机制和多西他赛靶向治疗的有效性。
总体而言,该研究构建的多组学+机器学习分析框架为肿瘤转移相关生物标志物的发现提供了可复制的研究范式,PRDX4作为核心靶点也为乳腺癌骨转移的精准诊断和靶向治疗开辟了新方向,具有重要的理论价值和临床转化潜力。

