大数跨境
0
0

Npj Precis Oncol(一区IF=8.0)|整合多组学和机器学习揭示增殖细胞在肺腺癌预后和个性化治疗中的关键功能

Npj Precis Oncol(一区IF=8.0)|整合多组学和机器学习揭示增殖细胞在肺腺癌预后和个性化治疗中的关键功能 瓴智医学AI
2025-08-08
2

论文标题为“Integrative multi-omics and machine learning reveal critical functions of proliferating cells in prognosis and personalized treatment of lung adenocarcinoma”,作者包括 Shun Wang、Dingtao Hu、Ruohuang Wang、Jie Huang 及 Baoqing Wang研究整合多组学数据(单细胞RNA 测序、空间转录组等)与机器学习技术,揭示了增殖细胞在肺腺癌(LUAD)预后及个性化治疗中的关键作用:通过 Scissor 算法识别与预后相关的 Scissor + 增殖细胞基因,结合 111 种机器学习算法构建 Scissor + 增殖细胞风险评分(SPRS)模型,该模型在预后预测中表现优于 30 种已发表模型,且能指导免疫治疗、化疗及靶向治疗的个性化选择,为 LUAD 的精准诊疗提供了新依据。

01 摘要

肺腺癌(LUAD)是全球癌症相关死亡的主要原因,肿瘤免疫微环境(TIME)中的增殖细胞在癌症进展和免疫治疗响应中起重要作用。本研究通过多组学数据和多维度方法解析 LUAD 中增殖细胞的特征:利用 Scissor 算法识别出 22 个与预后相关的 Scissor + 增殖细胞基因;整合 111 种机器学习算法构建 SPRS 模型,其预后预测性能优于 30 种现有模型;验证 SPRS 及 5 个关键基因(FAM83A、ANLN、HMGA1、ECT2、PRC1)在免疫治疗响应中的作用,并通过实验证实其表达模式。多因素分析表明 SPRS 是影响 LUAD 患者生存的独立预后因素,高、低 SPRS 组在 TIME 的生物学功能和免疫细胞浸润上存在差异 —— 高 SPRS 患者对免疫治疗耐药,但对化疗和靶向治疗更敏感。研究阐明了 LUAD 中增殖细胞的动态变化,提升了预后准确性,为个性化治疗提供了潜在靶点。

02 研究背景

研究问题

LUAD 是肺癌最常见亚型,5 年生存率低于 20%,现有治疗存在显著局限性:化疗毒副作用大且受益人群有限,分子靶向治疗和免疫治疗仅对不足 20% 的患者有效。因此,亟需开发能预测化疗、靶向治疗及免疫治疗疗效的生物标志物,以改善患者长期预后。

研究难点

LUAD 具有强免疫原性,TIME 失衡是其重要特征,但增殖细胞(包括淋巴细胞、髓系细胞、癌细胞、基质细胞等)在 TIME 中的异质性及其与免疫微环境的相互作用机制尚未明确,难以精准关联其与疾病进展、治疗响应的关系。

相关工作

既往研究表明,增殖细胞通过驱动肿瘤生长、免疫逃逸、治疗耐药等病理过程影响癌症进展,但其在肺部疾病中的详细特征(如亚型分化、分子标志物)尚未充分探索。单细胞RNA 测序(scRNA-seq)和空间转录组等多组学技术为解析细胞异质性提供了工具,但如何整合这些数据并结合机器学习构建可靠的预后模型仍是挑战。

03 模型设计

总体思路

“解析增殖细胞异质性→识别预后相关基因→构建风险评分模型→验证临床应用价值” 为核心,通过多组学数据整合与机器学习,建立关联增殖细胞特征与 LUAD 预后及治疗响应的 SPRS 模型。

模型架构

数据预处理与细胞分型:对93 个样本(正常肺组织、COPD、IPF、LUAD)的 scRNA-seq 数据进行质量控制,去除批次效应后,通过 UMAP 聚类识别 24 种细胞类型,重点筛选出增殖细胞亚群。

Scissor + 基因筛选:利用Scissor 算法关联单细胞数据与临床表型(生存预后),识别出 22 个与不良预后相关的 Scissor + 增殖细胞基因。

SPRS 模型构建:整合111 种机器学习算法(如 Lasso、SuperPC、随机森林等),通过 10 折交叉验证优化,最终选择 Lasso+SuperPC 组合构建 SPRS,计算公式基于 5 个关键基因的表达加权。

优化策略

采用Harmony 算法校正批次效应,确保不同数据集的一致性;

通过10 折交叉验证最小化 LASSO 回归的部分似然偏差,筛选最优 penalty 参数;

对多队列数据(TCGA、GSE31210 等)进行 meta 分析,验证模型稳定性。

模型解释性

通过功能富集分析(GSEA)揭示 SPRS 与细胞周期、上皮间质转化(EMT)等通路的关联;

结合免疫浸润分析(IOBR 包)阐明 SPRS 与 TIME 中免疫抑制细胞(CAFs、MDSCs)的相关性;

利用空间转录组验证SPRS 在肿瘤组织中的空间分布与恶性区域的共定位

04 实验设置

数据集

单细胞RNA-seq 数据93 个样本(28 正常、18 COPD、32 IPF、15 LUAD),来自 GSE131907 和 GSE136831,经质控后保留 368,904 个细胞。

bulk RNA-seq 与临床数据 TCGA-LUAD 队列(训练集),GSE31210、GSE50081、GSE72094(验证集),涵盖基因表达及生存信息。

免疫治疗队列IMvigor210、GSE91061、GSE78220,用于验证 SPRS 对免疫治疗响应的预测。

空间转录组数据10 个样本(正常肺组织及 LUAD),来自 E-MTAB-13530,用于分析 SPRS 的空间分布。

药物敏感性数据GDSC 数据库,评估 SPRS 与化疗 / 靶向药物敏感性的关联。

基线方法

30 种已发表的 LUAD 预后模型(如基于免疫基因、细胞死亡相关基因的模型),用于比较 SPRS 的预测性能。

评估指标

预后预测:C 指数(一致性指数)、AUC(1 年生存率)、Kaplan-Meier 生存分析(log-rank 检验)、HR(风险比);

免疫微环境:免疫细胞浸润分数(CAFs、MDSCs 等)、肿瘤突变负荷(TMB)、肿瘤新抗原负荷(TNB);

治疗响应:药物IC50 值(半最大抑制浓度)、免疫治疗响应率(CR/PR/SD/PD)。

05 结果与分析

增殖细胞在肺疾病中的分布特征

scRNA-seq 分析显示,增殖细胞在 IPF 和 LUAD 组织中显著富集,提示其在疾病进展中的潜在作用。通过 UMAP 聚类将增殖细胞分为 6 个亚群(C1-FABP4 至 C6-IGLC2),其中 C2-MMP9 和 C3-KRT8 与 LUAD 恶性表型关联最密切。

Scissor + 基因的预后意义

Scissor 算法筛选出 663 个 Scissor + 增殖细胞基因,其中 22 个与预后显著相关,功能富集显示其参与 G2M 检查点、EMT 等致癌通路。生存分析证实,高 Scissor + 基因表达的患者预后更(HR=1.95p<0.001)。

SPRS 模型的预测性能

预后准确性Lasso+SuperPC 组合构建的 SPRS 在各队列中 C 指数均高于 0.64(图 5c),1 年 AUC 达 0.63-0.88(图 5e),显著优于 30 种基线模型

独立性验证:多因素Cox 分析显示 SPRS 是独立预后因素,结合临床参数(T/N/M 分期)的列线图模型进一步提升预测精度。


免疫微环境与治疗响应

免疫特征:高SPRS 组 TIME 中 CAFs、MDSCs 浸润增加,TMB 和 TNB 升高,提示免疫抑制微环境与免疫逃逸;


治疗响应:低SPRS 患者对免疫治疗响应更好(IMvigor210 队列,HR=1.80,p<0.001,),而高 SPRS 患者对顺铂、多西他赛等化疗药物更敏感。

关键基因的分子机制

FAM83A 突变率最高(7%),其表达与 KRAS 突变相关,通过 EGFR/MAPK 通路促进 PD-L1 表达;ANLN、PRC1 等基因通过调控细胞周期和 EMT 增强肿瘤侵袭性。

06 结论

本研究通过整合多组学数据和机器学习,揭示了LUAD 中增殖细胞的异质性及其与预后、治疗响应的关联。构建的 SPRS 模型不仅能准确预测患者生存,还可指导治疗选择 —— 低 SPRS 患者适合免疫治疗,高 SPRS 患者可能受益于化疗或靶向治疗。SPRS 及其包含的 5 个关键基因(FAM83A、ANLN、HMGA1、ECT2、PRC1)为 LUAD 的个性化诊疗提供了新的生物标志物和潜在靶点。

07 论文评价

方法创新亮点

    1. 多组学整合与技术创新:研究创新性地整合scRNA-seq、空间转录组及 bulk RNA-seq 数据,系统解析了增殖细胞在 LUAD(肺腺癌)中的动态变化过程,突破了单一数据类型的分析局限,为深入理解 LUAD 生物学机制提供全新视角。

    2. 模型性能优异SPRS 模型经 111 种机器学习算法优化构建,在预后预测方面展现出超越现有模型的卓越性能。其预测结果通过多队列验证,稳定性强,为临床精准评估提供可靠依据。

    3. 临床转化价值高:研究明确SPRS 与治疗响应的相关性,可作为 LUAD 患者治疗分层的实用工具,在指导个性化治疗方案制定、提升治疗效果等方面具有极高的临床应用潜力 。

    方法不足

    前研究存在实验验证有限数据集异质性机制解析深度不足 等问题:研究主要依赖生物信息学分析,仅通过RT-qPCR 验证基因表达,缺乏 IHC、Western blot 等蛋白水平验证及体内外功能实验(如敲除 / 过表达实验);不同队列(TCGA、GEO)的数据存在批次效应,虽经 ComBat 校正,但可能影响结果的普适性;对 Scissor + 基因(如 FAM83A)调控 TIME 的具体分子通路(如 IL1B、FN1-CD44 轴)尚未通过实验验证,机制阐释较依赖生物信息学预测 。

    08 参考资料

    Article:

    doi:10.1038/s41698-025-01027-z

       图片




    图文:李洪
    编辑:李洪
    审核:吴朝

      图片精彩推荐
    npj Digital Medicine(一区IF=15.1)|在英国生物库中使用成像进行AI驱动的临床前疾病风险评估
    NAT COMMUN(一区IF=15.7)| STRAP 试验中滑膜活检的深度分子分析揭示了预测类风湿关节炎生物治疗反应的标志物
    Nature Communications(一区 IF=15.7)阿尔茨海默病遗传学中的机器学习
    EBioMedicine(一区 IF=10.8)|基于治疗前 FDG-PET/CT 的机器学习预测肺癌进展和生存

    【声明】内容源于网络
    0
    0
    瓴智医学AI
    分享医学人工智能前沿知识,搭建跨学科研究、合作及应用转化平台。致力于医学人工智能技术、研发及科研,提供医学人工智能全方位服务。
    内容 32
    粉丝 0
    瓴智医学AI 分享医学人工智能前沿知识,搭建跨学科研究、合作及应用转化平台。致力于医学人工智能技术、研发及科研,提供医学人工智能全方位服务。
    总阅读21
    粉丝0
    内容32