本文标题为《Circulating microbiome DNA as biomarkers for early diagnosis and recurrence of lung cancer》由 Haiming Chen、Yi Ma、Juqing Xu等作者共同撰写,本文首次系统探究循环微生物组DNA(cmDNA)在肺癌中的特征及应用价值,通过对 血浆样本进行全基因组测序,识别出肺癌患者与健康人群间差异富集的微生物物种,构建基于 cmDNA 的肺癌诊断模型和术后复发预测模型。其中诊断模型在独立验证集中AUC达93.2%,对 I 期肺癌和直径<1cm 肿瘤的检测灵敏度分别为 86.5%和87.1%;复发预测模型在测试集中AUC为80.9%,可有效区分术后复发高风险人群,为肺癌早期筛查和预后评估提供了全新的非侵入性生物标志物方案,同时建立了癌症液体活检的新范式。
01 摘要
肺癌是全球癌症相关死亡的首要原因,晚期诊断和术后复发是导致其高死亡率的关键因素。现有筛查方法如低剂量计算机断层扫描(LDCT)存在假阳性率高、辐射暴露等局限,且缺乏精准的非侵入性生物标志物用于早期诊断和复发预测。本研究旨在探究循环微生物组 DNA(cmDNA)作为肺癌早期诊断和术后复发预测生物标志物的可行性,共纳入416名参与者,分为肺癌诊断队列和术后复发队列,对血浆游离DNA进行全基因组测序,去除人类序列后分析cmDNA特征。结果显示,肺癌患者的cmDNA谱与健康人群存在显著差异,具体表现为微生物多样性降低,变形菌门等类群(taxa)富集;基于119个差异物种构建的随机森林诊断模型,在合并验证集中AUC达93.2%、灵敏度87.7%,对早期和微小肿瘤具有优异检测能力;此外,基于术前cmDNA 特征构建的复发预测模型,可有效区分术后3年内复发与未复发患者,训练集AUC 88.1%、测试集AUC 80.9%,且预测分数是无复发生存期的独立影响因素。本研究证实 cmDNA 在肺癌中存在特征性改变,为肺癌早期诊断和复发预测提供了新型非侵入性生物标志物,拓展了癌症液体活检的研究范式。
02 研究背景
肺癌作为全球第二大常见癌症,其5年生存率与诊断分期高度相关,早期患者生存率超90%,晚期却不足5%。然而,超 80% 患者确诊时已处晚期,导致死亡率居高不下。主流筛查方法 LDCT虽能降低癌症相关死亡率,却因假阳性率高、辐射暴露和成本问题,难以大规模应用。此外,早期肺癌术后10%-50%患者会复发,多集中在术后3年内,目前缺乏有效复发预测工具。
微生物组与肿瘤发生发展密切相关,肺部微生物群落可调控肿瘤进程,不同病理类型肺癌微生物组成存在差异。cmDNA已在多种癌症检测中获初步验证,但肺癌领域的cmDNA早期检测和复发预测研究仍属空白,现有肺癌生物标志物也存在不足,亟需新型非侵入性标志物。
研究面临多重挑战:血浆中cmDNA含量极低,微生物序列仅占0.009%-0.012%,对检测技术要求极高;样本处理易受环境微生物污染,需严格去污染流程;个体生活方式等因素干扰微生物组,需精准队列匹配;早期肺癌和微小肿瘤的cmDNA特征差异细微,标志物筛选难度大。
03 模型设计
(一)总体思路
样本处理与测序:采集血浆样本,提取游离DNA,进行全基因组测序,去除人类序列后获得cmDNA数据。
差异特征筛选:比较肺癌患者与健康人群、术后复发与未复发患者的cmDNA谱,通过多样性分析、物种丰度比较、LEfSe 分析筛选差异富集的微生物taxa。
模型构建:基于差异微生物特征,采用随机森林算法构建诊断模型和复发预测模型。
模型验证:通过交叉验证、独立队列验证、低深度测序验证评估模型的稳定性和泛化能力。
临床价值分析:结合临床病理参数,分析模型预测结果与患者预后的相关性,验证其临床应用潜力。
(二)模型架构
肺癌诊断模型以通过LEfSe分析筛选的119个差异微生物物种(LDA>2.0,p<0.05)为输入特征,这些物种包括假单胞菌属、不动杆菌属等富集于肺癌患者的物种,以及镰刀菌属等富集于健康人群的物种,采用随机森林算法构建1000棵决策树,通过五折交叉验证优化模型参数,输出癌症预测分数并以0.511为临界值区分肺癌患者与健康人群;
术后复发预测模型则以复发与未复发患者间39个差异微生物类群为输入特征,涵盖候选纳米共生菌科、葡萄球菌属等富集于复发患者的物种,以及丙酸杆菌目、假单胞菌属等富集于未复发患者的物种,同样采用随机森林算法和5折交叉验证进行训练,输出复发预测分数并以0.347为临界值区分复发高风险与低风险人群。
(三)优化策略
去污染流程:通过阴性对照样本筛选潜在污染物,去除在阴性对照中相对丰度>5% 的物种;参考已有研究的污染物列表,排除已知污染taxa,确保模型特征的可靠性。
队列匹配设计:诊断队列中肺癌患者与健康人群按年龄、性别、吸烟状态进行匹配;复发队列中复发与未复发患者在年龄、性别、肿瘤直径、病理类型等临床参数上保持一致,减少混杂因素影响。
测序深度优化:采用53×平均测序深度构建模型,同时验证13×低深度测序数据的模型性能,在保证准确性的前提下降低检测成本,为临床转化提供可行性。
统计方法优化:采用Wilcoxon检验比较组间物种丰度差异,Adonis检验验证β多样性差异,Cox回归分析模型预测分数与预后的独立性,确保统计结果的严谨性。
(四)模型解释性
物种水平解析:借助LEfSe分析挖掘组间差异生物标志物,结合物种丰度热图可视化呈现群落结构特征,系统阐释模型中关键差异物种的生物学功能与生态意义。
多样性特征解释:肺癌患者cmDNA的Shannon多样性和Simpson多样性显著低于健康人群,与肠道微生物组在肺癌中的变化趋势一致,反映了肿瘤微环境对全身微生物组的调控作用。
临床相关性解释:复发预测模型的预测分数与患者无复发生存期显著相关,高风险人群复发风险显著升高,且该预测价值独立于TNM分期,说明cmDNA特征可补充现有临床分期系统的预后评估能力。
04 实验设置
本研究数据集涵盖肺癌诊断与术后复发两大队列。肺癌诊断队列含训练集(166 人,含69例肺癌患者与97名健康对照)、验证集 I(96人,48 例肺癌与48名对照)、验证集 II(53人,33 例肺癌与 20 名对照)及低深度验证集;术后复发队列纳入101名 T1期术后患者,按6:4分为训练(61 人)与测试集(40人)。
评估指标上,诊断模型采用AUC、灵敏度等核心指标;复发预测模型增加生存分析等;同时通过阴性对照、重复测序及低深度测序评估污染控制、可重复性与性能稳定性。
05 结果与分析
(一)肺癌患者与健康人群的 cmDNA 谱存在显著且稳定的差异特征。通过物种丰度分析、多样性比较证实,肺癌组微生物多样性(Shannon 指数、Simpson 指数)显著低于健康组,且在目、属、种多个分类水平均存在差异类群富集——假单胞菌目、不动杆菌属及假单胞菌属等物种在肺癌患者中丰度显著升高(p<0.001),而棒状杆菌目、镰刀菌属等在健康人群中更富集。
值得注意的是,这些差异特征在不同肿瘤大小(<1cm vs ≥1cm)和分期(I期vsII-IV期)患者中保持一致,未因肿瘤进展阶段出现明显波动,证实 cmDNA 改变具有肺癌特异性,为后续模型构建提供了稳定的特征基础。同时,基于Bray-Curtis距离的NMDS分析显示,肺癌组与健康组的cmDNA β多样性呈现显著分离(Adonis R²=0.027,p=0.001),进一步验证了两组微生物组成结构的本质差异。
(二)基于差异cmDNA特征构建的肺癌诊断模型表现出优异的检测性能。模型以 119 个差异物种为输入,在训练集中AUC达95.6%(95% CI:93.0%-98.3%),灵敏度 81.2%、特异性 90.7%;针对微小肿瘤(直径 < 1cm)的检测能力尤为突出,5 折交叉验证中 AUC 达 91.5%,与较大肿瘤(≥1cm)的 94.0% 接近,解决了早期肺癌检测灵敏度不足的痛点。
在多中心独立验证中,模型性能持续稳定:验证集I(以 I 期肺癌为主)AUC 92.1%、灵敏度 87.5%,验证集II(III-IV 期肺癌)AUC 97.2%、灵敏度 87.9%,合并验证集AUC最终达93.2%(95% CI:89.2%-97.2%)、灵敏度87.7%、特异性79.4%。更重要的是,模型在低深度测序场景下仍保持可靠性,即使测序深度降至1×,肺癌患者与健康人群的癌症预测分数仍能有效区分,为临床大规模低成本筛查提供了可行性。
(三)术前cmDNA 特征构建的复发预测模型展现出良好的预后评估价值。该模型基于39个复发相关差异类群训练,在训练集中AUC 达 88.1%(95% CI:79.7%-96.6%),灵敏度72.7%、特异性84.6%,在独立测试集中 AUC 仍保持80.9%(95%CI:66.6%-95.3%)。
通过模型预测分数划分的高风险与低风险人群,无复发生存期存在显著差异:高风险组术后3年复发率显著升高,Kaplan-Meier生存曲线显示两组差异具有统计学意义(p<0.001)。进一步分析发现,甲基杆菌科是预测复发的关键特征,其丰度高的患者无复发生存期显著缩短(p<0.001),且模型预测分数是无复发生存期的独立影响因素(HR=27.8,p=0.001),可补充现有TNM分期的预后评估能力,为临床制定个体化辅助治疗方案提供参考。
06 结论
本研究通过对416名参与者的血浆样本进行系统分析,首次证实循环微生物组 DNA(cmDNA)在肺癌中存在特征性改变,为肺癌早期诊断和术后复发预测提供了新型非侵入性生物标志物。研究发现,肺癌患者的cmDNA 谱与健康人群显著不同,表现为微生物多样性降低,假单胞菌目、不动杆菌属等类群富集,且这些差异在不同肿瘤大小和分期中保持稳定;基于 119个差异物种构建的随机森林诊断模型,显著优于现有部分生物标志物,且在低深度测序下仍保持稳定性能;同时,基于术前cmDNA特征构建的复发预测模型,可有效区分术后3年内复发与未复发患者。此外,研究还证实cmDNA与肿瘤内微生物组成存在一定关联性,且通过严格的污染控制和队列匹配确保了结果的可靠性。综上,本研究不仅拓展了对肺癌微生物组特征的认知,还为肺癌早期筛查和预后评估提供了实用的非侵入性检测方案,推动了癌症液体活检领域的发展,为后续多组学联合检测和临床转化研究奠定了基础。
07 论文评价
✅方法创新亮点
填补了肺癌领域cmDNA 系统研究的空白:此前cmDNA研究多集中于结直肠癌、肝癌等癌症,且多聚焦诊断层面,本研究首次同时覆盖肺癌早期诊断和复发预测两大临床需求,构建了双模型体系,不仅识别出肺癌特异性的 cmDNA 特征,还证实其预后价值,拓展了癌症液体活检的研究范式,为其他癌症的cmDNA研究提供了参考框架。
研究设计严谨且临床实用性强:研究纳入多中心、大样本量,分为训练集、多个验证集和测试集,且严格匹配年龄、性别、吸烟史等临床参数,减少混杂因素影响,还建立了从样本处理、测序分析到污染控制的完整流程,通过阴性对照、重复测序验证结果可靠性,同时探索了低深度测序下的模型性能,在保证准确性的前提下降低检测成本,为临床大规模应用提供了可行性,解决了现有液体活检技术成本高、难以普及的问题。
具有明确的生物学意义和临床价值:研究不仅量化cmDNA在肺癌中的特征性改变,还通过与肿瘤内微生物组的关联分析、关键物种的预后验证,揭示了cmDNA与肺癌发生发展的潜在机制,如假单胞菌目富集与不良预后的关联,为后续机制研究提供了方向;同时,诊断模型对早期和微小肿瘤的高灵敏度,可解决肺癌早期漏诊问题,复发模型的独立预后价值可辅助临床制定个体化治疗方案,切实满足临床需求,具有重要的转化应用前景。
⚠方法不足
论文的不足主要体现以下方面:一是诊断模型的特异性仍有提升空间,合并验证集中特异性为79.4%,对于大规模人群筛查而言,假阳性率可能偏高,需进一步优化模型或结合多组学提升特异性;二是复发预测模型缺乏独立外部验证,由于样本量限制,仅在内部测试集中验证,未纳入其他中心的独立队列,模型的泛化能力需进一步验证。
08 参考资料
Article:
10.1016/j.xcrm.2024.101499
图文:李洪

