本文标题为“A novel sequence-based transformer model architecture for integrating multiomics data in preterm birth risk prediction”,由 Si Zhou、Chenchen Guan、Siwei Deng等多位研究者共同完成。该研究针对早产(Preterm Birth, PTB)导致的母婴死亡及长期发病问题,开发了一种基于Transformer 的新型大语言模型(LLM)架构,整合孕妇血浆中的无细胞DNA(cfDNA)和无细胞RNA(cfRNA)多组学数据以预测早产风险。研究纳入中国两个前瞻性队列(LG队列和FJ队列)共682名孕妇,通过模型训练与验证发现,整合 cfDNA与cfRNA的模型测试集AUC 达0.890,显著优于cfDNA单组学模型(AUC=0.822)和cfRNA单组学模型(AUC=0.851);同时结合RNA编辑分析进一步验证多组学整合的优势,并揭示了早产相关的炎症反应及RNA 调控网络,为精准产科及生物医学领域的AI驱动多组学应用提供了新方向
01 摘要
02 研究背景
(一)研究问题
早产是现代产科重大挑战,全球发病率居高不下,可导致新生儿长期神经发育障碍及母婴死亡,亟需精准、早期的风险预测方法。现有预测方法虽结合临床风险因素(如早产史)、实验室检测及特异性生物标志物,但受限于单维度数据,难以捕捉早产复杂的生物学机制,预测准确性不足。
(二)研究难点
数据维度局限:单组学数据(如仅cfDNA或cfRNA)无法全面反映早产的多生物学过程 ——cfDNA 仅体现遗传易感性,cfRNA仅反映动态基因表达,单独使用易导致信息偏差;
多组学整合技术障碍:cfDNA(变异数据)与cfRNA(表达数据)数据类型差异大,缺乏统一的建模框架,传统机器学习难以捕捉跨模态依赖关系;
样本与数据平衡问题:早产样本占比低,且不同队列采样孕周(FJ 队列早孕期、LG队列晚孕期)存在差异,易导致模型过拟合或泛化性差。
(三)相关工作
LLM与基因组应研究者此前开发GeneLLM(基于 Transformer 的 LLM)已实现基因组数据的疾病预测,但未扩展至多组学及产科场景;
无细胞核酸的孕期监测:cfDNA已广泛用于产前诊断(如胎儿染色体异常筛查),cfRNA可动态反映孕期基因表达,二者均被证实具有孕期健康监测潜力,但尚未联合用于早产预测;
现有早产预测模型:传统机器学习模型(如随机森林)基于单组学或临床数据预测早产,AUC多低于0.8,且未整合LLM的序列模式识别能力,难以处理高维度多组学数据。
03 模型设计
(一)总体思路
以预训练的GeneLLM为基础,将cfDNA与cfRNA数据转换为统一的 “生物序列token流”,通过Transformer架构的自注意力机制捕捉跨模态依赖关系,再经疾病调优模块(Disease Tuning Module)提炼临床相关特征,最终输出早产概率。核心目标是通过 “模态无关整合” 避免模态特异性嵌入的限制,同时最小化计算资源消耗,实现多组学数据的高效融合与精准预测。
(二)模型架构
cfDNA预处理:原始测序数据经质量控制、比对后生成变异调用格式(VCF)文件,将基因组窗口内的变异转换为二进制向量(1=变异位点,0=非变异位点),再映射为 “伪核苷酸序列”(如二进制“01”对应核苷酸“T”),最终分割为150bp片段(不足150bp则补全);
cfRNA预处理:采用PALM-Seq 捕获多类 RNA,基因表达量标准化为TPM 后,经log₂(TPM+1) 转换稳定方差,再线性缩放至整数范围,通过 “基因 token 重复”(重复次数对应表达量整数)生成伪序列。
Transformer编码器:接收统一的token流,通过自注意力机制(计算 Query、Key、Value 的相似度权重)捕捉cfDNA与cfRNA的跨模态关联,再经两层前馈网络(ReLU 激活函数)进行非线性特征转换,同时引入残差连接与层归一化稳定训练;
疾病调优模块:对Transformer输出的特征嵌入进行细化,聚焦与早产相关的生物学特征(如炎症通路基因、胎盘发育相关变异);
输出层:通过线性层与Sigmoid激活函数输出早产概率(0 = 足月,1 =早产)。
(三)优化策略
交叉验证与泛化性优化:采用10折交叉验证划分训练集与验证集,避免数据泄露;在两个独立队列(LG、FJ)中分别训练模型,验证跨队列稳定性;
计算资源优化:通过“伪序列生成” 简化高维度多组学数据,无需复杂特征工程,降低计算复杂度;
统计验证优化:采用1000次bootstrapping估计AUC的95%置信区间,使用DeLong检验比较不同模型的统计差异(P<0.05 为显著)。
(四)模型解释性
当前模型存在“黑箱”特性 ——Transformer的自注意力权重与特征转换过程难以直接关联生物学机制。研究通过 “间接验证” 弥补解释性不足:一是通过差异表达分析(DESeq2)与GO富集分析,验证模型关注的基因是否富集于早产相关通路(如炎症反应);二是构建mRNA-miRNA-lncRNA调控网络,解释模型预测的生物学基础;未来计划通过可视化 Transformer注意力权重,明确关键分子特征对预测结果的贡献。
04 实验设置
(一)数据集
队列基本信息:共两个中国前瞻性队列,均为汉族孕妇,采用巢式病例对照设计;
LG 队列(深圳龙岗妇幼保健院):502例(138例早产、364例足月),样本采集于晚孕期(中位孕周31.2周),获取134例早产孕妇的 cfDNA/cfRNA数据、358例足月孕妇的cfRNA数据、275例足月孕妇的 cfDNA 数据;
FJ 队列(福建妇幼保健院):180例(60例早产、120例足月),样本采集于早孕期(中位孕周11.4 周),按1:2病例对照抽样,获取16例早产/32例足月孕妇的cfDNA数据、60例早产/120例足月孕妇的cfRNA数据;
数据采集与测序:血浆样本采集后6小时内离心分离,-80℃保存;cfDNA采用20X深度测序,cfRNA采用PALM-Seq测序(捕获 mRNA、lncRNA、miRNA等),均通过DNBSEQ平台测序(单端100bp 读长);
临床指标:记录孕妇年龄、BMI、早产史、白细胞计数(WBC)及新生儿出生体重等,其中早产组WBC升高比例(LG队列 71%、FJ队列 36.7%)显著高于足月组,新生儿出生体重显著低于足月组。
(二)基线方法
单组学随机森林模型:分别基于cfRNA表达数据、cfDNA转录起始位点(TSS)评分构建随机森林分类器,用于对比Transformer模型性能;
RNA 编辑整合模型:使用DEMINING软件识别cfRNA中的RNA编辑位点(排除与cfDNA 重叠的变异),基于RNA编辑位点构建随机森林模型;
现有机器学习模型:参考此前研究中基于多组学预测早产的模型(如Tarca等2021年提出的模型),其AUC约0.75-0.8,作为性能基准。
(三)评估指标
主要指标:受试者工作特征曲线下面积(AUC-ROC),反映模型区分早产与足月的能力;
辅助指标:95%置信区间(CI),评估结果稳定性;DeLong检验,比较不同模型 AUC 的统计差异;
临床关联指标:白细胞计数(WBC)、超敏C反应蛋白(hs-CRP)等炎症标志物的组间差异,验证模型预测结果与生物学机制的一致性。
05 结果与分析
(一)Transformer 模型多组学整合性能
图3 展示了cfDNA、cfRNA及整合模型的AUC结果,其中:
cfDNA 模型(A图):训练集AUC 达 0.995(提示数据拟合良好),验证集 AUC 0.840(存在轻微过拟合),测试集 AUC 0.822(95% CI: 0.737-0.907),表明 cfDNA 变异数据具有一定预测价值,但受样本量较小(cfDNA 样本少于 cfRNA)影响,稳定性稍差;
cfRNA 模型(B图):训练集AUC 0.994,验证集AUC 0.886(高于cfDNA 模型,提示cfRNA 数据过拟合风险更低),测试集AUC 0.851(95%CI: 0.759-0.943),推测因cfRNA 样本量更大(覆盖更多孕妇),提供的动态基因表达信息更具代表性;
整合模型(C图):训练集AUC 0.996,验证集AUC0.834,测试集 AUC 0.890(95%CI: 0.827-0.953),经DeLong 检验证实显著优于单组学模型(P<0.05),且在LG和FJ队列中单独验证时均表现最优,证明多组学整合的协同效应——cfDNA反映遗传易感性,cfRNA反映动态生理状态,二者互补提升预测精度。
(二)RNA 编辑与单组学基线模型性能
下图聚焦cfRNA/cfDNA特征分析及基线模型对比:
cfRNA 组成与质量控制(图A-C):672 例样本的cfRNA中,蛋白编码基因(64.0%)和miRNA(26.3%)占比最高;管家基因ACTB的测序覆盖主要集中在外显子区域,且内含子-外显子读数比<3,证明无基因组 DNA 污染,数据质量可靠;
单组学随机森林性能(图D-E):cfRNA随机森林模型测试AUC 0.77(95%CI: 0.65-0.80),cfDNA模型AUC 0.74(95% CI: 0.66-0.82),均低于Transformer模型,凸显LLM处理序列数据的优势;
RNA 编辑模型(图F-J):DEMINING识别的RNA编辑位点96.9%为 cfRNA特异性(图 4F-G),且早产组RNA编辑位点数量显著多于足月组(图4I);基于RNA编辑的随机森林模型AUC 0.82(95% CI: 0.76-0.88),优于单组学随机森林,进一步证实多组学整合(cfRNA 编辑与cfDNA变异关联)的价值。
(三)早产病理机制分析
通过cfRNA 差异表达与调控网络揭示早产生物学机制:
炎症通路富集:早产组3700个上调基因显著富集于“T细胞激活”“炎症小体信号通路” 等炎症相关GO条目;且LG队列早产组hs-CRP、FJ队列早产组 WBC 均显著高于足月组,证明系统性炎症是早产的关键驱动因素;
RNA 调控网络:早产组hsa-miR-17-5p显著下调,导致其靶基因(TNFRSF10B、ICAM1,均促进炎症)和竞争结合的lncRNA(KMT2E-AS1、TP73-AS1,分别促进血管功能障碍、内皮细胞凋亡)显著上调;该调控网络揭示了炎症、血管异常与早产的关联,为早产机制研究提供新靶点。
06 结论
本研究成功开发了基于Transformer的LLM架构,实现cfDNA与cfRNA 多组学数据的高效整合,在两个中国前瞻性队列中实现了高精度早产预测(整合模型测试AUC=0.890),显著优于单组学模型及传统机器学习模型。研究证实:1. 多组学整合具有协同优势,cfDNA的遗传信息与cfRNA的动态表达信息互补,可提升预测准确性;2. RNA编辑可作为多组学整合的有效切入点,为早产预测提供新特征;3. 系统性炎症及hsa-miR-17-5p调控的RNA网络是早产的关键病理机制。该模型为非侵入性早产风险评估提供了新工具,同时为AI驱动的多组学在精准产科及复杂疾病预测中的应用奠定基础。此外,研究提出未来需通过多中心、多民族大样本队列验证模型泛化性,结合注意力权重可视化提升模型解释性,并整合代谢组、影像等更多模态数据进一步优化性能。
07 论文评价
✅方法创新亮点
技术框架创新:首次将LLM(GeneLLM)与多组学(cfDNA+cfRNA)整合用于早产预测,提出 “模态无关token流”设计,突破传统多组学整合中模态特异性嵌入的限制,使Transformer能自由捕捉跨模态依赖关系,为复杂疾病的多组学LLM建模提供范式;
方法与机制结合:在实现高精度预测的同时,通过差异表达、GO富集及RNA调控网络分析,揭示了炎症及特定RNA调控在早产中的核心作用,实现“预测工具”与“机制研究”的双重价值,避免AI模型仅关注性能而脱离生物学意义的局限;
临床转化潜力高:模型基于血浆无细胞核酸(非侵入性样本),适配现有产前无创检测流程(如无创产前筛查),且在早孕期(FJ队列)和晚孕期(LG 队列)均表现稳定,为临床不同阶段的早产风险分层提供可行工具,具有明确的临床应用前景。
⚠方法不足
论文存在多方面局限:一是队列代表性不足,两个队列均为中国单中心汉族孕妇,缺乏多民族、多地区样本,且单中心的临床实践(如样本处理、诊断标准)可能导致模型泛化性受限,难以推广至其他人群或医疗机构;二是模型解释性较弱,Transformer架构的“黑箱”特性未得到根本解决,虽通过生物学分析间接验证结果,但无法直接关联模型内部特征与具体生物学机制,未来需依赖注意力权重可视化等方法进一步优化;三是样本与数据设计存在缺陷,总样本量(682例)相对较小,可能影响统计 power;且仅采集单时间点样本,无法捕捉孕期分子特征的动态变化,难以反映早产风险的时序演变;四是模态覆盖不全面,未整合代谢组、蛋白质组或超声影像等其他临床常用模态,可能遗漏重要预测信息。
08 参考资料
Article:
DOI:10.1038/s41746-025-01942-2
图文:李洪

