大数跨境
0
0

Npj(一区IF=15.1)基于序列的Transformer模型整合多组学数据预测早产风险

Npj(一区IF=15.1)基于序列的Transformer模型整合多组学数据预测早产风险 瓴智医学AI
2025-09-11
2
导读:Npj(一区IF=15.1)基于序列的Transformer模型整合多组学数据预测早产风险

本文标题为A novel sequence-based transformer model architecture for integrating multiomics data in preterm birth risk prediction”,由 Si ZhouChenchen GuanSiwei Deng等多位研究者共同完成。该研究针对早产(Preterm Birth, PTB)导致的母婴死亡及长期发病问题,开发了一种基于Transformer 的新型大语言模型(LLM)架构,整合孕妇血浆中的无细胞DNAcfDNA)和无细胞RNAcfRNA)多组学数据以预测早产风险。研究纳入中国两个前瞻性队列(LG队列和FJ队列)共682名孕妇,通过模型训练与验证发现,整合 cfDNAcfRNA的模型测试集AUC 0.890,显著优于cfDNA单组学模型(AUC=0.822)和cfRNA单组学模型(AUC=0.851);同时结合RNA编辑分析进一步验证多组学整合的优势,并揭示了早产相关的炎症反应及RNA 调控网络,为精准产科及生物医学领域的AI驱动多组学应用提供了新方向

01 摘要

早产(妊娠37周前分娩)是导致母婴死亡及长期神经发育障碍的关键因素,尽管现有方法结合临床指标与生物标志物预测早产,但准确性仍受限。人工智能尤其是大语言模型(LLM)在疾病预测中潜力显著,但其在早产多组学预测中的应用尚未充分探索。本研究以GeneLLM(基于Transformer的基因组 LLM)为基础,构建整合cfDNAcfRNA数据的早产预测模型,使用中国LGFJ两个前瞻性队列(共682例孕妇)的多组学数据(cfDNA采用20X深度测序,cfRNA 采用PALM-Seq捕获多类 RNA)进行训练与验证。结果显示,cfDNA模型测试AUC0.822cfRNA模型为0.851,而整合多组学的模型AUC0.890P<0.05),显著优于单组学模型;基于RNA编辑的多组学整合模型AUC也达0.82,优于单组学随机森林模型。此外,研究通过差异表达分析发现早产孕妇存在显著炎症反应,并构建了hsa-miR-17-5p调控的mRNA-lncRNA网络,揭示早产病理机制。该研究证实了 Transformer模型整合多组学在早产预测中的优势,为精准产科风险评估提供了非侵入性工具。

02 研究背景

(一)研究问题

早产是现代产科重大挑战,全球发病率居高不下,可导致新生儿长期神经发育障碍及母婴死亡,亟需精准、早期的风险预测方法。现有预测方法虽结合临床风险因素(如早产史)、实验室检测及特异性生物标志物,但受限于单维度数据,难以捕捉早产复杂的生物学机制,预测准确性不足。

(二)研究难点

数据维度局限:单组学数据(如仅cfDNAcfRNA)无法全面反映早产的多生物学过程 ——cfDNA 仅体现遗传易感性,cfRNA仅反映动态基因表达,单独使用易导致信息偏差;

多组学整合技术障碍:cfDNA(变异数据)与cfRNA(表达数据)数据类型差异大,缺乏统一的建模框架,传统机器学习难以捕捉跨模态依赖关系;

样本与数据平衡问题:早产样本占比低,且不同队列采样孕周(FJ 队列早孕期、LG队列晚孕期)存在差异,易导致模型过拟合或泛化性差。

(三)相关工作

LLM与基因组应研究者此前开发GeneLLM(基于 Transformer 的 LLM)已实现基因组数据的疾病预测,但未扩展至多组学及产科场景;

无细胞核酸的孕期监测:cfDNA已广泛用于产前诊断(如胎儿染色体异常筛查),cfRNA可动态反映孕期基因表达,二者均被证实具有孕期健康监测潜力,但尚未联合用于早产预测;

现有早产预测模型:传统机器学习模型(如随机森林)基于单组学或临床数据预测早产,AUC多低于0.8,且未整合LLM的序列模式识别能力,难以处理高维度多组学数据。

03 模型设计

(一)总体思路

以预训练的GeneLLM为基础,将cfDNAcfRNA数据转换为统一的 “生物序列token流”,通过Transformer架构的自注意力机制捕捉跨模态依赖关系,再经疾病调优模块(Disease Tuning Module)提炼临床相关特征,最终输出早产概率。核心目标是通过 “模态无关整合” 避免模态特异性嵌入的限制,同时最小化计算资源消耗,实现多组学数据的高效融合与精准预测。

(二)模型架构

cfDNA预处理:原始测序数据经质量控制、比对后生成变异调用格式(VCF)文件,将基因组窗口内的变异转换为二进制向量(1=变异位点,0=非变异位点),再映射为 “伪核苷酸序列”(如二进制“01”对应核苷酸“T”),最终分割为150bp片段(不足150bp则补全);

cfRNA预处理:采用PALM-Seq 捕获多类 RNA,基因表达量标准化为TPM 后,经log(TPM+1) 转换稳定方差,再线性缩放至整数范围,通过 “基因 token 重复”(重复次数对应表达量整数)生成伪序列。

Transformer编码器:接收统一的token流,通过自注意力机制(计算 QueryKeyValue 的相似度权重)捕捉cfDNAcfRNA的跨模态关联,再经两层前馈网络(ReLU 激活函数)进行非线性特征转换,同时引入残差连接与层归一化稳定训练;

疾病调优模块:对Transformer输出的特征嵌入进行细化,聚焦与早产相关的生物学特征(如炎症通路基因、胎盘发育相关变异);

输出层:通过线性层与Sigmoid激活函数输出早产概率(0 = 足月,1 =早产)。

(三)优化策略

交叉验证与泛化性优化:采用10折交叉验证划分训练集与验证集,避免数据泄露;在两个独立队列(LGFJ)中分别训练模型,验证跨队列稳定性;

计算资源优化:通过“伪序列生成” 简化高维度多组学数据,无需复杂特征工程,降低计算复杂度;

统计验证优化:采用1000bootstrapping估计AUC95%置信区间,使用DeLong检验比较不同模型的统计差异(P<0.05 为显著)。

(四)模型解释性

当前模型存在“黑箱”特性 ——Transformer的自注意力权重与特征转换过程难以直接关联生物学机制。研究通过 “间接验证” 弥补解释性不足:一是通过差异表达分析(DESeq2)与GO富集分析,验证模型关注的基因是否富集于早产相关通路(如炎症反应);二是构建mRNA-miRNA-lncRNA调控网络,解释模型预测的生物学基础;未来计划通过可视化 Transformer注意力权重,明确关键分子特征对预测结果的贡献。

04 实验设置

(一)数据集

队列基本信息:共两个中国前瞻性队列,均为汉族孕妇,采用巢式病例对照设计;

LG 队列(深圳龙岗妇幼保健院):502例(138例早产、364例足月),样本采集于晚孕期(中位孕周31.2周),获取134例早产孕妇的 cfDNA/cfRNA数据、358例足月孕妇的cfRNA数据、275例足月孕妇的 cfDNA 数据;

FJ 队列(福建妇幼保健院):180例(60例早产、120例足月),样本采集于早孕期(中位孕周11.4 周),按1:2病例对照抽样,获取16例早产/32例足月孕妇的cfDNA数据、60例早产/120例足月孕妇的cfRNA数据;

数据采集与测序:血浆样本采集后6小时内离心分离,-80℃保存;cfDNA采用20X深度测序,cfRNA采用PALM-Seq测序(捕获 mRNAlncRNAmiRNA等),均通过DNBSEQ平台测序(单端100bp 读长);

临床指标:记录孕妇年龄、BMI、早产史、白细胞计数(WBC)及新生儿出生体重等,其中早产组WBC升高比例(LG队列 71%FJ队列 36.7%)显著高于足月组,新生儿出生体重显著低于足月组。

(二)基线方法

单组学随机森林模型:分别基于cfRNA表达数据、cfDNA转录起始位点(TSS)评分构建随机森林分类器,用于对比Transformer模型性能;

RNA 编辑整合模型:使用DEMINING软件识别cfRNA中的RNA编辑位点(排除与cfDNA 重叠的变异),基于RNA编辑位点构建随机森林模型;

现有机器学习模型:参考此前研究中基于多组学预测早产的模型(如Tarca2021年提出的模型),其AUC0.75-0.8,作为性能基准。

(三)评估指标

主要指标:受试者工作特征曲线下面积(AUC-ROC),反映模型区分早产与足月的能力;

辅助指标:95%置信区间(CI),评估结果稳定性;DeLong检验,比较不同模型 AUC 的统计差异;

临床关联指标:白细胞计数(WBC)、超敏C反应蛋白(hs-CRP)等炎症标志物的组间差异,验证模型预测结果与生物学机制的一致性。

05 结果与分析

(一)Transformer 模型多组学整合性能

展示了cfDNAcfRNA及整合模型的AUC结果,其中:

cfDNA 模型(A):训练集AUC 达 0.995(提示数据拟合良好),验证集 AUC 0.840(存在轻微过拟合),测试集 AUC 0.82295% CI: 0.737-0.907),表明 cfDNA 变异数据具有一定预测价值,但受样本量较小(cfDNA 样本少于 cfRNA)影响,稳定性稍差;

cfRNA 模型(B):训练集AUC 0.994,验证集AUC 0.886(高于cfDNA 模型,提示cfRNA 数据过拟合风险更低),测试集AUC 0.85195%CI: 0.759-0.943),推测因cfRNA 样本量更大(覆盖更多孕妇),提供的动态基因表达信息更具代表性;

整合模型(C):训练集AUC 0.996,验证集AUC0.834,测试集 AUC 0.89095%CI: 0.827-0.953),经DeLong 检验证实显著优于单组学模型(P<0.05),且在LGFJ队列中单独验证时均表现最优,证明多组学整合的协同效应——cfDNA反映遗传易感性,cfRNA反映动态生理状态,二者互补提升预测精度。

(二)RNA 编辑与单组学基线模型性能

图聚焦cfRNA/cfDNA特征分析及基线模型对比:

cfRNA 组成与质量控制(图A-C):672 例样本的cfRNA中,蛋白编码基因(64.0%)和miRNA26.3%)占比最高;管家基因ACTB的测序覆盖主要集中在外显子区域,且内含子-外显子读数比<3,证明无基因组 DNA 污染,数据质量可靠;

单组学随机森林性能(图D-E):cfRNA随机森林模型测试AUC 0.7795%CI: 0.65-0.80),cfDNA模型AUC 0.7495% CI: 0.66-0.82),均低于Transformer模型,凸显LLM处理序列数据的优势;

RNA 编辑模型(图F-J):DEMINING识别的RNA编辑位点96.9%为 cfRNA特异性(图 4F-G),且早产组RNA编辑位点数量显著多于足月组(图4I);基于RNA编辑的随机森林模型AUC 0.8295% CI: 0.76-0.88),优于单组学随机森林,进一步证实多组学整合(cfRNA 编辑与cfDNA变异关联)的价值。

(三)早产病理机制分析

通过cfRNA 差异表达与调控网络揭示早产生物学机制:

炎症通路富集:早产组3700个上调基因显著富集于“T细胞激活”“炎症小体信号通路” 等炎症相关GO条目;且LG队列早产组hs-CRPFJ队列早产组 WBC 均显著高于足月组,证明系统性炎症是早产的关键驱动因素;

RNA 调控网络:早产组hsa-miR-17-5p显著下调,导致其靶基因(TNFRSF10BICAM1,均促进炎症)和竞争结合的lncRNAKMT2E-AS1TP73-AS1,分别促进血管功能障碍、内皮细胞凋亡)显著上调;该调控网络揭示了炎症、血管异常与早产的关联,为早产机制研究提供新靶点。

06 结论

本研究成功开发了基于TransformerLLM架构,实现cfDNAcfRNA 多组学数据的高效整合,在两个中国前瞻性队列中实现了高精度早产预测(整合模型测试AUC=0.890),显著优于单组学模型及传统机器学习模型。研究证实:1. 多组学整合具有协同优势,cfDNA的遗传信息与cfRNA的动态表达信息互补,可提升预测准确性;2. RNA编辑可作为多组学整合的有效切入点,为早产预测提供新特征;3. 系统性炎症及hsa-miR-17-5p调控的RNA网络是早产的关键病理机制。该模型为非侵入性早产风险评估提供了新工具,同时为AI驱动的多组学在精准产科及复杂疾病预测中的应用奠定基础。此外,研究提出未来需通过多中心、多民族大样本队列验证模型泛化性,结合注意力权重可视化提升模型解释性,并整合代谢组、影像等更多模态数据进一步优化性能

07 论文评价

方法创新亮点

    技术框架创新:首次将LLMGeneLLM)与多组学(cfDNA+cfRNA)整合用于早产预测,提出 “模态无关token流”设计,突破传统多组学整合中模态特异性嵌入的限制,使Transformer能自由捕捉跨模态依赖关系,为复杂疾病的多组学LLM建模提供范式;

    方法与机制结合:在实现高精度预测的同时,通过差异表达、GO富集及RNA调控网络分析,揭示了炎症及特定RNA调控在早产中的核心作用,实现“预测工具”与“机制研究”的双重价值,避免AI模型仅关注性能而脱离生物学意义的局限;

    临床转化潜力高:模型基于血浆无细胞核酸(非侵入性样本),适配现有产前无创检测流程(如无创产前筛查),且在早孕期(FJ队列)和晚孕期(LG 队列)均表现稳定,为临床不同阶段的早产风险分层提供可行工具,具有明确的临床应用前景。

    方法不足

    论文存在多方面局限:一是队列代表性不足,两个队列均为中国单中心汉族孕妇,缺乏多民族、多地区样本,且单中心的临床实践(如样本处理、诊断标准)可能导致模型泛化性受限,难以推广至其他人群或医疗机构;二是模型解释性较弱,Transformer架构的“黑箱”特性未得到根本解决,虽通过生物学分析间接验证结果,但无法直接关联模型内部特征与具体生物学机制,未来需依赖注意力权重可视化等方法进一步优化;三是样本与数据设计存在缺陷,总样本量(682例)相对较小,可能影响统计 power;且仅采集单时间点样本,无法捕捉孕期分子特征的动态变化,难以反映早产风险的时序演变;四是模态覆盖不全面,未整合代谢组、蛋白质组或超声影像等其他临床常用模态,可能遗漏重要预测信息。

    08 参考资料

    Article:

    DOI10.1038/s41746-025-01942-2



    图文:李洪

    编辑:李洪
    审核:吴朝
    npj digital medicine(一区IF=15.1)|基于文本提示的大词汇量医学图像分割
    Nature Communications(一区 IF=15.7)基于人工智能的多模态数据融合用于阿尔茨海默病生物标志物评估
    Nat. Biomed. Eng(一区IF=26.6)|一种用于乳腺癌风险分层的多模态机器学习模型
    Nature Communications(一区IF=15.7)利用电子病历对阿尔茨海默病进行深度表型分析揭示性别特异性临床关联
    Nature Communications(一区IF=15.7)|利用人工智能将蟾蜍灵鉴定为雌激素受体α的分子胶降解剂

    【声明】内容源于网络
    0
    0
    瓴智医学AI
    分享医学人工智能前沿知识,搭建跨学科研究、合作及应用转化平台。致力于医学人工智能技术、研发及科研,提供医学人工智能全方位服务。
    内容 32
    粉丝 0
    瓴智医学AI 分享医学人工智能前沿知识,搭建跨学科研究、合作及应用转化平台。致力于医学人工智能技术、研发及科研,提供医学人工智能全方位服务。
    总阅读0
    粉丝0
    内容32