将 ScienceAI 设为星标
第一时间掌握新鲜的 AI for Science 资讯
编辑丨%
在蛋白质组学分析中,大模型已逐步应用于质谱数据解析。但面对动辄几十至数百GB的大规模质谱数据,桌面级计算资源常显不足,且传统分析流程依赖大量人工配置。
FragPipe 是当前主流的蛋白质组定量分析平台,以运行速度快、定量精度高著称,支持多种质谱采集模式。然而,在 HPC(高性能计算)或云环境中,其部署仍面临系统性障碍。
匈牙利自然科学研究中心(HUN-REN)与美国纽约大学(NYU)等机构联合提出 Frag’n’Flow —— 一个专为 FragPipe 设计、面向大规模计算环境的自动化工作流系统。
Frag’n’Flow: automated workflow for large-scale quantitative proteomics in high performance computing environments 于 2026 年 1 月 4 日发表于《BMC Bioinformatics》。
论文链接:https://link.springer.com/article/10.1186/s12859-025-06305-y
拆解化的工作流系统
在海量数据场景下,蛋白质组学分析的关键挑战已从“能否得出结果”转向“能否稳定、可复现地完成全流程”。
图1:Frag’n’Flow 流程概述。
研究团队基于 Nextflow 框架对 FragPipe 及其核心组件(MSFragger、IonQuant、diaTracer 等)进行封装,构建出可移植、可复现的标准化工作流。
自动生成分析清单与配置文件,免除手工编写 manifest 的操作;
容器化管理全部软件依赖,确保 HPC、云平台及本地集群间行为一致,并集成必要数据库;
全面支持 DDA、DIA 与 TMT 三类主流定量策略,按需调用对应子流程;
内置工具下载模块与下游统计分析模块,直接输出差异蛋白列表及通路富集结果。
四大子模块就位后,输入文件准备、环境配置与流程启动均可自动完成,实现真正意义上的端到端无人值守运行,大幅提升重复实验的一致性与部署效率。
性能验证
团队采用 quantms 工具对 Frag’n’Flow 进行基准测试,对比同类流程,评估其在保持定量准确性的前提下是否显著提升分析效率。测试基于公开 DIA 原始数据集(约 58 GB),统一使用默认参数与 SLURM 作业调度器。
图2:与竞争流程相比,Frag’n’Flow 具有高度结果一致性,且运行时间缩短近 50%,有效缓解内存与 I/O 瓶颈。
团队在无标记 DDA、DIA 和 TMT 三大代表性数据集上完成验证,仅需极少人工干预即可复现已发表的生物学结论。
通过集成 FragPipe-Analyst 的 R 实现版本,Frag’n’Flow 在主流程结束后自动完成:数据归一化与缺失值填补、基于 limma 的差异表达分析、PCA、火山图、相关性热图等质控可视化,以及 Hallmark/KEGG 通路富集分析。全部结果以 CSV 表格和单页 PDF 报告形式输出,显著降低分析门槛。
工程问题的系统解法
借助 Nextflow 的编排能力与 FragPipe 的高灵敏度,Frag’n’Flow 成功将原本面向桌面环境的 FragPipe 升级为适配 HPC 与云平台的规模化分析工具,实现了从原始质谱数据到生物学解释的全自动闭环。
该流程兼顾定量准确性与分析效率,支持跨平台部署,符合 FAIR(可发现、可访问、可互操作、可重用)原则,操作简洁,无需复杂手动配置。是一种可扩展、可复现、用户友好的工程化解决方案,使大规模定量蛋白质组分析摆脱对专家经验的高度依赖。

