2025 年 1 月,国际顶刊《Cell》(IF=16.8)发表了复旦大学郁金泰、冯建峰团队牵头的重磅研究 ——《Atlas of the plasma proteome in health and disease in 53,026 adults》。这项覆盖 53026 名成年人、随访 14.8 年的大规模研究,首次绘制出包含 2920 种血浆蛋白、关联 1706 种疾病与健康特征的全景图谱,系统揭示了血浆蛋白与人类健康、疾病的深层关联,为精准诊断、药物研发和个体化医疗提供了革命性资源。
一、研究亮点:四大核心突破,刷新蛋白质组学研究高度
1.规模空前的全景数据库:覆盖53026 名参与者,量化 2920 种血浆蛋白,关联 406 种显性疾病、660 种偶发疾病及 986 种健康特征,是目前最全面的人类血浆蛋白 - 表型关联图谱。
2.临床转化价值明确:183 种疾病的蛋白诊断 / 预测模型 AUC 值超 0.8,9 种疾病(如 2 型糖尿病合并周围循环并发症)预测 AUC≥0.9,准确性显著优于传统人口统计学模型。
3.药物研发新机遇:鉴定474 种具有因果效应的蛋白,发现 37 个药物重定位机会(如 BSG 蛋白用于抑郁症治疗)和 26 个安全性良好的潜在靶点,加速新药研发进程。
4.开放共享的全球资源:搭建交互式在线工具(https://proteome-phenome-atlas.com/),免费开放所有研究数据,助力全球研究者开展深度探索。
二、研究背景:精准医疗的“蛋白组学缺口” 与突破契机
随着人口老龄化加剧,疾病预防与治疗面临两大核心挑战:缺乏个体化风险预测模型、现有治疗方案疗效与副作用个体差异大,精准医疗成为解决这些问题的关键。
目前精准医疗多聚焦于基因组学,但基因到表型的调控过程复杂(如转录、翻译调控),难以直接指导临床实践。而血浆中的蛋白质作为基因功能的“最终执行者” 和环境影响的 “直接反应者”,能实时反映人体生理病理变化 —— 其表达异常往往早于影像学异常和临床症状,是疾病早期预警的理想靶点。
尽管高通量蛋白质组学技术已取得进展,但以往研究多局限于单一疾病或小样本队列,缺乏覆盖多疾病、大样本的系统性图谱。因此,构建全面的血浆蛋白- 疾病 / 特征关联图谱,成为推动精准医疗从 “基因层面” 落地到 “临床实践” 的迫切需求。
三、研究设计(Fig.1):横跨十余年的 “生命大数据” 架构
1. 数据来源:全球最大规模血浆蛋白队列
核心队列:纳入英国生物银行53026 名成年人,平均年龄 56.8 岁,随访时间中位数 14.8 年,完整收集血浆样本、临床诊断及健康监测数据。
检测平台:采用Olink Explore 3072 高通量蛋白检测技术,精准量化 2920 种血浆蛋白,覆盖免疫、代谢、心血管、神经等多个功能领域。
质量控制:剔除低丰度蛋白(存在于<10% 样本中)和低质量样本(蛋白数据缺失率> 20%),采用 Normalized Protein eXpression(NPX)值校正技术偏差,确保数据可靠性。
2. 分析流程:多组学 + AI 的 “深度解码” 方案
关联分析:采用逻辑回归(显性疾病)、Cox 比例风险回归(偶发疾病)和多类型回归模型(健康特征),校正年龄、性别、BMI 等 15 个潜在混杂因素。
AI 建模:对比 XGBoost、随机森林、CatBoost 三种机器学习模型,通过 5 折交叉验证(重复 20 次)优化参数,最终选择稳定性最优的 CatBoost 模型用于疾病预测与诊断。
因果验证:结合蛋白数量性状位点(pQTL)数据,通过孟德尔随机化分析验证蛋白与疾病的因果关系,排除反向因果和混杂偏倚。
亚组分析:按性别(男/ 女)和年龄(<60 岁 /≥60 岁)分层,探索蛋白关联的个体差异特征。
四、核心研究结果:血浆蛋白如何“解锁” 健康与疾病奥秘?
1. 蛋白 - 疾病 / 特征关联:16 万 + 关联揭示 “共性与个性”
研究共鉴定出168100 个蛋白 - 疾病关联和 554488 个蛋白 - 特征关联,呈现鲜明的 “通用调控 + 疾病特异” 模式:
多效性“超级蛋白”:650 种蛋白至少关联 50 种疾病,其中 GDF15 关联 205 种显性疾病和 397 种偶发疾病,是关联疾病最多的蛋白,广泛参与代谢、循环系统疾病调控。
疾病特异标志物:WFDC2 精准指向呼吸道感染风险,NTproBNP 是心血管疾病经典标志物,NBL1、COLEC12 等蛋白与慢性肾病等偶发疾病高度相关(HR 值均超 16)。
2. 个体差异显著:性别与年龄的 “蛋白指纹”
研究首次系统揭示蛋白关联的个体化特征,为分层医疗提供依据:
性别特异性:37979 个蛋白 - 偶发疾病关联和 22911 个蛋白 - 显性疾病关联具有性别差异。例如神经肽 OXT(催产素)对女性睾酮水平呈正向影响(β=0.136,p=2.72×10⁻¹⁶),对男性则呈负向作用(β=-0.204,p=8.06×10⁻²⁸)。
年龄差异:中老年人群(≥60 岁)与中年人群(<60 岁)的蛋白 - 疾病关联强度、方向存在明显不同,如炎症相关蛋白在老年人中与心血管病的关联更紧密。
疾病阶段反转:27 种蛋白在显性疾病和偶发疾病中表现出相反效应。如 DSG2 在 2 型糖尿病(T2D)发病前是保护因子(HR=0.586),发病后水平升高,可能是对胰岛素抵抗的代偿反应。
3. 疾病诊断与预测:蛋白模型碾压传统方法
基于机器学习构建的蛋白模型在临床应用中表现亮眼:
疾病预测:92 种疾病的蛋白模型 AUC>0.8,其中 2 型糖尿病合并周围循环并发症(AUC=0.974)、高血压肾病(AUC=0.951)等 9 种疾病预测准确性极高。361 种疾病的蛋白模型准确性显著优于 demographic 模型。
疾病诊断:124 种疾病的蛋白模型 AUC>0.8,36 种疾病(如 1 型糖尿病、心肌梗死)AUC≥0.9。218 种疾病的蛋白诊断模型性能显著优于传统模型,如诊断糖尿病肾病时,蛋白模型 AUC 达 0.885,传统模型仅 0.541。
4. 疾病聚类新发现:打破系统边界的 “分子共性”
通过蛋白关联特征的层次聚类,研究将660 种偶发疾病分为 40 个集群,揭示跨系统疾病的分子联系:
多系统集群特征:60% 的集群包含不同系统疾病,如集群 30 涵盖血液、神经、呼吸疾病,核心通路均涉及蛋白转运和细胞周期调控。
痴呆鉴别突破:阿尔茨海默病(AD)的特异通路集中在脂质代谢(如血脑屏障脂质转运),而血管性痴呆(VaD)聚焦心肌相关通路,为两种痴呆的鉴别提供分子依据。
5. 药物研发新机遇:474 种因果蛋白的转化价值
通过孟德尔随机化分析,研究明确了474 种与疾病存在因果关系的蛋白,为药物研发提供明确方向:
因果靶点聚焦:52.7% 的因果蛋白关联循环系统和代谢疾病,高血压关联的因果蛋白最多(20 种),FURIN 是其最强致病因子(OR=1.438,p=1.57×10⁻²⁷)。
药物重定位机会:37 个蛋白提示现有药物可 “老药新用”,如 BSG 蛋白与抑郁症存在因果关联,其抑制剂美泊利单抗(原用于肝癌治疗)有望开展抑郁症临床试验。
五、研究总结:蛋白质组学引领精准医疗革命
本研究通过“大样本随访 + 高通量检测 + AI 解码” 的创新模式,实现了三大革命性突破:
理论突破:构建全球最全面的蛋白- 疾病关联图谱,揭示了蛋白质的多效性、个体化特征及疾病的分子聚类规律,刷新了对健康与疾病关系的认知。
临床突破:开发的蛋白诊断和预测模型性能卓越,可通过单次血液检测实现多疾病风险筛查,尤其提升了早期无症状疾病的检出率,解决了传统筛查(如结肠镜)依从性低的痛点。
转化突破:鉴定的因果蛋白和潜在靶点,以及37 个药物重定位机会,显著缩短了精准治疗药物的研发周期,降低了失败风险。
研究同时搭建了开放共享的在线工具,为全球研究者提供了丰富资源。尽管存在参与者以欧洲白种人为主、仅关注血浆蛋白等局限性,但仍不失为精准医疗领域的里程碑式成果。未来,随着多族裔验证和组织特异性蛋白研究的推进,血浆蛋白质组学将真正实现“一管血知健康” 的愿景,推动医疗模式从 “疾病治疗” 全面转向 “健康管理”。

