丰信生命科学

2024-06-19

导读：虽然新质谱的灵敏度很好，但依然不要被如此之低的平均定量CV所迷惑，超高丰度、极低丰度、差异倍数极大的蛋白依然是质谱界定量的巨大挑战。

有太多的技术在挑战质谱的灵敏度、精度和准确性，而质谱界本身也需要不停地证明自己的能力。现如今我们日常都能给把蛋白质的定性深度做到8000~10000+，那么进一步如何证明相应的定量结果是可靠的呢？基于全新发布的Spectronaut19，我们来重现下去年Nature Biotech的数据作为一个范例。

如何证明我们的定量结果有多可靠，我们无法先验的知道目标蛋白应该是如何变化的，但相对简单的做法就是人为掺入已知比例的蛋白进行定量结果测试，结果越接近预期，则说明定量越可靠。就如本文：混合3种几乎不同源物种的蛋白：人、大肠杆菌、酵母，其中保持人源蛋白含量不变，大肠杆菌和酵母的相对含量控制为5:45；10:40；20:30；30:20；40:10；45:5 6种比例，采用Astral 40分钟梯度检测，数据分析采用Spectronaut17（原文），Spectronaut19（本文）。如下图，可以看到大肠杆菌的检出率在高丰度人+酵母的存在下相对还是较低的，大约1300（30%理论蛋白质组4400），酵母则检测到约4400（70%理论蛋白质组6100）。因此大肠杆菌的定量准确性更能够反映我们对微量蛋白质的定量准确性焦虑。

在尝试治疗焦虑前，我们先看下整体结果，在文章共检出约14000种总蛋白的同时，蛋白质定量CV小于20%的蛋白几乎占到近90%的总蛋白质，缺失值比例也低到了5%左右。

当然在使用了SN19之后，鉴定量进一步提升到超过平均15000种蛋白，CV<20%的蛋白占比也站上了90%比例，缺失值进一步降低。见下图（SN19结果）

在所有样品中全都检测成功的蛋白占比>90%，见下图。

进一步的定量准确性解读在原文中就草草带过了，有些定量图只是绘制了总体分布，看不出啥细节，也没法让我们深入把握定量的细节。我这里不会受到NBT的字数限制，帮大家展开展开。

首先，解答一个近期客户时常问我的问题，质谱的定量到底在什么情况下会不太准？

我以如下两个典型蛋白的结果作为一个快速总结：

丰度高、差异大的，会有一定的压缩情况出现，如下图ENO1_YEAST（蛋白定量值4e5）这个整个样品中最高丰度的酵母蛋白为例，虽然定量CV几乎为0，但差异倍数和掺入比例偏差30%以上。这其中原因既有质谱定量的线性范围问题（信号差别接近1个数量级的时候一定会有压缩），也有色谱峰过载拖尾的可能性。

FC9	FC4	FC1.5
6.6	3.2	1.4

而如MG101_YEAST(定量丰度1.8e4）这个相对中等丰度的蛋白定量结果是正确的，不过像如此完美的结果总的来说比例不高，绝大部分9:1差异的蛋白定量都在7-8之间。

对于低丰度蛋白，定量结果还是不尽如人意。如THRC_ECOLI（丰度800），则相对更低含量的几组结果则非常不准确或存在大量缺失值，尽管其趋势还是大致正确的。

那THRC这种低丰度蛋白到底定量细节如何呢？见下图，18个样品的XIC

看惯美丽的XIC曲线的人可能有点难以接受，尽管如下图的TIC其实近乎完美，即使Astral扫描速度足够快，但这就是低丰度信号的表现。本文数据整体样品平均DPPP（平均每个谱峰定量数据点数）=4，而低丰度的可能还是只有1左右的定量点。

我们也可以基于Spectronaut中的CV分段可视化看到不同强度下的CV分布，从而间接考察定量的精确度，如下图，就可以验证刚才这几个例子是否代表整体结果。低丰度或高丰度（过载拖尾）的谱峰定量CV就是不那么理想。

不同软件的定量结果精度相近，但准确性有所差异，我分别统计了DIA-NN（NN）和Spectronaut（SN）的人、酵母、大肠杆菌在不同掺比（E代表e.coli，E5:5%;E10:10%;E20:20%;E30:30%;E40:40%；E45:45%）。但进一步统计整体CV、25%（最低丰度25%蛋白的平均CV）、10%（最低丰度10%蛋白的平均CV）侯，就可以初步解答很多人关心的低丰度蛋白定量的问题。如下表1，可以非常清晰地看出大肠杆菌则因为鉴定数量少，低丰度蛋白统计更难以准确，CV在30%上下波动（很多人肯定不满意这个CV了）。同时我们要关心的是虽然人蛋白总体CV几乎都小于7%，但是低丰度蛋白，即使是总体含量最高的human的CV也大于20%。总的来说DIA-NN的定量CV还是略小于Spectronaut，但差别忽略不计。

表1.各分组不同丰度下的定量CV平均值

表1反映的是定量的精确性，那准确性呢，见表2：我分别统计了整体，最低25%，最低10%的平均定量差异ratio，人蛋白应该全部都为1，可以看到几乎都非常准确；而大肠杆菌和酵母则偏离正确结果相对都比较大，尤其是DIA-NN的定量精确度相对SN来说更是低了不少，在大肠杆菌中可以看到理论差异9倍的蛋白，即使信号最高的前10%蛋白（90%列）的平均定量比值也和理论值9差了约15%，最低丰度的那些蛋白更惨不忍睹，而SN在1.5倍理论倍数下定量较为准确，4倍差异的高丰度蛋白还算准确，9倍差异只能说最高丰度的那些蛋白还算可以了。

表2.各分组，不同丰度范围下差异倍数平均值