大数跨境
0
0

一文讲清Bulk测序中的所有数据类型

一文讲清Bulk测序中的所有数据类型 跨境电商Lily
2025-10-23
11
导读:还在为bulk测序的数据格式苦恼吗
    最近在捣鼓一些去批次的事情,随后联想到跨样本可比性的事情和样本内可比性的事情,加上学了一下MS的定量,发现突然能理解之前鲁老师课上倒腾的一大堆标准化算法的内在逻辑了,在此mark一下,有需要的uu可以适当参考,以指导合理的pipeline work。
一、 count数到底是什么?
    当我们拿到公司返的下机matrix,通常是整理好的Gene*Sample的count矩阵,那么我们很容易推理如下“事实”:
count := 组织/细胞中测得的mRNA的绝对数量(不妨理解为条)
    比如一个矩阵是这样的:

Sample1
Sample2
Sample3
Gene1
1
3
1
Gene2
2
2
2
Gene3
3
1
15

如下推论是正确的吗?
(1)Sample1中:Gene2的表达水平 > Gene1
很自然的,我们想引入基于测序深度的矫正,以获得同一Gene跨样本的可比性:
回到推论(1),需要理解count的来源:在上机测序前,mRNA会随机打断成若干小base的片段,随后依据小base mapping到参考基因组的具体位置,并按照基因组的位置注释得到mapping到每个gene上的count数,那么,一段gene越长,其mapping到的肽段数就越多(这服从负二项分布)。
于是我们需要引入另一个维度以获得基因间的可比性(消除长基因count数>短基因的bias),最早的矫正方法是这样的(似乎这一矫正方法仍然被TCGA采用
看起来非常合理,FPKM既矫正了测序深度,又矫正了转录本长度。然而回到我们的案例中(假设Gene1 2 3的长度分别为2,3,4):对表格1进行FPKM归一化,得到如下表

Sample1
Sample2
Sample3
FPKM1
1/12
1/4
-
FPKM2
1/9
1/9
-
FPKM3
1/8
1/24
-

我们发现:
(1)样本内部:FPKM反映了基因的矫正长度的相对丰度
(2)基因内部:FPKM反映了基因在样本间的相对丰度
然而FPKM矫正后,有一个潜藏的问题,即每列的和不同,FPKM的归一化是针对count的归一化,这使得样板间的可比性没有那么好,但是还是具有一定的可比性的。
因此我们可以针对长度矫正后,再进行深度矫正,这样就使得列总和保持了一致,其实本质上和FPKM没有大的区别~

    这样得到的故事就变成了:
每恒定条mRNA,有多少条Genei的mRNA
    这取得了绝对值的可解释性:即可以用百分比来理解TPM。
    但是样本间的可比性真的解决了吗?
二、 Where's TMM?
Gene
Sample1
Sample2
Gene1
(普通基因)
100
200
Gene2
(普通基因)
100
200
Gene3
(高表达基因)
100
10000

不管Gene1、Gene2如何变化(可能 a little 上调) ,但是由于 Gene3 在 Sample 2中异常高表达,占据了绝大部分 reads,导致Gene1 2反而是显著“下调”了(fold change < 1)。这表明,基于测序深度的矫正可能导致相对变化的出现:原本没有变化,或者相反方向的变化信号,被其他异常调控的gene 掩盖了。
因此我们需要引入稳健的库估计,即忽视少数异常变化的、占据异常多read数的gene,以恢复被掩盖的信号。edgeR和DEseq2基于“在两组间,绝大多数gene是不发生上下调”的假设,认为:调整后的库大小,应该是绝大多数的基因的矫正量都保持一致。
DEseq2采用了within sample的策略,取所有gene加权几何平均以评估测序库深度,从而使“位于中间的、不变的大多数”在矫正后保持恒定;edgeR采取了Sample pairwise的比较策略,通过选取参照样本,假设二者间测序库深度的log比值可以用gene pair的加权平均来估计。
总之TMM可以做如下矫正:
TMM = Count/sizefactor
sizefactor 可以分别定义为:Gi(DEseq2方法) or  weighted mean of Mi(edgeR方法
 然而,TMM矫正主要使得同一gene在跨样本间得到了可比性(因为它取得了类似秩的信息),然而在同样本内,由于gene length的问题被忽视了,所以TMM格式并不被用于基于rank的算法,例如ssGSEA和GSVA。

【如有错误,敬请各位读者斧正!】



【声明】内容源于网络
0
0
跨境电商Lily
跨境分享家 | 每天记录跨境思考
内容 44559
粉丝 2
跨境电商Lily 跨境分享家 | 每天记录跨境思考
总阅读306.8k
粉丝2
内容44.6k