大数跨境
0
0

为何要计算杂合度以及如何计算杂合度

为何要计算杂合度以及如何计算杂合度 育种数据分析之放飞自我
2025-09-26
1
导读:大家好,我是邓飞。好久没有更新了,最近的感受:沉淀的结果是,蓦然回首,一无所有。负重前行,走的更远,轻装上阵,原地打转。
大家好,我是邓飞。
好久没有更新了,最近的感受:沉淀的结果是,蓦然回首,一无所有。负重前行,走的更远,轻装上阵,原地打转。用通俗的话讲就是:不写公众号,就可以有更多的时间积累和学习,其实是空余时间刷抖音。
所以,有的没的,都要写一写,有内容了就写干活,没内容了就灌灌水。反正我喜欢看别人灌水的文章,尤其是搞技术的灌水,很有代入感。后之视今亦犹今之视昔,我见观音观自在,我见真武见真我。
杂合度,就是杂合基因型所占的比例,这个数值可以反应两个问题:
- 样本是否正常,有没有离群样本
- 样本是否混杂,是否需要删除
比如一个群体的数据,做GWAS分析,应该是纯合的群体,出现了杂合样本,是需要删掉的。
比如一个群体的数据,做GWAS分析,不是纯合群体,也不是杂合群体,可以把杂合度按照正态分布的格式,计算平均值和标准差,然后删除三倍标准差之外的样本。写到这里,不给代码有点不讲究:
A <- rnorm(1000,0,1)outlier_above <- which(A > mean(A) + 3*sd(A))outlier_below <- which(A < mean(A) - 3*sd(A))del_id = c(outlier_above,outlier_below)
1,plink如何计算样本的杂合度
plink --file test --het
结果文件是plink.het
结果解释:
结果解释:

第一列:家系ID

第二列:个体ID

第三列:观测的纯合位点数

第四列:期望的纯合位点数

第五列:总个体数

第六列:F值(越小,说明杂合度越高)

飞哥吐槽:het的值是F值,这个明明是存合度,为何会叫杂合度,明明值越大越纯合。
这里,也可以手动计算:F =(O-E)/(N-E)
2,杂合度结果应用场景

纯系群体,做GWAS分析,可以对杂合度进行质控,比如小于0.3的认为是杂合群体,可以删除。


自然群体,做GWAS分析,可以对杂合度进行质控,认为群体的杂合度应该是合理区间,可以用三倍标准差的形式进行离群样本的质控,比如计算的F值,通过上面提供的函数,剔除样本。

【声明】内容源于网络
0
0
育种数据分析之放飞自我
本公众号主要介绍动植物育种数据分析中的相关问题, 算法及程序代码.
内容 912
粉丝 0
育种数据分析之放飞自我 本公众号主要介绍动植物育种数据分析中的相关问题, 算法及程序代码.
总阅读396
粉丝0
内容912