大数跨境
0
0

SNP Calling (二)后续分析

SNP Calling (二)后续分析 Dr.X的基因空间
2018-12-30
4
导读:SNP/SNV Calling的后续分析

        做完SNP/SNV Calling后会输出如下带有坐标信息及突变信息的文件

上图中第二列是SNP/SNV在参考基因组上对应的位置,第五列是突变的情况。这部分推文所讲的分析关注于突变发生后对基因组或者基因的影响。比如这个突变是否发生在编码基因的CDS区或者UTR区,如果发生在CDS区域,这个突变是否会导致氨基酸的改变?最后这个改变能否影响蛋白质的活性?所以后续的分析目的更清晰,方向更细化。

        另外要分析SNV或SNP发生的位置是否为CDS,还需要对参考基因组进行分析。如果没有参考基因组的gff文件,通常用Prodigal进行预测CDS。例如我的参考基因组并没有人研究过,没有注释信息。所以我用Prodigal预测结果如下

        根据文件中CDS的起始结束位置可以通过编程手段采用二分法判断SNP/SNV是否在CDS内。大体思路为:1.首先根据预测的CDS文件,将预测的所有CDS坐标信息读入,上表中CDS后面的数字代表CDS的起始与结束位置。2.读入组装的参考基因组,和SNV/SNP文件。3.根据CDS坐标信息提取CDS序列,并根据SNV文件将SNV写入。4.统计因为SNV/SNP的写入导致的氨基酸突变。5.将所有的SNV/SNP写入参考基因组。最后可视化。具体代码如下

最后上传一份我完成可视化后再用AI组合成的图

蓝色条框是我的参考基因组CDS区域,红色十字点代表我的SNP/SNV的变异位置,每一行代表每个样本。由于本人AI操作水平很烂,这个图制作效果不高。以后还得提升自己作图能力!


【声明】内容源于网络
0
0
Dr.X的基因空间
【中国科学院博士】10年生命科学数据挖掘研究经验,关注生物医药领域体外诊断(IVD)方向,如肿瘤早筛、传染病未知病原快速检测中的技术创新及其与人工智能(AI)的赋能应用
内容 176
粉丝 0
Dr.X的基因空间 【中国科学院博士】10年生命科学数据挖掘研究经验,关注生物医药领域体外诊断(IVD)方向,如肿瘤早筛、传染病未知病原快速检测中的技术创新及其与人工智能(AI)的赋能应用
总阅读456
粉丝0
内容176