

Shell编程入门:批量处理序列

Dr.X的基因空间

2019-01-14

导读：如果我们在NCBI批量下载fasta数据，一般都是整合在一起的序列，这样会对我们的下游分析，比如基因预测、注

如果我们在NCBI批量下载fasta数据，一般都是整合在一起的序列，这样会对我们的下游分析，比如基因预测、注释等带来麻烦。一条一条的单独下载fasta序列又会加大工作量，因此掌握在Linux下将整合的fasta序列进行拆分是很有必要的。

本文以一个例子来解释我的序列拆分过程，如下图：

思路：1、grep提取fasta序列的信息；2、用sed把> 以及.1信息删除，在删除.1时，由于.在正则表达式中属于通配符，会把ID里所有的1同时匹配去除，因此使用sed删除.1时需要加上转义符\，将.的含义取消；3、只提取ID号，因为ID号和序列information之间有空格，因此可将其看作列表格式，用awk命令提取第一列即序列的ID号即可。4、把文本文件根据ID号进行拆分和命名，同时新的文本文件里的内容也是ID号。即用cat命令将influenza_virus_all_name_ID2.txt里的ID号输出到终端，用for循环批量创建文件（touch)并输入文件内容（echo)；再把文件加上.txt后缀（mv)。5、最后用一个perl脚本提取对应ID号的fasta序列，注意需用引导符>指定输出文件。

【声明】内容源于网络

Dr.X的基因空间

【中国科学院博士】10年生命科学数据挖掘研究经验，关注生物医药领域体外诊断（IVD）方向，如肿瘤早筛、传染病未知病原快速检测中的技术创新及其与人工智能（AI）的赋能应用

内容 176

粉丝 0

Dr.X的基因空间【中国科学院博士】10年生命科学数据挖掘研究经验，关注生物医药领域体外诊断（IVD）方向，如肿瘤早筛、传染病未知病原快速检测中的技术创新及其与人工智能（AI）的赋能应用

总阅读0

粉丝0

内容176