大数跨境
0
0

使用Circlator环化Ecoli基因组组装结果

使用Circlator环化Ecoli基因组组装结果 小明的数据分析笔记本
2019-07-28
1
导读:三代测序数据数据分析学习笔记
原文地址

PacBio reads:Assembly with command line tools

Circlator安装

看了看Circlator官网的安装教程,稍显麻烦,就不花时间在安装软件上了,直接使用conda安装

conda search circlator
conda install circlator

###教程中还用到了emboss工具包,也同时使用conda安装
conda install emboss
Ecoli PacBio测序数据下载

使用canu官方教程中的数据
Canu Quick start

wget http://gembox.cbcb.umd.edu/mhap/raw/ecoli_p6_25x.filtered.fastq
mv ecoli_p6_25x.filtered.fastq pacbio.fastq
组装
time canu -p canu -d canu_outdir genomeSize=4.8m -pacbio-raw pacbio.fastq

-p  输出文件文件名的前缀
-d 输出文件夹的名字
-genomeSize 组装基因组的大小 only has to be approximate
-pacbio-raw 测序数据为PacBio;或者可以选nanopore-raw

如果组装结果中包含多条contigs,可以加上额外的灵敏的参数重新运行canu

canu -p prefix -d outdir corMhapSensitivity=high corMinCoverage=0 genomeSize=4.8m -pacbio-raw pacbio.fastq.gz
输出结果

canu.contigs.fasta 组装结果
canu.unassembled.fasta 没有被用于组装的reads
canu.correctedReads.fasta.gz 用于组装的经过矫正的reads
canu.file.gfa the graph of the assembly.

image.png
使用circlator环化基因组
circlator all --verbose canu_outdir/canu.contigs.fasta canu_outdir/canu.correctedReads.fasta.gz circlator_outdir

--verbose将软件运行的过程信息输出到屏幕上
canu_outdir/canu.contigs.fasta canu组装结果的路径
canu_outdir/canu.correctedReads.fasta.gz canu矫正后的reads的路径
circlator_outdir输出结果存放路径

运行结果

image.png

查看是否环化

less -S 04.merge.circularise_details.log
##最后一行
Circularizedyes

最终结果06.fixstart.fasta

建议:

options if all the contigs have not circularised with Circlator, an option is to change the --b2r_length_cutoff setting to approximately 2X the average read depth.(这句话的意思还没有太理解)

samtools提取没有比对到参考基因组的reads
samtools index aln.bam
samtools fastq -f 4 -l unmapped.R1.fastq -2 unmapped.R2.fastq -s unmapped.RS.fastq aln.bam

fastq bam转换为fastq
-f 4输出没有比对上的reads
-1
-2
-s单个没有比对上的reads

samtools根据fasta序列名字提取序列
samtools faidx contigs.fasta
samtools faidx input.fasta seq_name > output.fasta

还有两部分内容

使用blast确定某条序列是否两端可以overlap
使用二代测序数据矫正PacBio组装结果

参考文献

  • 1 Pacbio reads: assembly with command line tools

  • 2 canu quica start

  • 3  使用Canu对三代测序进行基因组组装

  • 4 生信小白组装学习系列:初识Canu与其组装实战训练(3)

欢迎大家关注我的公众号 

小明的数据分析笔记本

公众号二维码.jpg


【声明】内容源于网络
0
0
小明的数据分析笔记本
分享R语言和python在生物信息领域做数据分析和数据可视化的简单小例子;偶尔会分享一些组学数据处理相关的内容
内容 971
粉丝 0
小明的数据分析笔记本 分享R语言和python在生物信息领域做数据分析和数据可视化的简单小例子;偶尔会分享一些组学数据处理相关的内容
总阅读218
粉丝0
内容971