原文地址
PacBio reads:Assembly with command line tools
Circlator安装
看了看Circlator官网的安装教程,稍显麻烦,就不花时间在安装软件上了,直接使用conda安装
conda search circlator
conda install circlator
###教程中还用到了emboss工具包,也同时使用conda安装
conda install emboss
Ecoli PacBio测序数据下载
使用canu官方教程中的数据
Canu Quick start
wget http://gembox.cbcb.umd.edu/mhap/raw/ecoli_p6_25x.filtered.fastq
mv ecoli_p6_25x.filtered.fastq pacbio.fastq
组装
time canu -p canu -d canu_outdir genomeSize=4.8m -pacbio-raw pacbio.fastq
-p 输出文件文件名的前缀-d 输出文件夹的名字-genomeSize 组装基因组的大小 only has to be approximate-pacbio-raw 测序数据为PacBio;或者可以选nanopore-raw
如果组装结果中包含多条contigs,可以加上额外的灵敏的参数重新运行canu
canu -p prefix -d outdir corMhapSensitivity=high corMinCoverage=0 genomeSize=4.8m -pacbio-raw pacbio.fastq.gz
输出结果
canu.contigs.fasta 组装结果canu.unassembled.fasta 没有被用于组装的readscanu.correctedReads.fasta.gz 用于组装的经过矫正的readscanu.file.gfa the graph of the assembly.
使用circlator环化基因组
circlator all --verbose canu_outdir/canu.contigs.fasta canu_outdir/canu.correctedReads.fasta.gz circlator_outdir
--verbose将软件运行的过程信息输出到屏幕上canu_outdir/canu.contigs.fasta canu组装结果的路径canu_outdir/canu.correctedReads.fasta.gz canu矫正后的reads的路径circlator_outdir输出结果存放路径
运行结果
查看是否环化
less -S 04.merge.circularise_details.log
##最后一行
Circularized: yes
最终结果06.fixstart.fasta
建议:
options if all the contigs have not circularised with Circlator, an option is to change the --b2r_length_cutoff setting to approximately 2X the average read depth.(这句话的意思还没有太理解)
samtools提取没有比对到参考基因组的reads
samtools index aln.bam
samtools fastq -f 4 -l unmapped.R1.fastq -2 unmapped.R2.fastq -s unmapped.RS.fastq aln.bam
fastq bam转换为fastq-f 4输出没有比对上的reads-1-2-s单个没有比对上的reads
samtools根据fasta序列名字提取序列
samtools faidx contigs.fasta
samtools faidx input.fasta seq_name > output.fasta
还有两部分内容
使用blast确定某条序列是否两端可以overlap
使用二代测序数据矫正PacBio组装结果
参考文献
1 Pacbio reads: assembly with command line tools
2 canu quica start
3 使用Canu对三代测序进行基因组组装
4 生信小白组装学习系列:初识Canu与其组装实战训练(3)
欢迎大家关注我的公众号
小明的数据分析笔记本

