泛基因组构建工具 Minigraph-Cactus,应该是minigraph 和 cactus这两个软件的搭配到一起的流程,cactus需要单独安装,在cactus的bin目录下有minigraph
cactus 软件的下载链接
https://github.com/ComparativeGenomicsToolkit/cactus/releases?page=1
我最开始试的是2.9这个版本,安装成功了,用示例数据跑minigraph-cactus的流程过程一直会有报错
看了中国人泛基因组Nature那篇论文用的是2.1.1,换成2.1.1
人泛基因组论文
https://www.nature.com/articles/s41586-023-06173-7
A pangenome reference of 36 Chinese populations
论文泛基因组部分对应的分析代码
https://github.com/Shuhua-Group/Chinese-Pangenome-Consortium-Phase-I/blob/main/pipeline/protocol.md
代码里还提到了一个链接
https://github.com/glennhickey/pg-stuff/blob/main/cactus-pangenome.sh
这个相当于是把cactus流程化了,cactus2.9的版本里直接有命令 cactus-pangenome
cactus2.1版本没有这个命令,可能还需要用这个shell脚本
安装教程
https://github.com/ComparativeGenomicsToolkit/cactus/blob/c6637f8904d84e7ef4bb09e5887c63b6fe63b158/BIN-INSTALL.md
conda 新建一个虚拟环境
conda create -n cactus211 python=3.8
python3 -m 这个可以不要,直接用pip
用pip的时候指定华为云镜像 速度是真快
https://repo.huaweicloud.com/repository/pypi/simple/
https://github.com/ComparativeGenomicsToolkit/cactus/blob/v2.9.8/BIN-INSTALL.md
最新版的安装教程里有个printf命令
printf "export PATH=$(pwd)/bin:\$PATH\nexport PYTHONPATH=$(pwd)/lib:\$PYTHONPATH\nexport LD_LIBRARY_PATH=$(pwd)/lib:\$LD_LIBRARY_PATH\n" >> venv-cactus-v2.9.8/bin/activate
这个是把一些目录添加到环境变量,可以直接调用命令
安装好以后用示例数据测试一下
cactus ./jobstore evolverPrimates.txt output01.hal
evolverPrimates.txt 这个是输入文件,格式
第一行是一个进化树
后面的行第一列是数据的代号 后面跟数据的路径
示例数据我最开始是从网上复制的,用cactus2.9版本运行的时候遇到报错
https://github.com/ComparativeGenomicsToolkit/cactus/issues/1170
Unexpected character error with sanitize_fasta_header
用notpad++把windows转为unix后是可以了
output01.hal 是输出文件
hal格式的比对文件后续应该怎么用暂时不管了,cactus的工具里提供了很多脚本可以操作这个格式
欢迎大家关注我的公众号
小明的数据分析笔记本
小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

