大数跨境
0
0

使用NLR-Annotator2鉴定植物基因组中的NLR基因家族

使用NLR-Annotator2鉴定植物基因组中的NLR基因家族 小明的数据分析笔记本
2025-01-14
2

NLR-Annotator 对应的论文

https://academic.oup.com/plphys/article/183/2/468/6116394

The NLR-Annotator Tool Enables Annotation of the Intracellular Immune Receptor Repertoire

软件对应的 github 主页

https://github.com/steuernb/NLR-Annotator

在一篇Nature Genetics的论文中鉴定NLR基因家族的方法

The NLR genes from the four S.americanum reference genomes were predicted by NLR-annotator.

The predicted NLR fragments with 2kb flanking sequences from bith sides were extracted. Augustus was then used to predict the gene model based on the trained dataset of tomato.

All NLR genes were manually curated.

NG 论文是

Solanum americanum genome-assisted

discovery of immune receptors that detect

potato late blight pathogen effectors

https://doi.org/10.1038/s41588-023-01486-9

NLR-Annotator 是以基因组序列作为输入,直接预测基因组上可能的NLR基因位点,同时可以把位点上下游2kb(具体长度可以自己定义)序列提取出来。然后把提取出来的序列去做基因从头注释,如果能够注释到基因就认为是NLR基因

之前一直没有搞明白注释到的基因位置是相对于提取出来的片段上的,怎么再把序列映射回基因组序列上,获得NLR基因的基因组位置坐标,最开始是想有片段的位置,有基因在片段上的位置,做一个简单的加和就行,但是这个方式坐标对不上,最终输出的蛋白序列里有很多点。暂时没有搞懂这种方式的错误是在哪里

还用一种方式是直接使用liftoff

liftoff工具的github链接

https://github.com/agshumate/Liftoff

直接把基因组片段上的基因注释信息映射回全基因上,我测试了一下,方式还是可行的

代码

NLR-annotator代码

time java -jar ~/biotools/software.package/NLR-Annotator-NLR-Annotator-2/NLR-Annotator-v2.1b.jar \
-i input.genome.fa \
-x ~/biotools/software.package/NLR-Annotator-NLR-Annotator-2/mot.txt \
-y ~/biotools/software.package/NLR-Annotator-NLR-Annotator-2/store.txt \
-o output.txt -t 8 \
-f input.genome.fa output.nlr.fasta 2000

-x -y 参数用到的文件可以在软件的github主页下载

Helixer 注释

time singularity run ../helixer-docker_helixer_v0.3.2_cuda_11.8.0-cudnn8.sif Helixer.py \
--fasta-path output.nlr.fasta --lineage land_plant --species ABC \
--model-filepath /home/myan/biotools/Helixer-main/land_plant_model/land_plant_v0.3_a_0080.h5 \
--subsequence-length 64152 --gff-output-path abc.gff

liftoff把注释到的基因映射回全基因组

liftoff input.genome.fasta output.nlr.fasta -g abc.gff -o liftoff.gff

liftoff.gff 就是全基因组范围内的NLR基因的注释

这里还有一个问题是 liftoff.gff 这里的基因是否需要组开始注释的位点信息取交集,因为取位点上下游2kb,会不会刚好这2kb的区间会有一个基因不属于NLR基因家族呢?

欢迎大家关注我的公众号

小明的数据分析笔记本

小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!


【声明】内容源于网络
0
0
小明的数据分析笔记本
分享R语言和python在生物信息领域做数据分析和数据可视化的简单小例子;偶尔会分享一些组学数据处理相关的内容
内容 971
粉丝 0
小明的数据分析笔记本 分享R语言和python在生物信息领域做数据分析和数据可视化的简单小例子;偶尔会分享一些组学数据处理相关的内容
总阅读350
粉丝0
内容971