本文由景杰学术团队原创解读
欢迎点击上方蓝字“景杰生物科技”关注我们
在蛋白组学研究中,数据库是很重要的,数据库不匹配会对整个实验结果都造成很大的影响。因此数据库的下载是一个不能忽视的问题。那么通常我们用到的数据库如何下载?又包含有哪些信息呢?
Uniprot和NCBI是蛋白质组学研究中最最最常用到的公共数据库之一,上一节我们介绍了Uniprot数据库,今天就让我们一起看看NCBI数据库的强大功能吧~
数据库系列分享
依然以最常见的小鼠(Mus musculus,Mouse)为例,首先进入NCBI首页,从下拉框内选择“Protein”,输入相关关键字就可以了~
比如说,如果想了解小鼠中cops5这个蛋白的序列,在搜索框内输入“cops5 mouse“,点击”Search“进入~

从直接跳转出的页面,我们可以看到这个关键词可以对应到RefSeq中两个蛋白,PubMed也有70条线索与之有关。

点击“RefSeq proteins“,就可以看到2个蛋白了~
详细的信息可以直接点击进入核实,包含有fasta序列等等。

而我们今天主要介绍的是RefSeq (https://www.ncbi.nlm.nih.gov/refseq/)数据库,包含RefSeq_genomic (NCBI genomic reference sequences),RefSeq_protein (NCBI protein reference sequences)和RefSeq transpans (NCBI transpans reference sequences),是具有生物意义上的非冗余基因,转录本和蛋白质序列,也是经过NCBI和其他组织校正的数据库,使用人类基因命名委员会定义的术语,同时包括了官方的基因符号和可选的符号。
针对Refseq我们有两种方法可以直接下载数据库的fasta序列~
第一种方法:
首先进入NCBI首页,从下拉框内选择“Taxonomy”

输入 Mus musculus (或者Mouse),点击“Search”,弹出如下搜索信息。

点击“Protein”,弹出如下界面,左中选择点击“RefSeq”进入,这时我们已经可以看到这个数据库中所有蛋白的详细信息;

接下来就是另存为fasta文件:点击右上角“Send to”,下拉菜单选择“File”、“FASTA”、“Taxonomy ID”,然后“Create File”就可以直接保存到电脑上了~

Tips:养成一个好习惯,命名简单清楚,备注好数据库的下载日期。

下载完成后打开就可以直接使用了~

第二种方法:
直接登陆ftp://ftp.ncbi.nlm.nih.gov/refseq/

在目录中选择所需要的物种 “M_musculus”,进入后建议选择mRNA_Prot,有需要的话可以将以faa.gz结尾的文件都下载下来。

其中最最最重要的就是下面这个文件,也是一般蛋白质组学数据分析软件需要上传的数据格式。
mouse.#.protein.faa.gz --fasta report for protein records

其实除了uniprot、NCBI数据库,还有很多常见的数据库,如Ensembl(真核生物)、Phytozome(植物)大家可以自行了解学习一下~
当然如果在公共数据库中没有相应物种的蛋白数据库或记录蛋白条目较少,也是可以考虑先做转录组学,将转录组测序结果翻译成蛋白氨基酸序列作为蛋白质组学分析的理论数据库。基于转录组数据的蛋白质组学分析得到的蛋白数据也会更加便于做双组学关联分析哦~


