>

【干货分享】蛋白组学之NCBI数据库介绍

>

0

0



【干货分享】蛋白组学之NCBI数据库介绍

【干货分享】蛋白组学之NCBI数据库介绍

景杰生物

2019-11-28

2

导读：关注景杰生物，了解更多方法案例干货。

本文由景杰学术团队原创解读

欢迎点击上方蓝字“景杰生物科技”关注我们

并点击右上角“...”菜单，选择“设为星标“

在蛋白组学研究中，数据库是很重要的，数据库不匹配会对整个实验结果都造成很大的影响。因此数据库的下载是一个不能忽视的问题。那么通常我们用到的数据库如何下载？又包含有哪些信息呢？

Uniprot和NCBI是蛋白质组学研究中最最最常用到的公共数据库之一，上一节我们介绍了Uniprot数据库，今天就让我们一起看看NCBI数据库的强大功能吧~

数据库系列分享

植物研究数据库：推荐 | 植物科学研究常用数据库与网站

iProX数据库：干货分享，iProX数据库上传指南

KEGG通路数据库：干货分享，你知道却不是很了解的KEGG信号通路数据库

蛋白数据库：干货分享！常用的蛋白数据库，你了解多少？

NCBI数据库

NCBI数据库

网址：https://www.ncbi.nlm.nih.gov/

简介：NCBI是世界上最大的基因数据库。收录了70,000多种生物的核苷酸序列，每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译，主要是科研人员直接提供或来源于大规模基因组测序计划。有两种方式获取蛋白序列，一是来自特定基因组版本的蛋白序列，二是获取所有和关键字或物种相关的蛋白序列。

依然以最常见的小鼠（Mus musculus，Mouse）为例，首先进入NCBI首页，从下拉框内选择“Protein”，输入相关关键字就可以了~

比如说，如果想了解小鼠中cops5这个蛋白的序列，在搜索框内输入“cops5 mouse“，点击”Search“进入~

从直接跳转出的页面，我们可以看到这个关键词可以对应到RefSeq中两个蛋白，PubMed也有70条线索与之有关。

点击“RefSeq proteins“，就可以看到2个蛋白了~

详细的信息可以直接点击进入核实，包含有fasta序列等等。

而我们今天主要介绍的是RefSeq (https://www.ncbi.nlm.nih.gov/refseq/)数据库，包含RefSeq_genomic (NCBI genomic reference sequences)，RefSeq_protein (NCBI protein reference sequences)和RefSeq transpans (NCBI transpans reference sequences)，是具有生物意义上的非冗余基因，转录本和蛋白质序列，也是经过NCBI和其他组织校正的数据库，使用人类基因命名委员会定义的术语，同时包括了官方的基因符号和可选的符号。

针对Refseq我们有两种方法可以直接下载数据库的fasta序列~

第一种方法：

首先进入NCBI首页，从下拉框内选择“Taxonomy”

输入 Mus musculus (或者Mouse)，点击“Search”，弹出如下搜索信息。

点击“Protein”，弹出如下界面，左中选择点击“RefSeq”进入，这时我们已经可以看到这个数据库中所有蛋白的详细信息；

接下来就是另存为fasta文件：点击右上角“Send to”，下拉菜单选择“File”、“FASTA”、“Taxonomy ID”，然后“Create File”就可以直接保存到电脑上了~

Tips：养成一个好习惯，命名简单清楚，备注好数据库的下载日期。

下载完成后打开就可以直接使用了~

第二种方法：

直接登陆ftp://ftp.ncbi.nlm.nih.gov/refseq/

在目录中选择所需要的物种 “M_musculus”，进入后建议选择mRNA_Prot，有需要的话可以将以faa.gz结尾的文件都下载下来。

其中最最最重要的就是下面这个文件，也是一般蛋白质组学数据分析软件需要上传的数据格式。

mouse.#.protein.faa.gz --fasta report for protein records

其实除了uniprot、NCBI数据库，还有很多常见的数据库，如Ensembl（真核生物）、Phytozome（植物）大家可以自行了解学习一下~

当然如果在公共数据库中没有相应物种的蛋白数据库或记录蛋白条目较少，也是可以考虑先做转录组学，将转录组测序结果翻译成蛋白氨基酸序列作为蛋白质组学分析的理论数据库。基于转录组数据的蛋白质组学分析得到的蛋白数据也会更加便于做双组学关联分析哦~

长按扫描二维码↓↓，了解更多【人工客服】、【项目查询】、及其他方法案例干货。

往期干货回顾

干货分享

第01课：投稿建议：写完文章往哪投？蛋白组学领域期刊介绍与投稿建议

第02课：上传组学数据：投稿前你需要知道的一件小事，如何上传组学原始数据？

第03课：制作火山图：简单两步，用Excel轻松搞定火山图

第04课：蛋白互作网络图：手把手教你做蛋白互作网络图（文字版）、蛋白互作网络图（视频版）

第05课：画韦恩图：教你轻松画韦恩图

第06课：EXCEL技巧：干货分享，不可错过的Excel小技巧

第07课：绘制散点图：Excel技巧分享篇——绘制相关性散点图

第06课：预测修饰位点：实用！如何预测蛋白质上的修饰位点？CSS-Palm一下！

第09课：磷酸化修饰：如何避免磷酸化修饰位点鉴定的“坑”，你知道吗？

第10课：植物研究数据库：推荐 | 植物科学研究常用数据库与网站

第11课：iProX数据库：干货分享，iProX数据库上传指南

第12课：KEGG通路数据库：干货分享，你知道却不是很了解的KEGG信号通路数据库

第13课：蛋白数据库：干货分享！常用的蛋白数据库，你了解多少？

第14课：iGPS软件：干货分享！iGPS软件预测激酶分析

第15课：MS-Viewer：MCP投稿必备技能，MS-Viewer使用说明

【声明】内容源于网络

0

0

景杰生物

景杰生物是一家国际领先的“蛋白质组学驱动的精准医疗”领域的创新型公司，以蛋白质组学为背景，整合表观遗传、生化、免疫与抗体开发、生物信息与人工智能等多学科交叉融合优势，为生命科学基础研究、转化医学、新药开发等提供多层次的技术解决方案及产品。

内容 148

粉丝 0

景杰生物景杰生物是一家国际领先的“蛋白质组学驱动的精准医疗”领域的创新型公司，以蛋白质组学为背景，整合表观遗传、生化、免疫与抗体开发、生物信息与人工智能等多学科交叉融合优势，为生命科学基础研究、转化医学、新药开发等提供多层次的技术解决方案及产品。

总阅读9

粉丝0

内容148