大数跨境
0
0

数据库ID知多少? | 景杰学术

数据库ID知多少? | 景杰学术 景杰生物
2020-03-24
2
导读:数据库ID知多少?......
在蛋白组学分析的过程中,我们经常会遇到各式各样的蛋白ID,本期小编就带大家认识一下几种常见数据库的ID类型,肯定能让你有收获噢!

1、RefSeq ID
https://www.ncbi.nlm.nih.gov/refseq/
RefSeq数据库中所有的数据是一个非冗余的、提供参考标准的数据,包括染色体、基因组(细胞器、病毒、质粒)、蛋白、RNA等。NCBIRefSeq数据ID,一般是两个大写首字母,加下划线,后面接数字。两个首字母如 “NC_”“NM_”“NP_”分别对应DNAmRNAProtein
下表主要针对与蛋白相关的部分,给出其ID前缀的主要说明:
ID名称
数据库
说明
AP_xxx
Mixed
AC_标记序列对应的蛋白产物。
NM_xxx
Mixed
转录产物序列;成熟mRNA转录本序列。
NP_xxx
Mixed
蛋白产物;主要是全长转录氨基酸序列,但也有一些只有部分蛋白质的部分氨基酸序列。
NR_xxx
Mixed
非编码的转录子序列,包括结构RNAs,假基因转子等。
XM_xxx
Automated
转录产物;mRNA来自基因组注释,序列相当于基因组重叠群。
XP_xxx
Automated
蛋白产物序列相当于基因组重叠群。
XR_xxx
Automated
转录产物;非编码区来自基因组注释,序列相当于基因组重叠群。
YP_xxx
Mixed
蛋白产物。不涉及到转录,主要用来标记细菌、病毒和线粒体。
ZP_xxx
Automated
蛋白产物,主要是用电脑自动注释。
 
2、UniProt ID
(https://www.uniprot.org/)
在前期的数据库介绍中我们有提到这部分;其中EntryUniProt数据库中每个蛋白质独一无二的ID号;也就是我们平常说的Protein ID;而Entry name作为蛋白ID的简称,是由GeneSymbol+物种构成,可直接用来做蛋白结构域注释,是比较常见的。
在下载了完整的数据库后,可以从fasta序列中核实蛋白来自哪个数据库
下图中sp指代的就是Swiss-Prot数据库,是注释精炼的蛋白序列库,它的所有序列都经过了科学家的查阅文献核实(reviewed, manually annotated)。而tr,也就是TrEMBL数据库全称“Translation of EMBL”,是从EMBL中的cDNA序列翻译得到的,其中TrEMBL收录的是未经人工注释的编码DNA序列翻译数据,相比之下,sp数据库更可靠。

3、Ensembl ID 
(http://www.ensembl.org/info/data/ftp/index.html)
Ensembl ID我们可以从结构上进行拆分—“物种前缀+序列类型+数字
ENSP00000378638.3为例:
其中ENS是固定字符,表示这是一个Ensembl ID。默认物种是人,如果是小鼠Mus musculus的话则以ENSMUS开头,常见的还有“ENSDAR”,表示Danio rerio (Zebrafish)
字母“G”“P”等则表示该ID指的具体序列类型,常见的序列类型用GPT,分别表示geneproteintranscript
11个数字组成的唯一编号,可以理解为基因的真实编号;
如果带有“.3”等标识,表示其在Ensembl数据中进行了3次变更,也就是版本号。

4、其他ID
除了以上三种常见的ID,在生信分析过程中,常见的还有GO IDKO ID
GO ID(https://www.ebi.ac.uk/QuickGO/),每个GO term 唯一的ID,由“GO:”7位数字组成,如GO:0009058
需要说明的是GO terms之间还有层级关系,比如下图一为GO:0009058biosynthetic processhttps://www.ebi.ac.uk/QuickGO/term/GO:0009058level 2对应的ID以及一部分子terms
 
KO ID(https://www.kegg.jp/kegg/pathway.html)KEGG Orthology数据库为每个gene指配的一个KO ID(K number),常见由“K”5个数字组成,如K05822。需要注意的是,KO IDPathway ID是不一样的。
想不到简单的一个ID竟然隐藏了这么多的信息,值得学习。

往期干货回顾




投稿篇
第01课:投稿建议写完文章往哪投?蛋白组学领域期刊介绍与投稿建议
第02课:上传组学数据投稿前你需要知道的一件小事,如何上传组学原始数据?
第03课:MS-ViewerMCP投稿必备技能,MS-Viewer使用说明
绘图与数据处理篇
第01课:制作火山图简单两步,用Excel轻松搞定火山图
第02课:蛋白互作网络图手把手教你做蛋白互作网络图(文字版)、蛋白互作网络图(视频版)
第03课:画韦恩图教你轻松画韦恩图
第04课:EXCEL技巧干货分享,不可错过的Excel小技巧
第05课:绘制散点图Excel技巧分享篇——绘制相关性散点图
第06课:AI修图:科研必备: Adobe Illustrator(AI)修图教程
第07课:Maxquant篇:如何从MaxQuant软件中导出谱图 | 景杰学术
第08课:离子谱图篇:如何解读b/y离子谱图?| 景杰学术
数据库篇
第01课:植物研究数据库推荐 | 植物科学研究常用数据库与网站
第02课:蛋白数据库干货分享!常用的蛋白数据库,你了解多少?
第03课:KEGG通路数据库干货分享,你知道却不是很了解的KEGG信号通路数据库
第04课:NCBI数据库【干货分享】蛋白组学之NCBI数据库介绍
第05课:iProX数据库干货分享,iProX数据库上传指南
第06课:iGPS软件干货分享!iGPS软件预测激酶分析
第07课:预测修饰位点实用!如何预测蛋白质上的修饰位点?CSS-Palm一下!
第08课:磷酸化修饰如何避免磷酸化修饰位点鉴定的“坑”,你知道吗?

长按扫描二维码↓↓,了解更多【人工客服】【项目查询】、及其他方法案例干货。
【声明】内容源于网络
0
0
景杰生物
景杰生物是一家国际领先的“蛋白质组学驱动的精准医疗”领域的创新型公司,以蛋白质组学为背景,整合表观遗传、生化、免疫与抗体开发、生物信息与人工智能等多学科交叉融合优势,为生命科学基础研究、转化医学、新药开发等提供多层次的技术解决方案及产品。
内容 148
粉丝 0
景杰生物 景杰生物是一家国际领先的“蛋白质组学驱动的精准医疗”领域的创新型公司,以蛋白质组学为背景,整合表观遗传、生化、免疫与抗体开发、生物信息与人工智能等多学科交叉融合优势,为生命科学基础研究、转化医学、新药开发等提供多层次的技术解决方案及产品。
总阅读39
粉丝0
内容148