搜索
首页
大数快讯
大数活动
服务超市
文章专题
出海平台
流量密码
出海蓝图
产业赛道
物流仓储
跨境支付
选品策略
实操手册
报告
跨企查
百科
导航
知识体系
工具箱
更多
找货源
跨境招聘
DeepSeek
首页
>
数据库ID知多少? | 景杰学术
>
0
0
数据库ID知多少? | 景杰学术
景杰生物
2020-03-24
2
导读:数据库ID知多少?......
在蛋白组学分析的过程中,我们经常会遇到各式各样的蛋白
ID
,本期小编就
带大家认识一下几种常见数据库的
ID
类型
,肯定能让你有收获噢!
1、RefSeq ID
(
https://www.ncbi.nlm.nih.gov/refseq/
)
RefSeq
数据库中所有的数据是一个非冗余的、提供参考标准的数据,包括染色体、基因组(细胞器、病毒、质粒)、蛋白、
RNA
等。
NCBI
的
RefSeq
数据
库
ID
,一般是两个大写首字母,加下划线,后面接数字。
两个首字母如
“NC_”
、
“NM_”
、
“NP_”
分别对应
DNA
、
mRNA
、
Protein
。
下表主要针对与蛋白相关的部分,给出其
ID
前缀的主要说明:
ID
名称
数据库
说明
AP_xxx
Mixed
AC_
标记序列对应的蛋白产物。
NM_xxx
Mixed
转录产物序列;成熟
mRNA
转录本序列。
NP_xxx
Mixed
蛋白产物;主要是全长转录氨基酸序列,但也有一些只有部分蛋白质的部分氨基酸序列。
NR_xxx
Mixed
非编码的转录子序列,包括结构
RNAs
,假基因转子等。
XM_xxx
Automated
转录产物;
mRNA
来自基因组注释,序列相当于基因组重叠群。
XP_xxx
Automated
蛋白产物
;
序列相当于基因组重叠群。
XR_xxx
Automated
转录产物;非编码区来自基因组注释,序列相当于基因组重叠群。
YP_xxx
Mixed
蛋白产物。不涉及到转录,主要用来标记细菌、病毒和线粒体。
ZP_xxx
Automated
蛋白产物,主要是用电脑自动注释。
2、UniProt ID
(https://www.uniprot.org/)
在前期的数据库介绍中我们有提到这部分;其中
Entry
是
UniProt
数据库中每个蛋白质独一无二的
ID
号;也就是我们平常说的
Protein ID
;而
Entry name
作为蛋白
ID
的简称,是由
“
GeneSymbol
+
物种
“
构成,可直接用来做蛋白结构域注释,是比较常见的。
在下载了完整的数据库后,可以从
fasta
序列中核实蛋白来自哪个数据库
。
下图中
sp
指代的就是
Swiss-Prot
数据库,是注释精炼的蛋白序列库,它的所有序列都经过了科学家的查阅文献核实
(reviewed, manually annotated)
。而
tr
,也就是
TrEMBL
数据库全称
“Translation of EMBL”
,是从
EMBL
中的
cDNA
序列翻译得到的,其中
TrEMBL
收录的是未经人工注释的编码
DNA
序列翻译数据,
相比之下,
sp
数据库更可靠。
3、Ensembl ID
(http://www.ensembl.org/info/data/ftp/index.html)
Ensembl ID
我们可以从结构上进行拆分
—“
物种前缀
+
序列类型
+
数字
”
。
以
ENSP00000378638.3
为例:
其中
ENS
是固定字符,表示这是一个
Ensembl ID
。默认物种是人,如果是小鼠
(
Mus musculus
)
的话则以
ENSMUS
开头,常见的还有
“ENSDAR”
,表示
Danio rerio
(Zebrafish)
;
字母
“G”
或
“P”
等则表示该
ID
指的具体序列类型,常见的序列类型用
G
、
P
、
T
,分别表示
gene
、
protein
和
transcript
。
11
个数字组成的唯一编号,可以理解为基因的真实编号;
如果带有
“.3”
等标识,表示其在
Ensembl
数据中进行了
3
次变更,也就是版本号。
4、
其他
ID
除了以上三种常见的
ID
,在生信分析过程中,常见的还有
GO ID
和
KO ID
。
GO ID
(https://www.ebi.ac.uk/QuickGO/)
,每个
GO term
唯一的
ID
,由
“GO:”
和
7
位数字组成
,如
GO:0009058
。
需要说明的是
GO terms
之间还有
“
层级关系
”
,比如下图一为
GO:0009058
(
biosynthetic process
,
https://www.ebi.ac.uk/QuickGO/term/GO:0009058
)
的
level 2
对应的
ID
以及一部分子
terms
。
KO ID
(https://www.kegg.jp/kegg/pathway.html)
,
KEGG Orthology
数据库为每个
gene
指配的一个
KO ID
(K number)
,常见由
“K”
和
5
个数字组成,如
K05822
。需要注意的是,
KO ID
与
Pathway ID
是不一样的。
想不到简单的一个ID竟然隐藏了这么多的信息,值得学习。
往期
干货
回顾
投稿篇
第01课:投稿建议
:
写完文章往哪投?蛋白组学领域期刊介绍与投稿建议
第02课:
上传组学数据
:
投稿前你需要知道的一件小事,如何上传组学原始数据?
第03课:MS-Viewer
:
MCP投稿必备技能,MS-Viewer使用说明
绘图与数据处理篇
第01课:
制作火山图
:
简单两步,用Excel轻松搞定火山图
第02课:蛋白互作网络图
:
手把手教你做蛋白互作网络图
(文字版)、
蛋白互作网络图(视频版)
第03课:画韦恩图
:
教你轻松画韦恩图
第04课:EXCEL技巧
:
干货分享,不可错过的Excel小技巧
第05课:绘制散点图
:
Excel技巧分享篇——绘制相关性散点图
第06课:AI修图:
科研必备: Adobe Illustrator(AI)修图教程
第07课:Maxquant篇:
如何从MaxQuant软件中导出谱图 | 景杰学术
第08课:离子谱图篇:
如何解读b/y离子谱图?| 景杰学术
数据库篇
第01课:植物研究数据库
:
推荐 | 植物科学研究常用数据库与网站
第02课:蛋白数据库
:
干货分享!常用的蛋白数据库,你了解多少?
第03课:KEGG通路数据库
:
干货分享,你知道却不是很了解的KEGG信号通路数据库
第04课:NCBI数据库
:
【干货分享】蛋白组学之NCBI数据库介绍
第05课:iProX数据库
:
干货分享,iProX数据库上传指南
第06课:iGPS软件
:
干货分享!iGPS软件预测激酶分析
第07课:预测修饰位点
:
实用!如何预测蛋白质上的修饰位点?CSS-Palm一下!
第08课:磷酸化修饰
:
如何避免磷酸化修饰位点鉴定的“坑”,你知道吗?
长按扫描二维码↓↓
,了解更多
【人工客服】
、
【项目查询】
、及其他方法案例干货。
【声明】内容源于网络
0
0
景杰生物
景杰生物是一家国际领先的“蛋白质组学驱动的精准医疗”领域的创新型公司,以蛋白质组学为背景,整合表观遗传、生化、免疫与抗体开发、生物信息与人工智能等多学科交叉融合优势,为生命科学基础研究、转化医学、新药开发等提供多层次的技术解决方案及产品。
内容
148
粉丝
0
关注
在线咨询
景杰生物
景杰生物是一家国际领先的“蛋白质组学驱动的精准医疗”领域的创新型公司,以蛋白质组学为背景,整合表观遗传、生化、免疫与抗体开发、生物信息与人工智能等多学科交叉融合优势,为生命科学基础研究、转化医学、新药开发等提供多层次的技术解决方案及产品。
总阅读
39
粉丝
0
内容
148
在线咨询
关注