大数跨境
0
0

重问基因注释信息中基因/转录本/外显子/CDS关系

重问基因注释信息中基因/转录本/外显子/CDS关系 Dr.X的基因空间
2024-01-05
1
导读:温习回顾基因内部结构

分子生物学基础知识温习

写在前面的
本科学分子生物学和基因组学期间详细了解过真核生物基因组结构相关的概念。读研后的5年,由于研究方向转到了正链RNA病毒和细菌,加上过去的5年主要对病毒和基因的基因组变异及适应性进化的方向开展研究,病毒和细菌的基因组注释文件中极大部分注释信息都是一个CDS编码一个基因,二者几乎处于一一对应关系,久而久之我对于真核生物基因组结构相关的概念就遗忘太多。考虑到接下来的研究中需要以人类基因组为参考进行相关探索,因此这段时间有必要将真核生物基因组结构的概念进行温习。

基因组注释文件GTF和GFF的异同

        从生物信息学角度来看,了解真核生物的基因组结构还得回到基因组注释文件中去。目前常用的基因组注释文件有两种格式,一种是GTF2(Gene Transfer Format)格式,另一种是GFF3(Gene Feature Format)格式。这两种文件都是以TAB分割的表格文件,详细记录了基因组上不同区间的序列的基因组信息属性。两种文件都有9列构成。它们分别是:
Chr/Seq ID:参考序列的ID信息
source:注释信息的来源,例如Ensembl的人类基因组GTF注释文件中大部分注释信息来自于Sanger研究所的HAVANA团队
type:序列类型:如人类基因组中有Gene、Transcript、Exon、CDS、UTR等
start:序列在基因组上的起始位点
end:序列在基因组上的结束位点
score:得分信息,对于可量化的序列属性,会给予分值,但是大部分都是以.表示
strand:链信息,正链(+)或负链(-)
phase:对于编码蛋白质的序列而言,下一个密码子相对于起始位点跳过的碱基数目,0个1个或2个。
attributes:属性信息

        GTF和GFF3文件最大的区别在于第三列type属性中,GTF必须注明,而GFF3可以是任意名称,此外在attributes列,GTF文件的键值之间使用空格分隔,而GFF3文件使用等号分隔。且GTF文件的attributes一定会有gene_id和transcript_id等信息。

基因,转录本,CDS,外显子的关系

图片来源:知乎白墨-基因结构

        与病毒或原核生物相比,真核生物的基因结构更加复杂,如上图所示,一个基因(gene)想要行使功能,需要先经过转录(transcription),变成mRNA后运送至细胞核外与细胞质中的核糖体一起翻译蛋白。在转录的过程中,基因首先形成hnRNA,也叫mRNA的前体,hnRNA经过剪切后才能形成成熟的mRNA。但是hnRNA的剪切有时候有多种剪切方法,不同剪法对应不同的转录本,因此可以理解为经过不同剪切形式产生的mRNA就是不同类型的转录本(transcript),因此,在真核生物基因组中一个Gene可能具有多个Transcript。
基因的核酸序列中包含了编码区(Coding region)和非编码区(Non-coding region),编码区包含外显子(Exon)和内含子(Intron),一般非编码区具有基因表达的调控功能,如启动子(Promoter)、增强子(Enhancer)和终止子在非编码区。转录从非编码区的转录起始位点开始转录成hnRNA,hnRNA不仅包含了非编码区的转录起始区域及转录终止区域,还包含了编码区的外显子(Exon)和内含子(Intron)部分,hnRNA经过剪切修饰形成mRNA,此时大部分非编码区被去除,编码区的内含子也被去除,剩余的还在mRNA上的外显子才被进一步用于肽链的合成。
        但是,外显子最终并不会全部翻译为蛋白,因为UTR区域也属于外显子,真正能翻译成蛋白的是CDS序列,CDS是Coding Sequence的缩写,它是编码一段蛋白产物的序列,CDS序列和蛋白序列呈现一一对应关系,由于蛋白的翻译依靠mRNA与核糖体,所以CDS一定存在于转录本(transcript)中。外显子(exon)也存在于转录本中但是与CDS区不完全一致,因为mRNA包括了UTR(Untranslated Region)区,UTR区属于外显子。因此,CDS区一定属于外显子,但是外显子不一定是CDS区,因为外显子包括了UTR区不一定都能翻译成蛋白。用知乎上Nothing的图总结一下,Gene、转录本、外显子等具有如下关系。

图片来源:知乎Nothing

        一个基因可以有多个转录本,一个转录本中可以有多个外显子及CDS,同一个外显子或CDS等也可以存在于不同转录本中。

参考

知乎:文件格式介绍01:GTF与GFF文件
知乎:为啥基因检测报告一定要写清楚转录本?


【声明】内容源于网络
0
0
Dr.X的基因空间
【中国科学院博士】10年生命科学数据挖掘研究经验,关注生物医药领域体外诊断(IVD)方向,如肿瘤早筛、传染病未知病原快速检测中的技术创新及其与人工智能(AI)的赋能应用
内容 176
粉丝 0
Dr.X的基因空间 【中国科学院博士】10年生命科学数据挖掘研究经验,关注生物医药领域体外诊断(IVD)方向,如肿瘤早筛、传染病未知病原快速检测中的技术创新及其与人工智能(AI)的赋能应用
总阅读140
粉丝0
内容176