转录因子(Transcription factors,TFs)在调控基因表达中起着关键的作用。随着被鉴定TFs越来越多,系统性识别和注释以及汇总,再进一步的构建TFs相关数据库,成为研究转录因子的功能和进化的有力资源。
动物转录因子数据库AnimalTFDB3.0(http://bioinfo.life.hust.edu.cn/AnimalTFDB#!/)对97个动物基因组的转录因子(Transcription Factor)和转录辅助因子(Transcription cofactor)进行了归纳整理。
基于DNA结合结构域,将动物转录因子分成了73个基因家族,将转录辅助因子分成了83个基因家族。此外,动物转录因子分为六大类(Basic Domain Group、Zinc-Coordinating Group、Beta-Scaffold Factors、Helix-turn-helix、Other Alpha-Helix Group和Unclassified Structure),动物转录辅助因子也分为六大类(Co-activator/repressors、Chromatin Remodeling Factors、General Cofactors、Histone-modifying Enzymes、Cell Cycle和Other Cofactors)。
我们看到的AnimalTFDB 3.0版本的数据库是华中科技大学郭安源教授团队建立并维护的。
快速了解使用点击视频观看
1. 数据库主页布局介绍

点击Home即可跳转到主页面
点击Family跳转到TF分类家族页面。展示TF家族分类信息。
点击Species跳转到根据物种分类页面。展示根据不同物种归类的TF信息。
点击Search跳转到搜索页面。输入基因ID信息查询相关注释信息。
点击Predict TF跳转到TF预测页面。输入fasta格式的蛋白序列文件,基本比对方法预测TF。
点击Predict TFBS跳转到TF结合位点预测页面。输入fasta格式的核苷酸序列文件,基本比对方法预测TFBS。
点击Blast跳转到比对搜索页面。输入fasta格式的核苷酸或蛋白序列文件,指定物种进行比对。
点击Download跳转数据下载页面,可以下载各个物种分类的TF相关蛋白序列文件。
各个主页说明。
发表文章引用信息。
2. 查询转录因子案例
2.1已知序列
点击Predict TF跳转到转录因子预测页面,在文本框中输入fasta格式(fasta 格式:大于号>后紧跟序列名,换行后是序列)的蛋白序列信息(只支持蛋白序列文件),再点击Submit按钮即可将任务提交给后台运行,如果序列数据不多很快就可以反馈结果,点击show按钮查看详细的比对信息。

如果只有核苷酸序列文件,同样可以比对预测。点击Blast进入比对页面,在program选项中选择Blastx模式,输入fasta格式的核苷酸序列文件,选择物种信息后点击Submit按钮即可将任务提交给后台运行。随后返回比对结果。

2.2. 已知转录因子名字
已知某个转录因子名字,以AP-2为例。在主页的右上角有一个搜索框,输入AP-2关键词后点击搜索按钮,即可得到AP-2相关的页面结果信息,结果页面展示了AP-2相关基因的ID、物种和注释信息。可以通过物种筛选按钮,根据物种类别进行筛选。
还有另外一个方法,点击进入Family主页面,页面展示的是不同分类的家族TF信息。找到AP-2家族后点击进入家族页面,页面展示了不同物种的AP-2转录因子信息,点击某个物种即可查询该物种TF信息。



我们以人的转录因子AP-2α为例来介绍一下数据库的小细节,让我们有更加深入的了解。
通过点击首页 TF species(页面一度萌化我的心),常用物种会在最上端Favorite中。点击human找到AP-2。

进入Homo sapiens Family: AP-2,其中有5个成员

转录因子 ID
点击Entrez ID 会直接链接至NCBI数据库相应gene信息
转录因子简短介绍
氨基酸序列
转录因子AP-2的DNA 结合区域Weblogo展示
点击Ensemble ID进入AP-2α详细界面,板块都在左侧列出:

Gene Card,详细给出转录因子名称,染色体位置,简短介绍,转录本信息,蛋白信息等;
Gene model,目前预测出的基因类型;
Domain,蛋白功能结构域,链接Pfam ID;
Gene Ontology(GO)描述分子功能;
GWAS,转录因子相关连锁分析表型,包含SNP,碱基突变的位点类型,以及突变引起的疾病类型;
Phenotype,不同表型
TFBs,转录因子结合基序,转录因子ChIP-seq实验得到的motif
PPI,转录因子蛋白互作网络
Paralog,同源(基因):同一物种由于基因复制产生的同源。通常比较这些基因时,它们可能已经彼此具有了新的(不同)功能,也可能已经成为假基因了。
Ortholog,不同的物种间的,在物种形成过程中源自某一共同祖先的基因。从进化的角度来看,这类基因通常具有相同的功能。
Expression,转录因子在不同细胞类型中的表达统计
3. 转录因子结合位点预测
已知一段DNA序列查询其潜在的TF binding site,点击Predict TFBS进入主页面,输入fasta格式的核苷酸序列,点击Submit按钮即可将任务提交给后台运行,结果反馈预测的TF binding site信息。还可以根据TF家族分类进行筛选。

4. 用linux服务器进行批量分析
4.1. 转录因子鉴定
在AnimalTFDB线上数据框下载所有动物转录因子蛋白序列文件,基于blast软件进行比对分析,得到同源序列比对结果,则预测推断这些序列具有同样的TF功能。比对命令如下:
blastp –query query.pep.fa -db /path/animal_TF -out blast_out.xls -outfmt 6 -num_threads 10 -evalue 1e-10
比对完成后可得到如下文件,第二列为预测的TF结果。

还可以对转录因子家族进行统计并简单作图如下:

在得到目标的转录因子之后,可以根据转录因子motif网站 http://jaspar.genereg.net/ 提供的motif序列,利用homer[2]软件对目标序列(peak或者Promoter区域的序列)进行motif分析,得到目标区域的已知转录因子motif。然后根据peak或promoter关联的基因及其注释筛选出motif结合基因,对这些基因用clusterprofiler 软件做GO富集分析,最后利用Cytoscape做成网络互作图。示例结果如下:




