转录因子(Transcription factors,TFs)在控制基因表达中起着关键的作用。对TFs的系统性识别和注释,随后是TF数据库的构建,可能充当了研究转录因子的功能和进化的有用资源。植物转录因子数据库PlantTFDB(http://planttfdb.cbi.pku.edu.cn),它包含了从165个物种中预测的320370个TFs,并将其分成58个Family。PlantTFDB对每个识别的TF进行了全面的注释,包括功能域(functional domains)、三维结构、gene ontology (GO), plant ontology (PO)、表达信息、特殊功能描述、结合motif基序、调控信息、相互作用、参考文献以及到UniProt、RefSeq、STRING、Entrez等数据库的交叉链接。
PlantTFDB有着小清新绿的简单友好界面,可以使用TF ID和常见名称进行快速搜索,或者直接使用BLAST中的序列进行查询。下面我们来详细介绍一下这位重要的植物转录因子数据库。
快速了解PlantTFDB使用可以点击视频进行观看…..
1、数据库主页布局介绍

01点击Home即可跳转到主页面
02点击TFext跳转到Extended TF repertoires页面。TFext展示近期新测序鉴定的TF数据。
03点击Blast跳转到序列比对页面,输入fasta格式的核苷酸和蛋白序列文件进行比对分析,得到比对结果。
04点击Prediction跳转到Transcription Factor Prediction页面,输入或者上传核苷酸和蛋白序列文件进行基于比对分析的转录因子预测。
05点击Download跳转到数据库下载页面,可以下载数据库156个物种和最近新鉴定的转录因子数据信息,包括CDS、蛋白序列、motif。
06点击Help跳转到帮助页面,可以查看一些常见疑问解答。
07About,是对网站简单介绍
08点击Links跳转到链接地址页面,可以查看其他关联数据库地址和工具地址。
09点击PlantRegMap跳转到植物转录调控查询页面,可以查询模式物种的转录调控关系。
10精简搜索,输入转录因子名称或TF ID即可搜寻得到相关信息。
11点击即可开关下面的树状结构,通过物种查询相关转录因子。
12通过58个家族,查询相关转录因子。
2、查询转录因子案例
2.1已知序列
如果你手上有相关序列,想要了解是属于什么转录因子,点击Prediction跳转到转录因子预测页面,在文本框中输入fasta格式(fasta 格式:大于号>后紧跟序列名,换行后是序列)的序列(蛋白与核酸序列均可)信息,再点击Prediction按钮即可将任务提交给后台运行,如果序列数据不多很快就可以反馈结果,点击预测出的TF可以查看该转录因子的详细信息。

若要查找已知的转录因子名称,以拟南芥的MYC2为例,你可以直接在主页面Search框中输入即可查询。

在Search Result下点击TF ID即可查看详细信息,包括转录因子通用名,蛋白序列信息,3D结构,GO以及PO,还可链接到与之相关的其他相关数据库,还可查看转录因子相关文献,非常便捷。

研究转录因子都会涉及到上下游调控,这个数据库收录了调控相关信息如下:

01转录因子结合的基序
02植物转录因子调控map中顺式作用元件map
03在UniProt中对于此转录因子调控相关描述
04此转录因子上下游调控,资源存储在PlantRegMap
05ARTM(拟南芥转录调控map)中在上游调控此转录因子,AT1G32640 (R), AT4G25470 (R)两者均可抑制MYC2
06ARTM中MYC2下游调控基因,有激活和抑制的区分
07相关调节植物激素:脱落酸、茉莉酸
08蛋白-启动子和蛋白-蛋白相互作用,数据收集自BioGRID、IntAct和BIND。
09相关干扰后录因子表型描述
若要查找已知家族转录因子,以拟南芥的G2-like转录因子家族为例,点击Home跳转到主页,主页下面有以TF家族分类的信息(Browse by Family),找到G2-like关键词后点击跳转到G2-like家族主页,该页面展示了不同物种中包含有G2-like转录因子信息,如果研究的是拟南芥,则找到拟南芥的拉丁文并点击,即可搜索到拟南芥基因组中所有与G2-like相关的基因信息。点击基因ID可查询该基因的详细信息。


我们来看一下拟南芥 G2-like Family中转录因子的信息:
01简短介绍G2-like Family的鉴定,进化以及相关功能
02点击即可下载拟南芥G2-like Family中所列转录因子蛋白序列信息,文件为*.fas。
03点击后跳转页面获得DNA binding domain (DBD)以及相关蛋白序列比对
04点击即可查看拟南芥G2-like Family根据结构域和蛋白序列构建的进化树文件

介绍了这个数据库的简单操作,那么生信分析时如何利用这个数据库挖掘自己数据中的转录因子信息呢?
高通量测序分析结果中关于转录因子的分析往往会使结果更加丰富,那么如何通过编程更加高效快捷的利用该数据库呢?
有生信分析背景的小伙伴可以在linux 服务器上批量分析相关的内容。参考如下:
1.转录因子鉴定
Linux 服务器上使用软件 iTAK[1],软件内部内置了PlantTFDB的数据库数据,可以直接用于预测植物的转录因子。软件的使用方式非常简单。只用输入你需要鉴定的蛋白质序列的fasta格式即可。
执行命令:Perl /opt/software/iTAK-1.7a/iTAK.pl /nfs2/igenebook/paotong_AJATS2180801003-2_all_data/ATAC/06.GOKEGG/PF_1.genelist.fa
程序运行完成之后会得到如下的一个文件夹

其中tf_classification.txt就是我们得到的植物转录因子预测的结果,如下图

第一列到第四列分别是蛋白名称,转录因子,TF或者是TR(转录调控子),所属家族.
另外可以对转录因子家族进行统计并简单作图如下:

2.转录因子调控网络分析
在得到目标的转录因子之后,可以根据转录因子motif网站:
https://agris-knowledgebase.org/downloads.html

[1] Zheng Y, Jiao C, Sun H, Rosli HG, Pombo MA, Zhang P, Banf M, Dai X, Martin GB, Giovannoni JJ, Zhao PX, Rhee SY, Fei Z (2016) iTAK: a program for genome-wide prediction and classification of plant transcription factors, transcriptional regulators, and protein kinases. Molecular Plant 9:1667-1670.
[2] Heinz S, Benner C, Spann N, Bertolino E et al. Simple Combinations of Lineage-Determining Transcription Factors Prime cis-Regulatory Elements Required for Macrophage and B Cell Identities. Mol Cell 2010 May 28;38(4):576-589



