转录激活与染色质的开放性密切相关,染色质允许转录调节因子(如转录因子)与其靶向 DNA 之间直接接触,以用于下游基因激活。然而,野生大豆 (Glycine soja) 基因组中开放染色质区域 (OCRs) 的注释是有限的。2021年4月25日发表在genes(IF:3.759)上的Genomic Features of Open Chromatin Regions (OCRs) in Wild Soybean and Their Effects on Gene Expressions,利用ATAC-seq技术在W05(野生大豆种质)的叶子中成功鉴定了 22,333 个 OCRs。这些 OCRs 富集在基因转录起始位点 (TSS),并与下游基因表达呈正相关。几个已知的转录因子 (TF) 结合基序也在 OCRs 中得到了富集,并利用这些转录因子和 OCRs 标记的基因构建了一个潜在的调控网络。联合多组学数据,发现H3K4me3与用于基因激活的OCRs更相关,几个假定的增强子样远端 OCRs 与 LincRNA 编码位点重叠。此外,作者的数据表明同源 OCRs 可能会影响同源基因的表达。因此,OCRs 的复制对于植物基因组结构以及调节基因表达可能是必不可少的。
采用 ATAC-seq 对 W05 野生大豆品种中的 OCRs 进行全基因组表征。正如预期的那样,发现 ATAC-seq 信号主要在基因转录起始位点 (TSS) 处富集,并且信号强度与标记基因的表达水平呈正相关,表明开放染色质状态与基因激活有关(图 1A、B)。此外,使用 Genrich 软件确定了 ATAC-seq 中的 22,333 个富集区域,并定义为 OCRs与 15,588 个蛋白质编码基因相关。对OCRs 的注释, 结果表明,大多数 OCRs 位于启动子(66.34%)和远端基因间(19.77%)区域,其余位于下游 (5.06%)、3’UTR(4.58%)、外显子 (2.3%)、内含子 (1.86%) 和 5’UTR (0.09%)(图 1C)。

图1 W05叶片ATAC-seq结果
染色质结构的松弛使转录因子 (TF) 的结合能够激活基因表达,因此 OCRs 通常具有保守的 TF 结合基序。为了评估有哪些保守TF的结合基序在OCRs中富集,作者利用PlantPAN3.0数据库去比对分析,结果发现有48.9%(70/143)的TF结合基序在OCRs中显著富集,其中 bHLH、bZIP、TCP、MADS、AP2/ERF、HD- ZIP、MYB 和 NAC 这八个是最显着丰富的基序(图 2A)。此外,使用富集的 TF 结合基序以及基因本体论 (GO)中OCR 相关的下游基因,在 W05 叶中构建了一个潜在的 TF 调控网络(图 2B)。大约 33 个 GO(图 2B)被这七个 TF 家族紧密地共同调控。另一方面,AP2/ERF 家族调节下游子集,与上述七个 TF 家族重叠较少(图 2B),表明 AP2/ERF 可能调节一组独特的途径。此外,发现 1974 个基因(所有 OCRs 相关基因的 25.5%)被前三的富集基序家族bHLH、bZIP 和 TCP共同靶向。这些结果表明多个 TF 可能在 OCRs中协同调节下游基因激活。

图2 在开放染色质区域 (OCRs) 处富集的保守转录因子 (TF) 基序
如之前报道,OCRs可能与基因激活或基因抑制组蛋白标记有关。由于 H3K27me3 和 H3K4me3 已被广泛用于表示植物中的基因抑制或激活标记,作者使用 W05 叶子对 H3K27me3 和 H3K4me3 进行了 ChIP-seq,以研究它们的分布与 OCRs 之间的关系。总共确定了 31,346 个 H3K27me3 和 88,283 个H3K4me3 富集峰。正如预期一样,H3K27me3 信号与基因表达呈负相关,而 H3K4me3 信号与基因表达呈正相关(图 3A),其模式与 ATAC-seq 信号相似。此外,使用 K 均值算法,OCR 可以分为两个主要集群(图 3B)。Cluster-II 的OCRs 与很少的 H3K27me3 或 H3K4me3 信号相关,因此被称为未修饰的 OCRs。Cluster-I 中的大多数 OCRs 被 H3K4me3 修饰,较小程度上被 H3K27me3 修饰。有 9342 个 OCRs 仅标有 H3K4me3(K4 OCRs),249 个 OCRs 仅标有 H3K27me3(K27 OCRs)(图 3C、D)。尽管有 3475 个 OCRs 被 H3K4me3 和 H3K27me3 修饰,但在这些区域中,H3K4me3 整体信号覆盖率仍高于 H3K27me3(图 3E)。此外,与 K4 OCRs 相关的基因的表达高于与 K27 OCRs 或K4和K27双修饰OCRs相关基因(图 3F)。总之,激活的组蛋白标记如H3K4me3而不是抑制标记H3K27me3与染色质开放关系更密切。

图3 OCRs中的组蛋白修饰
远端 OCRs (dOCRs) 已被广泛用于预测植物中假定的增强子。在这项研究中,作者发现 4405 个 OCRs 位于启动子上游2kb区域,将这些 OCRs 定义为 dOCRs,其中 1529 和 1624 分别位于最近基因转录起始位点 (TSS) 上游的 2-4 和 4-8 kb 区域。dOCR (W05_OCR09684) 和最近基因的 TSS 之间的最长距离高达 300 kb(图 4A)。据观察,与 dOCRs 和启动子 OCRs (pOCRs) 相关的基因往往比仅与 dOCRs 或 pOCRs 相关的基因具有更高的表达(图 4B),表明这些 dOCRs 可能作为基因表达的推定增强子。与 pOCRs 相比,大多数 dOCRs (65%) 具有较少的 H3K4me3 或 H3K27me3 修饰(图 4C)。dOCRs 的 H3K4 和 H3K27 组蛋白修饰在 TSS 上游 10 kb 区域内的分布(图 4D)表明,随着与 TSS 距离的增加,dOCRs 的染色质状态逐渐转变为未修饰状态,类似于在其他植物中观察到的情况。此外,增强子有时与编码LincRNAs的基因组相关联,这种通常被认为是转录增强RNAs(eRNAs)。与栽培大豆相似,W05中的小部分(3.6%)dOCRs与报道的LincRNA基因组重叠,表明这些dOCRs可以作为推定的增强子。

图4 远端 OCRs (dOCRs) 的基因组特征
大豆作为古多倍体植物,最近经历了两轮全基因组复制(WGD),在此期间大量的蛋白质编码基因被复制,保留在基因组中。因此,想知道 OCRs 是否经历了类似于蛋白质编码基因的相同复制过程。结果表明,40.3% 的 OCRs 在另一条染色体上发现具有高序列相似性的同源 OCR (hOCR),这个比例与重复编码基因的比例相似。正如预期的那样,pOCRs 倾向于在启动子区域有它们的同源对应物,而在dOCRs则在远端区域。此外,大多数 hOCRs(80%)与同源基因(hGenes)相关,表明 hOCR-hGene 关联在 WGD 事件期间被复制在一起(图 5A)。此外,与 hOCRs 相关的这些 hGenes 的整体表达在同源对之间没有显示出显著差异(图 5A)。
有趣的是,大约 20% 的 hOCRs 与非 hGenes 相关联(图 5B),并且非 hGenes 的整体表达显示出与 hGenes 相似的表达水平(图 5B)。另研究者还发现了 5879 个 hGenes 对,其中每个同源对中只有一个成员与 OCRs 相关(图 5C)。与没有 OCRs 的同源对应物相比,具有 OCRs 的 hGenes 的整体表达显著更高(图 5C),表明 OCRs 的缺失会影响 hGenes 的表达。这些结果部分支持 hGenes 表达水平可能依赖于重复的 hOCRs。
在这些基因对中,又观察到与 OCRs 无关的一个hGenes 子集显示出高表达(FPKM > 10),而另一个具有 OCRa 的 hGenes 子集未表达(FPKM = 0)。作者进一步检查了这些 hGenes 的 TSS 区域的组蛋白修饰。在没有 OCRs 的高表达 hGenes 的 TSS 中观察到激活组蛋白标记(K4me3)的富集水平高于抑制标记(K27me3)(图 5D)。相比之下,有 OCRs 的 hGenes 无法检测到的表达可能是 TSS 中 K27me3 高度富集的结果(图 5D)。总之,激活和抑制组蛋白修饰的拮抗作用将是影响 hOCRs 对基因表达调节作用的另一个重要因素。

图5 hOCRs 可能会影响hGene 的表达
该文不像传统意义上研究,涉及一个发育过程或不同处理之后的生物学变化,而是把不同的组学数据当成一个生物学特征,去解析这些数据之间的关联性,来阐述OCRs的生物学意义。
除了启动子区域的OCRs,研究者也没有放弃那些远端OCRs。利用基因表达量的数据及报道过的LincRNA基因组信息,发现了这些dOCRs可以作为增强子增强基因表达。
在多倍体物种的WGD事件中,除了已知的同源基因复制,也考虑了OCRs是否有类似情况。结果发现OCRs具有的hOCRs比例和hGenes相似,同时大多数的hOCRs与hGenes关联,首次发现hOCR-hGene在WGD中被复制在一起,并且hGenes的表达水平部分依赖于hOCRs。

