本次小编分享一篇2022年1月7日发表于Nucleic Acids Res的文献,题目为《MetazExp: a database for gene expression and alternative splicing profiles and their analyses based on 53 615 public RNA-seq samples in 72 metazoan species》,影响因子16.971。MetazExp,是一个基因表达和选择性剪接图谱数据库及其分析,是基于72种后生动物的53615个公共RNA序列样本构建的。
摘 要
RNA-seq已被广泛应用于实验研究,并产生了大量存储在公共数据库中的数据。通过对以前发表的数据进行回顾性分析,可以获得新的生物学见解。然而,有效利用这些数据的障碍仍然很高,尤其是对于那些缺乏生物信息学技能和计算资源的人。我们介绍MetazExp(https://bioinfo.njau.edu.cn/metazExp),这是一个基因表达和选择性剪接图谱数据库,基于来自72种后生动物的53615个统一处理的公开可用RNA序列样本。通过基因ID、符号、功能术语和序列相似性可以方便地查询基因表达和选择性剪接图谱。用户可以灵活定制实验组,以执行差异和特定表达以及选择性剪接分析。一套数据可视化工具和与外部数据库的全面链接允许用户高效地探索结果并获得见解。总之,MetazExp是研究有效利用大量公共RNA序列数据集的宝贵资源。
介 绍
在这里,我们展示了MetazExp(图1),这是一个在线资源和分析平台,建立在17个目72个物种的53615个公开可用RNA序列样本的基础上。MetazExp有四个重要的特性,使其区别于其他数据库。首先,它处理了迄今为止数量最多的样本和物种。第二,所有样本都被手动处理,以标记其组织和实验条件。第三,它涵盖了基因表达和选择性剪接。第四,实现了广泛的分析功能和可视化工具,使MetazExp成为利用公共空间中各种RNA序列数据的一站式资源。
图1.MetazExp的概述。
RNA-seq数据收集:
MetazExp共有72种后生动物,涵盖17目(表1)。我们查询了SRA,下载了Illumina平台生成的RNA-seq数据。共收集到53615个RNA-seq实验,包含约175.6个tera base,用于构建数据库。这些数据来自3080项研究,涵盖不同的菌株、基因型、组织、发育阶段和实验条件。正如预期的那样,两个最具代表性的物种是模式生物果蝇(果蝇)和秀丽隐杆线虫(线虫)。其他受欢迎的物种包括蜜蜂、蚊子和水蚤。元数据的质量差别很大。因此,基于摘要、描述和出版物中嵌入的信息,我们进一步人工管理样本信息,重点关注菌株、基因型、组织、发育阶段和实验条件。手工管理过程包括三个步骤。首先,我们以编程的方式解析现有的元数据标签。其次,一位审稿人审查了所有现有的信息,并填写了从摘要、研究描述和出版物推断出来的缺失信息。第三,第二个审查员审查提交者和第一个审查员以前提供的所有信息。
表1.MetazExp中收集的后生动物基因组和RNA-seq实验综述。
查询数据库:
MetazExp的主机位于https://bioinfo.njau.edu.cn/metazExp。有九种常见的后生动物物种,可以快速访问。通过一个列出所有物种的交互式搜索表,可以轻松访问其他物种。对于每个物种,MetazExp提供了五个访问点来利用资源,包括摘要、搜索、blast、比较和特异性页面。
在每个物种的摘要页面中,用户可以获得数据概述,并下载每个实验的表达数据。提供了一个交互式表格来显示研究和实验信息,并提供了从MetazExp下载表达数据和查看SRA元数据的链接。
有两种方法可以启动对数据库的查询。在搜索页面,用户可以通过基因标识符、符号、Pfam和GO注释(图2A)或列出通路中的基因(图2B)来搜索基因。或者,可以在blast页面中通过序列相似性来搜索基因(图2C),这在寻找同源基因时很有用。搜索结果显示在一个简洁的交互表中,其中包含了链接到外部数据库的基因的基本信息,以进一步扩展基因表达信息(图2D)。
图2.访问MetazExp。
可视化基因表达信息:
MetazExp包含了关于SRA中每个基因的整体基因表达多样性和选择性剪接的丰富信息,我们手动策划了SRA中的许多实验条件。基于关键字文本和序列相似性的数据库搜索、差异或特定表达的分析都可以生成一个交互式表,其中包含若干识别细节和指向基因表达信息的链接。
基因表达页面包含几个部分。首先,该基因的基本信息列在页面顶部,包括基因组位置、基因符号、正畸学和各种功能注释,如Pfam、GO和KEGG通路,所有这些都有到外部数据库的链接。值得注意的是,用户可以打开一个弹出窗口来探索其他物种中的同源基因表达,这一重要功能在其他数据库中并不常见。其次,实现了一个基因组浏览器,允许用户在基因组背景下探索基因、转录本和选择性剪接(图2)(图3A)。第三,显示功能结构图来说明Pfam域的位置。第四,样本间的基因表达或选择性剪接通过分层互动条形图显示(图1)(图3B)。每个条形图代表条形图中的一个实验组,可以进一步扩展以显示同一治疗组中表达的多样性。由于TPM和FPKM基本上独立于序列覆盖率,条形图提供了治疗组之间和治疗组内部相对表达的快速近似可视化。最后,每个基因表达页面包含两个表格,分别列出相关的转录本和选择性剪接事件,并提供链接以显示更多细节。重要的是,可变剪接事件的影响可以通过它们与蛋白质结构域的相对位置来可视化。
图3.在MetazExp中可视化数据。
差异表达和特异表达分析:
MetazExp的一个关键特性是它能够对实验组进行分析比较。在比较页面中,用户可以选择感兴趣的RNA-seq实验来执行差异表达或选择性剪接分析。我们实现并允许用户选择几种流行的方法,包括用于差异基因表达的DESeq2和edgeR,以及用于差异剪接分析的MATS_LRT、RMAT_unpaired和RMAT_paried。此外,超几何测试和GSEA在MetazExp上进行,以分析基因簇的功能富集。由于这些分析需要时间(通常在20分钟内),用户将被要求提供电子邮件地址以确认提交,并收到完成通知和检索结果。为了帮助用户理解分析的作用,我们提供了一个示例结果页面,以显示示例数据集的实际结果。有关数据库和分析的其他说明和详细信息,请参见“帮助”和“常见问题解答”页面。
在结果页面中,有三个部分显示差异表达分析。第一部分是主成分分析(PCA)和热图,说明基于全局基因表达的样本聚类。第二部分包含两个条形图,用于差异表达基因的GO和路径富集分析。最后,差异表达基因列在一个交互式表格中,包括关键分析结果,如治疗组的平均表达水平、折叠变化和Q值。用户可以点击链接打开新页面,探索基因表达的细节。对于差异选择性剪接分析,也产生了类似的可视化结果。
除了成对比较基因表达外,MetazExp还允许用户识别特定条件下高表达和低表达的基因。用户必须选择至少4个实验组,从中进行所有成对比较,以发现特定条件的表达,定义为表达高于或低于所有其他条件的基因。与差异表达或选择性剪接分析类似,结果以各种形式呈现,包括PCA图和热图、汇总各组基因的条形图,表格列出了丰富的GO术语和KEGG途径,以及交互表格中所有特异表达或选择性剪接的基因。重要的是,包括表格和图表在内的所有结果都可以在一个tarball中下载。
家蚕组织特异性基因表达和选择性剪接的研究:
为了说明MetazExp的威力,我们在这里提出了一个案例研究,以探索基于已发表的RNA-seq研究(SRA生物项目登录DRP003401)的家蚕组织特异性基因表达和选择性剪接。整个分析共有15个样本,包括睾丸、中肠、脂肪体、马氏管和丝腺在内的五个组织各有三个重复,在服务器上用8分钟完成。我们在服务器通过电子邮件发送的链接后检索了结果页。基于这两种基因表达,样本被很好地分为五组,分别对应于五种组织(图4A和B)和选择性剪接图谱(图4C和D),表明总体基因表达和选择性剪接图谱都包含组织特异性模式的特征。
图4.使用MetazExp的案例研究。使用MetazExp对SRA中的RNA-seq数据进行组织特异性表达和选择性剪接分析。
使用带有默认参数的DESeq2和MATS_LRT检测特异表达的基因和选择性剪接事件。共鉴定出7409个组织特异性高或低表达基因和72个组织特异性选择性剪接事件。在这些基因中,睾丸特异性高或低表达基因和选择性剪接事件最为常见。MetazExp报告了一个重要的糖酵解酶基因BmEno2(Ensembl中对应的ID为BGIBMGA002337),该基因在睾丸中特异表达,平均FPKM值为271.356。在最初产生这些RNA-seq数据的研究中,RT-PCR报告并证实了这一结果。
使用默认参数的超几何测试对特异表达和选择性剪接的基因进行富集分析。我们发现在五个组织中特异表达的基因在61个GO术语和43个KEGG途径上富集。富集分析结果揭示了组织特异表达基因的功能差异。组织特异性剪接基因仅在两个GO术语和一个KEGG途径上富集。这些组织特异性表达和剪接的基因以及相关分析,在产生RNA-seq数据的原始研究中没有报道,可能会产生涉及家蚕生长发育的新的可测试假设。
结论:
总之,我们已经证明MetazExp是迄今为止最全面的基因表达分析数据库和分析平台。它允许用户搜索基因表达和选择性剪接图谱,进行比较治疗组的分析,并提供各种可视化功能,以便于探索复杂的数据集。因此,MetazExp可以作为进一步功能研究的重要假设生成和数据探索引擎。

