5+：植物基因表达数据库分享- 大数跨境

中科生信

2022-04-10

导读：本次小编分享一篇2022年2月24日发表于Front Plant Sci的文献，题目为《A COMPASS

本次小编分享一篇2022年2月24日发表于Front Plant Sci的文献，题目为《A COMPASS for VESPUCCI: A FAIR Way to Explore the Grapevine Transcriptomic Landscape》，影响因子5.753。VESPUCCI发布了一个新的版本(v2)，它包含了到2020年12月为止公共存储库中几乎所有的葡萄藤基因表达数据集。它的设计是为了克服前一个版本的局限性。为v2实现的多层架构将概要和基于本体的结构化示例注释从编程接口中分离出来，并使用了不同的规范化方法，所有这些都提高了资源的可访问性、可重现性和互操作性。

摘要

成功整合转录组实验是一项具有挑战性的任务，其最终目标是在所有可用测量的更广泛的背景下分析基因表达数据，所有这些数据都来自单一的访问点。VESPUCCI，葡萄藤基因表达数据的集成数据库，在其第二次主要发布中，已经更新为公平兼容，采用标准和开源技术创建的数据库。它包括所有来自微阵列和RNA测序平台的公共葡萄藤基因表达实验。转录组数据可以通过新开发的COMPASS GraphQL接口以多种方式访问，而表达值则使用不同的方法进行规范化，以灵活满足不同的分析需求。VESPUCCI的更新版本提供了集成葡萄藤基因表达(元)数据的简单查询和分析，并可以无缝嵌入任何分析工作流或工具。VESPUCCI可以免费访问，并根据特定的目标和目的和/或用户专业知识提供多种交互方式；可以在https://vespucci.readthedocs.io/上找到概述。

数据库构建的流程：

构建VESPUCCI v2包括三个主要步骤(见图1)。第一个是原始数据收集，这一步是使用“COMMAND>_”在后端执行的。另外两个步骤是示例注释和数据规范化。

图1.用于创建和查询VESPUCCI的工具和接口的完整层次结构。

注释系统：

使用本体术语和RDF1(资源描述框架)进行了示例注释。

RDF数据模型是一种通过定义实体之间的关系来描述数据的通用方法。每个RDF语句都是由一个主语、一个谓语和一个宾语组成的三部分结构。每个RDF术语要么是样本ID，要么是基因ID，要么是本体术语，要么是文字，要么是字符串或数字。

术语也可以是一种特殊的本体术语，称为空白节点，用于连接不同的三元组，并对特定条件做出更有表现力的陈述。

SPARQL3 (SPARQL协议和RDF查询语言)是一种查询语言，用于通过图模式匹配导航RDF图数据中的关系(参见图2)，将简单的模式组合成更复杂的模式，从而可以探索数据中的复杂关系。

图2.一个完整的RDF图。

数据归一化：

VESPUCCI v1最初只提供了一种标准化矩阵，使用的方法是基于“样品对比”开发的COLOMBOS细菌摘要。而VESPUCCI v2提供了RNA-seq数据的TPM标准化矩阵，并使用R (v3.1.1)包LIMMA v3.22.7对RNA-seq数据进行了处理。例如，在TPM归一化的情况下，每一组将由一个样本组成，因为归一化的值仅使用每个样本的原始数据独立计算。对于LIMMA logratios，则相反，一个样本组由至少4个样本组成(见图3)。两种归一化方法的比较突出了TPM归一化无法消除平台特异性，而LIMMA成功地消除了大多数批次效应(见图4)。

图3. COMMAND>_ 的屏幕截图，用于构建 VESPUCCI 的 Web 应用程序。

图4. 相同 RNA-seq 样本的 t-SNE 图使用 LIMMA（左侧）和 TPM（右侧）标准化。

VESPUCCI v2概要：

VESPUCCI v2包含了3682个微阵列和3598个RNA测序样本，涵盖了截至2020年12月收集的271项实验。、实验测量了来自199种不同基因型葡萄、47种不同组织和31个发育阶段的表达值。图5显示了基于样本注释的VESPUCCI v2的总体组成。基因表达值来自15个不同的技术平台、5个微阵列和10个测序仪(见表1)。