本次小编分享一篇2021年10月11日发表于Biology的文献,题目为《ARGEOS: A New Bioinformatic Tool for Detailed Systematics Search in GEO and ArrayExpress》,影响因子5.079。该文献介绍了一个网络工具——ARGEOS。系统地搜索转录组数据集是一项艰巨的任务,因此开发了ARGEOS,它简化了从各种公共数据库中搜索和选择数据集的工作。此外,该服务对数据集进行高级分析,包括收集详细的协议、关于数据集数量的信息,并提供额外的参考信息。
1
摘 要
为了研究细胞内信号转导或解决其他实验问题,对转录组数据进行重新分析正变得越来越流行。基因表达数据主要以微阵列或RNA-seq数据集的形式保存在两个公共数据库中:Gene expression Omnibus(GEO)和ArrayExpress(AE)。这些数据库最初并不打算系统地搜索数据集,这使得进行二次研究具有挑战性。因此,我们创建了ARGEOS服务,它具有以下优点,便于搜索:(1)用户可以同时发送多个本应用于系统搜索的请求,并且可以对请求进行修正;(2)对数据集的信息进行高级分析。该服务收集详细的协议,关于数据集数量的信息,分析原始数据的可用性,并提供其他参考信息。所有这些都有助于快速的数据分析和搜索最相关的数据集,以及系统的搜索和详细的分析数据集的信息。该服务的效率体现在分析活化(极化)细胞的转录组数据的例子中。我们对细胞极化(当细胞暴露于不同的免疫刺激时)的研究进行了系统的搜索。ARGEOS的web界面是用户友好和直接的。它可以被不熟悉数据库搜索的人使用。
2
材料和方法
ARGEOS:
ARGEOS是用Python 3.8编写的。GEO中的搜索通过向国家生物技术信息中心(NCBI)电子公用事业发送请求来远程执行。与NCBI E-Utilities服务的交互通过Entrezpy包进行。AE中的搜索是通过解析XML输出来执行的,并形成查询,以便只返回唯一的AE数据集。
获取GEO数据:
GEO数据集的数据分析是通过分析位于NCBI GEO FTP服务器上的Miniml部分中的XML文件来执行的。
获取AE数据:
通过查询EBI AE服务(www.ebi.ac.uk/arrayexpress/)来解析数据库中的记录。对于找到的每个记录,将形成一个XML文件,程序将读取该文件,将信息分发到变量中,最后输出。协议数据是根据ID请求单独获得的。
数据分析:
GEO——从包含数据集信息的区块中收集以下信息:生物体(organism)、样本数量(samples)、实验类型(types)、平台ID、数据集名称、上传日期、摘要、实验总体设计。还收集了参考文章的ID。从样品块中收集以下信息:细胞类型、处理方案、生长方案、分析分子类型、分离方案和特征集,其中包括样品的所有其他参数。对样本信息进行过滤,以删除重复信息。然后用户收到一个记录条目。如果样本信息不同,也就是说,每个样本都是唯一的,那么用户将接收到多个协议。例如,如果处理方案对所有样品都是一样的,用户只会收到一次。然而,如果作者为每个样本提供了一个独特的处理方案,用户将收到所有样本。AE——对于发现的每条记录,都会形成一个XML文件,程序读取该文件,将信息分发到变量中,最终输出。因此,有两个数据库的联合,最终用户在相同的列中接收到相同的信息,这传达了数据同质性的外观。这是为了方便过滤数据和读取数据进行手动排序或分类的操作。
分析PubMed数据:
对于来自GEO和AE的每个数据集,如果指定了参考文章,程序将接收一个PubMed ID或DOI,通过该ID或DOI,它将通过向NCBI E-Utilities发送请求来搜索PubMed。最后生成一个表,包含关于文章标题、DOI、期刊名称和基于期刊名称计算的影响因子的信息。
数据导出:
在将关于数据集的信息写入变量并将信息带入相同的格式后,信息将按以下顺序写入“EXPORT TABLE 2”。
Accession—record ID (GEO or AE);
Organism—由操作者指定的一个(或多个)有机体;
Samples—样本数;
Type—实验类型;
Platform—接收原始数据的一个(或多个)平台,GEO或AE;
Title—数据集的名称;
Year—数据集首次发布的日期;
Summary—由作者提供的汇总数据集和研究概要;
Link—链接到数据集,GEO或AE;
参考文章。
操作者指出的与此数据集相关的所有文章都列在“All references”块中。其中,发表在影响因子最高的期刊上的文章最为突出。有关本文的信息在单独的列中列出:
Paper_title—参考文章的标题
Journal—发表那篇参考文章的杂志
Impact factor—杂志的影响因子
DOI or PubMed—文章链接
All references—所有的文章信息(标题、杂志和链接)
Type of molecule—研究中分析的分子类型(例如,“total RNA”或“Genomic DNA”)
BioProjectlink (NCBI)—链接到NCBI网站上的生物项目页面
BioProjectlink (EBI)—连接到EBI网站上的生物项目页面(EMBL)
SRA—链接到SRA(与RNA-seq实验相关)
All protocols—该列包含数据集作者提供的所有文本信息,包括协议,样本特征等。
如果字符数超过了大多数软件允许的限制,那么为了正确读取文件,信息将被分割为几个单元格(在相邻的列中)。
源代码可用性:
该程序的独立版本可在Github上下载(https://github.com/gleb-gavrish/ARGEOS)。该程序可在.py扩展名中获得,它允许任何人访问源代码。
1
结 果
ARGEOS工作算法:
为了对转录组数据进行系统分析,我们提出了如下方案(图1)。该图由两个主要模块组成。
图1.ARGEOS网络工具图。在ARGEOS方案中有两个块:(1)搜索;(2)信息收集。
分析的最后一个阶段是收集关于PubMed文章的信息(图1)。在前面的步骤中收集基本信息时,文章ID将在PubMed数据库中收集。通过调用PubMed数据库,然后收集有关出版物标题、文章发表年份、期刊影响因子和DOIs的信息。这确保了来自GEO和AE的条目具有相同的文章信息格式。需要注意的是,该程序将多个生物体或实验类型的数据集分解成几行(例如,在多个生物体或不同类型的实验过程中获得的样本)。这使得即使原始字段中有多个值,也可以方便地过滤记录。该特性在默认情况下是启用的,但也可以使用适当的标志禁用。
图形Web界面:
为了简化用户使用工具的工作,我们为该程序开发了一个web界面,该界面可于2021年10月4日在www.ar-geos.org获得。
ARGEOS工具的作用是实现为一个友好的用户界面(图2)。用户的步骤很简单:遵循接口(A)的链接,单击“运行”,去到搜索页面(B),输入一个查询或几个查询字段,点击运行,程序开始搜索,并导出表#1(C)。然后用户点击Run按钮,继续分析,形成“EXPORT TABLE 2”(D)。如果查询结果比较大,形成“EXPORT TABLE 2”可能需要一个小时。之后,可以下载该表。有关如何使用ARGEOS web界面的教程可在YouTube上找到(https://www.youtube.com/watch?v=9V3YWkVejac)。
图2.ARGEOS web界面:工作流分析。
利用ARGEOS创建RNA-seq数据集来研究细胞表型的变化现象:
我们将开发的方法应用于细胞极化数据集的收集。极化是一组复杂的细胞变化,导致细胞表型的变化。这一效应首先在巨噬细胞中显示出来。目前,在中枢神经系统的细胞,如小胶质细胞和星形胶质细胞中也发现了类似的极化效应。两极分化与许多疾病的发展有关。在模型实验中,脂多糖被用来改变细胞表型向炎症反应和IL-4向抗炎反应。
我们的目的是分析在转录组水平上的极化研究工作。信息检索的一般方案与系统回顾的推荐方案相同。根据图1,形成的查询可以获得EXPORT表#1和EXPORT表#2。因此,ARGEOS工具的搜索产生了1691条记录。
对于转录组的二次分析,我们选择了RNA-seq实验。由于GEO数据库的特点是,当与新ID(所谓的“SuperSeries”)结合时,单个样本将被记录为一个新数据集,因此我们也过滤了它们。这产生了一个包含472个数据集的表。
接下来,我们通过使用手动二进制分类(0表示没有特征;1表示有特征)。这使我们能够标记出以下感兴趣的特征:细胞类型(巨噬细胞、小胶质细胞、星形胶质细胞等),外部刺激(LPS、IL-4、INFγ、TNFα等),以及实验类型(体外、体内和单细胞)。整合结果得到了所有用于极化的RNA-seq数据集,包含了关于实验参数的信息,这允许对特定的转录组进行有针对性的比较,以获得足够的有效数据。因此,使用ARGEOS程序和进行的额外处理,可以创建一个本地数据库来研究极化过程。关于数据集参数比率的数据如图3所示。
图3.分析获得的本地数据库中与极化相关的查询。
虽然已经描述了不同类型的细胞的极化,但研究者的注意力主要集中在巨噬细胞上(51.5%)(图3A)。一些研究(10.4%)是在单个细胞上进行的(图3B)。总共对13种生物进行了研究,最常见的是小家鼠(66.2%),其次是智人(25.5%)(图3C)。当为计划研究和分析结果而使用细胞培养时,区分获得细胞是有价值的。我们总共鉴定了21种不同类型的巨噬细胞。大多数研究是在骨髓单核细胞来源的巨噬细胞(BMDM;51.2%)(图3D)。体外实验数据集317个,体内实验数据集148个,有7个数据集,两种数据都有(图3E)。我们还分析了用于获得不同极化研究的表型的刺激(图3F)。当地数据库载有所有可能的诱因的分布情况,即通过注射作用于细胞或有机体的物质。其他影响(如缺氧)和各种miRNAs和siRNA属于另一个领域(图3F)。
因此,通过对ARGEOS构建的本地数据库数据的分析,用户可以初步了解该领域的研究状况。
结论
随着开放转录组数据库中数据的积累,以及在二次研究或实验设计中大量使用转录组分析,这就要求开发一项特殊的服务。ARGEOS是一个生物信息学工具,用于对转录组数据集进行深度扫描,有助于对数据集的信息进行详细分析的系统搜索。
中 科 生 信

