13+：准确的共表达网络构建- 大数跨境

中科生信

2022-03-27

导读：本次小编分享一篇2022年1月3日发表于Genome Biol的文献，题目为《Robust normaliz

本次小编分享一篇2022年1月3日发表于Genome Biol的文献，题目为《Robust normalization and transformation techniques for constructing gene coexpression networks from RNA-seq data》，影响因子13.583。本文对数据规范化和网络转换如何影响从RNA-seq数据集构建的共表达网络的准确性进行了广泛的基准测试和分析。基于这项工作，本文已经就通常会导致最佳共表达网络的健壮程序达成了具体的建议。具体来说，使用TMM因子(CTF)和上四分位因子(CUF)归一化的Counts调整来构建共表达网络，可以得到最一致的高准确度网络，使用CLR转换网络可以进一步提高在某些情况下的准确性。

摘要

背景：构建基因共表达网络是分析高通量基因表达数据的一种强有力的方法，可用于模块识别、基因功能预测和疾病基因优先排序。虽然构建共表达网络的最佳工作流程，包括数据预处理、归一化和网络转换的良好选择，已经为基于微阵列的表达数据开发出来，但这种经过良好测试的选择并不存在于RNA-seq数据中。几乎所有比较RNA-seq数据处理和归一化方法的研究都集中在确定差异基因表达的最终目标上。

结果：在这里，我们对36个不同的工作流进行了全面的基准测试和分析，每个工作流都有一套独特的标准化和网络转换方法，用于从RNA-seq数据集构建共表达网络。我们在各种实验室的大型同构数据集和小型异构数据集上测试这些工作流。我们从总体性能、单个方法选择和多数据集实验因素的影响方面分析了工作流。我们的结果表明，样本间标准化具有最大的影响，通过大小因素调整的计数产生的网络最准确地概括了已知的组织初始和组织感知的基因功能关系。

结论：基于这项工作，我们提供了具体的建议，从RNA-seq数据集构建一个精确的共表达网络。此外，研究人员可以在https://krishnanlab.github.io/RNAseq_coexpression上详细检查所有结果，以根据他们的RNA-seq数据集的实验因素，为共表达分析做出适当的选择。

介绍

在这项工作中，我们提出了最全面的基准测试，常用的样本内和样本间标准化策略和网络转换方法，用于从人类RNA-seq数据构建精确的共表达网络。我们从不同的标准化和网络转换阶段测试了每种可能的方法组合。我们的主要兴趣是确定各种方法的稳健组合，这些方法一致地产生共表达网络，准确地捕获各种数据集之间的一般和组织感知基因关系。这将允许我们提出一般性的建议，对于分析他们自己的RNA-seq数据的实验研究小组，以及为了数据/网络集成的目的，寻求从公开可用数据构建许多共表达网络的计算研究人员来说，这些建议是有用的。为了实现这一目标，我们使用了数百个数据集，这些数据集由一个联盟和单个实验室生成，涵盖多个实验因素。然后，我们在关于基因功能关系的组织初始和组织意识的先验知识上测试由此产生的网络。基于这些广泛的分析，我们最终为RNA-seq共表达分析的规范化和网络转换选择提供了具体的建议。

表达式数据、金标准和基准测试总结：

为了在大型数据收集上测试各种样本内标准化、样本间标准化和网络转换方法（及其组合），我们从Recount2数据库中的基因计数数据开始。Recount2包含来自基因型组织表达（GTEx）项目和序列读取档案（SRA）存储库的数据，这些数据经过统一的质量控制、校准，并量化为基因组中每个基因的读取次数。GTEx项目的数据集使我们能够在具有高测序深度和质量的大型、相对同质的数据集上评估方法性能。GTEx数据对于调查样本量等实验因素的影响也至关重要，我们从GTEx数据集中进行了多轮随机抽样。另一方面，来自SRA的数据集代表了由各个实验室生成的异质性、主要是小型实验（中位数为12个样本），具有一系列测序深度和质量。我们总共使用了来自287个数据集（表1）的9657个GTEx样本和6301个SRA样本，并分别对这两个样本集进行了处理和评估。

表1.本研究使用的数据汇总

在对每个数据集进行预处理后，为了尽可能多地保留基因和样本的数据，我们比较了RNA-seq分析中常用的方法，以有效地构建每个数据集一个共表达网络(即构建31个GTEx网络和256个SRA网络)。我们专注于数据处理和网络构建的三个关键阶段：(a)样本内标准化：每百万计数(CPM)、每百万转录本(TPM)和每百万读取千碱基(RPKM)；(b)样本间归一化：分位数(QNT)、M值修剪均值(TMM)和上四分位数(UQ)；此外，我们测试了两种新的TMM和uq计数变化与TMM因子(CTF)调整；使用上四分位数因子(CUF)调整的计数——直接根据大小因子调整计数，但不根据库大小进行校正；(c)网络转换:加权拓扑重叠(WTO)和上下文相关度(CLR)。为了系统地检查这些方法及其交互作用，我们构建了36个不同的工作流，涵盖了所有可能的选择组合(图1)。为了清晰起见，在手稿的其余部分，我们使用了常规字体(例如TPM规格化)和斜体的工作流程(例如TPM, TPM结合了没有样本间规格化和没有网络转换，或TPM_CLR, TPM与仅仅CLR配对)。Counts工作流不使用样本内归一化、样本间归一化或网络转换，但仍然使用双曲反正弦函数进行转换。

图1.从RNA-seq数据构建共表达网络的最佳工作流基准管道

工作流程的总体表现：

对于所有36个工作流，图2显示了GTEx（左）和SRA（右）基于使用组织原始金标准评估的RECONT2数据集产生的网络的整体性能。图S2显示了基于组织感知黄金标准（如果可用）的这些网络的性能。总的来说，从GTEx数据集构建的网络比从SRA数据集构建的网络准确得多（图2）。在这四种情况下，GTEx和SRA网络都使用组织原始和组织感知黄金标准进行评估，大多数表现最好的工作流都包含CTF或CUF标准化。使用CLR（CTF_CLR和CUF_CLR）进一步改造网络会导致GTEx数据集的顶级工作流程，而不考虑金标准。然而，CLR转化只是SRA数据集在恢复组织感知基因关系方面表现最好的方法之一。尽管CTF_CLR和CUF_CLR在SRA的组织原始标准上仍然表现良好，但与顶级相比仍有明显差距。尽管包含CTF和CUF的工作流导致了顶级性能，但在GTEx和SRA的十大工作流中，包括其他样本间归一化方法的工作流都不存在。使用TMM或UQ的工作流似乎比使用样本内标准化方法的工作流更具可比性。

图2.工作流程的总体表现

下一个值得注意的观察是，顶层工作流不包括样本内标准化步骤。然而，包含样本内标准化方法(CPM、RPKM、TPM)的工作流可以比许多其他工作流执行得更好，这取决于流水线中做出的其他选择，最好的选择通常是不与其他方法或单独的CLR相匹配。对于GTEx数据集，CLR似乎通常会导致性能的轻微改善，而WTO转换几乎只构成了工作流的底层。对于从SRA数据集构建网络，尽管包括WTO在内的工作流并不完全在底层结束(就像GTEx数据的情况一样)，添加WTO到特定的工作流总是会影响性能。在这两个标准中，SRA最差的工作流程是与CLR或WTO配对的分位数标准化(QNT)。

工作流的数据集级性能：

接下来，我们通过在每个数据集的基础上检查这些工作流的准确性，将上述GTEx和SRA的聚合结果作为一个整体进行了剖析。首先，我们比较了成对的工作流，并确定了在所有GTEx和所有SRA数据集中一个工作流优于另一个工作流的数据集的比例（图3）。其次，我们进行配对统计测试，以估计工作流程之间差异的显著性（图3）。最后，我们根据每个工作流显著优于其他工作流的数量对每个工作流进行评分（图3）。基于该分析，在“GTEx naive”设置中，我们观察到五个工作流程都比31个其他工作流程更准确，但彼此之间没有显著差异（配对Wilcoxon秩和检验；校正的p值<0.01；图3）。在这四个工作流中，CTF分别在58%、61%和58%的GTEx网络上优于CTF_CLR、CUF和CUF_CLR。与使用naive标准的SRA网络中的其他工作流相比，CTF工作流在大多数情况下也显著优于其他工作流，尽管计数和CUF仅略低于CTF（图3）。当SRA网络按照组织感知黄金标准进行评估时，这些工作流程处于首位。

图3.工作流性能的数据集级两两比较

单个方法对工作流性能的影响：

尽管前面的分析揭示了单个方法的贡献，但我们希望更明确地评估选择或不选择特定的样本内规范化、样本间规范化或网络转换如何影响任何给定工作流的一般性能。为此，对于每个方法，我们计算了包含特定方法的工作流比不包含该方法的工作流执行得更好的时间比例(图4)。

图4.单个方法对工作流性能的影响

不同实验因素对工作流性能的影响：

我们在本研究中纳入SRA数据的原因是，SRA数据集非常具有代表性的表达数据集通常是由许多个体实验室生成的。因此，这些数据集在多个因素上差异很大，包括样本大小、样本相似性、映射读取的数量和组织类型。尽管这些因素会影响从单个数据集导出的共表达网络的质量，但很难梳理出这些因素(控制其他因素)对我们在SRA数据上使用不同工作流观察到的准确性的影响。因此，使用大型GTEx数据集，我们创建了一组类似sra的数据集，以更仔细地检查每个实验因素的影响。首先，我们确定了代表SRA数据集的9个样本大小(5、6、7、9、11、13、16、25和40)。然后，从每个至少有70个样本的GTEx组织数据集中，我们随机选择样本，为每个样本大小创建10个数据集。然后，我们应用了所有36个工作流，从这些数据集中的每一个构建了共表达网络。通过计算给定工作流显著优于任何其他工作流的次数，得到的72900个网络被用来研究改变每个实验因素的影响(图5)。除了这些重新取样分析数据,我们还研究了样本相似性的影响,直接映射读取次数SRA数据，把数据集分成五个相等大小箱子基于这些因素和确定给定的工作流的次数明显比另一个在每一个垃圾箱。

图5.各种数据集相关的实验因素对工作流性能的影响

不同对齐方式的影响和计数工作流程的量化性能：

到目前为止，我们的分析考虑了recount2数据库中的数据集。这使我们能够在一组统一排列并转化为基因计数的大型、多样的数据集上评估每个工作流的性能。然而，这就引出了一个问题，即当使用不同的读取对齐和计数定量方法时，观察到的结果，尤其是CTF、CUF和计数的最佳性能是否会保持不变。为了确定情况是否如此，我们将尽可能多的recount2 SRA数据集与来自refine的数据集进行了匹配。bio是另一个RNA序列库，使用完全不同的方法进行比对和量化。结果证明，在原始评估中有186个数据集，其中163个可以用组织感知标准进行评估。遗憾的是，refine无法提供GTEx数据。生物在这个新的分析中，我们忽略了每个测试类别中表现最差的方法，即RPKM、QNT和WTO，分别用于样本内标准化、样本间标准化和网络转换。这就给我们留下了14个工作流程，需要在refine上进行评估。生物数据集。

在评估中，CTF、CUF和Counts再次成为顶级工作流。然而，CUF工作流在所有数据集上都明显优于其他两个工作流（图6）。第二层由CTF_CLR、CUF_CLR和CLR组成，尽管它与其余的工作流没有很好的分离。组织感知评估显示，就log2（auPRC/Previor）测量的总体性能而言，CUF、CTF、计数、CTF_CLR、CUF_CLR和CLR之间的分离要小得多，但CTF和CUF的表现明显优于任何其他工作流。总之，我们使用RNA-seq数据复制了共表达工作流的排名，这些数据是用完全不同的管道处理的，用于对齐和量化。

图6.工作流的整体性能和使用refine进行两两比较

微信公众号

中科生信

【声明】内容源于网络

中科生信

中科生信是一家专业从事生物技术服务的公司，提供生物医学领域的定制化数据分析服务。公司业务有：二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务！致力于为客户提供“一站式”科研服务。

内容 580

粉丝 0

中科生信中科生信是一家专业从事生物技术服务的公司，提供生物医学领域的定制化数据分析服务。公司业务有：二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务！致力于为客户提供“一站式”科研服务。

总阅读1.6k

粉丝0

内容580