

线性回归| 全网最快5分钟内轻松学会NC高分文献数据分析图表之线性回归分析

R语言数据分析指南

2024-01-19

导读：先来感受下整理好数据格式上传数据后仅需1秒的极速出图流程和一键修改配色功能，各项性能遥遥领先，视频为证，先睹

先来感受下整理好数据格式上传数据后仅需1秒的极速出图流程和一键修改配色功能，各项性能遥遥领先，视频为证，先睹为快：

写在前面：AI时代已来，您需要非同以往的更强数据分析工具

CNSknowall （中文：CNS万事通）平台是今年1月份新上线的一款专门针对医学领域的在线数据分析平台，和目前常用的数据分析工具如SPSS、Origin、GraphPad Prsim和R语言相比，CNSknowall几乎没有任何学习成本（包括时间成本和金钱成本），只需要简单的套用平台提供的固定数据格式复制粘贴替换成自己的数据，鼠标点点点就可以完成CNS级别的高水平图表制作，可以让不擅长或没接触过数据分析的人以最短的时间内快速建立医学数据分析的基本思维，以最快的速度掌握各种数据分析技能，帮助大家在数据分析上节省大量宝贵的时间，从而可以把时间和精力用在更重要的事情比如查阅文献和设计研究思路方案等，提高文章发表速度，减缓毕业焦虑，赋能职业生涯，开启科研天骄之路！

唯有一比一复现才能证明分析结果是否准确，今天我们就利用在线平台CNSknowall 继续复现发表于Nature Communications（NC，IF=16.6）题目为“Single-cell and spatial analysis reveal interaction of FAP+ fibroblasts and SPP1+ macrophages in colorectal cancer（单细胞和空间分析揭示结直肠癌中FAP+成纤维细胞和SPP1+巨噬细胞的相互作用）”中的Figure 2c线性回归分析图，大家如果有类似数据分析需求可以按照平台上示例数据格式替换成自己数据直接分析哦，让我们一起来学习下吧！

图片介绍

--- · 线性回归 · ---

线性回归是一种统计分析方法，用于建立因变量与一个或多个自变量之间的线性关系模型。它假设因变量与自变量之间存在线性关系，并试图通过拟合一个线性方程来描述这种关系。线性回归模型可以用于预测因变量的值，也可以用于分析自变量与因变量之间的关系。在预测方面，可以使用已知的自变量值来预测因变量的值。在分析方面，可以通过检查系数的符号和显著性来判断自变量对因变量的影响。

该文章首先对收集的5例非转移性结直肠癌（CRC）临床样本进行单细胞测序，鉴定到了CRC肿瘤微环境中的9种主要细胞群。由于临床样本数量太少导致后续分析受限，作者继续纳入了14个公共数据库来源的CRC患者队列（共包含2550个样本）进行分析。为了确定CRC微环境中的9种主要细胞群之间的关系，作者分析了这9种主要细胞类型在14个CRC队列中浸润模式的成对Spearman相关性（对每个队列中的9种细胞都进行两两配对，每对细胞逐个进行Spearman相关性分析）。通过该分析发现间充质干细胞（MSCs）与髓系细胞（Myeloid cells）的浸润水平在14个CRC队列中均呈现出明显的正相关关系，因此该文章将9种主要细胞中的MSCs和Myeloid cells的Spearman相关性分析结果进行了可视化展示（Fig 2c）。

该文通过线性回归图展示了间充质干细胞（MSCs）与髓系细胞（Myeloid cells）之间的相关性强度。同时展示了线性回归的最佳拟合线和Spearman相关性的值，以此来揭示两种细胞之间的相关性。图上方的相关性系数（Rs）和p值提供了关系的强度和统计显著性的信息，图中的误差带表明了95%置信区间，提供了相关性估计的精确度。

原文 Fig2c

接下来我们就用文章中的原始数据做一个复现,只需要鼠标点点点简单2步即可高效完成数据分析，大家如有类似的分析目的可以直接按照示例数据格式复制粘贴替换成自己的数据直接分析哦！

平台介绍

CNSknowall- 一款各项性能遥遥领先的在线数据分析平台

很多时候知道自己要画什么图往往比会画什么图更重要！

详细步骤

线性回归复现

登录CNSknowall

点击工具链接：http://cnsknowall.com/#/Home/linearRegression?pid=20901001

登录后进入：数据分析➡通用分析➡高阶分析➡回归分析

数据下载

从原文下载Source Data数据，NC原文链接：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8976074/

具体方法可参考之前本公众号对该文章其他图表的复现：

矩阵饼图| 0代码1分钟内轻松复现NC文章数据分析结果之矩阵饼图，超越Origin、GraphPad和R语言，遥遥领先！

原文提供的Fig2c的Source Data数据如下：

我们只对Fig2c的第一张图表（14个CRC队列中的GSE39582队列）进行复现，因此需要从原文提供的Fig2c的Source Data中筛选出该队列的数据后直接复制粘贴到平台右侧表格中。其余13个队列大家如果感兴趣可以登录我们平台进行复现，14个队列逐一进行复现后导出14张回归分析结果图表，最后使用AI或PS拼图即可做成跟原文Fig2c完全一样的图表。

参数选择

         相关性检验方法：

        

相关性检验是用来评估两个变量之间是否存在线性关系的统计方法。以下是几种常用的相关性检验方法：

         1. Spearman相关系数：Spearman相关系数是用来衡量两个变量之间的单调关系的统计指标。它不要求变量呈线性关系，而是通过比较两个变量的秩次来计算相关性。Spearman相关系数的取值范围也在-1到1之间。
        

         2. Kendall相关系数：Kendall相关系数是一种非参数的相关性检验方法，用来度量两个变量之间的非线性关系。它也是通过比较变量的秩次来计算相关性。
        

         3. Pearson相关系数：Pearson相关系数是用来衡量两个连续变量之间线性相关程度的统计指标。它的取值范围在-1到1之间，其中1表示完全正相关，-1表示完全负相关，0表示没有线性相关关系。
        

默认使用Spearman相关系数。

         是否设置截距：

        

在线性回归模型中，需要确定是否设置截距，默认设置截距项。设置截距项的主要原因是考虑到实际问题中可能存在的常数项，即当自变量（x）为0时，因变量（y）的期望值（或平均值）仍然存在一个常数偏移。截距项可以理解为在自变量为0时，因变量的基础值。有时候在特定情况下，可以考虑不设置截距项，比如当我们有先验知识或理论依据表明截距项应该为0时，或者通过数据分析发现截距项对模型解释性不重要等。

         选择作为x轴的数据：

        

选择表格中的哪一列为自变量，默认第一列为自变量，即第二列为因变量。选择第二列则相反。

         保留有效数字：

        

         选择的保留几位有效数字，默认为4.
        

数据上传

上传文件需要按照示例文件的格式进行整理，示例数据格式要求包含两列数据，分别为自变量数据及因变量数据，首行为自变量名称和因变量名称。

           直接将步骤3中筛选出来的GSE39582队列中的间充质干细胞（MSCs）与髓系细胞（Myeloid cells）的表达谱数据复制粘贴到平台右侧表格中，开始进行线性回归分析。
          

          网站允许两种上传方式，第一种可以直接将数据复制粘贴至表格中，您可以随意在表格中进行填写修改。当数据量较大时，复制粘贴由于网速限制可能存在卡顿，可以通过 “选择文件” 选择需要的表格数据文件进行上传。
         

           上传成功后，页面上方会显示弹窗信息，“已上传成功”。
          

             
               点击开始做图后，等待平台运行。

            
              1秒即可得到运行结果如图（左），与原文中GSE39582队列（右）对比，可以看到散点位置及数值完美一比一复现。

            
                 该线性回归散点图中，红色散点为值，直线为拟合线，灰色区域为置信区间。图的上方显示Rs值表示模型对数据的拟合程度，P值表示统计显著性。与原文中图片相比，我们增加了回归方程的展示，可以帮助更好地了解两个变量之间的关系。
                
                 1. R-squared (Rs)：R-squared是一个介于0和1之间的值，表示因变量的变异程度能被自变量解释的比例。具体而言，Rs衡量了模型所能解释的因变量方差的比例。较高的Rs值表示模型对数据的拟合较好，解释力较强。
                
                 2. P值：P值是用来判断模型的统计显著性的指标。在线性回归中，P值通常用来检验自变量对因变量的影响是否显著。P值小于某个显著性水平（例如0.05）时，可以认为自变量对因变量的影响是显著的；反之，如果P值大于显著性水平，则认为自变量对因变量的影响不显著。