
CNSknowall (中文:CNS万事通)平台是今年1月份新上线的一款专门针对医学领域的在线数据分析平台,和目前常用的数据分析工具如SPSS、Origin、GraphPad Prsim和R语言相比,CNSknowall几乎没有任何学习成本(包括时间成本和金钱成本),只需要简单的套用平台提供的固定数据格式复制粘贴替换成自己的数据,鼠标点点点就可以完成CNS级别的高水平图表制作,可以让不擅长或没接触过数据分析的人以最短的时间内快速建立医学数据分析的基本思维,以最快的速度掌握各种数据分析技能,帮助大家在数据分析上节省大量宝贵的时间,从而可以把时间和精力用在更重要的事情比如查阅文献和设计研究思路方案等,提高文章发表速度,减缓毕业焦虑,赋能职业生涯,开启科研天骄之路!
唯有一比一复现才能证明分析结果是否准确,今天我们就利用在线平台CNSknowall 继续复现发表于Nature Communications(NC,IF=16.6)题目为“Single-cell and spatial analysis reveal interaction of FAP+ fibroblasts and SPP1+ macrophages in colorectal cancer(单细胞和空间分析揭示结直肠癌中FAP+成纤维细胞和SPP1+巨噬细胞的相互作用)”中的Figure 2c线性回归分析图,大家如果有类似数据分析需求可以按照平台上示例数据格式替换成自己数据直接分析哦,让我们一起来学习下吧!

线性回归是一种统计分析方法,用于建立因变量与一个或多个自变量之间的线性关系模型。它假设因变量与自变量之间存在线性关系,并试图通过拟合一个线性方程来描述这种关系。线性回归模型可以用于预测因变量的值,也可以用于分析自变量与因变量之间的关系。在预测方面,可以使用已知的自变量值来预测因变量的值。在分析方面,可以通过检查系数的符号和显著性来判断自变量对因变量的影响。
该文章首先对收集的5例非转移性结直肠癌(CRC)临床样本进行单细胞测序,鉴定到了CRC肿瘤微环境中的9种主要细胞群。由于临床样本数量太少导致后续分析受限,作者继续纳入了14个公共数据库来源的CRC患者队列(共包含2550个样本)进行分析。为了确定CRC微环境中的9种主要细胞群之间的关系,作者分析了这9种主要细胞类型在14个CRC队列中浸润模式的成对Spearman相关性(对每个队列中的9种细胞都进行两两配对,每对细胞逐个进行Spearman相关性分析)。通过该分析发现间充质干细胞(MSCs)与髓系细胞(Myeloid cells)的浸润水平在14个CRC队列中均呈现出明显的正相关关系,因此该文章将9种主要细胞中的MSCs和Myeloid cells的Spearman相关性分析结果进行了可视化展示(Fig 2c)。
该文通过线性回归图展示了间充质干细胞(MSCs)与髓系细胞(Myeloid cells)之间的相关性强度。同时展示了线性回归的最佳拟合线和Spearman相关性的值,以此来揭示两种细胞之间的相关性。图上方的相关性系数(Rs)和p值提供了关系的强度和统计显著性的信息,图中的误差带表明了95%置信区间,提供了相关性估计的精确度。

原文 Fig2c
接下来我们就用文章中的原始数据做一个复现,只需要鼠标点点点简单2步即可高效完成数据分析,大家如有类似的分析目的可以直接按照示例数据格式复制粘贴替换成自己的数据直接分析哦!

很多时候知道自己要画什么图往往比会画什么图更重要!
点击工具链接:http://cnsknowall.com/#/Home/linearRegression?pid=20901001
登录后进入:数据分析➡通用分析➡高阶分析➡回归分析

从原文下载Source Data数据,NC原文链接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8976074/
具体方法可参考之前本公众号对该文章其他图表的复现:
矩阵饼图| 0代码1分钟内轻松复现NC文章数据分析结果之矩阵饼图,超越Origin、GraphPad和R语言,遥遥领先!
原文提供的Fig2c的Source Data数据如下:

我们只对Fig2c的第一张图表(14个CRC队列中的GSE39582队列)进行复现,因此需要从原文提供的Fig2c的Source Data中筛选出该队列的数据后直接复制粘贴到平台右侧表格中。其余13个队列大家如果感兴趣可以登录我们平台进行复现,14个队列逐一进行复现后导出14张回归分析结果图表,最后使用AI或PS拼图即可做成跟原文Fig2c完全一样的图表。
相关性检验方法:
相关性检验是用来评估两个变量之间是否存在线性关系的统计方法。以下是几种常用的相关性检验方法:
默认使用Spearman相关系数。

是否设置截距:
在线性回归模型中,需要确定是否设置截距,默认设置截距项。设置截距项的主要原因是考虑到实际问题中可能存在的常数项,即当自变量(x)为0时,因变量(y)的期望值(或平均值)仍然存在一个常数偏移。截距项可以理解为在自变量为0时,因变量的基础值。有时候在特定情况下,可以考虑不设置截距项,比如当我们有先验知识或理论依据表明截距项应该为0时,或者通过数据分析发现截距项对模型解释性不重要等。

选择作为x轴的数据:
选择表格中的哪一列为自变量,默认第一列为自变量,即第二列为因变量。选择第二列则相反。

保留有效数字:

上传文件需要按照示例文件的格式进行整理,示例数据格式要求包含两列数据,分别为自变量数据及因变量数据,首行为自变量名称和因变量名称。





全网首创的一键随机变色模式,遥遥领先:

全网最大气的调色板任意自选颜色:

输入精准的颜色参数:

首次将取色器用于医学数据分析,一键复制相中文献上的配色风格:

在图表设置中,可以允许您自由调整散点的大小。

系统自动以输入数据中第一行作为坐标轴的名称,以自变量列名作为X轴名称,因变量列名作为Y轴名称。在坐标轴设置中可分别调整X、Y轴名称的字体及字号。


