>

变量太多找不到重点？主成分分析（PCA）帮你挑出来

>

变量太多找不到重点？主成分分析（PCA）帮你挑出来

变量太多找不到重点？主成分分析（PCA）帮你挑出来

中科生信

2021-10-31

4

导读：简介主成分分析（PCA）是一种非常强大的技术，在数据科学、生物信息学和更远的地方都有广泛的适用性。它最初

01

简介

主成分分析（PCA）是一种非常强大的技术，在数据科学、生物信息学和更远的地方都有广泛的适用性。它最初是为了分析大量的数据，以便找出被分析的逻辑实体之间的差异/关系。它提取了数据的基本结构，而不需要建立任何模型来表示它。这种数据的 "摘要 "是通过还原过程得出的，它可以将大量的变量转化为较少的不相关的变量（即 "主成分"），同时能够对原始数据进行简单的解释。

PCAtools提供了通过PCA进行数据探索的功能，并允许用户生成可供发表的数字。PCA是通过BiocSingular（Lun 2019）进行的--用户还可以通过不同的指标来确定主成分的最佳数量，如elbow法和Horn的平行分析（Horn 1965）（Buja and Eyuboglu 1992），这对单细胞RNA-seq（scRNA-seq）和高维质谱数据的数据减少有意义。

02

安装

2.1 1.从Bioconductor下载包

if (!requireNamespace('BiocManager', quietly = TRUE))

install.packages('BiocManager')

BiocManager::install('PCAtools')

注意：要直接从 GitHub 安装开发版本：

if (!requireNamespace('remotes', quietly = TRUE))

install.packages('remotes')

remotes::install_github('kevinblighe/PCAtools')

03

主成分分析

3.1进行主成分分析（PCA）：

p <- pca(vst, metadata = colData(airway), removeVar = 0.1)

## -- removing the lower 10% of variables based on variance

3.2碎石图

screeplot(p, axisLabSize = 18, titleLabSize = 22)

图 1 碎石图

注：可以量化主成分的选择

但是，Gabriel KR (Gabriel 1971)对双标图的原始定义是在同一空间中同时绘制变量和观测值（样本）的图。变量由从原点绘制的箭头表示，箭头表示它们在不同方向上的“权重”。

biplot(p, showLoadings = TRUE,

labSize = 5, pointSize = 5, sizeLoadingsNames = 5)

pairsplot(p)

注：可以发现呈现更多的PC之间的关系，这点就很优秀这个包

plotloadings(p, labSize = 3)

注：个人理解是量化不同PC上主要的组成来源

特征值图

eigencorplot(p,

metavars = c('Study','Age','Distant.RFS','ER',

'GGI','Grade','Size','Time.RFS'))

注：这个包我认为最优秀的地方，细致量化了PC中组成成分的重要性

以上就是小编对这篇文献的分享，如果想学习生信分析内容或有项目需要合作的话，欢迎长按识别下方二维码联系我们！

ZKSX

微信公众号 | 中科生信

新浪微博 | @中科生信

【声明】内容源于网络

0

0

中科生信

中科生信是一家专业从事生物技术服务的公司，提供生物医学领域的定制化数据分析服务。公司业务有：二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务！致力于为客户提供“一站式”科研服务。

内容 580

粉丝 0

中科生信中科生信是一家专业从事生物技术服务的公司，提供生物医学领域的定制化数据分析服务。公司业务有：二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务！致力于为客户提供“一站式”科研服务。

总阅读1.4k

粉丝0

内容580