大数跨境

变量太多找不到重点?主成分分析(PCA)帮你挑出来

变量太多找不到重点?主成分分析(PCA)帮你挑出来 中科生信
2021-10-31
4
导读:简介主成分分析(PCA)是一种非常强大的技术,在数据科学、生物信息学和更远的地方都有广泛的适用性。它最初

01

简介

主成分分析(PCA)是一种非常强大的技术,在数据科学、生物信息学和更远的地方都有广泛的适用性。它最初是为了分析大量的数据,以便找出被分析的逻辑实体之间的差异/关系。它提取了数据的基本结构,而不需要建立任何模型来表示它。这种数据的 "摘要 "是通过还原过程得出的,它可以将大量的变量转化为较少的不相关的变量(即 "主成分"),同时能够对原始数据进行简单的解释。

PCAtools提供了通过PCA进行数据探索的功能,并允许用户生成可供发表的数字。PCA是通过BiocSingular(Lun 2019)进行的--用户还可以通过不同的指标来确定主成分的最佳数量,如elbow法和Horn的平行分析(Horn 1965)(Buja and Eyuboglu 1992),这对单细胞RNA-seq(scRNA-seq)和高维质谱数据的数据减少有意义。


02

安装

2.1 1.从Bioconductor下载包

if (!requireNamespace('BiocManager', quietly = TRUE))

install.packages('BiocManager')


BiocManager::install('PCAtools')

注意:要直接从 GitHub 安装开发版本:

if (!requireNamespace('remotes', quietly = TRUE))

install.packages('remotes')


remotes::install_github('kevinblighe/PCAtools')


03

主成分分析

3.1进行主成分分析(PCA):

p <- pca(vst, metadata = colData(airway), removeVar = 0.1)

## -- removing the lower 10% of variables based on variance

3.2碎石图

screeplot(p, axisLabSize = 18, titleLabSize = 22)


图 1 碎石图

注:可以量化主成分的选择

但是,Gabriel KR (Gabriel 1971)对双标图的原始定义是在同一空间中同时绘制变量和观测值(样本)的图。变量由从原点绘制的箭头表示,箭头表示它们在不同方向上的“权重”。


biplot(p, showLoadings = TRUE,

labSize = 5, pointSize = 5, sizeLoadingsNames = 5)


pairsplot(p)

注:可以发现呈现更多的PC之间的关系,这点就很优秀这个包

plotloadings(p, labSize = 3)

注:个人理解是量化不同PC上主要的组成来源

特征值图

eigencorplot(p,

metavars = c('Study','Age','Distant.RFS','ER',

'GGI','Grade','Size','Time.RFS'))

注:这个包我认为最优秀的地方,细致量化了PC中组成成分的重要性

以上就是小编对这篇文献的分享,如果想学习生信分析内容或有项目需要合作的话,欢迎长按识别下方二维码联系我们!

ZKSX

微信公众号 | 中科生信

新浪微博 @中科生信


【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读1.4k
粉丝0
内容580