简介
主成分分析(PCA)是一种非常强大的技术,在数据科学、生物信息学和更远的地方都有广泛的适用性。它最初是为了分析大量的数据,以便找出被分析的逻辑实体之间的差异/关系。它提取了数据的基本结构,而不需要建立任何模型来表示它。这种数据的 "摘要 "是通过还原过程得出的,它可以将大量的变量转化为较少的不相关的变量(即 "主成分"),同时能够对原始数据进行简单的解释。
PCAtools提供了通过PCA进行数据探索的功能,并允许用户生成可供发表的数字。PCA是通过BiocSingular(Lun 2019)进行的--用户还可以通过不同的指标来确定主成分的最佳数量,如elbow法和Horn的平行分析(Horn 1965)(Buja and Eyuboglu 1992),这对单细胞RNA-seq(scRNA-seq)和高维质谱数据的数据减少有意义。
安装
2.1 1.从Bioconductor下载包
if (!requireNamespace('BiocManager', quietly = TRUE))
install.packages('BiocManager')
BiocManager::install('PCAtools')
注意:要直接从 GitHub 安装开发版本:
if (!requireNamespace('remotes', quietly = TRUE))
install.packages('remotes')
remotes::install_github('kevinblighe/PCAtools')
主成分分析
3.1进行主成分分析(PCA):
p <- pca(vst, metadata = colData(airway), removeVar = 0.1)
## -- removing the lower 10% of variables based on variance
3.2碎石图
screeplot(p, axisLabSize = 18, titleLabSize = 22)
图 1 碎石图
注:可以量化主成分的选择
但是,Gabriel KR (Gabriel 1971)对双标图的原始定义是在同一空间中同时绘制变量和观测值(样本)的图。变量由从原点绘制的箭头表示,箭头表示它们在不同方向上的“权重”。
biplot(p, showLoadings = TRUE,
labSize = 5, pointSize = 5, sizeLoadingsNames = 5)
pairsplot(p)
注:可以发现呈现更多的PC之间的关系,这点就很优秀这个包
plotloadings(p, labSize = 3)
注:个人理解是量化不同PC上主要的组成来源
特征值图
eigencorplot(p,
metavars = c('Study','Age','Distant.RFS','ER',
'GGI','Grade','Size','Time.RFS'))
注:这个包我认为最优秀的地方,细致量化了PC中组成成分的重要性
以上就是小编对这篇文献的分享,如果想学习生信分析内容或有项目需要合作的话,欢迎长按识别下方二维码联系我们!
ZKSX
微信公众号 | 中科生信
新浪微博 | @中科生信

