一个用于识别 DNA 甲基化驱动基因的 R 包- 大数跨境

首页

一个用于识别 DNA 甲基化驱动基因的 R 包

中科生信

2021-10-27

导读：MethylMix可识别出差异性和功能性DNA甲基化

Vol.1

简介

DNA甲基化是一种在CpG位点上添加甲基的机制。这些CpG位点的甲基化与基因沉默有关，是正常组织发育的一个重要机制，并经常涉及到诸如癌症等疾病。最近，许多高通量数据已经产生，在基因组范围内对CpG位点甲基化进行分析。这为许多疾病的DNA甲基化创造了大量的数据。需要对DNA甲基化数据进行计算分析，以确定与正常组织相比潜在的异常的DNA甲基化。MethylMix（Gevaert 2015; Gevaert, Tibshirani & Plevritis 2015）的开发是为了用计算方法解决这个问题。MethylMix通过使用一个β混合模型来识别与正常组织相比具有不同DNA甲基化的样本亚群，从而识别出差异性和功能性DNA甲基化。功能性DNA甲基化是指基于匹配的基因表达数据的明显负相关。MethylMix一起输出超甲基化和低甲基化的基因，这些基因可用于下游分析，并被称为MethylMix驱动。MethylMix是为顺式调节的启动子差异甲基化而设计的，当与一个基因相关的特定CpG位点被剖析时，效果最好。例如，使用27k和450k Infinium平台的数据。

Vol.2

安装

if(!requireNamespace("BiocManager", quietly=TRUE))

install.packages("BiocManager")

BiocManager::install(MethylMix)

Vol.3

数据访问和预处理

MethylMix软件包提供了访问和预处理癌症基因组图谱（TCGA）门户数据的功能。给定一个由TCGA代码指示的癌症类型和一个保存下载文件的路径，所有的数据下载和预处理都可以用执行。

cancerSite = ‘OA’

targetDirectory = paste0(getwd(), "/")

GetData(cancerSite, targetDirectory)

MethylMix包中的所有功能都可以并行运行，如果用户提供并行设置，如下所示：

cancerSite <- "OV"

targetDirectory <- paste0(getwd(), "/")

library(doParallel)

cl <- makeCluster(5)

registerDoParallel(cl)

GetData(cancerSite, targetDirectory)

stopCluster(cl)

运行 MethylMix

library(MethylMix)

library(doParallel)

data(METcancer)

data(METnormal)

data(GEcancer)

head(METcancer[, 1:4])

head(METnormal)

head(GEcancer[, 1:4])

核心函数运行进行识别甲基化驱动基因

MethylMixResults<- MethylMix(METcancer, GEcancer, METnormal)

该MethylMix函数的输出是一个包含以下元素的列表：MethylationDrivers：被 MethylMix 鉴定为转录预测和差异甲基化的基因。NrComponents：为每个驱动基因发现的甲基化状态的数量。MixtureStates：每个驱动基因的 DM 值列表。MethylationStates：具有所有驱动基因（行）和所有样本（列）的 DM 值的矩阵。Classifications：带有整数的矩阵，表示每个癌症样本被分配到每个基因的混合成分。Models：每个驱动基因的 Beta 混合模型参数。