大数跨境

R包处理MAF格式数据,不会的一定要点进来

R包处理MAF格式数据,不会的一定要点进来 中科生信
2021-08-28
4
导读:简介随着肿瘤基因组学的发展,突变注释格式(MAF)正被广泛接受并用于存储检测到的体细胞变异。癌症基因组图谱项

简介

随着肿瘤基因组学的发展,突变注释格式(MAF)正被广泛接受并用于存储检测到的体细胞变异。癌症基因组图谱项目已经对30多种不同的癌症进行了排序,每种癌症的样本量超过200。由体细胞变体组成的结果数据以突变注释格式存储。只要数据为MAF格式,此R包将尝试以高效的方式汇总、分析、注释和可视化来自TCGA来源或任何内部研究的MAF文件。

#1 生成MAF文件

1.对于 VCF 文件或简单的表格文件,简单的选择是使用vcf2maf实用程序,该实用程序将注释 VCF、确定转录的优先级并生成 MAF。最近对 gatk 的更新还使funcotator能够生成 MAF 文件。

2.如果您使用ANNOVAR进行变体注释,maftools 有一个方便的功能annovarToMaf可以将表格 annovar 输出转换为 MAF。

#2 MAF领域要求

MAF文件包含从染色体名称到cosmic注释的许多字段。然而,maftools中的大多数分析使用以下字段。- 必填字段: Hugo_Symbol, Chromosome, Start_Position,End_Position,Reference_Allele,Tumor_Seq_Allele2,Variant_Classification, Variant_Type and Tumor_Sample_Barcode. - 推荐的可选字段:包含VAF(变异等位基因频率)和氨基酸变化信息的非MAF特定字段。

#3 安装

if (!require("BiocManager"))    install.packages("BiocManager")BiocManager::install("maftools")

代码片段:可切换语言,无法单独设置文字格式

#4 读取并初步探索maf文件

4.1 Required input files

MAF文件-可以.gz压缩文件,必需输入文件。与MAF中的每个样本/Tumor_Sample_Barcode相关的可选但推荐的临床数据。可选的copy number数据(如果可用)。可以是GISTIC输出格式,也可以是包含sample names, gene names 和 copy-number status (Amp or Del)。

4.2 Reading MAF files

read.maf函数读取MAF文件,以各种方式对其进行汇总,并将其存储为MAF对象。尽管MAF文件足够独立,建议您在MAF中提供与示例相关联的注释文件。如果可用,还可以集成拷贝数(copy number data)数据。

library(maftools)#path to TCGA LAML MAF filelaml.maf = system.file('extdata', 'tcga_laml.maf.gz', package = 'maftools') #clinical information containing survival information and histology. This is optionallaml.clin = system.file('extdata', 'tcga_laml_annot.tsv', package = 'maftools') laml = read.maf(maf = laml.maf, clinicalData = laml.clin)


#5 可视化

5.1 Plotting MAF summary

plotmafSummary(maf = laml, rmOutlier = TRUE, addStat = 'median', dashboard = TRUE, titvRaw = FALSE)


5.2 Drawing oncoplots

#oncoplot for top ten mutated genes.oncoplot(maf = laml, top = 10)


5.3Transition and Transversions.

titv 函数将SNP分类为 Transitions and Transversions ,并以各种方式返回汇总表的列表。汇总的数据还可以可视化为显示六个不同转换的总体分布的boxplot图,以及显示每个样本中的转换分数的堆叠条形图。

laml.titv = titv(maf = laml, plot = FALSE, useSyn = TRUE)#plot titv summaryplotTiTv(res = laml.titv)


5.4 Plotting VAF

此函数将不同的等位基因频率绘制为箱式图,这有助于快速估计顶级突变基因的克隆状态(假设纯样本,克隆基因的平均等位基因频率通常在~50%左右)。

plotVaf(maf = laml, vafCol = 'i_TumorVAF_WU')


5.5 Drug-Gene Interactions

从药物基因相互作用数据库汇编而来的药物-基因相互作用和基因和药性信息可用drugInteractions函数查询

dgi = drugInteractions(maf = laml, fontSize = 0.75)


今天的分享就到这里啦,对上述分析方法感兴趣或者没有研究思路的小伙伴,欢迎前来咨询哦!


微信公众号 中科生信

提供“一站式”科研服务


【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读850
粉丝0
内容580