大数跨境
0
0

TCGA文献复现系列 | TCGA数据下载

TCGA文献复现系列 | TCGA数据下载 R语言数据分析指南
2021-05-06
0
导读:gdc数据下载1.进入网址,挑选数据筛选表达数据筛选临床数据下载gdc软件2.使用gdc软件下载数据TCGA

gdc数据下载1.进入网址,挑选数据筛选表达数据筛选临床数据下载gdc软件2.使用gdc软件下载数据TCGAbiolinks下载数据RTCGA下载数据Xena下载数据

目标:原文描述(doi: 10.7150/ijbs.41587)

image-20210205135810868

gdc数据下载

1.进入网址,挑选数据

网址:https://portal.gdc.cancer.gov/

筛选表达数据

step1.进入数据库

Snipaste_2020-08-09_13-20-13

step2.清空购物车

Snipaste_2020-08-09_13-25-44

step3.筛选数据

image-20200921213538470
image-20200921213711496

step4.添加数据至购物车

step5.下载manifest(清单文件)和metadata文件

筛选临床数据

也可以在筛选表达数据时,下载clinical的tsv文件

Data Format要选择bar xml,否则会出现以下尴尬的情况

image-20201014083005085

结果如下:

image-20200921215824006

为了避免临床的manifest文件与表达数据的manifest文件混淆,最好修改一下文件名

下载gdc软件
Snipaste_2020-08-13_16-51-51

下载好后,直接解压使用

Snipaste_2020-08-13_16-55-54

2.使用gdc软件下载数据

运行gdc-client.exe可以在cmd(命令提示符),Git 和R的Terminal界面进行

step1.前期准备

#在cmd运行
cd C:\Users\luobo\Documents\生信学习-R语言\TCGA教学\01_data\01_exprCount
gdc-client.exe --help
gdc-client.exe download -h
#在git bash here运行(在工作目录右击鼠标选择“Git Bash Here”进入即可)
cd ~/Documents/生信学习-R语言/TCGA教学/01_data/
02_clinical
ls
./gdc-client.exe --help
./gdc-client.exe download -h
#Rstudio运行同Git
#区别是cmd不需要使用相对目录引用gdc-client.exe
Rstudio操作情况


step2.正式下载数据

#使用cmd下载表达数据
gdc-client.exe download -m gdc_manifest_exprCount_20200921_134930.txt
#使用Git和Rstudio下载临床数据,除引用gec-client.exe基本相同
./gdc-client.exe download -m gdc_manifest_cli.2020-09-21.txt
image-20200921221809495
cmd下载成功提示


image-20200921222520009
Rstudio Terminal下载成功提示


image-20200921220904638
表达数据

image-20200921221524871

补充

Snipaste_2020-08-09_22-00-31
Snipaste_2020-08-09_22-01-11
Rstudio VS cmd

体验:同时下载临床数据,Rstudio耗时7分11秒cmd耗时4分30秒但是Rstudio监控下载情况比较容易(之前的下载体验)

说明:gdc-client.dtt对gdc-client.exe的下载设置进行重新设计:见https://www.jianshu.com/p/bea374ce82b3

TCGAbiolinks下载数据

#step1.下载加载R包及初步了解----
library(TCGAbiolinks)
library(RTCGA)
library(SummarizedExperiment)
library(tibble)
ls("package:TCGAbiolinks")
ls("package:RTCGA")

#step2.TCGAbiolinks下载数据----
##step2.1查看R包版本及版本信息
packageVersion("TCGAbiolinks")
version
##step2.2下载表达数据
getGDCprojects()
getGDCprojects("TCGA-STAD")
TCGAbiolinks:::getProjectSummary("TCGA-STAD")
query <- GDCquery(project = "TCGA-STAD",
                  data.category = "Transcriptome Profiling",
                  data.type = "Gene Expression Quantification",
                  workflow.type = "HTSeq - Counts",
                  legacy = FALSE)                  #是否选择老数据(hg18/19做参考基因组)  
#不存在legacy参数时报错?!
#注意:是否选择老数据,会影响参数的选择!!!
GDCdownload(query, method = "api", files.per.chunk = 10)
exprDat <- GDCprepare(query = query)
exprDat_biolinks <- assay(exprDat)

##step2.3下载临床数据
query <- GDCquery(project = "TCGA-STAD"
                  data.category = "Clinical"
                  file.type = "xml" 
                  )
GDCdownload(query)
cliDat_biolinks <- GDCprepare_clinic(query, clinical.info = "patient")

RTCGA下载数据

#step3.RTCGA下载数据----
#installTCGA("RTCGA.rnaseq")
#installTCGA("RTCGA.clinical")
library(RTCGA.rnaseq)
library(RTCGA.clinical)
ls("package:RTCGA.rnaseq")
exprDat_RTCGA <- as.data.frame(STAD.rnaseq)%>%
  column_to_rownames(var = "bcr_patient_barcode")%>%
  as.matrix()%>%t()%>%as.data.frame()
dim(exprDat_RTCGA)
exprDat_RTCGA[1:4,1:4]
ls("package:RTCGA.clinical")
cliDat_RTCGA <- STAD.clinical
cliDat_RTCGA[1:4,1:4]

Xena下载数据

image-20201014194608966
image-20201014194652247
image-20201014194808078

说明:区别GDC…和TCGA…,GDC相对TCGA来说是比较新的数据!!!

数据选择建议:GDC官网 >> UCSC Xena >> TCGAbiolinks >> RTCGA(仅代表个人看法)

作者:骆栢维

编辑:骆栢维 金志灏

校审:梁晓杰

【声明】内容源于网络
0
0
R语言数据分析指南
R语言重症爱好者,喜欢绘制各种精美的图表,喜欢的小伙伴可以关注我,跟我一起学习
内容 1180
粉丝 0
R语言数据分析指南 R语言重症爱好者,喜欢绘制各种精美的图表,喜欢的小伙伴可以关注我,跟我一起学习
总阅读497
粉丝0
内容1.2k