gdc数据下载1.进入网址,挑选数据筛选表达数据筛选临床数据下载gdc软件2.使用gdc软件下载数据TCGAbiolinks下载数据RTCGA下载数据Xena下载数据
目标:原文描述(doi: 10.7150/ijbs.41587)
gdc数据下载
1.进入网址,挑选数据
网址:https://portal.gdc.cancer.gov/
筛选表达数据
step1.进入数据库
step2.清空购物车
step3.筛选数据
step4.添加数据至购物车
step5.下载manifest(清单文件)和metadata文件
筛选临床数据
也可以在筛选表达数据时,下载clinical的tsv文件
Data Format要选择bar xml,否则会出现以下尴尬的情况
结果如下:
为了避免临床的manifest文件与表达数据的manifest文件混淆,最好修改一下文件名
下载gdc软件
下载好后,直接解压使用
2.使用gdc软件下载数据
运行gdc-client.exe可以在cmd(命令提示符),Git 和R的Terminal界面进行
step1.前期准备
#在cmd运行
cd C:\Users\luobo\Documents\生信学习-R语言\TCGA教学\01_data\01_exprCount
gdc-client.exe --help
gdc-client.exe download -h
#在git bash here运行(在工作目录右击鼠标选择“Git Bash Here”进入即可)
cd ~/Documents/生信学习-R语言/TCGA教学/01_data/
02_clinical
ls
./gdc-client.exe --help
./gdc-client.exe download -h
#Rstudio运行同Git
#区别是cmd不需要使用相对目录引用gdc-client.exe
step2.正式下载数据
#使用cmd下载表达数据
gdc-client.exe download -m gdc_manifest_exprCount_20200921_134930.txt
#使用Git和Rstudio下载临床数据,除引用gec-client.exe基本相同
./gdc-client.exe download -m gdc_manifest_cli.2020-09-21.txt
补充
体验:同时下载临床数据,Rstudio耗时7分11秒;cmd耗时4分30秒。但是Rstudio监控下载情况比较容易(之前的下载体验)
说明:gdc-client.dtt是对gdc-client.exe的下载设置进行重新设计:见https://www.jianshu.com/p/bea374ce82b3
TCGAbiolinks下载数据
#step1.下载加载R包及初步了解----
library(TCGAbiolinks)
library(RTCGA)
library(SummarizedExperiment)
library(tibble)
ls("package:TCGAbiolinks")
ls("package:RTCGA")
#step2.TCGAbiolinks下载数据----
##step2.1查看R包版本及版本信息
packageVersion("TCGAbiolinks")
version
##step2.2下载表达数据
getGDCprojects()
getGDCprojects("TCGA-STAD")
TCGAbiolinks:::getProjectSummary("TCGA-STAD")
query <- GDCquery(project = "TCGA-STAD",
data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification",
workflow.type = "HTSeq - Counts",
legacy = FALSE) #是否选择老数据(hg18/19做参考基因组)
#不存在legacy参数时报错?!
#注意:是否选择老数据,会影响参数的选择!!!
GDCdownload(query, method = "api", files.per.chunk = 10)
exprDat <- GDCprepare(query = query)
exprDat_biolinks <- assay(exprDat)
##step2.3下载临床数据
query <- GDCquery(project = "TCGA-STAD",
data.category = "Clinical",
file.type = "xml"
)
GDCdownload(query)
cliDat_biolinks <- GDCprepare_clinic(query, clinical.info = "patient")
RTCGA下载数据
#step3.RTCGA下载数据----
#installTCGA("RTCGA.rnaseq")
#installTCGA("RTCGA.clinical")
library(RTCGA.rnaseq)
library(RTCGA.clinical)
ls("package:RTCGA.rnaseq")
exprDat_RTCGA <- as.data.frame(STAD.rnaseq)%>%
column_to_rownames(var = "bcr_patient_barcode")%>%
as.matrix()%>%t()%>%as.data.frame()
dim(exprDat_RTCGA)
exprDat_RTCGA[1:4,1:4]
ls("package:RTCGA.clinical")
cliDat_RTCGA <- STAD.clinical
cliDat_RTCGA[1:4,1:4]
Xena下载数据
说明:区别GDC…和TCGA…,GDC相对TCGA来说是比较新的数据!!!
数据选择建议:GDC官网 >> UCSC Xena >> TCGAbiolinks >> RTCGA(仅代表个人看法)

作者:骆栢维
编辑:骆栢维 金志灏
校审:梁晓杰

