大数跨境

R语言biomaRt工具包学习

R语言biomaRt工具包学习 中科生信
2021-10-20
4
导读:今天是实战篇。小编和大家分享一下R语言biomaRt工具包。

今天是实战篇。小编和大家分享一下R语言biomaRt工具

生物学背景

同源,最基本的意义就是具有共同祖先。当然这里不是说人和鼠有相同的祖先,我们这里的分子水平的同源性。从分子水平讲则是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度,那我们就说二者同源,就是说可以相互转化的基因具有一定的序列相似性,那么二者的基因便可以成为同源基因。许多不同的物种间都具有同源性。现代分子生物学中的同源性描述的是基因与基因之间相似关系,它表明的是两个相比较的序列之间的匹配程度。一般来说,如果两条基因序列相似性达80% ,就可以把它们称为“同源基因(homologousgene)”。

安装biomaRt包

install.packages("BiocManager")

BiocManager::install("biomaRt")


选择目标数据库和数据集(人和小鼠)

library(biomaRt)

human=useMart("ensembl",dataset="hsapiens_gene_ensembl")

class(human)

mouse=useMart("ensembl",dataset="mmusculus_gene_ensembl")

class(mouse)


#useMart一般跟两个参数,第一个借助ensemble数据库,第二个参数是选择的物种数据集


构造测试基因集

genes=c("Tmx2","Trp53","Zfp286")

1

小鼠基因同源映射到人

genes=getLDS(attributes=c("mgi_symbol"),filters="mgi_symbol",

             values=genes,mart=mouse,                                                                        attributesL=c("hgnc_symbol","chromosome_name","start_position","end_position"),

                      martL=human,

                      uniqueRows=T)

#attributes指所要检索数据集的属性参数,可用listAttributes函数检索属性列表
#values指构造的数据集(即输入的数据集)
#mart指输入数据的对象(如mouse)
#attributesL指需要转化的目标数据集
#martL指输出的对象(如human)


结果如下

写一个简单的封装函数并测试

transMG<-function(x){

require("biomaRt")

human=useMart("ensembl",dataset="hsapiens_gene_ensembl")

mouse=useMart("ensembl",dataset="mmusculus_gene_ensembl")

gs=getLDS(attributes=c("mgi_symbol"),filters="mgi_symbol",

             values=x,mart=mouse,

        attributesL=c("hgnc_symbol"),martL=human,uniqueRows=T)

return(gs)

}

transMG(genes)


结果如下



>>>end



微信公众号 |中科生信



【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读915
粉丝0
内容580