大数跨境
0
0

孟德尔随机化教程 | GWAS数据篇

孟德尔随机化教程 | GWAS数据篇 MedCite学术引擎
2023-12-18
0
导读:分享几个常用的GWAS数据库和下载方式

大家好,上次带大家了解了什么是孟德尔随机化(点击这里查看推文)。本次课程我们继续分享MR相关内容。

首先回顾一下孟德尔随机化分析的大致流程,大致分为以下四步:

▶ 获取暴露和结局的GWAS数据

▶ 在暴露GWAS数据中挑选工具变量

▶ 删除与结局有关的工具变量

▶ 孟德尔随机化分析、敏感性检验

从上述流程不难看出,孟德尔随机化的开展都是围绕数据进行的,那么这些数据是怎么来的呢?

今天就和大家分享一下孟德尔随机化的数据来源,包括常用GWAS数据库的介绍和下载方式

孟德尔随机化是以遗传变异为工具变量来推导暴露和结局的因果关系,所以不用开展临床研究来收集数据,通过公开的GWAS数据库来获取相关数据,进行分析即可。

什么是GWAS?

GWAS是Genome wide association study全基因组关联分析的缩写,是遗传学研究中用于将特定遗传变异与特定疾病相关联的一种方法。该方法涉及扫描来自许多不同人的基因组并寻找可用于预测疾病存在的遗传标记。一旦确定了此类遗传标记,它们就可用于了解基因如何导致疾病并制定更好的预防和治疗策略。目前,全世界范围内已开展了4000多项GWAS研究,发现了超过10万个与各种疾病(如癌症,高血压,II型糖尿病,类风湿性关节炎等)以及重要生理性状关联的基因位点。

GWAS数据来源

GWAS的数据获取来源大概可以分为两类,一类是公开数据库,另一类是部分GWAS研究的原始文章也可以获取数据。先介绍两个常用的数据齐全且开源免费的公开数据库,分别是GWAS Catalog和IEU数据库。

  • GWAS Catalog 

网址:https://www.ebi.ac.uk/gwas/

GWAS Catalog收集的数据比较齐全,在首页可以输入表现特征、SNP编号、作者名字、染色体位置等进行检索;

以检索乳腺癌相关GWAS数据为例,在Search栏输入“breast cancer”;会检索出与乳腺癌相关的疾病表型;

点击我们需要研究的疾病表型,则会出来与该表型相关的SNP,并且还详细列出了P值、OR值等分析结果;通过这个表格,不需要一篇篇查文献,就能知道这个疾病相关的SNP,并且还能够通过左侧的P值进行筛选。

此外,还会显示与疾病表型相关的研究,可以看到研究的文章发表日期、研究样本等信息,点击右侧FTP Download即可下载该研究的数据。(如果在Summary statistics这一栏里显示是NA,则代表该研究数据非公开数据。)

  • IEU数据库

网址:https://gwas.mrcieu.ac.uk/

IEU数据库也是GWAS的汇总数据库,这个网站的数据可以和“TwoSampleMR”包适配,可以直接使用R包提取数据,也可以下载完整数据。

在“Trait contains”输入检索的表型,点击“Filter”,即可检索到与相关疾病的研究数据;

点击GWAS ID,即可跳转至研究详情和数据下载页面。

  • UK biobank

网址:http://www.nealelab.is/uk-biobank

UKB队列作为一项大型的生物样本库,利用该队列所进行的学术产出大都发表在了高质量的学术期刊上,如果想要申请UKB队列中个体水平的随访数据,需要在官网上传研究proposal,并根据数据类型支付费用,价格较为昂贵。

  • FinnGen数据库

网址:https://www.finngen.fi/en/access_results

FinnGen也是免费的GWAS数据库,FinnGen是一个旨在收集芬兰人口的遗传、医学和生活数据的计划,FinnGen的研究范围包括广泛的复杂疾病,如心血管疾病、糖尿病、神经系统疾病、肺部疾病等。

相比其它免费开源数据库,数据下载步骤稍复杂,需要注册后才能下载。

点击首页的r9链接,即可跳转到具体的表型查询页面。

在注册页面填写相关信息即可注册,然后通过邮箱的下载提示,进行数据下载即可。

除了以上这些全面的综合数据库,还有一些专科的GWAS数据库,如

PGC数据库(https://pgc.unc.edu/for-researchers/download-results/)精神疾病基因数据库

SSGAC(  https://www.thessgac.org/)社会科学基因学数据库等,都可以下载我们需要的数据。

文献下载

除了通过数据库下载以外,获取GWAS数据的第二种方法就是通过查阅GWAS研究文献

由于数据库都具有一定的时间滞后性,不一定能纳入最新最全的研究,因此,通过文献寻找往往能到更新、更大样本量的GWAS数据。我们可以直接搜索相关的GWAS原始研究。

检索关键词为Genome-wide association studies,如检索到一篇研究休闲久坐行为的GWAS分析文献,可以看到原文中有GWAS数据集的链接。

▍选择GWAS数据小tips:

1.选择研究年份近的数据。优先选择较新的GWAS数据,因为技术不断发展,数据质量和准确性也有所提高。

2.选择研究样本量大,SNP数量多的数据。较大的研究样本的统计功效也会更强,SNP量多的数据覆盖的基因组区域更广。

3.了解数据的引用要求。在使用GWAS数据时,确保了解数据提供者对于数据引用和使用的要求。

通过利用这些GWAS数据库,我们可以获得丰富的数据,并结合孟德尔随机化方法来推断因果关系。这为我们深入研究提供了重要的工具和资源。

好了,以上就是本期分享的主要内容,我们下期再见。

作者:

审核:


关于斯录欣Solution

易侕科研隶属于斯录欣(上海)信息科技有限公司,公司成立2014年,是一家高新科技企业。斯录欣由临床研究专家、统计学家组建,公司聚焦于临床/药物研究,为临床/药物研究提供一整套科研数据解决方案。如果您想了解更多关于易侕一体化科研平台,欢迎和我们联系。

部分合作单位

联系方式:

电话:15007152536 (同微信)

邮箱:bp@yunedc.com

官网:http://www.siluxintech.com

长按识别,添加小助手微信

【声明】内容源于网络
0
0
MedCite学术引擎
基于PubMed的科研AI工具MedCite学术引擎。集学术AI、文献检索、PDF翻译、IF影响因子、文献管理于一体的科研学术引擎。
内容 93
粉丝 0
MedCite学术引擎 基于PubMed的科研AI工具MedCite学术引擎。集学术AI、文献检索、PDF翻译、IF影响因子、文献管理于一体的科研学术引擎。
总阅读17
粉丝0
内容93