大数跨境
0
0

【数说·大数据圈】机器学习在生物大数据应用的一个例子

【数说·大数据圈】机器学习在生物大数据应用的一个例子 CDA数据分析师
2015-08-12
0
导读:利用机器学习的方法,预测基因组上的变化会对人体的特征/疾病/表型产生怎样的影响。


文/飞扬

飞扬,生物圈女博士一枚,数说工作室特约撰稿人,关注领域:生物、健康、图像识别、大数据




机器学习在生物大数据应用的一个例子


前不久,华大基因宣布前CEO王俊“辞职但未离职”,将转战“基因测序+人工智能”领域。


撇开阴谋论和各种传言不谈,让我们把焦点放在科学上——基因测序和人工智能可以擦出怎样的火花?也是在几天前,有一家生物大数据的创业公司出现在媒体和公众的视线中——Deep Genomics。这个公司是干嘛的呢?简单来说就是:


利用机器学习的方法,预测基因组上的变化会对人体的特征/疾病/表型产生怎样的影响。


这就是本文要说的,机器学习在生物大数据上应用的一个例子。那么它是如何实现的呢?可以概括为两步:


1)确定与某个特征/疾病/表型相关的基因易感位点。

我们每个人所带的基因是差不多的,之所以有的人卷发,有的人直发,有这么丰富多彩的变化,就是因为基因发生了改变,所以严格来说,我们要找的是基因的“多态性”


2)以这些基因易感位点数据作为输入变量,相关的特征/疾病/表型为响应变量,训练机器学习模型。


简单两步,但却蕴含着大数据、机器学习、统计学的精粹利用,现在逐一来分析。


1. 确定与某个特征/疾病/表型相关的基因易感位点。


这一步如何做?目前较流行的当属GWAS,所谓GWAS,是指全基因组关联分析(Genome-wide association study),是一种对全基因组范围内的常见遗传变异基因总体关联分析的方法。


目前,科学家已经对糖尿病、冠心病、肺癌、前列腺癌、肥胖、精神病等多种复杂疾病进行了GWAS分析,并找到了疾病相关的多个易感位点。看一下下面的图:





简单来说,塞一大堆的基因易感位点数据(几十万、几百万也可能上千万个易感位点),和要分析的这个特征/疾病/表型数据,然后建立模型分析找到存在显著关系的那个易感位点


这有点类似于,我们有身高、学历、职业三个潜在影响变量,要从这三个变量中找出:哪个变量与收入存在显著关系、进而可能决定了收入。这里身高、学历、职业三个变量就相当于易感位点(只不过我们的潜在易感位点有几十万甚至几百万,所以才是生物大数据嘛),收入就相当于特征/疾病/表型。


模型可以选择卡方检验,或者logistic模型等等(模型的选择取决于你的表型)。值得注意的是,这里的显著性水平不再是0.05了,因为几百万个位点的分析,5%的显著性水平太低,此时要做P值的校正(在微信公众号shushuojun中回复“校正”)。


最终,我们选出来了对这个特征/疾病/表型有决定作用的一个或多个基因易感位点。


举一个例子,我们知道高血压是有遗传性的,既然有遗传学,就说明一定有基因的作用在里面,2009年,在nature genetics的一篇论文中,作者就是用GWAS找到了和高血压相关的几个SNP。这篇论文的名字也很直白:

Genome-wideassociation study identifies eight loci associated with blood pressure”。


2. 用机器学习模拟特征/疾病/表型的变化


通过第一步的GWAS分析,我们知道哪些基因组的变化会一起一些特征/疾病/表型的改变。


在此基础上,我们就可以构建机器学习的算法,以基因组数据为输入变量、以特征/疾病/表型的数据为输出变量,利用大规模的训练数据去训练模型,以预测基因组的突变会如何改变细胞,进而改变动物和人体的表现。


前面说到的生物创业公司DeepGenomics,他们的第一个产品是SPIDEX,就是预测基因组突变对RNA剪切的影响。

基因组突变→ RNA剪切


再举一个例子,有的人天生能喝酒,有的人一沾酒就脸红。这也是有基因在起作用的,酒精在人体先分解成有毒的乙醛,再通过乙醛脱氢酶分解成无害的乙酸。因此,乙醛脱氢酶的活性就决定了解酒能力。为什么每个人的乙醛脱氢酶活性能力不一样?这是因为人体ALDH2基因的rs641这个点发生了改变。同样,我们或许可以利用机器学习的算法,训练大规模数据去预测乙醛脱氢酶的活性能力的表现。


综上所述,我们用GWAS找到了跟某个特征/疾病/表型相关的基因,然后在大规模样本数据中训练机器学习算法,用基因的突变去预测细胞层面的改变。




对了,在你们行业都是怎么玩数据的?有什么模型和方法可以分享一下?数说君向不同专业的数据分析者征原创稿,投稿可以加数所君私人微信AnselT或邮箱jiayounet@163.com。作为特约撰稿人,获得全部打赏现金,并且以后有机会,或许可以一起做一些数据分析的项目,融合不同专业的背景,推进理论、模型、技术的进步。


回复M,查看数说工作室以往文章。


目前正在更新的系列:

《SAS Says》系列

【SAS】基础篇:SAS软件入门(上)

【SAS】基础篇:SAS软件入门(下)

【SAS】基础篇:读取数据(上)

【SAS】基础篇:读取数据(中)

【SAS】基础篇:读取数据(下)

【SAS】基础篇:开发数据

【SAS】基础篇:描述性分析(上)

【SAS】基础篇:描述性分析(下)

【SAS】基础篇:ODS的使用(上)

【SAS】基础篇:ODS的使用(下)

本系列分基础篇、进阶篇、高级篇,待续中...


《大数据圈》系列

【family】大数据圈

【seg】当我们谈论“细分”(segmentation)的时候我们在谈论什么





【声明】内容源于网络
0
0
CDA数据分析师
🌸全国30万数据分析从业人员,有10万在CDA数据分析师 🌺CDA会员俱乐部有1000个数据库,成为持证人即可获得相关数据信息 🌹未来两样东西最有价值:一个是数据,一个是GPU
内容 9451
粉丝 0
CDA数据分析师 🌸全国30万数据分析从业人员,有10万在CDA数据分析师 🌺CDA会员俱乐部有1000个数据库,成为持证人即可获得相关数据信息 🌹未来两样东西最有价值:一个是数据,一个是GPU
总阅读459
粉丝0
内容9.5k