
作者:kevin-vu(技术博客 exxactcorp 作者)
译者:LZM
原文:DeepMind’s AlphaFold & the Protein Folding Problem
编者按:去年,DeepMind 开发的 “AlphaFold 2.0” ,在权威蛋白质结构预测评估竞赛(CASP),准确度排名第一。这一重要进展振奋人心,我们仍在等待详细的技术论文披露。
在论文披露之前,本文是我们看到最好的一篇完整介绍该突破的技术科普文章,出于科学传播目的,现翻译全文如下:
一种的常见方法是将其与人类的日常宏观行为进行比较。具体来说,蛋白质折叠类似于人类的折纸活动。折纸是一种用相对简单的二维纸张制作复杂三维形状的创造性尝试。网络漫画 xkcd 也做了和我们相同的比较。
尽管我们做了简单的比喻。但是实际上,蛋白质折叠是一个比大多数人想象的要难得多的问题,而且这种困难要数倍于大家想象的程度。折纸问题从二维变化到三维,相差一个维度;但是蛋白质折叠是从一维到三维,足足相差了两个维度。用一张普通的白纸折叠成千纸鹤可能很困难,但如果是从一块松软的绳子开始呢?
对于计算机工作者而言,蛋白质折叠与折纸的对比,就像把一个时间复杂度为 O (n3) 的算法优化到 O (n) 和优化到 O (n2) 的对比。
对于户外运动爱好者而言,蛋白质折叠与折纸的对比,就像骑自行车顶着强风爬上很陡峭的高坡和背着一个只装了一只三明治的空空的背包包走路的对比。
折千纸鹤是蛋白质折叠的一个常见比喻对象,但更恰当的比喻应该是用绳子折千纸鹤,就像下面这张图片所示的从左到右的过程那样。
DeepMind 的 AlphaFold 2.0 进展一经披露,蛋白质结构自动预测问题被解决这一新闻被学术界和工业界广泛讨论,其中包括赞誉,也包括批判。
这是一项重大进步,正如《麻省理工科技评论》(MIT Technology Review)文章中引用约翰・穆尔特(John Moult)教授所说,这是 “首次使用 AI 技术解决重大科学问题 “。在 2020 年蛋白质结构预测竞赛(CASP14)中,DeepMind 的 AlphaFold 2 取得了 92 的 GDT_TS。这意味着,对于超过 90% 的蛋白质结构,AlphaFold 2 都给出了准确的预测。
许多人认为,AlphaFold 2 的预测结果与直接测量结晶蛋白结构的实验室结果的精度不相上下,并且在本次比赛 AlphaFold 2 中遥遥领先于排在第二名的预测模型。在 CASP14 比赛上,AlphaFold 2 已经被分子生物学界誉为 2012 年 ImageNet 比赛的 Alexnet。这个比喻几乎可以是对 AlphaFold 2 的轻描淡写。
尽管 AlphaFold 2 对基础生命科学研究和医学研究中做出了重大贡献并取得了预期的影响力,但生物学的研究远没有达到尽头。
虽然,一个急切的年轻研究生,可能受此影响会稍微调整自己的职业发展轨迹,但生物学仍然是复杂、美丽且混乱的,还有许多令人疑惑的谜团尚待探索和解决。
蛋白质折叠问题
我们的首要任务是定义 AlphaFold 2 需要解决的问题,定义完问题之后,下一步就是将所谓的蛋白质结构预测问题,与更为困难且的蛋白质折叠问题区分开来。
DeepMind 在 CASP14 比赛中解决的问题是蛋白质结构预测,而不是蛋白质折叠问题,但是一大部分的媒体甚至是 DeepMind 官方博客都错误地使用了后一个术语。
实际上,蛋白质结构预测问题和蛋白质折叠问题在范围、难度和应用上都大不相同。
分子生物学经常提到所谓的 “中心法则”,是指遗传信息从 DNA 到 RNA 再到蛋白质的这一传递过程。上述线性过程是对真实生命变化过程的简化描述。
分子生物学的中心法则:DNA->RNA-> 蛋白质
实际上,每个步骤都有无数种可能的方法,来修饰蛋白质并与其他细胞过程相互作用。构成绝大多数动物 DNA 的许多非编码区(以前被称为 “垃圾 DNA”)实际上具有这种调节功能,要么直接作为制造干扰 RNA 的指令,要么就不那么直接地调节从 DNA 到 RNA 的转录过程。即使是从氨基酸序列到折叠蛋白的最后一步也有多种方法可用于差异折叠和翻译后修饰。
蛋白质结构预测是,对于已知的氨基酸序列,预测其对应的蛋白质的结构。
值得注意的是,预测出来的蛋白质结构会和通过实验晶体学(例如 X 射线(又称伦琴射线))、低温电子显微镜或核磁共振光谱确定的真实结构进行比较。
用于训练 AlphaFold 2 这类模型的蛋白质结构标签,大多数来自于晶体学的测量结果,但是蛋白质结晶是一个令人棘手的过程。
记住这一口头禅是有帮助的:“细胞质不是晶体”,更不用说在细胞内的蛋白质了。
自然环境中,蛋白质结构会受到活性小分子、金属因子、细胞膜和细胞器膜、pH 值以及许多其他决定因素所修饰,它们比静态晶体结构具有更大的动态性。
Levinthal 悖论
说到这里,如果不提及 Levinthal 悖论,那么对蛋白质结构预测问题的介绍将是不完整的。
Levinthal 悖论指出,仅基于天然搜索从序列确定蛋白质结构是很难的。
该悖论以思想实验的发起人赛勒斯・莱文萨尔(Cyrus Levinthal)的名字命名,他证明随机探索一种蛋白质的所有可能结构,将花费比宇宙预期寿命更长的时间,甚至对于适度大小的蛋白质(例如只有 100 个氨基酸)也是如此。
这个实际教训是,尽管训练 AlphaFold 2 的计算资源要求非常高,并且推理时间的计算要求与典型规范相比非同寻常(稍后再讲),但萨顿总结的 AI 领域 “算力常胜” 的经验,对于训练 AlphaFold 2 方面没有发挥什么作用。
蛋白质折叠问题完全是另一种难题,它与蛋白质从一串 RNA 翻译成氨基酸的团聚而经历的动态过程有关,最终导致蛋白质结构完全形成。蛋白质折叠动力学取决于局部化学过程、温度和 pH 值,但也可以被热激蛋白和其他分子严重修饰。
目前,DeepMind 的 AlphaFold 项目并没有涉及蛋白质折叠问题。
集中解决子问题:单链蛋白质的结构
在蛋白质结构预测问题中,DeepMind 团队专注于一个非常具体的子问题:由单个氨基酸链折叠形成的蛋白质的结构预测问题。
实际上,许多蛋白质在细胞中作为混合物发挥作用,其复杂度可以从一对相同的蛋白质(即二聚体)到数十种不同蛋白质的混合物。这些蛋白质结构又可以动态方式与细胞中的许多不同分子相互作用。
毫不奇怪,许多对 AlphaFold 2 的评论都倾向于为其贴上 “蛋白质折叠” 的标签,从这点上看,DeepMind 的公关们将其作为宣传也没有什么不对。但是,我们并不是在这里将其作为语义论证。
相反,我们关心的是具体完成了什么。我们可以将该成就作为适合测量实验结构的蛋白质的单链(大部分为结晶的)预测问题的解决方案。
因此,AlphaFold 2 的成就,可能在未来几年内在许多应用和基础科学领域产生重大影响。
AlphaFold 团队在 CASP14 比赛中的成就
在上一部分中,我们清楚地描述了 CASP14 中 AlphaFold 团队解决的问题的范围。
这是该活动的许多新闻报道和公关报道中非常缺少的内容,因此构成了怀疑论者大部分争论的基础。
尽管 AlphaFold 2 本身并未解决也未尝试解决蛋白质折叠问题,但它似乎确实解决了蛋白质结构预测问题的一个非常特定的版本,并且在两年一次的 CASP 比赛中,对于单链蛋白质结构预测的 GDT_TS 得分达到 90 以上。
在本节中,我们将简要讨论用于评估 CASP14 的蛋白质靶标和所使用的各种评分指标。
这些信息应有助于各种蛋白质结构爱好者更好地校准他们对 CASP14 结果的理解,并将 AlphaFold 2 的性能与次一名竞争者之间的巨大差距弄清楚。
本节并非一定要掌握,因为竞赛细节并不是必不可少的,而热衷于了解有关 AlphaFold 2 模型的(主要是投机性)细节的机器学习爱好者可能对首先阅读下一小标的内容更感兴趣。
CASP 比赛中,被广泛使用的蛋白质结构预测性能评价指标是 GDT_TS。GDT_TS 中的 GDT 指全局距离的阈值,_TS 指在 4 个不同阈值下计算的平均距离,4 个不同的阈值为 1、2、4、和 8 埃。
例如,100% 的残基在 4 埃之内,90% 的残基在 2 埃之内,80% 的残基在 1 埃之内,那么最终的 GDT_TS 分数为 92.5,这个分数很接近 AlphaFold 2 的得分。来自 CASP14 的 T1038 目标曲线很好地说明了 AlphaFold 2 和竞争对手之间的差距,尽管不是所有的目标都有如此明显的差异。
Z 分数是 CASP 排行榜上另一个突出的指标。蛋白质折叠被认为是氨基酸链找到最低能量结构的生物物理过程,类似于弹簧不愿被压缩,水更喜欢追寻海洋,油滴宁愿将自己与水分离的过程。蛋白质结构预测同样试图在给定蛋白质序列的情况下找到这种低能状态,而 Z 分数是蛋白质结构总能量相对于具有随机倍数的蛋白质序列能量分布的偏差的估计值。
CASP 确实进行了一些处理和离群值消除以鼓励采用新颖的方法。CASP 榜单上的分数越高越好。关于 Z 分数及其计算方式的完整讨论超出了本文的范围。但如果您对此好奇的话,Jacob Stern 在 Medium 上的系列文章是一个不错的了解 Z 分数的起点。
AlphaFold 2 的模型解析
目前,我们仍在等待 AlphaFold 2 模型的完整描述。
在 2018 年底发布的 CASP13 的结果,与 2020 年初在《自然》杂志上发表的 AlphaFold 论文之间的差距是巨大的。这巨大的推迟导致 trRosetta—— 一种用于预测蛋白质结构的深度学习 + 能量最小化模型(在各个方面上,它可算是原始 AlphaFold 的开源版本),仅仅在 AlphaFold 发表于 Nature 的 6 天后就发表在 PNAS 上。希望 DeepMind 不要把模型公之于众的日期拖的太久。
我们可以从 DeepMind 博客文章中告诉我们的内容,以及 AF2 团队的演讲中收集到的 CASP14 参与者的信息,来推测 AlphaFold 2 模型的细节。
下面的模型描述可能和真正的模型有出入,但我们认为它因该在较高抽象水平上反映了 DeepMind 在 CASP14 中取得成功的基本思想。
与上次在 CASP13 比赛上有所不同,AlphaFold 2 是一个由多个神经网络模块组成的端到端神经系统。
第一阶段包含一个嵌入模型和一个神经网络,该模型预测氨基酸链之间的配对距离。该模型与第一版的 AlphaFold 较为相似,只是没有在模型输出上应用约束梯度下降来估计蛋白质结构,而是将此模型以及第一阶段还包含的另一个特征直接赋予结构模型。
我们可以从与第一版 AlphaFold 的相似之处推断出,该模块可能是带有扩张卷积核的残差卷积神经网络,我们将其称为 NN0。
根据 DeepMind 和其他知情者的描述,AlphaFold 2 第一阶段的另一个分支(我们称为 NN1),几乎可以肯定是某种图神经网络。该神经网络模块的输入是多个对齐的氨基酸序列的集合。该模型使用注意力机制反复迭代计算 MSA 输入的不同组合。目前尚不清楚迭代次数是否预先确定。
我们怀疑迭代将继续进行,直到整体结构预测超过置信度阈值,或者预先设定的最大迭代次数为止。在输出中的置信度估计和计算资源成本共同决定了模型何时停止计算,输出可接受的预测结果。
关于从第一阶段接收信息的第三个模块(我们称为 NN2),我们了解不多。它在 DeepMind 博客文章中被描述为 “结构模块”,哥伦比亚大学的穆罕默德・阿尔奎莱希教授则认为,这可能是具有旋转不变性的 trandformer,例如 SE (3) transformer 的某种变体。
关于旋转不变性的争论
旋转不变性(或旋转等价性)对理解化学结构特别重要,但它也是传统的图像深度学习的一个痛点。
2020 年发生的一起涉及特斯拉自动驾驶系统的撞车事故,似乎至少在一定程度上是由于未能将一辆翻倒的卡车识别为障碍。尽管用于自动驾驶汽车图像识别的卷积神经网络具有众所周知的平移不变性 (这是其众多成功背后的一个重要因素),但当它面对训练时没有见过的物体方向时,就有可能出现预测错误。
在基于图像的卷积神经网络中,数据增强通过模型暴露于不同的对象变形(如剪切和旋转)从而帮助其识别不同方向取向的物体,但这离实现旋转不变性还差得很远。
所以,AlphaFold 2 在 NN2 中加入旋转不变性的方法才如此吸引人注意。
它本质上是一个 SE (3) transformer,还是完全不同的东西?这一点还有待观察。
在此,我们必须指出,与 DeepMind 在 CASP13 中的算法讲演相比,在 CASP14 中他们没有公开大部分开创性的细节,这是一个相当令人失望的事实。
穆罕默德・阿尔库拉伊什教授 (Mohammed AlQuraishi) 表示,DeepMind 的 CASP14 演示 “几乎完全缺乏细节”,“根本不像一个算法讲演”。
当然,这种做法可能已经形成了一种趋势,高调和资源充足的商业人工智能实验室证明了这一点。
我们是否应该期望 AlphaFold 2 被隐藏在一个 API 后面,就像 GPT-3 一样,以高昂的费用授权给商业制药公司使用?
时间会证明一切,但如果 DeepMind 大规模依赖蛋白质数据库 (PDB) 等主要由公共系统资助的资源,以及 CASP 比赛的验证,希望它们也能回报我们,提供足够的信息,尽快复制 AlphaFold 2。
AlphaFold 2 的影响
虽然 AlphaFold 2 的细节 (理想情况下是源代码) 尚未公布,但研究人员已经对 AlphaFold 2 在蛋白质结构科学和生物学整体上的作用表现出了极大的热情。
有人说 AlphaFold 2 对结构蛋白质组学的作用就像 DNA 测序对基因组学的作用一样。
据《科学》杂志报道,马克斯・普朗克发育生物学研究所的安德烈・卢帕斯 (Andrei Lupas) 和 CASP 评估者,已经使用 AlphaFold 2 确定了一种特别复杂的膜蛋白的结构。
DeepMind 则表示,AlphaFold 团队试图解决的下一个问题是多链蛋白质复合物的结构预测。
与他们之前的工作相比,这可能不是一个巨大的飞跃,其他被授权使用 AlphaFold 2 的团队,可能也会在这方面取得实质性进展。
制药业的蛋白质设计是他们感兴趣的另一个领域,这个领域听起来十分有利可图。
正如我们所看到的,在 DeepMind 通过 CASP13 进入蛋白质结构预测领域之后,当一些知名评论人士质疑,为什么资源丰富的制药实验室和学者数十年的努力这么快就被超越了,这个领域正面临各种各样的评估。
AlphaFold 2 和竞争对手之间的差距是巨大的,而该领域的其他选手之间的差距也是相当明显的。这可能会让一些人重新考虑他们选择的领域,即对于一个年轻的计算科学家来说,他们是否应该首先研究蛋白质结构。
关于如何利用生物分子机器学习和计算生物化学推动基础研究 (以及这可能如何影响一个人的职业生涯) 的最好建议,来自 AlQuraishi 教授之前的博客文章。总的来说,他的建议可以归结为关注研究的开放性方面,比如哪些问题值得回答,而不是关注已经确定的问题。这些问题有明确的成功指标 (如 CASP 排行榜) 和可能推动下一个 AlphaFold 的丰富训练数据。
要关注蛋白质 - 配体相互作用和分子动力学等领域。毕竟,AlphaFold 2 可能在很大程度上解决了晶体形式蛋白质的结构 - 序列预测问题,但细胞质(所有生命化学发生的地方)绝对不是晶体。
关于 AlphaFold 2 的总结与思考
在一个大型研究小组几乎每月都会宣布一项新任务表现超过人类的领域里,AlphaFold 2 也足够脱颖而出。
这不仅是蛋白质结构预测问题的一个重大突破,而且它显示了,一个聪明的模型可以在没有计算机帮助的情况下完成一项人类基本上难以完成的任务。
我们都将急切地等待更多细节,以理解大规模计算成本背后的成因。神经网络确实已经被证明适合一系列科学任务,但这些应用很少在概念证明阶段之外使用,并且可能会因应用空间狭窄而受到严厉批评。
AlphaFold 2 可能会非常不同,CASP 的评估员 Andrei Lupas 在报告中说,AlphaFold 2 已经帮助他的实验室解决了一个他们已经研究 10 年之久的蛋白质结构。
类似的影响是否会广泛传播?最大的障碍将是 DeepMind 如何推广这项工作。
他们会尝试将细节保留在某种程度上的专有和隐私许可证背后?
还是他们会拥抱科学的开放本质,确保每个人都能访问相关的细节?
如果他们坚持前者,那么预期他们可能会在明年的某个时候被一个具备 AlphaFold 2 大部分功能的开源产品超越。
AlphaFold 2 也是人工智能超越人类智能的一个很好的例子,它代表了一种人类擅长的创造力和问题解决能力的混合。
通常,训练机器去做人类认为理所当然的事情十分困难,而那些在派对上让其他人印象深刻的比赛(如,象棋、快速数值计算等) 对机器来说相对容易。
从人类的角度来看,我们可能会认为这两个领域是相互矛盾的,但两者的协同作用最终导出最令人惊讶的结果,并可能促成人工智能的最终形态。
https://www.exxactcorp.com/blog/Deep-Learning/deepmind-protein-folding-casp14-alphafold2
今日科普:为什么熬夜会致癌?
做简单、真实的科普
喜欢本篇内容,请分享、点赞、在看