大数跨境
0
0

AlphaFold2论文精读00:总览

AlphaFold2论文精读00:总览 USTC大规模智算实验室
2025-07-18
0
导读:AlphaFold2论文精读00:总览
(阅读时对基础概念存在疑惑可先阅读专栏01和02篇)
前言
    蛋白质作为对生命至关重要的生物大分子,了解它们的结构有助于理解它们的功能机制。在AlphaFold2论文投稿时,已有数十亿条已知蛋白质序列,但即使通过巨大的实验努力,也只确定了大约十万种独特蛋白质的结构,堪称沧海一粟。要想通过实验确定单一蛋白质的结构,往往也需要数月乃至数年的艰苦努力。因此,相对准确的结构预测方法存在很大的价值。仅根据蛋白质的氨基酸序列预测蛋白质可能具有的三维结构,在50多年以来一直是一个重要的开放性研究问题。之前的工作都远远达不到原子级精度,尤其在没有已知同源结构的情况下。AlphaFold2提出了第一个在没有已知同源结构的情况下,也能在原子级精度上精确预测蛋白质结构的计算方法。在CASP14上的测试验证了其准确性,且大大优于其他方法。
注1:CASP(Critical Assessment of protein Structure Prediction,蛋白质结构预测技术的关键测试)是自1994年以来每两年进行一次的全球范围内的蛋白质结构预测竞赛,是全球结构预测领域极具权威性的竞赛。
注2:RMSD,即均方根偏差。图1a中统计的是预测原子结构与实验测得原子结构之间的RMSD,该值越小表示预测越精确。
tips:02篇中介绍到,AlphaFold2也要接受同源序列集MSA作为输入。但相比先前工作,它不要求MSA中存在某个序列,其结构在结构数据库中已知(不依赖结构模板的含义)。
图1. AlphaFold2在CASP14上的表现。
模型架构
图2. AlphaFold2模型架构。
模型大体可以分为三部分:
1.数据输入与处理。根据输入序列,搜索数据库,并通过一系列数据处理,最终得到MSA、残基对表示矩阵和结构模板(非必需)三项输入,并整合为MSA representation和pair representation两条数据流。
2.Evoformer:编码器,融合并更新MSA representation和pair representation两条数据流,使序列信息和残基对信息实现更好的表示与融合。
图3. Evoformer模块结构。
3.Structure module:结构预测模块,根据Evoformer更新后的single representation(MSA representation中对应于输入序列的那一条)和pair representation预测蛋白质分子结构。
图4. Structure module模块结构。
模型细节将于专栏后续篇章中更新。
参考资料:
1.论文《Highly accurate protein structure prediction with AlphaFold》及其补充材料
2.维基百科

【声明】内容源于网络
0
0
USTC大规模智算实验室
大规模计算智能(LIC)实验室由包括中科大在内的多所高校教授联合共建,主要研究方向有系统网络、联邦学习和大模型AI。实验室以智算网络系统平台为硬件支撑,以多名硕博组成的高素质团队为人才基础,参与过多项重点项目,发表过多篇高水平论文。
内容 14
粉丝 0
USTC大规模智算实验室 大规模计算智能(LIC)实验室由包括中科大在内的多所高校教授联合共建,主要研究方向有系统网络、联邦学习和大模型AI。实验室以智算网络系统平台为硬件支撑,以多名硕博组成的高素质团队为人才基础,参与过多项重点项目,发表过多篇高水平论文。
总阅读11
粉丝0
内容14