核心亮点
原生且高效的多链蛋白质建模:APM 从根本上解决了多链蛋白质建模的难题,它能够原生支持对包含多个链的蛋白质复合物进行一体化建模,而无需依赖诸如使用poly-G伪序列等技巧来人为连接不同的链条并将其伪装成单链进行处理
。这一能力的实现,得益于其独特的数据整合策略(例如,在训练过程中混合使用大量的单链和多链蛋白质数据,使得模型能同时学习链内和链间的结构规律 )以及经过精心优化的模型结构设计(例如,在模型中引入了先进的链间与链内注意力机制,以更好地捕捉不同链之间以及同一链内部残基间的复杂依赖关系 )。这些设计共同确保了 APM 能够更真实地模拟天然蛋白质复合物的复杂形态和相互作用模式。
创新的全原子结构生成与精炼机制:APM 采用了一种精巧的、包含三个核心模块的集成架构,以实现对蛋白质全原子结构的高效生成与后续精炼。这三个模块分别是:
- Seq&BB 模块
此模块是基于先进的流匹配(flow-matching)技术构建的蛋白质生成模型,其核心功能是负责同步协同地生成蛋白质的骨架(Backbone, BB)结构以及相应的氨基酸序列(Sequence, Seq) 。 - Sidechain 模块
该模块扮演着全原子结构补完模型的角色。它接收来自 Seq&BB 模块生成的序列和骨架信息,并在此基础上精确预测各个氨基酸残基的侧链(Sidechain)构象,从而构建出完整的全原子蛋白质结构 。 - Refine 模块
作为全原子蛋白质精炼模型,Refine 模块负责对前两个模块生成的初始全原子结构进行细致的调整和优化。它利用完整的全原子信息来进一步完善蛋白质的序列和骨架结构,致力于解决潜在的原子冲突或不合理构象,使最终生成的蛋白质结构在能量和几何特性上更接近天然、稳定的状态 。 这种模块化的设计巧妙地将序列/骨架的生成过程与侧链构象的预测过程分离开来,有效解决了因两者训练目标和输入要求的差异而可能导致的模型优化不兼容问题 。
图3 APM 训练过程的两个阶段
强大的序列-结构依赖性学习能力:蛋白质的氨基酸序列与其三维结构之间存在着深刻且复杂的依赖关系,准确学习这种依赖性是蛋白质结构预测与设计的核心。为应对这一挑战,APM 在其设计中实施了两种关键策略: 首先,它创新性地解耦了序列和结构在流匹配过程中的加噪路径,这意味着序列的噪声水平和结构的噪声水平可以不完全对齐。这种设计最大程度地减少了因同步加噪可能对两者固有依赖关系造成的干扰,使得模型能更纯粹地学习它们之间的映射关系
。 其次,在模型的训练流程中,APM 被设计以50%的概率执行蛋白质折叠(由序列预测结构)或反向折叠(由结构预测序列)任务。这种双向学习的机制迫使模型从两个不同的角度深入理解和掌握序列与结构之间的内在联系和转换规律 。
卓越的下游任务应用与SOTA性能:APM 不仅在诸如无条件生成、条件生成、单链与多链蛋白质的折叠及反向折叠等通用蛋白质相关任务中展现了其坚实的基础能力
,更在极具挑战性的特定功能蛋白质设计任务中证明了其卓越的性能和广泛的应用前景。特别值得一提的是,在对抗体设计(例如,CDR-H3环的共设计)和功能性结合肽设计等当前生物医药领域的热点和难点问题上,APM 通过针对性的监督微调(Supervised Fine-Tuning, SFT)策略,其性能表现已成功超越了目前领域内公开的最先进(State-Of-The-Art, SOTA)基线方法 。这充分展示了APM在设计具有更高结合亲和力、更优生物活性的新型蛋白质复合物方面的巨大潜力。此外,APM 在这些复杂任务中的零样本生成能力也得到了验证,进一步证实了其在无需大量任务特定数据的情况下,依然能够有效生成具有预期链间相互作用的蛋白质分子的强大实力 。
文献来源
Chen, R., Xue, D., Zeng, X. et al. An All-Atom Generative Model for Designing Protein Complexes. ICML (2025).
相关链接
-
代码链接: https://github.com/bytedance/apm (截至本文发布,代码尚未开源)

