1. 研究动机:实现可控的蛋白质结构生成
在蛋白质设计领域,目前的AI模型主要分为两类:
1.无条件生成:模型通过随机采样生成结构,具有高多样性但缺乏可控性。
2.补全/支架(Inpainting):基于给定的部分结构进行补全,但受限于已知结构的约束。
当前方法的关键局限在于缺乏粗粒度(coarse-grained)的空间控制能力。类比于建筑设计中需要先规划整体布局再进行细节设计,蛋白质生成同样需要在原子级建模之前进行宏观层面的结构规划。
ProtComposer的核心创新在于引入了蛋白质结构的粗粒度表示——3D椭球体布局。

图1:ProtComposer概览。 左图:模型架构核心,通过不变交叉注意力机制(ICA)将椭球体布局约束融入生成过程。 中图:利用统计先验模型生成多样化的椭球体布局,从而显著提升生成蛋白质的结构多样性。 右图:支持用户自定义椭球体布局,实现对生成结构的精确控制。 |

2.椭球体表示的设计原理
相比体素(Voxel)的粒度过细和文本(Text)描述的过于抽象,椭球体(Ellipsoid)提供了适中的表示粒度。
一个椭球体包含四个关键属性:
1.空间位置(三维坐标)
2.几何形状(通过协方差矩阵定义)
3.结构类型(α-螺旋或β-折叠)
4.残基数量(所包含的氨基酸数目)

图2:从真实蛋白质到椭球体表示。这是一个自动化的数据处理流程:
(1)输入蛋白质结构;
(2)根据二级结构和空间距离进行分割;
(3)对每个区域拟合高斯分布,形成椭球体。

3.核心技术:基于几何约束的条件生成
ProtComposer基于Multiflow(一种序列-结构流匹配模型)构建。为了将椭球体布局信息融入生成过程,作者设计了SE(3)-不变交叉注意力机制(Invariant Cross Attention, ICA)。
具体而言,模型在生成每个氨基酸残基时,通过交叉注意力机制查询周围的椭球体约束,并据此调整残基的空间位置和方向。同时,利用无分类器引导(Classifier-Free Guidance, CFG)技术,可以通过超参数λ灵活调节模型对椭球体约束的遵循程度。

图3:Guidance强度(λ)的可视化。 λ=0(左):模型忽略椭球体约束,生成的结构(蓝色)与预定义布局(黄色椭球体)完全不重合。 λ=1(右):模型严格遵循椭球体约束,生成的蛋白质结构精确填充在预定义的空间区域内。 |

4.解决"模式坍塌":提升结构多样性
这是该论文的重要发现之一。现有的SOTA模型(如Multiflow, Chroma)倾向于过度生成α-螺旋束结构,螺旋比例高达73%,而自然界PDB数据库中蛋白质的螺旋比例仅约42%。这反映了生成模型存在显著的结构偏好(structural bias),倾向于生成能量更优但多样性不足的简单拓扑。
ProtComposer提出了一种创新策略:使用统计采样而非深度学习来生成椭球体布局。
作者构建了一个基于统计分布的先验模型,通过随机采样生成多样化的椭球体布局,从而引导ProtComposer生成具有不同拓扑结构的蛋白质骨架。

图4:生成样本对比。 Multiflow(左):生成的蛋白质虽然具有可折叠性,但结构类型高度单一,主要为α-螺旋束构型。 ProtComposer(右):生成的结构展现出显著的拓扑多样性,包含丰富的β-折叠元素和复杂的三维构型,更接近天然蛋白质的结构复杂度。 |
定量的结果也证实了这一点:

图5:性能对比(Pareto Frontiers)。横轴为设计性(Designability),纵轴为多样性(Diversity)或新颖性(Novelty)。ProtComposer(橙色线)在保持高设计成功率的同时,显著提升了生成结构的多样性和新颖性,完全超越了Multiflow(红线)和Chroma(蓝线)。

5.应用拓展:基于布局的结构编辑
得益于对空间布局的显式控制,ProtComposer实现了灵活的结构编辑功能。
场景一:精细编辑(Editing)
用户可以对现有蛋白质进行局部修改,例如将某个α-螺旋旋转特定角度,或调整β-折叠片层的空间位置。模型能够自动补全连接区域(Loop)并生成符合物理化学约束的完整结构。

图6:基于布局的编辑。(A)原始蛋白质结构;(B)旋转右侧螺旋元件;(C)向上平移β-折叠区域;(D)合并并扩大β-折叠区域。模型在所有情况下均能生成符合约束的高质量结构。
场景二:从头设计(Hand-Crafted Design)
当研究者通过计算预测某种特定几何构型可能具有理想的功能特性(如配体结合)时,可以通过手工定义椭球体布局进行精确设计。

图7:基于自定义布局的从头设计。即使面对人工定义的复杂布局(如左图的混合二级结构,或右图的大型β-桶状结构),模型也能够生成满足几何约束的蛋白质骨架。

6.总结
ProtComposer的出现标志着蛋白质生成模型从无约束的随机生成向可控的理性设计转变。
对于算法研究者:该工作证明了统计先验(Statistical Priors)可以有效纠正深度学习模型的分布偏差(Distributional Bias),为解决生成模型的模式坍塌问题提供了新思路。
对于生物学家:该方法提供了直观的结构设计界面。通过定义粗粒度的椭球体布局,研究者可以高效地设计具有特定空间构型的蛋白质骨架,而无需处理复杂的原子坐标。
这一方法有望在大分子药物递送载体设计、特定几何构型的酶工程以及人工多亚基复合物组装中发挥重要作用。
原文:ProtComposer: Compositional Protein Structure Generation with 3D Ellipsoids (ICLR2025)
分享人:唐子墨

