酶设计是生物技术中的关键研究领域,广泛应用于药物开发与合成生物学等方向。传统的酶功能预测或蛋白质结合口袋设计方法,往往难以充分捕捉酶-底物相互作用在催化过程中的动态特征。为应对这一挑战,本文提出了EnzymeFlow ——一种基于流匹配(flow matching)的生成模型,结合分层预训练(hierarchical pre-training)与酶-反应共演化(enzyme–reaction coevolution)策略,用于针对特定的底物与催化反应生成酶的催化口袋。
图1 EnzymeFlow方法概览
核心方法
1.数据集构建
当前数据集的主要局限在于缺乏精确的催化口袋信息。为了解决这一问题,本文提出了一个新的合成数据集 EnzymeFill,其中包含具有底物构象的精确催化口袋结构。EnzymeFill 专为酶催化口袋设计任务而构建。从 Rhea、MetaCyc和 Brenda数据库中收集数据,并使用 AlphaFill来识别所有酶的催化口袋。同时,通过反应的原子–原子映射来确定反应中心。

图2 使用 AlphaFill 进行酶活性口袋提取的工作流程
2.基于流匹配的酶催化口袋生成
(1)EnzymeFlow 在催化口袋上的定义
该模块根据催化口袋T(包括残基Cα原子的三维平移位置、相对于全局参考系的旋转矩阵、氨基酸类型)建立酶催化口袋上的条件流(可分解为对连续变量(平移与旋转)和离散变量(氨基酸类型)的概率分布)。定义的匹配向量场以已知底物ls和期望产物lp为条件,从而确保模型预测与损失函数能够反映底物与产物信息。得到模型预测的平移损失、旋转损失和氨基酸类型损失函数。


主向量场网络通过交叉注意力建模蛋白–配体相互作用,并结合 Invariant Point Attention以捕捉几何关系并预测结构。
(2)EnzymeFlow 在EC类上的定义
EnzymeFlow 利用 EC 分类提升模型在不同酶与反应间的泛化性。EC 类别被建模为离散变量 ect∈{1,…,7}∪{×} 。EC 类别的离散流从 t=0的掩码状态插值至 t=1的实际类别。以口袋框架及底物产物为条件,得到EC分类的损失函数。


最终预测通过编码器与配体特征间的交叉注意力得到。
(3)应用酶-反应共演化动力学
酶常与其所在代谢通路共同进化:当底物发生变化时,酶可能通过结构或功能上的改变来催化新的反应。为了建模这种共演化关系,EnzymeFlow 引入了酶–反应共演化矩阵U。共演化被视为离散变量,定义其流并得到损失函数。


预测通过共演化 MSA Transformer(称为 coEvoFormer)实现。
因此,包含共演化动力学的 EnzymeFlow 可整体表示为:
3.基于结构的分层预训练
分层的含义在于:模型先学习蛋白质主链结构生成 → 再学习蛋白质–配体几何关系(形成结合口袋)→ 最后在酶–反应数据集上微调以生成特定反应的催化口袋。
进行蛋白质-配体预训练时,结合了亲和力和残基–配体原子间距离作为优化信号。同时为防止生成口袋与配体表面相交,本文引入蛋白–配体交互损失。这些附加损失项提升了模型在几何约束下的泛化能力,确保生成的结合口袋更加合理与稳定。
实验结果
与DEPACT、PocketGen、RFDiffusionAA、PocketFlow²四种当前最先进的代表性基线方法进行进行比较。
1.酶催化口袋结构评估

表1 评估EnzymeFlow与基线方法生成催化口袋的结构有效性
结果表明,EnzymeFlow 及其消融变体在多个指标上均优于基线模型,包括领先模型 RFDiffusionAA 和 PocketFlow,并在 cRMSD、TM-score 与 ECacc(酶分类准确率)等关键指标上取得显著提升,同时在 AAR (氨基酸复原率)上表现具有竞争力。这说明 EnzymeFlow 能够生成结构上更合理、功能上更一致的催化口袋。
不过,EnzymeFlow 在结合得分上略低,表现为亲和力与结构置信度较低。然而需要指出的是,EnzymeFlow 生成的催化口袋的平均亲和力(-5.03)与评估集中真实酶-反应对的亲和力(-4.65)相近。这表明 EnzymeFlow 的结合表现依然在可接受范围内,因为酶与底物之间并不总是需要极强的结合才能实现催化反应——这是由酶反应的动力学机制所决定的。
2.酶功能的定量分析

图3 通过四种多标签准确度指标,在所有EC类别中的酶功能标注进行定量对比
图4 基于准确率、召回率和F1分数,对生成的各EC类催化口袋进行酶功能标注的定量对比
从图3可以看出,EnzymeFlow 及其消融模型在多标签分类的各项指标上均取得了最高表现:
准确率(Accuracy):0.2809
精确率(Precision):0.2600
召回率(Recall):0.2722
F1 分数(F1 Score):0.2504
这些结果均优于 RFDiffusionAA 和 PocketFlow 等领先模型。
此外,图4展示了各个 EC 类别下的功能准确率:EnzymeFlow 在 EC2、EC4、EC5、EC6 类别中表现突出,在 EC3 类别中表现具有竞争力,而在 EC1 类别中略低于部分基线模型。相比之下,基线模型在 EC5 与 EC6 类别中表现极差,出现频率与准确率均接近于 0。
这表明 EnzymeFlow 能够生成功能更为多样且准确的催化口袋,并在不同 EC 类别中保持较高的准确率。
当前不足与未来工作
EnzymeFlow 在为特定反应设计酶的催化口袋方面解决了若干关键难题,但仍存在一些局限性。一是当前版本的 EnzymeFlow 仅能生成催化口袋残基,无法直接生成完整的酶结构。二是当前的EnzymeFlow仅作用于酶的主链结构,尚未对酶的侧链进行建模或生成。
在未来工作中,本文希望实现催化口袋生成与功能基序补全的一体化流程。同时计划引入 DiffPack等模型,或开发全原子级别(full-atom)模型来解决侧链问题。
原论文:ENZYMEFLOW: GENERATING REACTION-SPECIFIC ENZYME CATALYTIC POCKETS THROUGH FLOW MATCHING AND CO-EVOLUTIONARY DYNAMICS
分享人:王文煜

