大数跨境

四大AI模型对决!智峪生科联合研究揭示AI模型组合策略显著提升蛋白-短肽预测精度

四大AI模型对决!智峪生科联合研究揭示AI模型组合策略显著提升蛋白-短肽预测精度 智峪生科
2025-03-17
2

在人工智能赋能生命科学的浪潮中,结构生物学迎来了前所未有的突破。近日,由上海智峪生物科技有限公司(简称“智峪生科”)与山东东阿阿胶股份有限公司联合开展的一项研究,对新一代AlphaFold3(AF3)及其衍生模型在蛋白-短肽复合物建模中的表现进行了深入评估。研究团队系统分析了AF3、Protenix、Chai-1、Boltz-1等前沿算法,并提出了一种更精准的预测策略,为药物设计、信号转导研究和生物分子工程提供了强有力的工具支持。

这项研究的核心问题是:如何精准预测蛋白-短肽复合物的结构? 短肽在调控生物功能、开发新型药物等方面具有重要价值,但其结合模式的复杂性一直是结构生物学研究的难点。此前的AlphaFold2(AF2)及其多聚体版本(AF2m)在蛋白复合物建模方面取得了突破,但在处理蛋白-短肽相互作用时仍存在一定的精度局限。

那么,AF3及其新一代模型能否解决这些问题?团队对比了五种模型的预测能力,并探索了如何通过“组合策略”进一步提升准确率。 让我们一起来看看他们的发现!

Comparison of success rates across different modeling methods.

谁能胜出?

本研究的主要目标是:

  • 评估AF3及其衍生方法(Protenix、Chai-1、Boltz-1)在蛋白-短肽复合物预测中的表现,并与AF2m进行对比。
  • 研究不同模型的优势,探索如何提升预测成功率
  • 提出优化的模型组合策略,提高蛋白-短肽相互作用预测的精准度。

为了科学评估这些模型,研究团队选取了99个蛋白-短肽复合物结构作为基准测试集,并使用多个关键指标进行精准测量,包括:

  • Fnat(native contact fraction):衡量预测结果与真实晶体结构的相似度,Fnat≥ 0.8 代表高精度预测。

  • DockQ:综合评价蛋白-蛋白或蛋白-短肽对接模型的质量

  • pLDDT、ipTM 等评分,用于判断预测模型的可靠性。

Representative cases demonstrating the superiority of next-generation modeling methods over previous-generation methods

AF3真的比AF2m强吗

研究结果显示,新一代方法在蛋白-短肽预测中展现出了显著优势!

单个方法对比

  • AF2m(AlphaFold2-multimer):高精度预测成功率仅53%,表现最差。

  • AF3(AlphaFold3):提升至76.8%,表现大幅改善!

  • Chai-1(带MSA):成功率78.8%,即使不使用MSA也有70.7%。

  • Boltz-1:达到71.7%,略低于Chai-1。

  • Protenix:表现最优,达到了80.8%,成为本次评估中的“冠军”!


不同精度阈值下的成功率

方法
高精度 (Fnat ≥ 0.8)
中等精度 (Fnat ≥ 0.5)
可接受 (Fnat ≥ 0.3)
AF2m
53%
75%
85%
AF3
76.8%
89.9%
90.9%
Chai-1 (MSA)
78.8%
88.9%
89.9%
Boltz-1
71.7%
85.8%
88.9%
Protenix 80.8% 90.0% 89.9%

可以看到,Protenix的单一模型预测效果最佳,而AF3、Chai-1等模型的成功率也远超AF2m。

Representative cases of unsuccessful structural prediction

组合策略:两种模型联手,准确率可达90%!

虽然单个方法已经有所提升,但研究团队发现,如果将多种方法结合使用,效果会更好!

最佳组合策略

  1. AF3+Protenix 组合:

    高精度预测成功率从80%提升至89%
    中等精度预测成功率达到 97%
  2. AF3+Protenix+Chai-1组合

    高精度预测成功率进一步提高至91%
    覆盖 97%以上的蛋白-短肽复合物。

Comparison of prediction accuracy of receptors and pocket sites

为什么组合策略有效?

研究发现,不同模型在预测时存在互补性,即某些复合物的正确预测可能仅由某一特定模型成功完成。例如:

  • Protenix单独预测成功的复合物:7个

  • Chai-1单独预测成功的复合物:2个

  • 当AF3、Protenix、Chai-1结合使用,成功预测的复合物数增加至94个(99个中的95%)

这表明,不同模型在不同类型的蛋白-短肽复合物预测中可能有各自的优势,因此将它们结合使用可以达到更高的预测成功率!

Performance of each model (from ranked 0 to ranked 4) for each method

 预测失败的原因

尽管新一代方法表现出色,但仍然存在一定的失败案例,主要原因包括:

  1. 受体蛋白结构预测错误:部分模型未能正确建模蛋白的空间构象。

  2. 结合位点预测错误:有些模型未能找到肽段的正确结合位置。

  3. 结合模式预测错误:预测出的短肽结合模式与真实结构存在较大偏差。

例如,在3N2D(I型核糖体失活蛋白复合物)的预测中,所有方法均未能正确预测短肽的结合位点。而在3WBN(MATE转运蛋白复合物)的预测中,模型未能识别短肽是环肽的特点,导致错误的结合模式。

Correlation of different indicators with (A) Fnat and (B) DockQ

研究意义与展望

本研究首次系统评估了AF3及其衍生方法在蛋白-短肽复合物预测中的性能,并提出了一种有效的多模型组合策略,将高精度预测成功率提升至 90% 以上。这不仅为蛋白相互作用研究提供了新的工具,也为短肽药物设计带来了更精确的计算手段。

Success rates of protein-peptide structural predictions after filtering methods/models with indicators

未来,这一领域可能会继续向以下方向发展:

  • 结合实验数据优化AI模型,进一步提高预测精度。

  • 开发更智能的预测筛选算法,减少计算资源消耗,提高效率。

  • 拓展至蛋白-小分子、蛋白-核酸相互作用预测,推动AI在结构生物学中的应用。

Overlap of successful cases predicted by different modeling methods

新一代AI模型,正在加速破解生物大分子的奥秘。期待更多突破,助力精准医学与新药研发!

文章转载自:BioTender

ZELIXIR


关于智峪生科



智峪生科是一家通过AI技术,推动合成生物学创新与应用,赋能实验验证及产业化、商业化的一体化生物智造公司。为食品保健、美容化妆品、医疗健康、生物制药、新材料、农业畜牧业、新能源等领域客户,提供高品质生物基原料和高效的原料研产销解决方案。致力于解决环境保护、可持续性发展和安全性等社会问题,与各产业革新企业合力推动新质生产力发展,引领人类进入全面绿色生活新时代。

【声明】内容源于网络
0
0
智峪生科
引领人类进入全面绿色生活新时代
内容 43
粉丝 0
智峪生科 引领人类进入全面绿色生活新时代
总阅读1
粉丝0
内容43