四大AI模型对决！智峪生科联合研究揭示AI模型组合策略显著提升蛋白-短肽预测精度- 大数跨境

四大AI模型对决！智峪生科联合研究揭示AI模型组合策略显著提升蛋白-短肽预测精度

智峪生科

2025-03-17

在人工智能赋能生命科学的浪潮中，结构生物学迎来了前所未有的突破。近日，由上海智峪生物科技有限公司（简称“智峪生科”）与山东东阿阿胶股份有限公司联合开展的一项研究，对新一代AlphaFold3（AF3）及其衍生模型在蛋白-短肽复合物建模中的表现进行了深入评估。研究团队系统分析了AF3、Protenix、Chai-1、Boltz-1等前沿算法，并提出了一种更精准的预测策略，为药物设计、信号转导研究和生物分子工程提供了强有力的工具支持。

这项研究的核心问题是：如何精准预测蛋白-短肽复合物的结构？ 短肽在调控生物功能、开发新型药物等方面具有重要价值，但其结合模式的复杂性一直是结构生物学研究的难点。此前的AlphaFold2（AF2）及其多聚体版本（AF2m）在蛋白复合物建模方面取得了突破，但在处理蛋白-短肽相互作用时仍存在一定的精度局限。

那么，AF3及其新一代模型能否解决这些问题？团队对比了五种模型的预测能力，并探索了如何通过“组合策略”进一步提升准确率。 让我们一起来看看他们的发现！

Comparison of success rates across different modeling methods.

谁能胜出？

本研究的主要目标是：

评估AF3及其衍生方法（Protenix、Chai-1、Boltz-1）在蛋白-短肽复合物预测中的表现，并与AF2m进行对比。
研究不同模型的优势，探索如何提升预测成功率。
提出优化的模型组合策略，提高蛋白-短肽相互作用预测的精准度。

为了科学评估这些模型，研究团队选取了99个蛋白-短肽复合物结构作为基准测试集，并使用多个关键指标进行精准测量，包括：

Fnat（native contact fraction）：衡量预测结果与真实晶体结构的相似度，Fnat≥ 0.8 代表高精度预测。
DockQ：综合评价蛋白-蛋白或蛋白-短肽对接模型的质量。
pLDDT、ipTM 等评分，用于判断预测模型的可靠性。

Representative cases demonstrating the superiority of next-generation modeling methods over previous-generation methods

AF3真的比AF2m强吗？

研究结果显示，新一代方法在蛋白-短肽预测中展现出了显著优势！

单个方法对比

AF2m（AlphaFold2-multimer）：高精度预测成功率仅53%，表现最差。
AF3（AlphaFold3）：提升至76.8%，表现大幅改善！
Chai-1（带MSA）：成功率78.8%，即使不使用MSA也有70.7%。
Boltz-1：达到71.7%，略低于Chai-1。
Protenix：表现最优，达到了80.8%，成为本次评估中的“冠军”！

不同精度阈值下的成功率

方法	高精度 (Fnat ≥ 0.8)	中等精度 (Fnat ≥ 0.5)	可接受 (Fnat ≥ 0.3)
AF2m	53%	75%	85%
AF3	76.8%	89.9%	90.9%
Chai-1 (MSA)	78.8%	88.9%	89.9%
Boltz-1	71.7%	85.8%	88.9%
Protenix	80.8%	90.0%	89.9%

可以看到，Protenix的单一模型预测效果最佳，而AF3、Chai-1等模型的成功率也远超AF2m。

Representative cases of unsuccessful structural prediction

组合策略：两种模型联手，准确率可达90%！

虽然单个方法已经有所提升，但研究团队发现，如果将多种方法结合使用，效果会更好！

最佳组合策略

AF3+Protenix 组合：

高精度预测成功率从80%提升至89%。

中等精度预测成功率达到 97%。
AF3+Protenix+Chai-1组合

高精度预测成功率进一步提高至91%！

覆盖 97%以上的蛋白-短肽复合物。

Comparison of prediction accuracy of receptors and pocket sites

为什么组合策略有效？

研究发现，不同模型在预测时存在互补性，即某些复合物的正确预测可能仅由某一特定模型成功完成。例如：

Protenix单独预测成功的复合物：7个
Chai-1单独预测成功的复合物：2个
当AF3、Protenix、Chai-1结合使用，成功预测的复合物数增加至94个（99个中的95%）

这表明，不同模型在不同类型的蛋白-短肽复合物预测中可能有各自的优势，因此将它们结合使用可以达到更高的预测成功率！

Performance of each model (from ranked 0 to ranked 4) for each method

预测失败的原因

尽管新一代方法表现出色，但仍然存在一定的失败案例，主要原因包括：

受体蛋白结构预测错误：部分模型未能正确建模蛋白的空间构象。
结合位点预测错误：有些模型未能找到肽段的正确结合位置。
结合模式预测错误：预测出的短肽结合模式与真实结构存在较大偏差。

例如，在3N2D（I型核糖体失活蛋白复合物）的预测中，所有方法均未能正确预测短肽的结合位点。而在3WBN（MATE转运蛋白复合物）的预测中，模型未能识别短肽是环肽的特点，导致错误的结合模式。

Correlation of different indicators with (A) Fnat and (B) DockQ

研究意义与展望

本研究首次系统评估了AF3及其衍生方法在蛋白-短肽复合物预测中的性能，并提出了一种有效的多模型组合策略，将高精度预测成功率提升至 90% 以上。这不仅为蛋白相互作用研究提供了新的工具，也为短肽药物设计带来了更精确的计算手段。

Success rates of protein-peptide structural predictions after filtering methods/models with indicators

未来，这一领域可能会继续向以下方向发展：

结合实验数据优化AI模型，进一步提高预测精度。
开发更智能的预测筛选算法，减少计算资源消耗，提高效率。
拓展至蛋白-小分子、蛋白-核酸相互作用预测，推动AI在结构生物学中的应用。

Overlap of successful cases predicted by different modeling methods

新一代AI模型，正在加速破解生物大分子的奥秘。期待更多突破，助力精准医学与新药研发！

文章转载自：BioTender

ZELIXIR

关于智峪生科

智峪生科是一家通过AI技术，推动合成生物学创新与应用，赋能实验验证及产业化、商业化的一体化生物智造公司。为食品保健、美容化妆品、医疗健康、生物制药、新材料、农业畜牧业、新能源等领域客户，提供高品质生物基原料和高效的原料研产销解决方案。致力于解决环境保护、可持续性发展和安全性等社会问题，与各产业革新企业合力推动新质生产力发展，引领人类进入全面绿色生活新时代。

【声明】内容源于网络

智峪生科

引领人类进入全面绿色生活新时代

内容 43

粉丝 0

智峪生科引领人类进入全面绿色生活新时代

总阅读1

粉丝0

内容43