大数跨境
0
0

突破RNA结构预测难题!创新算法RFold,效率提升8倍+

突破RNA结构预测难题!创新算法RFold,效率提升8倍+ USTC大规模智算实验室
2025-08-14
0
导读:突破RNA结构预测难题!创新算法RFold,效率提升8倍+

人体内的RNA分子就像精密的“分子机器”它们的功能不仅取决于自身的碱基序列,更与其折叠形成的空间结构密切相关。其中,RNA二级结构(由碱基配对形成的茎环结构)是理解RNA功能的关键,但传统的预测方法要么准确率不高,要么耗时太长,一直是科研界的难题。

近日,来自浙江大学、西湖大学等机构的研究团队在国际顶刊《Proceedings of the 41st International Conference on Machine Learning》发表了一项突破性成果——他们提出了一种名为RFold的新方法,将RNA二级结构预测难题转化为棋盘摆子问题,不仅预测精度远超现有方法,速度更是提升了8倍!

为什么RNA二级结构预测这么难?

RNA分子由AUCG四种碱基组成,就像一串长短不一的珠子。这些珠子通过碱基配对(如A-UG-C)折叠成特定的二级结构,而这种结构直接决定了RNA的功能(如催化反应、调控基因表达等)。

图1.  RNA二级结构示意图

传统预测方法主要有两类:

1.能量最小化模型:基于热力学原理计算最稳定结构,但无法处理复杂的假结结构(非嵌套的碱基配对),且计算量大;

2.深度学习方法:虽能提升精度,但常因约束条件复杂导致预测结果无效,generalization能力差。

RNA结构变成棋盘摆子?这个思路绝了!

图2. K-堡垒问题示意图

研究团队另辟蹊径,将RNA二级结构预测重新定义为“K-Rook匹配问题——想象一个L×L的棋盘(对应RNA序列长度L),每个碱基对就像棋盘上的,规则是:

    • 每个不能在同一行或同一列(对应每个碱基最多形成一个配对);

    • 配对必须符合碱基互补规则(如A-UG-C);

    • 相邻碱基不能配对(避免过近折叠)。

通过这种转化,RFold将复杂的结构预测简化为概率匹配问题,再通过双向优化策略(行方向和列方向分别求解),大幅降低计算复杂度,同时保证结果100%符合生物学约束。

RFold有多强?实验数据说话!

在多个国际基准数据集上,RFold的表现惊艳:

    • 精度碾压:在RNAStralign数据集上,F1分数达到0.977,远超传统方法(最高0.633)和主流深度学习方法(如UFold0.915);

    • 速度飙升:推理时间仅需0.02/序列,是现有最优方法的1/8,甚至比部分传统工具快20倍以上;

    • 擅长复杂结构:在假结预测(最难的RNA结构之一)中,F1分数达到0.982,刷新领域纪录;

    • 泛化能力强:跨数据集测试中,面对全新RNA家族仍保持高准确率,解决了深度学习模型过拟合痛点。

图3. RFold在实验样本上的性能

为什么这项研究很重要?

RNA结构预测是解析生命活动的关键一环,在疾病诊断(如病毒RNA靶向药物设计)、基因编辑等领域有重要应用。RFold的出现,不仅为研究者提供了更高效、更可靠的工具,更开创了组合优化+深度学习解决生物问题的新思路。

目前,RFold的代码已开源(github.com/A4Bio/RFold),任何人都可以免费使用。未来,这项技术有望加速RNA功能研究,推动更多生命科学突破!

结语

棋盘摆子的巧思到双向优化的创新,中国团队用数学智慧破解了生物学难题。或许不久的将来,我们能借助RFold更深入地揭开RNA的神秘面纱,让生命科学研究迈上新台阶~

(关注我们,获取更多前沿生物信息学进展!)

分享人:刘洋睿

【声明】内容源于网络
0
0
USTC大规模智算实验室
大规模计算智能(LIC)实验室由包括中科大在内的多所高校教授联合共建,主要研究方向有系统网络、联邦学习和大模型AI。实验室以智算网络系统平台为硬件支撑,以多名硕博组成的高素质团队为人才基础,参与过多项重点项目,发表过多篇高水平论文。
内容 14
粉丝 0
USTC大规模智算实验室 大规模计算智能(LIC)实验室由包括中科大在内的多所高校教授联合共建,主要研究方向有系统网络、联邦学习和大模型AI。实验室以智算网络系统平台为硬件支撑,以多名硕博组成的高素质团队为人才基础,参与过多项重点项目,发表过多篇高水平论文。
总阅读11
粉丝0
内容14