人体内的RNA分子就像精密的“分子机器”它们的功能不仅取决于自身的碱基序列,更与其折叠形成的空间结构密切相关。其中,RNA二级结构(由碱基配对形成的茎环结构)是理解RNA功能的关键,但传统的预测方法要么准确率不高,要么耗时太长,一直是科研界的难题。
近日,来自浙江大学、西湖大学等机构的研究团队在国际顶刊《Proceedings of the 41st International Conference on Machine Learning》发表了一项突破性成果——他们提出了一种名为RFold的新方法,将RNA二级结构预测难题转化为“棋盘摆子”问题,不仅预测精度远超现有方法,速度更是提升了8倍!
为什么RNA二级结构预测这么难?
RNA分子由A、U、C、G四种碱基组成,就像一串长短不一的“珠子”。这些珠子通过碱基配对(如A-U、G-C)折叠成特定的二级结构,而这种结构直接决定了RNA的功能(如催化反应、调控基因表达等)。

图1. RNA二级结构示意图
传统预测方法主要有两类:
1.能量最小化模型:基于热力学原理计算最稳定结构,但无法处理复杂的“假结”结构(非嵌套的碱基配对),且计算量大;
2.深度学习方法:虽能提升精度,但常因约束条件复杂导致预测结果无效,generalization能力差。
把RNA结构变成“棋盘摆子”?这个思路绝了!
图2. K-堡垒问题示意图
研究团队另辟蹊径,将RNA二级结构预测重新定义为“K-Rook匹配问题”——想象一个L×L的棋盘(对应RNA序列长度L),每个碱基对就像棋盘上的“车”,规则是:
每个“车”不能在同一行或同一列(对应每个碱基最多形成一个配对);
配对必须符合碱基互补规则(如A-U、G-C);
相邻碱基不能配对(避免过近折叠)。
通过这种转化,RFold将复杂的结构预测简化为“概率匹配”问题,再通过双向优化策略(行方向和列方向分别求解),大幅降低计算复杂度,同时保证结果100%符合生物学约束。
RFold有多强?实验数据说话!
在多个国际基准数据集上,RFold的表现惊艳:
精度碾压:在RNAStralign数据集上,F1分数达到0.977,远超传统方法(最高0.633)和主流深度学习方法(如UFold的0.915);
速度飙升:推理时间仅需0.02秒/序列,是现有最优方法的1/8,甚至比部分传统工具快20倍以上;
擅长复杂结构:在假结预测(最难的RNA结构之一)中,F1分数达到0.982,刷新领域纪录;
泛化能力强:跨数据集测试中,面对全新RNA家族仍保持高准确率,解决了深度学习模型“过拟合”痛点。

图3. RFold在实验样本上的性能
为什么这项研究很重要?
RNA结构预测是解析生命活动的关键一环,在疾病诊断(如病毒RNA靶向药物设计)、基因编辑等领域有重要应用。RFold的出现,不仅为研究者提供了更高效、更可靠的工具,更开创了“组合优化+深度学习”解决生物问题的新思路。
目前,RFold的代码已开源(github.com/A4Bio/RFold),任何人都可以免费使用。未来,这项技术有望加速RNA功能研究,推动更多生命科学突破!
结语
从“棋盘摆子”的巧思到双向优化的创新,中国团队用数学智慧破解了生物学难题。或许不久的将来,我们能借助RFold更深入地揭开RNA的神秘面纱,让生命科学研究迈上新台阶~
(关注我们,获取更多前沿生物信息学进展!)
分享人:刘洋睿

