数据复杂、方向不明?
每一个科研难题,
都值得定制化的解决方案——个性化分析,
匹配对的人,直击问题本质。
本研究围绕宏基因组中低丰度微生物难以恢复基因组的长期难题,提出了一个名为 Bin Chicken 的新算法框架。该工具通过标记基因的序列窗口匹配,自动筛选出最有潜力获得新基因组的样本组合,并结合定向共组装与差异覆盖度联合分箱策略,使研究者能够在无需增加测序成本的情况下,大规模、高效率地从公共宏基因组数据中发掘先前未被发现的微生物基因组。文章通过对约20万份公共宏基因组的分析,证明 Bin Chicken 在获取稀有生物圈(rare biosphere)和高度新颖微生物方面具有显著优势,并显著扩展了细菌与古菌的系统发育树。
公众号发送”我要导图“即可获取高清导图

Figure 1 思维导图
该研究的核心目的是解决常规单样本组装难以恢复低丰度微生物基因组的问题。标准方法往往因测序深度不足而忽略稀有菌群,而这些微生物却可能在生态过程、物质代谢或群落恢复力中发挥关键作用。传统提升测序深度的方式成本过高,因此研究团队提出通过多样本共组装来提高特定微生物的有效测序覆盖。但共组装同样面临组合数量过大、计算开销高以及潜在嵌合风险的问题,因此亟需一种自动化且基于生物学特征的样本优选机制。
Figure 2 Bin Chicken 使用标记基因来选择最佳组装,以从宏基因组中恢复基因组
在此背景下,Bin Chicken 采用一种以单拷贝标记基因为核心的策略,先利用 SingleM 从原始 reads 中提取标记基因,并将其切割成高度保守的短序列窗口。然后通过精准匹配这些窗口序列,自动识别哪些样本之间共享未被参考基因组代表的、具有属级或更高分歧度的新颖标记基因。通过对每个样本的窗口匹配关系进行贪心聚类,Bin Chicken 能确定最适合共同组装的样本子集,同时也能决定哪些样本可用于差异覆盖度辅助分箱,从而最大化新基因组的可恢复性。
在确定共组装样本组后,研究团队采用 Aviary 运行标准化的质量控制、组装与分箱流程,并先通过参考比对过滤掉已知基因组的 reads,以简化组装复杂度。若首次共组装恢复到的基因组达到中等质量以上,Bin Chicken 会利用这些新基因组更新参考集、继续迭代搜索,以进一步推动剩余新颖序列的发掘。 应用层面上,研究者将 Bin Chicken 用于约 20 万个公共宏基因组数据集,筛选出超过一万种推荐共组装方案,并最终执行了 800 组共组装。结果共恢复出 77,562 个中高质量基因组,代表 38,495 个物种,其中包含来自 6 个新门、41 个新纲与超过 24,000 个此前未被任何数据库收录的物种。系统发育分析显示,这些稀有生物圈基因组使细菌和古菌的已知系统发育多样性分别提升 12% 与 18%,在 35 个门中实现了超过 25% 的分支长度增长。与同类顶级项目 SPIRE 相比,Bin Chicken 每个样本恢复的新增物种数量提升超过 20 倍。
Figure 3 联合组装在整个原核生物生命树中恢复了基因组的新颖性
进一步分析表明,这些新物种具有广泛的生境来源,如水体、地下水、污水处理系统、土壤与微生物垫,并且多数属于全球稀有、丰度低于 1% 的微生物。此外,研究识别出大量此前未见的蛋白质家族,累积曲线近乎线性,展示出巨大潜在未探索空间。代谢注释揭示新物种中厌氧、发酵或未知代谢路径的比例显著高于既有数据库,尤其在新发现的 6 个细菌门中,几乎所有代表基因组均呈现严格厌氧特性,强调其在全球碳循环、硫循环和其他厌氧生态过程中的潜在关键作用。
Figure 4 在全球各类生物群系中都发现了 RBGs
综上,Bin Chicken 通过创新性地将标记基因序列窗口匹配用于共组装样本筛选,大幅提升了从大量异质宏基因组中恢复稀有、低丰度和高新颖度微生物基因组的效率。在无需额外测序成本的前提下,它成功扩展了原核生物的系统发育树,为 6 个新门与数万新物种提供了基因组基础。这不仅丰富了我们对地球微生物多样性的认识,也为研究稀有微生物在生态系统中的功能提供了新的突破口。 尽管共组装可能压制菌株水平的分辨能力,限制了对同一物种多个菌株的恢复,但其在提升总体基因组质量与发掘新物种方面的优势更为突出。未来,通过进一步扩展数据集规模或结合长读长技术、改进的分箱方法,Bin Chicken 的策略有望推动我们对稀有微生物生态学与代谢潜能的认识迈向更细致的层次,并在全球多样生态系统中持续揭示仍然隐藏的微生物暗物质(microbial dark matter)。
Aroney, S. T. N., Newell, R. J. P., Tyson, G. W. & Woodcroft, B. J. Bin Chicken: targeted metagenomic coassembly for the efficient recovery of novel genomes. Nature Methods (2025) doi:10.1038/s41592-025-02901-1.

