Science：菌群越复杂越好猜？涌现简单性会自动化繁为简- 大数跨境

首页

Science：菌群越复杂越好猜？涌现简单性会自动化繁为简

集智俱乐部

2026-06-25

导读：复杂系统中的涌现降维现象

导语

为什么一个系统越复杂，反而越容易预测？一项发表于《Science》的研究提出了一个反常识发现：在微生物群落中，随着物种数量不断增加，系统并没有变得更加不可捉摸，而是逐渐收敛到少数几个主导维度上。研究团队建立了一套量化框架，发现高多样性群落不仅更加稳定，而且能够用更少的信息实现更准确的预测。这种现象被称为“涌现可预测性”（Emergent Predictability）。研究表明，复杂系统中的大量微观细节并不会无限累积复杂性，而可能通过反馈机制压缩为少数关键变量，为理解微生物生态、气候系统乃至更广泛复杂系统中的“降维规律”提供了新的视角。

关键词：涌现可预测性、复杂系统、粗粒化、反馈机制、多样性、帕累托前沿

郭瑞东丨作者

张江丨审校

按照常识，一个系统里的变量越多，往往就越难预测。一锅放了二十几种食材的乱炖，香料、肉类、蔬菜彼此交织，这锅汤最终呈现出的风味，通常很难仅凭单个成分直观推断。

但今年4月发表于Science的一项研究却发现，在微生物世界里，情况可能恰恰相反：菌种越多，系统反而越容易预测。当一个微生物群落从几种菌扩展到几十种菌时，它在微观层面确实变得更加复杂；然而在宏观功能层面，却开始自发收敛到少数几个主导变量上。研究者将这种现象称为涌现可预测性（emergent predictability）。

这有些像一幅印象派画作：近看是无数复杂而杂乱的笔触，退后几步，整体结构反而变得清晰可辨。不过，一个反常识现象要成立，首先需要回答一个问题：什么叫“更容易预测”？

论文题目：Emergent predictability in microbial ecosystems

论文链接：https://www.science.org/doi/10.1126/science.adr1440

发表日期：2026年4月9日

发表期刊：Science

量化评估并拆解涌现简单性

仅仅观察到高多样性群落表现得更稳定，并不能证明系统真的变得更容易预测。它也可能只是随机波动被平均后的结果。因此，研究者首先建立了一套量化框架，希望回答一个更具体的问题：随着微生物群落变得越来越复杂，其宏观功能究竟需要多少信息才能被准确预测？

在这项研究中，研究人员从一个固定的菌株库出发，通过组合抽样构建不同组成和丰富度的微生物群落，每个群落包含S个物种。随后，他们记录每个群落的物种丰度n_i，并测量对应的宏观功能指标Y（如代谢产物浓度）。

图1：实验设计流程图

如果系统真的存在某种“涌现简单性”，那么理论上，我们未必需要掌握每一种细菌的全部信息，就能够预测群落的整体行为。为了检验这一点，研究者开始尝试对群落组成进行压缩。

他们不再逐个追踪所有物种，而是将其归并为更少的功能组（图1B），即把S个物种划分为远小于S的K个功能类（functional classes）。这些功能组既可以依据分类学关系、代谢通路或系统发育距离划分，也可以完全由数据驱动生成。这种用更少类别描述更多物种的过程，被称为粗粒化（coarse-graining）。本质上，研究者是在问：如果不再关心每一种细菌的具体身份，而只保留更粗略的功能分类，还能否准确预测系统行为？

为了回答这个问题，研究者引入了两个指标。第一个指标衡量信息压缩的程度，采用物种标签与粗粒化类别标签之间的互信息表示，记为I(Ψ)。I(Ψ)越小，说明压缩越彻底；I(Ψ)越大，则意味着保留了更多原始组成信息。第二个指标衡量预测误差，即粗粒化后仍有多少系统变化无法被解释，用无法解释方差占比（Fraction of Variance Unexplained，FVU）表示。FVU越小，说明预测能力越强。

接下来，研究者比较了大量不同的粗粒化方案（图1C）。有些方案保留了更多物种信息，有些则进行了更激进的压缩。对于每一种方案，都可以同时得到一个“信息量”和“预测误差”的组合结果。将这些方案放在一起后，会形成一条代表最佳权衡关系的边界，即帕累托前沿（Pareto frontier）。这条边界反映了系统在“信息复杂度”和“预测能力”之间能够达到的最佳平衡。

更重要的是，当群落多样性发生变化时，这条边界也会随之移动。通过比较不同多样性水平下帕累托前沿的位置，研究者便能够观察系统是变得更容易压缩、更容易预测，还是仅仅变得更加稳定，从而量化所谓的“涌现简单性”。

不过，“系统变简单”本身并不是单一现象。一个系统可能只是变得更加稳定，也可能更容易被压缩描述，或者真的开始被少数主导变量所约束。为了区分这些不同来源的简单化过程，研究者进一步将涌现简单性拆分为三个彼此独立的维度（图2）。

为了理解这三个维度，可以把微生物群落想象成一支不断扩充成员的合唱团。

图2：涌现简单性的三个维度

第一个维度叫涌现可重复性（emergent reproducibility），对应的是“人多声稳”。一支合唱团人数越多，单个成员的发挥对整体效果的影响往往越小，因此每次演出的音量和节奏都会更加稳定。对应到微生物系统中，就是随着物种丰富度增加，群落宏观属性Y（如代谢产物浓度）的波动范围逐渐收缩（图2D）。此时系统表现得更稳定了，但这种稳定更多来自随机波动被平均，并不意味着系统变得更容易理解。

第二个维度叫可粗粒化（coarse-grained），对应的是“分声部听音”。听合唱时，我们未必需要分辨每位歌手的声音，只需区分高声部、低声部等几个大类，就能大致把握整体旋律。类似地，在微生物群落中，即使不追踪每个具体物种，只保留更粗略的功能分类，依然能够保留相当强的预测能力（图2E）。这说明系统内部并非完全杂乱无章，而是存在某种能够被压缩和概括的结构。

而第三维度涌现可预测性（emergent predictability）则最反直觉，也是论文真正关注的核心。对于低多样性群落，要预测其整体行为，往往需要掌握大量关于具体物种的信息；而在高多样性群落中，只需知道少量粗粒化信息，例如不同功能组的大致比例，就能够做出更准确的预测。换句话说，随着系统变得越来越复杂，决定其行为的有效变量反而变少了。

在图2F中，高多样性群落对应的帕累托前沿（紫色）整体移动到低多样性群落（橙色）的左下方，这意味着两件事同时发生了：

在相同信息复杂度下，预测误差更低；
或者在相同预测精度下，所需的信息量更少。

至此，文章开头提出的那个问题有了答案。所谓“更容易预测”，并不是系统中的组成成分减少了，而是系统的行为开始受到少数主导轴的约束。随着多样性增加，越来越多的微观细节被吸收到这些主导轴中，因此虽然系统包含的物种更多了，但描述和预测其宏观行为所需的信息反而更少了。

最反直觉的结果出现了：菌越多，越容易预测

前面的分析仍然属于理论框架。那么，在真实微生物群落中，涌现简单性真的存在吗？

为此，研究团队进一步分析了两组已公开发表的实验数据：一组来自包含25株肠道菌的合成群落体系，通过测量不同菌群组合产生的发酵产物来评估群落功能；另一组来自土壤微生物合成群落体系，通过观察目标共生菌的定殖情况，评估群落组成对生态功能的影响。研究者将这些群落按照多样性划分为低、中、高三个等级，并利用前述框架逐一检验涌现简单性的三个维度。

结果首先验证了涌现可重复性。随着群落多样性增加，无论是发酵产物浓度还是关键菌种丰度，其波动幅度都持续下降，说明高多样性群落确实表现出更强的稳定性。与此同时，可粗粒化特征也得到了验证。即使不追踪每一种细菌，只保留较粗略的功能分类信息，研究者依然能够较好地预测系统行为。这表明微生物群落内部并非完全杂乱无章，而是存在能够被压缩描述的结构。

但真正关键的发现来自第三个维度——涌现可预测性。研究者比较了不同多样性水平下的帕累托前沿，发现高多样性群落对应的前沿整体向左下方移动。按照前文建立的框架，这意味着系统同时实现了两件看似矛盾的事情：一方面预测误差下降，另一方面所需的信息量也减少了。

这正是本文最反直觉的结果。按照通常理解，系统越复杂，应该越难预测；然而在这些微生物群落中，随着物种数量增加，预测系统行为所需的信息反而越来越少。复杂性并没有消失，但开始被压缩到少数几个主导维度之中。

研究者进一步对肠道菌群的数据进行了主成分分析（PCA），结果发现，由四种发酵产物构成的四维功能空间中，高多样性群落并没有均匀分布，而是聚集到一个低维流形上（图3A）。这意味着虽然群落内部包含大量不同物种，但它们最终产生的功能状态却集中在少数几种可能的模式之中。

图3：功能空间坍缩到反馈假设的机制解释

那么，是什么力量让原本复杂的系统开始表现出这种收敛趋势？

研究者提出，一个可能的答案来自环境反馈。例如，微生物代谢会改变环境pH，而变化后的pH又会反过来影响不同菌种的生长和竞争能力（图3B）。以产酸菌为例：它们降低环境pH，而较低的pH又会抑制不耐酸菌，从而进一步强化产酸菌和耐酸菌的优势。随着这种反馈不断强化，系统行为开始向少数稳定状态收敛，并表现出更强的可预测性。

不过，研究者也强调，pH目前仍只是候选机制，而非已经证实的因果解释。究竟是pH筛选了优势菌，还是优势菌先改变环境进而影响pH，仍需进一步实验验证。

不是所有“简单化”都一样

这一发现的重要意义在于，它帮助研究者区分了两种容易混淆的“简单化”。

第一种简单化来自统计平均效应。当系统规模变大时，随机波动被不断抵消，整体表现得更加稳定；或者经过粗粒化后，即使忽略部分微观细节，仍然能够保留一定预测能力。这对应前文讨论的涌现可重复性和可粗粒化特征。

然而，仅仅更稳定、或者能够被粗略描述，并不意味着系统真的变得更容易理解。因为这些现象完全可能来自大数定律：物种多了，个体差异自然被平均掉，系统看起来更平滑而已。

这项研究真正关注的是另一种情况：随着多样性增加，预测系统行为所需的信息本身也在减少。换句话说，系统不仅表现得更稳定，而且开始呈现出新的组织结构。

正是在这个意义上，这篇研究将“涌现可预测性”与一般意义上的稳定性区分开来。从这个角度看，这项研究真正挑战的并不是“复杂系统是否复杂”，而是另一个更深刻的问题：复杂性是否一定意味着不可预测。

从肠道菌群到气候系统：

复杂世界为何总会“降维”

下面关于跨系统的讨论，主要是笔者基于本文结果的延伸思考，用于理解涌现可预测性可能具有的普遍意义。

20世纪中叶以前，热带太平洋的气候波动长期被视为近乎随机的现象。直到1960年代，气象学家Jacob Bjerknes提出海—气耦合反馈机制：海温变化影响风场，风场又反过来改变海温，形成闭环反馈。正是这一反馈结构，让原本杂乱的数据开始呈现出可理解的规律，并最终催生了现代ENSO预测理论。

从这个角度看，微生物群落中的涌现可预测性与气候系统中的可预报性，或许遵循着相似的逻辑：当系统规模不断扩大时，复杂性并不一定无限增长；某些反馈过程反而会逐渐占据主导地位，将大量微观细节压缩到少数几个关键变量之中。

这或许也是本文最值得思考的地方。复杂性并不一定意味着不可预测。正如印象派画作中的无数笔触最终汇聚成清晰图景一样，复杂系统中的大量局部互动，也可能在更高尺度上收敛为少数可理解、可预测的规律。

作者：郭瑞东

审核：张江北京师范大学系统科学学院教授

出品：中国科协科普部

监制：中国科学技术出版社有限公司、北京中科星河文化传媒有限公司

因果涌现第七季——从理论到应用

在神经系统中意识的生成、城市交通的拥堵演化、全球产业系统的协同与失稳之中，始终潜藏着一条贯穿微观与宏观的因果脉络：个体行为本身或许简单，却能在尺度跃迁中孕育出高度组织化、难以还原的整体结构。复杂现象并非微观规则的线性叠加，而是源于多尺度动力学作用下逐步形成的因果组织。正是在这一背景下，因果涌现理论被提出，并在因果涌现 2.0、工程化涌现以及多尺度因果抽象等工作中推进，逐渐发展出一套融合动力学分析、信息论度量以及谱方法与人工智能工具的研究框架，从而将研究重心从“复杂性本身”转向“因果结构如何出现、如何被度量并在现实系统中发挥作用”。

为系统梳理因果涌现领域的最新进展，北京师范大学系统科学学院教授、集智俱乐部创始人张江老师领衔发起「因果涌现第七季」读书会，组织对该主题感兴趣的研究者与探索者共同研读前沿文献、交流研究思路。读书会将于2026年2月22日起每周日上午（创建读书会暂定时间为10:00-22:00）线上开展，持续约10周，包含主讲分享与讨论交流，并提供会后视频回放，诚邀相关领域研究者及跨学科兴趣者参与。

详情请见：因果涌现第七季——从理论到应用