大数跨境

Science:菌群越复杂越好猜?涌现简单性会自动化繁为简

Science:菌群越复杂越好猜?涌现简单性会自动化繁为简 集智俱乐部
2026-06-25
0
导读:复杂系统中的涌现降维现象

导语


为什么一个系统越复杂,反而越容易预测?一项发表于《Science》的研究提出了一个反常识发现:在微生物群落中,随着物种数量不断增加,系统并没有变得更加不可捉摸,而是逐渐收敛到少数几个主导维度上。研究团队建立了一套量化框架,发现高多样性群落不仅更加稳定,而且能够用更少的信息实现更准确的预测。这种现象被称为“涌现可预测性”(Emergent Predictability)。研究表明,复杂系统中的大量微观细节并不会无限累积复杂性,而可能通过反馈机制压缩为少数关键变量,为理解微生物生态、气候系统乃至更广泛复杂系统中的“降维规律”提供了新的视角。


关键词:涌现可预测性、复杂系统、粗粒化、反馈机制、多样性、帕累托前沿

图片
郭瑞东丨作者
张江丨审校

按照常识,一个系统里的变量越多,往往就越难预测。一锅放了二十几种食材的乱炖,香料、肉类、蔬菜彼此交织,这锅汤最终呈现出的风味,通常很难仅凭单个成分直观推断。

但今年4月发表于Science的一项研究却发现,在微生物世界里,情况可能恰恰相反:菌种越多,系统反而越容易预测。当一个微生物群落从几种菌扩展到几十种菌时,它在微观层面确实变得更加复杂;然而在宏观功能层面,却开始自发收敛到少数几个主导变量上。研究者将这种现象称为涌现可预测性(emergent predictability)。

这有些像一幅印象派画作:近看是无数复杂而杂乱的笔触,退后几步,整体结构反而变得清晰可辨。不过,一个反常识现象要成立,首先需要回答一个问题:什么叫“更容易预测”?

论文题目:Emergent predictability in microbial ecosystems

论文链接:https://www.science.org/doi/10.1126/science.adr1440

发表日期:2026年4月9日

发表期刊:Science




量化评估并拆解涌现简单性




仅仅观察到高多样性群落表现得更稳定,并不能证明系统真的变得更容易预测。它也可能只是随机波动被平均后的结果。因此,研究者首先建立了一套量化框架,希望回答一个更具体的问题:随着微生物群落变得越来越复杂,其宏观功能究竟需要多少信息才能被准确预测?

在这项研究中,研究人员从一个固定的菌株库出发,通过组合抽样构建不同组成和丰富度的微生物群落,每个群落包含S个物种。随后,他们记录每个群落的物种丰度ni,并测量对应的宏观功能指标Y(如代谢产物浓度)。

图1:实验设计流程图

如果系统真的存在某种“涌现简单性”,那么理论上,我们未必需要掌握每一种细菌的全部信息,就能够预测群落的整体行为。为了检验这一点,研究者开始尝试对群落组成进行压缩。

他们不再逐个追踪所有物种,而是将其归并为更少的功能组(图1B),即把S个物种划分为远小于S的K个功能类(functional classes)。这些功能组既可以依据分类学关系、代谢通路或系统发育距离划分,也可以完全由数据驱动生成。这种用更少类别描述更多物种的过程,被称为粗粒化(coarse-graining)。本质上,研究者是在问:如果不再关心每一种细菌的具体身份,而只保留更粗略的功能分类,还能否准确预测系统行为?

为了回答这个问题,研究者引入了两个指标。第一个指标衡量信息压缩的程度,采用物种标签与粗粒化类别标签之间的互信息表示,记为I(Ψ)。I(Ψ)越小,说明压缩越彻底;I(Ψ)越大,则意味着保留了更多原始组成信息。第二个指标衡量预测误差,即粗粒化后仍有多少系统变化无法被解释,用无法解释方差占比(Fraction of Variance Unexplained,FVU)表示。FVU越小,说明预测能力越强。

接下来,研究者比较了大量不同的粗粒化方案(图1C)。有些方案保留了更多物种信息,有些则进行了更激进的压缩。对于每一种方案,都可以同时得到一个“信息量”和“预测误差”的组合结果。将这些方案放在一起后,会形成一条代表最佳权衡关系的边界,即帕累托前沿(Pareto frontier)。这条边界反映了系统在“信息复杂度”和“预测能力”之间能够达到的最佳平衡。

更重要的是,当群落多样性发生变化时,这条边界也会随之移动。通过比较不同多样性水平下帕累托前沿的位置,研究者便能够观察系统是变得更容易压缩、更容易预测,还是仅仅变得更加稳定,从而量化所谓的“涌现简单性”。

不过,“系统变简单”本身并不是单一现象。一个系统可能只是变得更加稳定,也可能更容易被压缩描述,或者真的开始被少数主导变量所约束。为了区分这些不同来源的简单化过程,研究者进一步将涌现简单性拆分为三个彼此独立的维度(图2)。

为了理解这三个维度,可以把微生物群落想象成一支不断扩充成员的合唱团。

图2:涌现简单性的三个维度

第一个维度叫涌现可重复性(emergent reproducibility),对应的是“人多声稳”。一支合唱团人数越多,单个成员的发挥对整体效果的影响往往越小,因此每次演出的音量和节奏都会更加稳定。对应到微生物系统中,就是随着物种丰富度增加,群落宏观属性Y(如代谢产物浓度)的波动范围逐渐收缩(图2D)。此时系统表现得更稳定了,但这种稳定更多来自随机波动被平均,并不意味着系统变得更容易理解。

第二个维度叫可粗粒化(coarse-grained),对应的是“分声部听音”。听合唱时,我们未必需要分辨每位歌手的声音,只需区分高声部、低声部等几个大类,就能大致把握整体旋律。类似地,在微生物群落中,即使不追踪每个具体物种,只保留更粗略的功能分类,依然能够保留相当强的预测能力(图2E)。这说明系统内部并非完全杂乱无章,而是存在某种能够被压缩和概括的结构。

而第三维度涌现可预测性(emergent predictability)则最反直觉,也是论文真正关注的核心。对于低多样性群落,要预测其整体行为,往往需要掌握大量关于具体物种的信息;而在高多样性群落中,只需知道少量粗粒化信息,例如不同功能组的大致比例,就能够做出更准确的预测。换句话说,随着系统变得越来越复杂,决定其行为的有效变量反而变少了。

在图2F中,高多样性群落对应的帕累托前沿(紫色)整体移动到低多样性群落(橙色)的左下方,这意味着两件事同时发生了:

  • 在相同信息复杂度下,预测误差更低;

  • 或者在相同预测精度下,所需的信息量更少。

至此,文章开头提出的那个问题有了答案。所谓“更容易预测”,并不是系统中的组成成分减少了,而是系统的行为开始受到少数主导轴的约束。随着多样性增加,越来越多的微观细节被吸收到这些主导轴中,因此虽然系统包含的物种更多了,但描述和预测其宏观行为所需的信息反而更少了。




最反直觉的结果出现了:菌越多,越容易预测




前面的分析仍然属于理论框架。那么,在真实微生物群落中,涌现简单性真的存在吗?

为此,研究团队进一步分析了两组已公开发表的实验数据:一组来自包含25株肠道菌的合成群落体系,通过测量不同菌群组合产生的发酵产物来评估群落功能;另一组来自土壤微生物合成群落体系,通过观察目标共生菌的定殖情况,评估群落组成对生态功能的影响。研究者将这些群落按照多样性划分为低、中、高三个等级,并利用前述框架逐一检验涌现简单性的三个维度。

结果首先验证了涌现可重复性。随着群落多样性增加,无论是发酵产物浓度还是关键菌种丰度,其波动幅度都持续下降,说明高多样性群落确实表现出更强的稳定性。与此同时,可粗粒化特征也得到了验证。即使不追踪每一种细菌,只保留较粗略的功能分类信息,研究者依然能够较好地预测系统行为。这表明微生物群落内部并非完全杂乱无章,而是存在能够被压缩描述的结构。

但真正关键的发现来自第三个维度——涌现可预测性。研究者比较了不同多样性水平下的帕累托前沿,发现高多样性群落对应的前沿整体向左下方移动。按照前文建立的框架,这意味着系统同时实现了两件看似矛盾的事情:一方面预测误差下降,另一方面所需的信息量也减少了。

这正是本文最反直觉的结果。按照通常理解,系统越复杂,应该越难预测;然而在这些微生物群落中,随着物种数量增加,预测系统行为所需的信息反而越来越少。复杂性并没有消失,但开始被压缩到少数几个主导维度之中。

研究者进一步对肠道菌群的数据进行了主成分分析(PCA),结果发现,由四种发酵产物构成的四维功能空间中,高多样性群落并没有均匀分布,而是聚集到一个低维流形上(图3A)。这意味着虽然群落内部包含大量不同物种,但它们最终产生的功能状态却集中在少数几种可能的模式之中。

图3:功能空间坍缩到反馈假设的机制解释

那么,是什么力量让原本复杂的系统开始表现出这种收敛趋势?

研究者提出,一个可能的答案来自环境反馈。例如,微生物代谢会改变环境pH,而变化后的pH又会反过来影响不同菌种的生长和竞争能力(图3B)。以产酸菌为例:它们降低环境pH,而较低的pH又会抑制不耐酸菌,从而进一步强化产酸菌和耐酸菌的优势。随着这种反馈不断强化,系统行为开始向少数稳定状态收敛,并表现出更强的可预测性。

不过,研究者也强调,pH目前仍只是候选机制,而非已经证实的因果解释。究竟是pH筛选了优势菌,还是优势菌先改变环境进而影响pH,仍需进一步实验验证。




不是所有“简单化”都一样




这一发现的重要意义在于,它帮助研究者区分了两种容易混淆的“简单化”。

第一种简单化来自统计平均效应。当系统规模变大时,随机波动被不断抵消,整体表现得更加稳定;或者经过粗粒化后,即使忽略部分微观细节,仍然能够保留一定预测能力。这对应前文讨论的涌现可重复性和可粗粒化特征。

然而,仅仅更稳定、或者能够被粗略描述,并不意味着系统真的变得更容易理解。因为这些现象完全可能来自大数定律:物种多了,个体差异自然被平均掉,系统看起来更平滑而已。

这项研究真正关注的是另一种情况:随着多样性增加,预测系统行为所需的信息本身也在减少。换句话说,系统不仅表现得更稳定,而且开始呈现出新的组织结构。

正是在这个意义上,这篇研究将“涌现可预测性”与一般意义上的稳定性区分开来。从这个角度看,这项研究真正挑战的并不是“复杂系统是否复杂”,而是另一个更深刻的问题:复杂性是否一定意味着不可预测。




从肠道菌群到气候系统:

复杂世界为何总会“降维”




下面关于跨系统的讨论,主要是笔者基于本文结果的延伸思考,用于理解涌现可预测性可能具有的普遍意义。

20世纪中叶以前,热带太平洋的气候波动长期被视为近乎随机的现象。直到1960年代,气象学家Jacob Bjerknes提出海—气耦合反馈机制:海温变化影响风场,风场又反过来改变海温,形成闭环反馈。正是这一反馈结构,让原本杂乱的数据开始呈现出可理解的规律,并最终催生了现代ENSO预测理论。

从这个角度看,微生物群落中的涌现可预测性与气候系统中的可预报性,或许遵循着相似的逻辑:当系统规模不断扩大时,复杂性并不一定无限增长;某些反馈过程反而会逐渐占据主导地位,将大量微观细节压缩到少数几个关键变量之中。

这或许也是本文最值得思考的地方。复杂性并不一定意味着不可预测。正如印象派画作中的无数笔触最终汇聚成清晰图景一样,复杂系统中的大量局部互动,也可能在更高尺度上收敛为少数可理解、可预测的规律。


作者:郭瑞东

审核:张江 北京师范大学系统科学学院教授

出品:中国科协科普部

监制:中国科学技术出版社有限公司、北京中科星河文化传媒有限公司

图片


因果涌现第七季——从理论到应用


在神经系统中意识的生成、城市交通的拥堵演化、全球产业系统的协同与失稳之中,始终潜藏着一条贯穿微观与宏观的因果脉络:个体行为本身或许简单,却能在尺度跃迁中孕育出高度组织化、难以还原的整体结构。复杂现象并非微观规则的线性叠加,而是源于多尺度动力学作用下逐步形成的因果组织。正是在这一背景下,因果涌现理论被提出,并在因果涌现 2.0、工程化涌现以及多尺度因果抽象等工作中推进,逐渐发展出一套融合动力学分析、信息论度量以及谱方法与人工智能工具的研究框架,从而将研究重心从“复杂性本身”转向“因果结构如何出现、如何被度量并在现实系统中发挥作用”。


为系统梳理因果涌现领域的最新进展,北京师范大学系统科学学院教授、集智俱乐部创始人张江老师领衔发起「因果涌现第七季」读书会,组织对该主题感兴趣的研究者与探索者共同研读前沿文献、交流研究思路。读书会将于2026年2月22日起每周日上午(创建读书会暂定时间为10:00-22:00)线上开展,持续约10周,包含主讲分享与讨论交流,并提供会后视频回放,诚邀相关领域研究者及跨学科兴趣者参与。



详情请见:因果涌现第七季——从理论到应用


推荐阅读
1. 汪劲:描述生物系统涌现行为的景观和流理论视角
2. 生命是怎样涌现的:系统生物学入门全路径
3. 萤火虫的同步闪烁:随机中怎样涌现出秩序?
4. 9900分可兑换“涌现”文化衫,报名任意读书会送299积分!
5. 集智学园精品课程免费开放,解锁系统科学与 AI 新世界

6. 高考分数只是张入场券,你的科研冒险在这里启航!

7. 加入集智字幕组:成为复杂科学知识社区的“织网人”


#解读

点击“阅读原文”,报名读书会

【声明】内容源于网络
0
0
集智俱乐部
关注复杂科学与人工智能的前沿进展、书籍资料、工具文献、交叉前沿等,同时也发布集智俱乐部、集智学园举办的各类讲座、课程等活动相关信息。
内容 4687
粉丝 0
集智俱乐部 关注复杂科学与人工智能的前沿进展、书籍资料、工具文献、交叉前沿等,同时也发布集智俱乐部、集智学园举办的各类讲座、课程等活动相关信息。
总阅读2.3k
粉丝0
内容4.7k