2026大年初一,由日本东北大学李昊杰出教授领衔,联合新加坡国立大学欧鹏飞助理教授、纽约州立大学水牛城分校彭嘉宇助理教授、西南交通大学陈元正教授、弗吉尼亚理工辛洪良教授等深耕AI4S一线研究者团队完成的《德国应用化学》特约综述正式发表(题目:Accelerating Catalyst Materials Discovery With Large Artificial Intelligence Models)。本文按原文主线解读其核心框架:数据库、机器学习原子间势(MLIP)、大语言模型(LLM)、闭环系统与数字材料生态(Digital Materials Ecosystem),并讨论该路线对催化与能源材料研究范式的现实意义。
第一作者:张頔(日本东北大学)
通讯作者:李昊(日本东北大学);陈元正(西南交大);欧鹏飞(新加坡国大);彭嘉宇(纽约州立大学水牛城分校)
这篇文章最值得重视的地方,不在于“新概念的数量”,而在于它给出了一条层层递进、可执行、可迭代的研究路线:先解决数据底座问题,再讨论物理建模扩展能力,再引入大语言模型作为知识与流程编排层,最终落到闭环系统,并进一步走向数字材料生态。这条路径把方法论与落地路径放到同一框架中,也让 AI for Science 在催化领域从“概念讨论”走向“系统建设”。
图1|催化研究范式。
(a) 催化研究的四种范式:经验科学(第一范式)、理论科学(第二范式)、计算科学(第三范式)和数据驱动科学(第四范式);其中,生成式模型被视为第四+范式。
(b) 第四/第四+范式融合数据库、基于物理的模型与智能体实验室(agentic labs),以实现催化剂自主发现并加速催化技术的产业化进程。
文章把数据库放在起点,这个顺序本身就很关键。过去很多讨论习惯从模型谈起,但这篇综述明确指出,模型能力上限很大程度由数据质量决定。这里的数据质量不是“量大”这么简单,而是实验和计算条件是否可比、标签是否一致、元数据是否完整、结构信息是否可追溯,以及跨体系迁移时是否仍可用。也正因此,催化数据库的发展并非简单扩容,而是经历了从体相材料到表面催化、再到实验与计算融合平台(如:李昊教授领衔开发的数字催化平台,DigCat: www.digcat.org)的演进。数据库在这里不再是被动存储,而是主动支撑训练、决策和验证反馈的研究基础设施。
图2|催化科学数据库。
(a) 催化数据库正由体相材料数据库逐步演进为AI集成平台。
(b) 在通用MLIPs与LLMs驱动下,AI × 数据库正迈向智能化催化数据库平台。
(c) 面向催化研究的 AI × 数据库闭环。
在这个基础上,综述进入第二层,即 MLIP(机器学习原子间势)的角色。文中给出的判断很务实:MLIP 的意义不在于替代第一性原理,而在于缓解“精度与规模”的长期矛盾,让原本算不起、算不动的大空间探索变得可行。对催化研究而言,这意味着可以在更大结构空间和更长时间尺度上进行筛选、评估和迭代。与此同时,文章也强调 MLIP 的效果并不只由模型结构决定,数据治理同样是决定性因素。数据去重、误差控制、覆盖空间设计、任务相关性筛选,往往比单纯增加样本更影响模型可靠性。这一判断把“模型优化”拉回到“数据—任务耦合”的科学工程问题,而不是停留在参数规模竞争。
(b) 由于图神经网络(GNN)能够通过图表示中节点(原子)与边(键)之间的消息传递和图卷积,捕捉晶体结构中各原子的配位环境,并对势能面(PES)进行自然插值以推断能量、力和应力,因此常被用于构建MLIP。
(c) 主动学习闭环通过不确定性驱动的数据采集,可高效微调通用MLIP。
(d) 利用预训练通用MLIP中的先验知识,并仅通过额外136次DFT计算进行微调,即可为 LaMnO3(001) 表面的溶解与重构生成充分采样的Pourbaix图,并揭示两个此前未见报道的新表面状态。
(e) 基于包含36,718个表面结构的高通量DFT数据库(覆盖单质、二元和三元金属化合物),对八种先进通用MLIP在解理能预测任务中的性能进行对比分析。
第三层是 LLM。在这篇综述的逻辑中,LLM 的定位非常清晰:它更适合承担知识组织与科研编排功能,而不是直接替代物理机制推导。它擅长文献解析、信息抽取、任务分解、流程调度和人机协同,但在反应机理、能垒差异、界面电荷与动力学竞争等关键问题上,仍需物理模型与实验事实共同约束。这样的定位既肯定了 LLM 的现实价值,也避免了“万能化”叙事。它提示我们,未来高效研发并非“单模型独立完成”,而是多工具协同:MLIP 提供物理可计算能力,LLM 提供知识与流程组织能力。
(b) CataLM 的训练流程由主训练阶段与完整数据准备流程组成。
(c) GPT-4 与 ChemCrow 的基准对比:汇总了各任务偏好、化学准确性、总体人工/Evaluator GPT评分,以及在合成、分子设计与化学逻辑任务中的定性优势与不足。
(d) 模型合并属性(父模型多样性、SFT、DPO/ORPO、base vs instruct)与合并后性能的相关性分析,突出显示了 SFT 的显著正向作用,以及父模型多样性过高带来的负面影响。
接下来,文章把重心落在闭环系统。这里的闭环并非口号,而是可执行机制:由需求出发进行知识检索与候选设计,结合物理建模和实验可行性给出方案,进入自动化合成与高通量验证,再将结果结构化回流数据库与模型,进入下一轮优化。与传统线性流程相比,这种机制真正改变的是研发组织方式:它把一次次分散试验变成可学习的迭代过程,把结果沉淀为系统记忆并持续提升后续决策质量。闭环的价值不在某次“命中”,而在持续收敛能力。
在此基础上,综述最终指向 Digital Materials Ecosystem(数字材料生态)。这个概念并非抽象愿景,而是前述四层逻辑的自然外延。数据库提供可信底座,MLIP 提供物理扩展,LLM 提供知识与编排,闭环提供持续学习;当这些能力跨平台、跨数据域、跨材料体系连通后,才会形成真正意义上的生态。其目标不再是“做出一个更强模型”,而是建立一个可互联、可迁移、可演化的数字研究基础设施。对催化与能源材料研究而言,这意味着从局部优化走向系统创新,从单次突破走向可复制、可持续的研发能力。
这篇 Angew Chem 特约综述的意义,恰在于它没有停留在概念层面,而是把“数据库—MLIP—LLM—闭环—生态”写成了一条可落地的方法学路径。它同样没有回避难点:既强调算法进步,也强调数据与实验约束;既追求效率,也坚持可靠性。对当前 AI4S 的实际推进来说,这种克制而系统的框架,反而更有穿透力。
如果把全文浓缩成一句话,这篇工作传达的是:未来的竞争力,不在“谁先用AI”,而在“谁先把数据库、模型、实验与反馈真正连成自进化的数字材料生态”。
论文信息
D. Zhang, Y. Chen*, C. Liu, Y. Liu, H. Xin, J. Peng*, P. Ou*, and H. Li*, "Accelerating Catalyst Materials Discovery with Large Artificial Intelligence Models", Angewandte Chemie International Edition, 2026, e26150.
DOI: https://doi.org/10.1002/anie.202526150

