日本东北大学李昊教授特邀Chem Sci展望：“数字材料生态”正在如何重塑材料发现- 大数跨境

日本东北大学李昊教授特邀Chem Sci展望：“数字材料生态”正在如何重塑材料发现

科学材料站

2026-03-09

导读：如果把过去二十年的材料研究比作“修路”，那很多人的努力都在修不同的路段：有人做高通量实验，有人做第一性原理计算

如果把过去二十年的材料研究比作“修路”，那很多人的努力都在修不同的路段：有人做高通量实验，有人做第一性原理计算，有人做机器学习，有人做自动化装备。每一段都很重要，但真正让通行效率发生质变的，往往不是哪一段修得更漂亮，而是这些路段能不能在同一张地图上连起来，形成闭环，能不断自我更新，越跑越顺。

近日，日本东北大学李昊杰出教授团队在国际知名杂志《Chemical Science》发表特邀展望《Digital materials ecosystem: from databases to AI agents for autonomous discovery》。该论文要讲的核心，就是这样一张“地图”：数字材料生态（Digital Materials Ecosystem）。它不是把“AI + 材料”简单相加，也不是把数据库做大、把模型做强这么线性思维，而是强调材料研究正在走向一种新的研究操作系统：数据提供底座，理论提供硬约束与可解释性，AI智能体负责组织与推理，自动化实验把预测与验证真正闭环。最终目标不是“更快发论文”，而是让材料发现从经验驱动走向可迭代、可验证、可自我进化的体系。

图1 数字材料生态（Digital Materials Ecosystem）概念示意图。该概念由三部分构成：数据库（左框）、AI与理论框架（中框），以及基于现代实验技术的闭环创新体系（右框）。

为什么说“生态”比“模型”更重要

这两年谈AI的人很多，但材料领域有一个天然的现实：模型再大，如果没有可靠的输入与可追溯的验证，结果就很难从“看起来合理”变成“可以放心交给实验去做”。因此文章一开始就把重点放在“可信数据集”和“标准化一致性”上：数字世界里的输入（结构、成分、条件、表征指标）必须能和实验世界里的响应对齐，否则再聪明的模型也只能在噪声里打转。

这也是为什么作者反复强调：数据库不是论文附录的延伸，而是整个研究流程的底座。数据库要做的不只是“存”，还要能“算”、能“查”、能“对齐”、能“被训练”，更重要的是能在闭环里被持续更新。只有这样，数据才不是静态资产，而会变成研究过程中随时可调用的能力。

数据库不是越大越好，而是要“能用、可信、可迭代”

文章在“数据库与数据基础设施”这一部分，实际上讲了一个常被忽视的常识：不同类型的数据库，各有不可替代的价值，也各有典型短板。

小领域数据库往往最精、最“干净”，适合在明确问题里做机制推断与规律抽取，但覆盖面有限，很难支撑跨体系的泛化。纯实验数据库的优势是可靠、贴近真实条件，但成本高、更新慢，数据标准不统一时也容易变成“可读不可用”。计算数据库可以规模化扩展，但与真实实验之间的偏差必须被正视，否则会把“计算正确”误当成“实验可行”。

所以作者强调的重点并不是“选择哪一种”，而是如何把它们变成能协同运转的基础设施：数据来源不同没关系，但必须可追溯、可对齐、可复用。把这些做到位，数据库才会从“资源”变成“系统”。

图2 数字材料平台的生态体系。（a）数字催化平台（DigCat：https://www.digcat.org）。（b）数字电池平台（DigBat：https://www.digbat.org）。（c）数字储氢平台（DigHyd：https://www.dighyd.org）。（d）数字自旋材料平台（DigSpin：https://www.digspin.org）。（e）数字材料平台（DigMat：https://www.digmat.org）。（f）开放催化剂项目（Open Catalyst Project）。

物理框架是数字生态的骨架：AI负责加速，但不能替代约束

这篇展望里一个很重要、也很“克制”的态度是：作者并没有把AI写成万能黑箱，反而把物理与化学框架放在中心位置。

在催化里，很多“看起来聪明”的预测，一旦回到电位、pH、表面覆盖度、溶液环境等真实条件，就会出现偏差。文章强调要用物理框架把这些影响纳入可计算、可解释的体系：从热力学稳定性筛选，到电化学稳定窗口，再到更贴近真实反应条件的微观动力学模型。这样做的意义很直接：AI可以帮助你更快地走到候选空间的“高价值区域”，但“为什么对、哪里会错、错了怎么修正”，仍然需要物理约束提供底线与方向。

同样，在固态电解质与储氢材料等体系中，迁移机制、相变路径、界面效应这些问题，很难靠一个通用的黑箱模型一次解决。文章强调用可验证的计算框架与实验数据相互校准，把“可解释”作为长期迭代的前提。这种思路看似“慢”，但恰恰是让系统能够长期可靠运转的关键。

图3 催化材料的代表性物理模型。（a）一维表面 Pourbaix 图。（b）以标准氢电极（SHE）为基准的经典表面 Pourbaix 图（左）与以可逆氢电极（RHE）为基准的先进 pH 依赖表面 Pourbaix 图（右）。（c）以析氧反应（OER）为例，能量图用于描述反应热力学的示意。（d）采用 CI-NEB 方法计算的过渡态能垒。（e）用于催化活性建模的标度关系（scaling relationships）。（f）pH 依赖的微观动力学建模，用于推导 ORR 的 pH 依赖火山图（volcano model）。45 该方法进一步扩展至（g）硝酸根还原反应（NO3RR）。和（h）二氧化碳还原反应（CO2RR）。

图4 固态电解质（SSEs）的代表性物理模型。（a）[Mg(H2O)x]2+ 水合络合物沿迁移路径（方向：A → B）迁移至下一个空位的示意。（b）MgB12H12·12H2O 中 A → B 迁移过程的势能面。（c）实验电导率随温度变化的关系。（d）氢化物固态电解质（hydride SSEs）中典型的阳离子、阴离子与中性分子。（e）通过 MetaD（元动力学）模拟捕捉到的 Mg(BH4)2·2NH3 的势能面。（f）实验活化能（Ea）与 MetaD 模拟得到的 Ea 对比：包含中性分子的结构（实心符号）与不含中性分子的结构（半实心符号）。

图5 用于材料性质预测的机器学习（ML）模型示例，包括监督学习模型、无监督学习模型与半监督学习模型。（a）基于组分的10折交叉验证策略示意图，并比较了ML模型在训练集、测试集以及发表于2023年的独立数据集上的表现。（b）将无监督ML与已标注并报道的半Heusler热电（TE）材料进行迭代整合，并对基于ScNiSb的热电材料开展了实验研究。（c）采用自助聚合（bootstrap aggregating，bagging）技术的PU学习框架，所识别的潜在热电材料通过理论计算进行了验证。

图6 机器学习（ML）用于催化性能预测的示例，包括基于实验与理论数据训练的模型，以及采用机器学习势（MLPs）的模型。（a）对角散点图：XGBoost 在 0.8 和 0.63 VRHE 条件下对训练集与测试集的实验值与预测值对比；同时给出等高线图，展示模型对不同多组分金属氧化物电流密度的预测分布。（b）用于 C–C 偶联大数据集预测的二维–三维（2D–3D）集成模型的构建。（c）左：在混合分子动力学与带时间戳的力偏置蒙特卡洛（MD/tfMC）模拟过程中，通过在线主动学习（active learning on-the-fly）生成机器学习势（MLP）的示意图。右：将 MLP 与复本交换分子动力学及基于蒙特卡洛的原子交换（REMD/MC）相结合的理论分析，用于理解催化行为。

图7 面向可物理解释的氢储存性质机器学习建模：一体化模拟视角。（a）DigHyd 数据库概览，展示已报道金属氢化物中平衡压力与质量储氢容量的广泛分布，揭示两者之间不可避免的权衡关系，以及与美国能源部（US-DOE）目标之间的差距。（b）符号回归（symbolic regression）建模框架：系统搜索具有化学意义的描述符组合及其非线性变换，构建数以百万计的候选方程。（c–f）对决定 𝑤 与 𝑃eq 的关键描述符的示意性物理解释。（g–i）基于回归模型生成的“描述符—设计”地图，分别以 Mg、Ni、Be 为锚定组分的组成体系为例。该地图可视化了连接盐类型与间隙型氢化物的组成路径，并指出含 Be 的体系，尤其是 Be–Na 合金，能够独特地逼近 US-DOE 目标区域（红=终极目标，绿=内燃机，蓝=燃料电池）。

AI智能体真正改变的，是“研究流程”而不是“某个任务”

如果说数据库解决“底座”，物理框架解决“骨架”，那AI智能体解决的就是“组织方式”。

过去我们做材料研究，很多工作是被动、碎片化的：找文献、抄条件、整理表格、跑筛选、做对比、再回到实验。每一步都依赖人的经验与耐心，也天然不易规模化。文章提出的AI agent思路，是把这些步骤变成可复用的流程：让模型能理解自然语言意图，把问题拆解成可执行的任务链，自动调度数据库检索、统计分析、筛选评价、甚至生成候选并反复修正。

这里最值得注意的是“智能体的价值不在于一次命中”，而在于它把人的研究习惯（设约束、做取舍、查证据、再迭代）变成了可规模化执行的机制。尤其当它与高质量实验数据结合时，智能体会从“会说”走向“会做”，并且能在每一轮闭环中变得更可靠。

图8 多模态数据提取流程：视觉表达的描述性解读（DIVE）。（a）基于单一多模态大语言模型（LLM）的传统提取流程。（b）DIVE 提取流程：通过描述性提示词嵌入关键数据点，并生成用于结构化数据提取的“图像替代表示”。（c）按不同类型储氢材料分类的年度发文趋势。

以DigCat、DDSE/DigBat、DigHyd为例：平台化路径的意义

展望中用多个平台作为例子，实际上在强调一种“平台化”的路径：不是围绕一篇论文搭一次性数据集，而是围绕一个领域长期积累，形成持续更新的数据库与工具链；不是只做预测，而是把预测与验证、以及验证后的回流机制提前设计好。

以催化为例，DigCat的价值并不只是“数据多”，而在于它把实验与理论、条件与性能、以及可被模型学习的结构化信息连接起来，为后续更可信的AI训练提供底盘。以固态电解质为例，DDSE（后续演进到DigBat）强调的是机制与性质之间的可计算联系，让筛选不止停留在“相关性”，而能逐步走向“可解释的因果链”。在储氢方向，DigHyd与相关的智能体工作流展示了如何把文献与实验数据结构化，并在此基础上做可迭代的材料设计建议。

这些例子共同指向一个结论：材料AI真正的护城河，不是模型参数多少，而是数据与流程的积累是否可持续、是否可验证、是否能闭环进化。

图9 数据驱动、AI加速的固态电解质（SSEs）发现。（a）约3000种实验材料的离子电导率—温度倒数关系，以及约700种计算材料的活化能分布。（b）一价与二价SSE的电导率—温度倒数关系，对比含/不含中性分子的情况。（c）不同方法下计算与实验活化能的对比。（d）298 K 下离子电导率与硫化物SSE结构描述符之间的关系。（e）基于结构组分预测的聚合物电解质离子电导率。

图10 AI智能体驱动的新型储氢材料发现工作流。（a）用户提出关键需求，包括材料类型、组成元素与性能目标。（b）DigHyd 智能体基于对4000余篇历史文献的数据挖掘，提出初始候选组分。（c）利用预训练的机器学习模型评估候选组分，预测其质量储氢密度。（d）DigHyd 智能体可在数分钟内根据研究者设定目标快速生成方案、完成预测并进行迭代优化。最终，DigHyd 智能体输出最终材料设计方案，并给出相关反应条件及合成可行性评估。

未来的分水岭：闭环实验室与标准化

文章最后把视角推向更远的终局：自主材料发现生态。它的关键不在于“更大的模型”，而在于闭环是否真正跑得起来。

当智能体能够直接对接自动化合成、高通量表征与统一的数据回流标准，实验就不再只是“验证的终点”，而是下一轮模型与数据库更新的起点。这样的系统一旦形成，就会出现类似“复利效应”：数据越跑越干净，模型越跑越稳，候选空间越跑越聚焦，最终让“发现—验证—优化”的效率发生数量级提升。

但这条路的难点也被作者坦诚地摆在台面上：标准化与一致性远比想象中困难。不同实验室的条件定义、表征口径、数据缺失与噪声处理方法，都决定了数字生态能否从“看起来很聪明”变成“长期可靠、可迁移、可工业化”的科研基础设施。也正因为如此，展望的价值不是煽动式地宣称“AI改变一切”，而是给出一条更接近现实的路线图：以可信数据为底，以物理框架为骨，以智能体为组织，以自动化为闭环，把材料研究从数据堆积推进到知识生成。

图11 面向闭环框架的、由AI驱动的自动化设计全流程（云端合成占位引用）。该一体化设计框架将高通量实验、AI驱动的自动化工作流与科学洞见相连接，以加速催化剂开发。通过将机器人实验与先进表征手段与机器学习引导的筛选、描述符分析及机理理解相耦合，DigMat 平台实现数据、模型与实验之间的持续反馈与迭代优化。

写在最后

今天的材料研究不缺模型，也不缺概念，真正稀缺的是能长期跑通的系统。数字材料生态的意义，就在于它试图把“做对一件事”的偶然性，变成“持续做对更多事”的必然性。它把材料科学从单次突破拉回到可迭代的工程化路径，同时又不丢掉科学最核心的东西：可解释、可验证、可复现。

当数据库、理论、AI智能体与自动化实验真正连接成闭环，材料发现会变成一种可自我改进的过程。那时我们追求的也许不只是更快找到一个好材料，而是让“发现”这件事本身，拥有持续进化的能力。

论文信息

D. Zhang, X. Jia, Y. Wang, H. Liu, Q. Wang, S. H. Jang, D. Shah, S. Ye, H. B. Tran, and H. Li*, "Digital Materials Ecosystem: From Databases to AI Agents for Autonomous Discovery", Chemical Science, 2026, In Press.

DOI：https://doi.org/10.1039/D5SC09229A

【声明】内容源于网络

科学材料站

内容 0

粉丝 0

科学材料站

总阅读0

粉丝0

内容0