大数跨境

日本东北大李昊/华电杨维结 Precision Chem 特约展望:从“材料数据库”到“数字材料”新时代:现代材料智能研发的底座正在形成

日本东北大李昊/华电杨维结 Precision Chem 特约展望:从“材料数据库”到“数字材料”新时代:现代材料智能研发的底座正在形成 科学材料站
2026-03-31
2
导读:在很多人的印象里,数据库只是“存数据的地方”。
在很多人的印象里,数据库只是“存数据的地方”。、

2026年3月27日,日本东北大学李昊杰出教授团队华北电力大学杨维结教授团队在《Precision Chemistry》受邀发表题为 “Materials Databases: Foundations of Modern Digital Materials” 的展望(Perspective)论文。该论文表达的核心观点恰恰相反:数据库早已不只是材料信息的仓库,而是现代数字材料科学的底层操作系统,是AI模型、AI Agent乃至未来自驱动实验室能够真正可靠运行的基础。
TOC
文章指出,材料科学正在经历从经验试错、理论归纳、计算模拟,走向“数据驱动”的第四/四+范式。这个阶段的关键,不只是引入AI,而是把质量数据库、物理理论、AI 模型和实验反馈真正连接成一个可迭代的闭环系统。尤其在能源材料领域,传统研发周期长、变量多、试错成本高,数据库与AI的深度融合,正在成为压缩研发周期、提升决策效率的重要路径。
图1. 材料科学范式的演进。
(a) 第一范式(经验科学):以孤立的数据点和“爱迪生式”试错实验为特征,效率较低,研发周期较长。
(b) 第二范式(理论科学):以实验数据的不断积累和物理规律(如热力学)的总结与建立为标志,通常采用较为简单的描述符,但往往缺乏对高维复杂体系的预测能力。
(c) 第三范式(计算科学):以计算模拟〔如密度泛函理论(DFT)/分子动力学(MD)〕为主要特征,可生成低维描述符(如带隙、吸附能),从而实现计算辅助设计。
(d) 第四/四+范式(数据驱动科学):当前阶段由大数据与人工智能(AI)驱动,将实验与模拟中的高维数据与机器学习(ML)算法相结合,以挖掘潜在的结构—性质关系并加速材料发现。

这篇文章在讲什么?

这篇文章的结构非常清晰。作者首先系统梳理了当前材料数据库的全景,包括计算数据库与实验数据库两大类;随后进一步讨论,为什么数据库不仅服务于数据管理,更直接决定了AI模型与AI Agent的能力上限;最后,文章提出未来要走向真正可信的自驱动材料发现,必须解决标准化、可追溯性、负结果缺失、跨平台兼容等一系列关键问题。

换句话说,这篇文章不是简单罗列数据库,而是在回答一个更大的问题:

为什么今天大家都在谈AI for Materials,但真正决定成败的,仍然是数据库本身?

为什么说“数据库架构”比“数据量”更重要?

文章特别强调,现代材料数据库真正重要的不只是规模,更是其架构设计。这里的架构,包含数据摄取、数据清洗、元数据、来源追踪、版本控制和访问接口等。作者认为,这些因素会直接影响AI模型输出的可靠性与可解释性。也就是说,AI能不能真正“懂材料”,很大程度上取决于数据库有没有把材料知识用标准化、机器可读、可追溯的方式组织起来。

这也是这篇文章很有价值的一点:它把大家经常忽视的数据库工程问题,提升到了材料智能时代“可信AI”的核心位置。文章明确指出,数据库不是中性的,它会塑造模型;数据库质量不够,模型再大也可能只是“看起来很聪明”。

文章如何看待现有材料数据库?

作者将现有数据库分成两大方向。

第一类是计算材料数据库。例如 AFLOW、Materials Project、OQMD、NOMAD 等,这些数据库通过高通量DFT计算,为材料稳定性、电子结构、热力学等提供大规模数据支持。它们的价值在于,可以快速筛选候选材料,把材料搜索从经验探索转变为可量化的流程。

但文章也指出,计算数据库存在天然局限。比如,大多数数据仍然基于理想晶体、零开尔文、理想表面等假设,难以真正反映实际工况下的表面重构、缺陷、溶剂、电位、界面等复杂因素。因此,热力学稳定性是必要条件,但远不是实际性能的充分条件。 这句话其实说中了很多材料AI工作的“痛点”。

第二类是实验材料数据库。文章重点讨论了晶体结构数据库、催化数据库、电池数据库和储氢数据库,强调实验数据库的价值在于:它们更接近真实世界,能够把理想化理论预测与真实材料表现连接起来。尤其在催化、电池、储氢这些体系中,实验条件、工艺参数、测试方式常常决定最终性能,因此如果没有上下文信息,单独一个性能值其实意义有限。

图2. 计算平台与集成平台。
(a) 材料基因组基础设施中用于高通量性质计算的工作流架构示例。
(b) 代表性的大规模吸附质–表面相互作用能数据集与门户,包括 Open Catalyst Project 数据集以及 Catalysis-Hub。
(c) 以 DigCat 为例的集成平台,可将计算得到的表面结构与实验记录及工具接口相连接。
(d) DigCat 门户中实验数据分布与计算结构统计的展示界面。

文章中的一个重要亮点:数据库不再是“单模态孤岛”

这篇文章很鲜明地反对“单模态数据库孤立存在”的旧模式。作者特别强调,未来更有价值的,不是只存计算数据,或者只存实验数据,而是把计算描述符、实验记录、上下文元数据和工具接口连接起来的综合平台

文中以 数字催化平台 (DigCat) 为代表案例,认为它展示了一种“集成式催化设计平台”的雏形:不仅包含大规模计算表面库,也包含结构化实验数据,还通过工具接口把理论吸附能与器件层面的性能评价联系起来,从而支持更接近真实研发流程的假设提出、候选筛选与实验验证。文章提到,DigCat已包含超过40万条实验数据和超过50万条计算数据,用于支撑统计分析、AI 训练与催化 AI Agent 开发。

此外,文章也介绍了 数字电池平台 DigBat(DDSE) 和 数字储氢平台 DigHyd。前者聚焦固态电解质,强调离子电导率、活化能、Arrhenius信息以及加工/测试元数据的标准化;后者则聚焦固态储氢材料,并介绍了基于多智能体工作流的 DIVE,用以从文献图像中提取结构化实验数据。DIVE相较直接用多模态模型提取,在准确率和覆盖率上都有明显提升,支撑了一个包含超过3万条数据、覆盖4000多篇文献的DigHyd平台。

这背后释放出一个很强的信号:
未来真正有生命力的数据库,不是“把材料信息堆进去”,而是把材料知识转化成AI可调用、实验可验证、流程可反馈的动态基础设施。

数据库为什么是 AI 模型和 AI Agent 的“训练场”?

文章在后半部分提出了一个非常值得重视的判断:

材料数据库不是被动仓库,而是结构—性质关系变得“可学习”的训练场。

这意味着,无论是传统回归模型、图神经网络,还是大语言模型驱动的AI Agent,其能力都受到数据库覆盖度、数据保真度和元数据完整性的强约束。

文章认为,数据库支撑AI主要体现在几个层面。

首先,数据库让传统的结构—性质拟合成为可能。比如催化中的吸附能—活性标度关系、火山图关系,本质上都依赖于高质量数据库来提炼规律、检验趋势。其次,数据库也支撑更高级的GNN和MLP等模型训练。例如,机器学习势函数不仅要有结构和能量,还必须有力、采样策略、误差与来源追踪信息,否则模型虽能拟合,却很难稳定泛化。

更进一步,文章提出,到了AI Agent时代,数据库还要承担“外部知识底座”的作用。AI Agent不是凭空推理,它需要检索、调用、规划、执行多步科学工作流;如果数据库没有标准化结构、上下文协议和可追溯证据链,那么Agent的“智能”就会变得不可靠。文章甚至直接指出:LLM和AI Agent有多可靠,最终取决于支撑它们的数据库有多可靠。



图3. 从电子描述符到催化性能趋势。
(a–c) 微观描述符提取与电子结构分析的示例。
(d, f) 单原子催化中标度关系与催化火山模型的示例。
(e, g) 非均相催化中的代表性自由能图与火山图概念。



图4. 数据库赋能的机器学习势函数(MLPs)在能量/力回归与机制分析中的应用。
(a, b) MLP支持的主动学习工作流概览及其代表性下游应用。
(c–e) 面向催化领域的MLP研究视角及其应用示例。



图5. 面向领域模型与AI智能体的“数据库—模型—实验”路线图。
(a) 表征与特征构建需要标准化的结构记录,其中应包含一致的标识符、组成信息、对称性信息以及机器可读的结构图。
(b) 可解释的图学习除上述信息外,还需要对齐的性质标签、在可用情况下提供的不确定性字段,以及便于归因分析的元数据,从而使模型解释能够追溯到具体输入。
(c) 面向专门化任务的学习模式依赖于带版本管理的数据集快照、明确的任务定义以及可复现的数据划分,从而保证预训练与微调在数据库持续更新过程中仍具备可审计性。
(d) 实验验证通过将带有结果标签的测量数据连同实验协议元数据和不确定性估计回写至数据库,从而闭合整个流程,并支持主动学习在下一轮迭代中筛选高信息增益候选。从(d)回到数据库的返回路径表示显式的反馈更新,即将经验证的结果作为带版本记录的新数据追加到数据库中,用于下一轮模型训练或筛选循环。


这篇文章最重要的批判:负结果缺失与“幻觉”风险

这篇文章还有一个很有分量的观点,就是对当前材料AI普遍存在问题的直面批评。

作者指出,当前实验文献和数据库普遍存在“发表偏差”:成功结果被大量报道,而失败实验、负结果、无效路径却很少被结构化记录下来。这会导致AI模型对“可合成性”“可实现性”过于乐观,低估风险。文章认为,未来负结果必须被视为一等公民,并且应被进一步细分为“合成失败”和“性能失败”等不同类别,建立标准化的失败分类体系。

这其实非常关键。因为一个真正成熟的材料AI系统,不应只会告诉你“什么可能成功”,还应告诉你“什么大概率不值得做”。
只有把“失败边界”也写进数据库,AI才可能从“会讲故事”走向“会做判断”。

文章还进一步指出,如果数据库中的元数据不完整、上下文不一致、抽取流程不够严格,那么再强的生成式AI也可能产生严重“幻觉”。因此,作者提出了 Deep Curation 的概念,也就是通过证据链接、结构校验、单位归一、来源追踪等机制,把材料知识从自由文本转化为可验证、可审计的机器可用记录,以此降低AI幻觉。

未来材料智能研发会走向哪里?

文章最后给出了一条很清晰的未来路线图。

第一,是从 Big Data 走向 Smart Data。重点不再只是数据越多越好,而是数据是否标准化、是否可重用、是否有清晰来源、是否能跨平台互通。FAIR原则在这里被视为迈向全球材料数据共同体的前提。

第二,是通过 Federated Learning(联邦学习) 打破机构间数据孤岛。文章认为,未来很多高价值数据可能无法直接共享原始内容,但可以通过“模型到数据”的方式实现协同训练,在保护隐私和知识产权的同时提升整体模型能力。

第三,是发展多模态材料基础模型。与只基于结构图学习的模型不同,多模态基础模型需要将结构、文本、谱图、工艺元数据等围绕同一个材料实体进行对齐,从而支持更高层次的检索、生成与决策。

第四,是迈向人机协同的自驱动实验室。文章并没有把未来描绘成“机器取代科学家”,而是强调 human-in-the-loop:AI Agent 负责高维优化与工作流协同,机器人负责重复性操作,而人类科学家则聚焦于高层次假设提出、机制理解与伦理监督。

图6. 将稳健数据库基础设施与未来自主材料发现相连接的战略路线图。该工作流展示了材料研发如何从碎片化数据走向智能体驱动的研究范式。
左侧与中部:多样化的计算与实验数据源通过稳健的多层数据库架构加以整合,该架构包括数据摄取、深度整理(deep curation)和来源追踪等关键环节,从而为可信赖的AI模型(如图神经网络GNN和机器人智能体)提供支撑。此处所说的“深度整理”是指一个验证层:它对提取的信息进行标准化,依据数据库模式和物理约束进行校验,并附加来源链接,从而确保下游材料领域基础模型和智能体所调用的内容都是可追溯、有证据支撑的事实。
右侧:该路线图进一步延伸至未来前沿方向,提出通过联邦学习(Federated Learning)打破数据孤岛,并通过符合FAIR原则的标准化来降低偏差,最终推动多模态材料领域基础模型的发展,并在自驱动实验室中实现人机协同共生。

我们该如何理解这篇文章的真正意义?


这篇文章真正讨论的,不是“材料数据库有哪些”,而是“现代数字材料研究为什么必须从数据库出发”。

它告诉我们,未来材料科学的竞争,不只是模型竞争,不只是算力竞争,甚至不只是实验能力竞争,而是:

谁能率先构建高质量、可追溯、可标准化、可闭环反馈的数字材料基础设施。

数据库在这里不再是配角,而是AI时代材料创新的起点。没有好的数据库,就没有可靠的模型;没有可验证的知识组织,就没有可信的AI Agent;没有实验反馈写回,就没有真正意义上的自驱动发现闭环。

这也是为什么,这篇文章虽然题目写的是“Materials Databases”,但其真正落脚点,其实是Modern Digital Materials
它描绘的是一个更大的图景:材料科学正在从“数据辅助研究”迈向“数字系统驱动研究”,而数据库正是这个新时代最基础、也最关键的底座。

论文信息:

Y. Zhuang, X. Yang, C. Zhang, X. Jia, D. Zhang, M. Li, T. Yao, J. Peng, Z. Gao, W. Yang*, and H. Li*, "Materials Databases: Foundations of Modern Digital Materials", Precision Chemistry2026, In Press

DOI:https://doi.org/10.1021/prechem.5c00449


【声明】内容源于网络
0
0
科学材料站
内容 9163
粉丝 0
科学材料站
总阅读9.0k
粉丝0
内容9.2k