

第一作者:崇媛媛 博士,霍姚远 博士
通讯作者:王嵩 副研究员,江俊 教授
通讯单位:中国科学技术大学
DOI:10.1073/pnas.2220789120
快速发展的机器学习技术为化学研究带来了数据智能驱动的新范式。然而,主流的机器学习训练常常只能提供“黑盒”预测模型,在同源数据集内具有较好的预测效果,但在迁移泛化到不同源体系时经常依赖于大量训练数据供应。遗憾的是,化学研究中高质量数据往往难以获得。受限于实验和计算成本,化学数据通常是稀疏甚至缺乏的,难以满足智能模型对数据的需求。针对这一难题,本文以铜基金属有机框架(MOFs)催化剂作为研究对象,采用红外/拉曼光谱特征作为描述符,基于压缩感知算法,建立了预测金属催化剂性能指标(吸附能和电荷转移)的可解释智能模型。这种“谱-效关系”以一种明确的数学解析表达式的“白盒”形式出现,表现出了优秀的泛化预测能力,即使在数据量较少或数据存在部分错误的情况下,该模型也能够准确预测和迁移泛化,甚至能够识别出错误数据,实现对数据的清洗。这种面向可解释智能模型的研究途径将大大增强机器学习方法在化学领域的适用性。
催化剂是材料、能源、化学等领域的点金石。催化剂结构的复杂性和动态性使得监测催化过程中小分子的吸附状态成为一项重大挑战。近年来,机器学习的快速发展让人看到了实现突破的曙光。然而,化学实验的复杂性给收集大量无缺陷高质量的数据设置了非常高的门槛,这与机器学习从大数据中进行学习的需求相矛盾。与此同时,机器学习建立的黑箱模型总是缺乏科学规律,需要大量的数据才能使其具有良好的可迁移性。因此,尽管机器学习具有巨大的潜力,但它在化学科学领域的应用仍然是有限的。
在传统的研究思路中,催化性能往往从光谱识别出的特定结构推断得来。在机器学习辅助催化过程的研究中,研究人员已尝试使用一系列结构描述符来建立构-效关系。例如,在吸附物-催化剂表面,小分子吸附状态的差异会导致表面相互作用(例如吸附能和电荷转移)的变化,进而影响催化活性。然而具有3N坐标参数的结构描述符缺乏物理化学规则和耦合信息,难以找到稳健的映射关系。该课题组在之前的研究中,发现携带电子能级和电荷分布信息的偶极矩是表征微观催化性质的良好描述符(J. Am. Chem. Soc. 142, 7737-7743 (2020);J. Am. Chem. Soc. 143, 4405-4413 (2021)),但其在实验中难以测量。幸运的是,与偶极矩密切关联的振动光谱可通过实验测量和理论计算获取,从而使它们成为更具物理意义、也更直接的描述符(J. Am. Chem. Soc. 144, 16069-16076 (2022))。因此,建立预测谱-效关系的可解释智能模型变得至关重要。
在这项工作中,作者使用符号回归方法在振动光谱信号和催化特性之间构建了“白盒”式的数学关系。以Cu基金属有机框架(MOF)为例,研究了CO2还原反应过程中Cu基MOFs与关键中间体分子CO之间的吸附能和电荷转移特性。吸附在催化剂MOF表面具有各种构型的CO分子的红外和拉曼光谱信号被用于预测催化性能,使用基于压缩感知原理的符号回归方法SISSO,构建了定量数学公式,实现了复杂谱-效关系的预测和解耦。明确的数学解析表达式打破了“黑盒”模型对大数据量的依赖。在迁移泛化过程中,即使针对含有部分错误标签的小数据集,它也可以保持令人满意的鲁棒性,并且有足够的能力来识别和清理错误标签数据。该工作为通过机器学习光谱获取催化性质奠定了坚实的基础,并且原则上可以在实验数据集可用时通过迁移学习运用于实际应用,以期未来将催化过程监测甚至催化剂设计变为现实。
1. 光谱作为一种包含丰富物理信息的描述符,用其构建的“光谱-效能”定量关系具有可测量、可计算、可大数据化的优势,是构效关系的重要补充;
2. 数学解析表达式能够对“光谱-效能”关系进行准确预测,同时也能够把被吸附分子的光谱信息和金属纳米催化剂的内禀性质解耦分离开来;
3. 可解释的数学公式智能模型具有优秀的泛化预测能力,仅需要少量数据,就可以实现模型迁移,并且在数据量较少或样本存在误差时,依旧保持良好的预测和迁移能力。

图1振动光谱特征作为描述符预测催化性质 (a)Cu基MOF催化剂CuBTC结构及小分子-催化剂表面相互作用体系CO@CuBTC(b)吸附小分子振动模式的频率和强度作为输入特征预测表面相互作用性质吸附能ΔEads和电荷转移量Δe
为了探索光谱信号与小分子-催化剂表面相互作用的关系,作者以经典Cu基催化剂CuBTC为衬底构建小分子吸附体系CO@CuBTC,通过改变CO的吸附角度和吸附距离遍历空间上可能存在的吸附构型,共计3584个吸附构型。应用高通量密度泛函(DFT)对每一个吸附构型一方面进行频率计算以获取红外和拉曼光谱的频率和强度作为机器学习的描述符,另一方面进行单点计算以获取关键的吸附信息吸附能(ΔEads)和电荷转移量(Δe)作为机器学习的目标性质。

图2振动光谱特征通过神经网络模型能够对催化特性精准预测,发掘光谱-效能间的隐藏关系(a)CO@CuBTC体系催化性质的预测(b-c)基于预训练模型对目标域体系CO@PFC-73-Cu和CO@Cu-PO3催化性质的迁移学习预测
如图2所示,作者基于振动光谱特征描述符通过神经网络(NN)模型很好地预测了目标性质,预测Pearson相关系数均为~0.98,预测误差均在DFT的计算误差范围内,明确了光谱-效能间隐藏的复杂关系。稳健的光谱-效能关系和优秀的机器学习模型具有知识迁移的能力,即经过源域大数据集充分训练的预训练模型再经过目标域小数据集的微调训练,可用于解决不同但相关的问题。NN模型能够实现从CO@CuBTC体系向CO@PFC-73-Cu和CO@Cu-PO3体系的迁移预测,均展现出很好的预测效果。
接着,作者进一步分离解耦光谱-吸附效能间的复杂关系,特征重要性分析表明伸缩振动和弯曲振动模式的变化与吸附强度间呈高度相关。基于压缩感知原理的符号回归方法SISSO用于挖掘光谱描述符与目标性质之间的数学映射关系,以突破NN模型的不可解释性。SISSO方法构建的数学公式由底物和被吸附物共同贡献,公式中的变量来源于被吸附物的光谱信号,这些信号是宏观的可测量的,而公式中的参数k和b完全由底物的本征性质决定,仅需少量样本即可校准。

图3训练集数据量逐步减少时,神经网络与数学公式模型预测能力对比
考虑到实验中难以获得大量数据,作者进一步探索了迁移学习对数据需求的边界。如图3红线所示,当训练数据集有超过500组数据时,NN模型的预测性能保持在可接受的高水平。然而,当训练数据量继续减少时,所有CO@MOF体系的预测性能都会急剧下降,这是此类黑盒模型的常见问题。虽然数学公式的预测性能略差于NN模型,但其更直观、更简单、包含的参数也更少,因此对训练数据量并不敏感。如图3蓝线所示,随着训练集数据量逐步减小,数学公式模型的预测能力一直在高水平上几乎没有变化。可解释性数学公式在小数据集上的优势将体现在未来昂贵且稀缺的实验样本预测中。

图4训练数据集中混入不同比率的错误标签数据时,神经网络模型与数学公式预测能力对比(a)错误数据类型:错误标签为原始标签的1.5倍(b)错误数据类型:标签被无序打乱(c-d)神经网络模型与数学公式对错误标签数据的识别对比
机器学习应用面临的另一个常见挑战是数据集中常常包含一些错误数据。为模拟此类数据场景,作者人为引入了两种类型的错误数据:将目标值扩大为原数值的1.5倍和随机打乱目标值。如图4(a-b)所示,NN和数学公式模型的预测效果均会随着训练集中掺杂的错误数据比率的增加而变差。然而,值得注意的是,数学公式模型存在一个平台期(错误样本占训练样本的比率为0-10%),而一旦将错误数据添加到训练集中,NN的预测性能立刻就会变差。数学公式较NN模型更稳健,更能容错,这归因于数学公式中参数较少使得模型避免陷入错误数据点的陷阱中。此外,作者同时检测NN和数学公式模型对错误数据的识别,图4(c-d)表明数学公式模型对错误数据的召回率更高,更能准确识别出错误数据。
本工作以光谱信号作为描述符,通过符号回归算法,构建了定量的光谱-效能“白盒”智能模型。作者使用红外和拉曼光谱预测了CO分子在铜基MOFs上的吸附能量和电荷转移性质,证明了可解释的数学公式模型具有优良的迁移泛化能力、鲁棒性及错误数据容忍和识别的能力。这项工作展示了一种可解释的谱-效关系机器学习模型的建立方法,表明了可解释模型能够更有效地利用珍贵稀疏的科学数据。作者预期在进一步的研究中使用理论大数据产生可解释的预训练模型,再依托实测小数据做迁移学习,建立面向复杂体系的“理实交融”模型,促进对实际催化体系的现场和实时分析。
王嵩 博士现为中国科学技术大学化学与材料科学学院副研究员,主要从事理论与计算化学研究。近年来,通过量子化学计算、分子动力学模拟、大数据和人工智能相结合,研究了多尺度多维度碳材料的共性结构特征,以“分而治之”的思想发展了低维材料的电子态计算方法和金属团簇材料的结构预测算法,针对化学小数据建立了可解释、可解耦的智能模型,实现了材料的高效筛选。在国际一流学术期刊如Chem, Nat. Commun., J. Am. Chem. Soc., Angew. Chem. Int. Ed.等发表论文近30篇。主持基金委青年科学基金项目,作为主要成员参与国家重大科研仪器研制项目,获得2022年度“中科大墨子杰出青年特资津贴”。
江俊 博士现为中国科学技术大学化学与材料科学学院教授,从事理论化学研究,发展融合人工智能与大数据技术的量子化学方法,聚焦于复杂体系内电子运动模拟,研究在多个物理与化学应用领域(能源催化、功能材料、光化学、谱学)中的实际问题。开发了化学材料知识图谱,建设了大规模材料科学数据库平台,研制出装载开放式操作系统、可智能阅读论文、执行化学合成-表征-测试-理论模拟的全研究流程、融合理论大数据和机器实验数据提出智能模型的机器化学家平台。在国际知名SCI期刊发表论文150余篇。获批基金委杰出青年基金、唐敖庆理论化学青年奖、中科院“机器科学家”青年团队主持人。
文献来源
Yuanyuan Chong et al., Machine Learning of Spectra-Property Relationship for Imperfect and Small Chemistry Data, Proceedings of the National Academy of Sciences USA, 2023, 120, e2220789120.
https://www.pnas.org/doi/epdf/10.1073/pnas.2220789120
声明
“邃瞳科学云”直播服务
扫描二维码下载
邃瞳科学云APP

