大数跨境
0
0

中科大罗毅、江俊JACS & PNAS: 谱学描述符为机器学习引入化学认知

中科大罗毅、江俊JACS & PNAS: 谱学描述符为机器学习引入化学认知 邃瞳科学云
2022-10-04
0
导读:本文介绍了如何利用光谱的可解耦描述符来破解构效关系的高维关联,并为机器学习模型赋予化学认知。



  全文速览  

化学研究的对象日益复杂化、高维化,人工智能擅长从高维、高复杂的数据中探索关联性,带来了数据驱动的科研新范式。人工智能与化学结合的关键在于,寻找融合化学特征的描述符,将物理化学的语言转换为数字化语言,通过机器学习技术从数据中提炼化学认知。近期的智能化学研究中涌现出一些优秀的化学描述符,主要是采用数学工具对化学物质的结构与属性进行参数融合,实现化学对象的数字化。然而,以数学编码为主的方式使得描述符的物理内涵不明确,在实际应用中无法被直接测量,其对构效关系的描述也难以被解耦,导致其机器学习模型变成无法解释的黑箱。

而谱学是破解化学体系高维关联的天然描述符(图1)。它对物质的测量,就是对高维关联的复杂信息进行数字化降维,获得单一维度的刻画。同时,光谱既可以通过量子化学理论计算获得,也可以在实验中快速测量。更重要的是,光谱本身具备物理意义,基于谱学描述符的机器学习可带来具有物理内涵的解析表达式,实现模型的可解释性。罗毅、江俊课题组最近的两篇工作,分别聚焦催化剂的活性预测与化学反应路径的逆向预测,展示了光谱作为描述符破解高维构效关联并为机器学习引入化学认知的可能:

1.  基于光谱描述符发现预测表面分子吸附的可解释模型:该工作结合高通量第一性原理计算和机器学习方法,首次尝试解耦振动光谱信号,获取光谱描述符与催化剂表面-分子相互作用的定量关系。以吸附在金属表面的小分子的红外和拉曼光谱为例,定量预测了吸附能和电荷转移等关键化学信息。机器学习揭示的光谱描述符和目标性质之间的内在关联以数学公式的形式呈现,具备物理可解释的优势,并成功泛化应用到一系列金属和合金表面体系中,实现了对光谱描述符所蕴含的物理内涵的解耦,用以分离不同金属表面的共性与固有特性对分子吸附的贡献。这一研究极大地拓宽了光谱技术在材料设计和高通量筛选中的应用范围。

2.  引入NMR谱学特征的图神经网络预测化学反应路径:化学反应路径逆向预测一直是化学领域的桂冠,开发精确可靠的反应逆向预测模型是一个长期挑战。该工作结合第一性原理计算、图神经网络与大量反应相关数据,首次将谱学特征、键解离能与反应条件等信息引入化学反应,构建融合谱学特征、化学信息与分子结构的反应描述符(Chemistry Informed Molecular Graph, CIMG ),构建了反应逆向预测、催化剂预测、溶剂预测、反应合理性预测、反应路径逆向规划等多个机器学习模型,测试证明,融合谱学特征的CIMG描述符可以帮助机器学习模型破解构效关系的高维关联,增强机器学习模型的化学认知。
图1:基于谱学描述符连接“谱-构-效”关系


  背景介绍  

采用化学物质的微观结构与属性作为机器学习的描述符,取得了很好的效果。但很多工作只是停留在理论设计,难以在实验中得到应用。其中一个重要原因就是微观结构难以准确测量。例如在表面科学领域中,表面-吸附物相互作用性质(如吸附能、电荷转移、键能等)与表面分子识别、催化活性、电化学性质等密切相关。事实上,直接通过实验观测获取微观性质是很难的,通常的做法是使用光谱工具首先识别材料的几何结构,再基于此去推断目标特性。这种从光谱到结构再到性质的间接方法的缺陷在于,从低维的光谱信息难以定量且完整地提取到高维的几何结构信息,从而不可避免地引入累积误差,干扰对目标性质的预测。

另一方面,结构与效能之间存在着复杂的高维关联,机器学习方法基于大量数据也很难学到深刻的化学认知,极易被数据中浅层的特征误导,导致模型在特定数据集中表现良好,在陌生数据集中大打折扣。例如在化学反应中,参与反应的分子的结构组成很简单,局部看只有原子与化学键,但是每个原子与键都会受到全局化学环境以及外部反应条件的不同影响,这种局部、全局与外部的高度耦合大大加强了机器学习的难度,使得现有的很多反应预测模型难以达到预期。

描述符的选择是影响化学机器学习的关键因素。光谱作为物质结构的低维表示,具有可计算可测量的特点,并且本身受到第一性原理的约束。这使得光谱作为描述符有望帮助化学机器学习模型破解“构效”高维关联,建立可解释、可解耦的物理模型,提升机器学习的化学认知。

作者在之前的研究中(J. Am. Chem. Soc. 2020, 142, 7737; J. Am. Chem. Soc. 2021, 143, 4405),发现电/磁偶极矩可以作为表征微观性质的机器学习描述符,因为它们携带了电子能级和电荷分布的微观信息。而光谱(如红外和拉曼)作为实验更容易观测的信息,与所研究体系的电/磁偶极矩存在密切的关联(J. Am. Chem. Soc. 2020, 142, 19071; Proc Natl Acad Sci USA. 2022, 119, e2202713119)。这使得光谱信号具备了描述表面-分子相互作用、原子与化学键特征、分子与化学环境耦合等信息,乃至引入化学认知的潜力。相较于传统的化学结构或单一属性描述符,谱学描述符和化学性质/反应间的关系更加简单直接,有望训练出更加准确、易于理解且更具实用性的预测模型。


  图文解析  

基于高通量密度泛函(DFT)计算产生的数据,作者应用机器学习方法首次在光谱描述符和表面-吸附物相互作用性质之间建立了可定量预测、可迁移学习和可物理解释的关联性。研究将吸附在金属(AuAg)表面的小分子(CONO)的红外和拉曼光谱特征作为描述符,应用基于压缩感知的机器学习算法,提取得到从光谱描述符到吸附能、电荷转移和分子键能等关键目标性质的数学描述公式。令人兴奋的是,这些数学公式能够成功迁移学习到一系列金属和合金(包括高熵合金)表面吸附体系。对于每个新体系,只需要5-10组新的数据来重新拟合数学公式中的拟合参数,即可实现对目标性质的合理预测。进一步研究发现,这些数学公式包含了不同金属表面对分子吸附的共性特征,而其拟合参数则完全由金属本身的固有特性决定,即实现了对光谱描述符蕴含的理化信息的解耦。这些发现提供了一种机器学习与光谱技术相结合的新策略,用于实现从光谱信息到微观性质的直接预测。

为了研究光谱信号与表面-分子相互作用的关系,作者构建了四个吸附体系(CO /NO@Ag/Au)总计70,500个吸附构型,应用DFT对每个吸附构型一方面进行频率分析以获取红外和拉曼光谱的频率和强度作为机器学习的描述符,另一方面进行单点计算以获得关键的吸附信息作为机器学习的目标性质,包括吸附能(Eads)、表面和被吸附物之间的电荷转移(Δe)、C-ON-O的键能(Eb),以及金属表面的d带中心d)。如图2所示,作者采用机器学习额外树回归(ETR)模型几乎完美预测了目标性质。所有预测Pearson相关系数均为~0.99,预测误差均在DFT的计算误差范围内。
图2:基于谱学描述符(a)预测催化剂-分子体系CO@Au(111)的表面相互作用及其关键参数(b):吸附能Eads, 电荷转移量Δe, 键能Eb, d-带中心εd.

好的机器学习模型需要具备可迁移性,即通过模型训练获取的知识可用于解决相关的其它问题。机器学习模型实现了从CO@Ag体系到CO@AgNO@AuNO@Ag等体系的迁移,得到了很好的预测效果。接着,作者尝试理解光谱描述符的物理内涵。重要性分析证明了分子(C-ON-O)伸缩振动的频率变化与吸附强度的高度相关性,验证了分子轨道理论带来的化学理解。进一步地,作者应用基于压缩感知的机器学习模型SISSO来挖掘光谱描述符与目标性质之间的数学依赖关系,以获取更好的模型可解释性。

基于振动光谱特征的数学公式表现出强大的泛化预测能力,如图3a-c所示,作者证明了存在通用于34种迁移体系的数学公式,用于迁移学习和预测不同金属表面对分子的吸附行为。迁移到的目标金属包括具有空位缺陷的Au、单金属(PtPdIrRh Cu),二元合金(AuAgCuPdCuPtCuRhCuIrPdPt)和高熵合金(AgAuPdPtCu)。这表明基于光谱描述符的数学公式已经捕捉到了潜在的物理机制。进一步地,作者发现公式中的变量由光谱描述符组成,包含了所有体系的共性特征,而公式中的拟合参数(如图3c中的a1/b1/c1/d1a2/b2/c2/d2)则包含了不同金属表面的个体差异信息,由每个迁移体系的固有特性(如如功函数和表面形成能等)完全决定并可以通过少量(5-10组)数据来标定。这表明,这些基于光谱描述符的数学公式实现了对振动光谱描述符的解耦,以分离不同金属表面的共性与固有特性对分子吸附的贡献。
图3:(a-b)基于 CO@Ag(111)和CO@Au(111)体系的机器学习预训练模型(SISSO提取的解析表达式)可以被迁移应用于34种不同类型的金属材料吸附CO分子体系的光谱-催化活性参数关系预测,其迁移和关键参数拟合仅依赖于被迁移对象的少量数据(2-5组数据)(c)。(d)模型迁移所需的拟合参数只与分子振动光谱信号有关,而与金属衬底类型无关,说明可解释的机器学习模型有效分离了衬底材料与分子的特征信息。

在上述工作的基础上,作者探索了在图神经网络中嵌入谱学描述符,为反应路径预测模型引入化学认知。设计了5个机器学习模型,结合蒙特卡洛树搜索,构建了反应路径逆向规划算法,对于任意有机小分子,可以给出从商业原料分子到目标分子的合成步骤、每步的合理性分数以及催化剂、溶剂等反应条件信息。作者基于第一性原理计算得到的46万谱学数据和15万键解离能数据设计了融合谱学和化学信息的分子图描述符(CIMG),并将CIMG描述符应用于反应逆向预测、催化剂预测、溶剂预测、反应合理性判断、多步路径规划等5个机器学习模型。
图4. 化学反应路径逆向预测。(A) 五种常见反应类型(反应模板)。(B) 经过300万反应数据的训练后,分别使用两个不同描述符(基于分子结构的GNN描述符和基于NMR谱的CIMG描述符)的GNN模型输出的global vector对五种常见反应类型覆盖的产物进行聚类,观察聚类图,可以看到基于NMR谱的CIMG描述符更能够促进模型学习并理解不同化学反应的细微差异与共性。(C) 化学反应路径逆向规划流程。(D) 三种描述符的反应预测准确性:基于分子结构的GNN描述符(黄色方形电线);Morgan分子指纹描述符(蓝色三角点线);基于NMR谱的CIMG描述符。

在反应逆向预测模型中,作者对比了融入NMR谱学特征的CIMG描述符和普通的基于分子结构的GNN描述符,以五种常见反应类型(图4A T1~T5)为例,对数十万分子进行聚类,可以看到CIMG描述符的聚类效果明显好于普通GNN描述符(图4B)。尤其值得注意的是,基于CIMG描述符的模型学到了不同反应类型的共性:T2T5中虽然离去基团不同,但都是胺的亲核反应,而且在实际反应中,一般都是将T2中的羟基卤化,再使用T5进行反应,所以实际上T2T5就是一类反应,这一点在CIMG的聚类图(图4B)中得到完美体现(蓝色和黑色区域基本重合)。另外,基于CIMG描述符的模型也学到了相似反应类型的细微差异性:T4T5中的结构非常相似,但是反应机理完全不同,在CIMG的聚类结果(图4B)中也体现出了这种隐藏在结构下的反应性的差异性(绿色和黑色区域分离分布)。经过测试集的测试也可以看出融入NMR谱的CIMG描述符的优越性。如图4C-D显示,普通的GNN描述符的预测效果(黄色方形点线)远远不如基于分子指纹的深度学习(蓝色三角点线,Nature 2018555604),而使用了加入NMR谱和键能等谱学和化学特征的CIMG描述符后(绿色圆形点线),GNN模型反超深度学习模型。基于CIMG描述符,作者设计了催化剂预测、溶剂预测、反应合理性判断、多步路径规划等多个机器学习模型,其准确性和可靠性均超过普通的GNN描述符。结合5个机器学习模型和蒙特卡洛树搜索,作者构建的化学反应路径逆向规划算法实现了准确可靠的路径规划功能,经过4万余个新分子的测试,有70%的分子可以在1分钟内得到合成方案,85%的分子可以在30分钟内得到合成方案。


  总结与展望  

两个工作都体现了如何利用光谱的可解耦描述符来破解构效关系的高维关联,并为机器学习模型赋予化学认知。

在关于表面科学的研究中,作者结合DFT计算和机器学习方法,建立了可计算、解耦和易于测量的光谱描述符,并挖掘了光谱描述符与吸附特性之间的数学关联。这种方法可以很容易地扩展到各种类型的光谱技术,例如基于电子结构的光谱和/或多维光谱等,也将助力原位光谱表征技术用于提供原位和实时分析的策略。本研究展示了机器学习从宏观可测量数据(例如光谱信号)中直接提取微观信息(例如吸附相关特性)的潜力,为实验直接测量吸附能、电荷转移和分子键能等微观信息奠定了坚实的理论基础。

在关于反应预测的研究中,作者结合DFT计算、图神经网络和大量化学相关数据,建立了融合谱学特征、化学知识的反应描述符(CIMG),成功破解分子结构与反应性之间复杂的高维关联,使机器学习模型敏锐捕获反应类型之间细微的共性和差异性。本研究设计了谱学特征、化学知识以及分子结构的描述符,并构建了更加准确和可靠的化学反应逆向预测算法,为自动化的、可实用的化学反应逆向路径规划提供了新的思路。


  作者简介  

江俊,中国科学技术大学化学与材料科学学院教授,主要从事理论化学与人工智能的交叉研究,聚焦于复杂体系内电子运动模拟,研究在多个物理与化学应用领域(催化/光催化、生物化学、光化学、分子电子学与光子学)中的实际问题。在国际知名SCI期刊如Nat. Energy, Nat. commun., J. Am. Chem. Soc., Adv. Mater.等发表论文180余篇。近年来结合数据挖掘和人工智能技术,主持开发了全球首个计算数据驱动的全流程机器化学家系统(http://staff.ustc.edu.cn/~jiangj1/AIChem.mp4),发展了5个计算软件包,在多个国家的知名研究组应用。开发了化学材料知识图谱,建设了大规模材料科学数据库平台(www.dcaiku.com),包含9000万分子、30万晶体材料、1100万化学反应、数万种催化/光电材料等数据资源。获2015年中国化学会唐敖庆青年理论化学家奖, 2020年日本化学会杰出讲座奖,2020年获自然科学基金委杰出青年基金资助。

王翕君,中国科学技术大学博士,现美国西北大学博士后,主要从事理论化学和机器学习在多个能源与环境交叉领域的应用研究,如光、电催化,纳米材料,化学链等。在国际知名SCI期刊如J. Am. Chem. Soc., Energy Environ. Sci., Nat. Commun., Adv. Mater.等发表论文60余篇,并担任Phys. Rev. Lett., Nat. Commun., J. Chem. Phys., ACS Sustain. Chem. Eng.30余个国际著名期刊审稿人。

张百成,本科毕业于中国科学技术大学近代物理系,目前在中国科学技术大学未来技术学院攻读博士学位,主要从事化学合成、光谱与人工智能的交叉研究工作。


  文献来源  

(1) Xijun Wang et al., Quantitatively Determining Surface–Adsorbate Properties from Vibrational Spectroscopy with Interpretable Machine Learning, Journal of the American Chemical Society, 2022, 144, 16069.
https://pubs.acs.org/doi/10.1021/jacs.2c06288

(2) Baichen Zhang et al., Chemistry Informed Molecular Graph as Reaction Descriptors for Machine Learned Retro-Synthesis Planning, Proceedings of the National Academy of Sciences USA, 2022, 119, e2212711119.
https://www.pnas.org/doi/epdf/10.1073/pnas.2212711119


声明


本文仅供科研分享,不做盈利使用,如有侵权,请联系后台小编删除

欢迎关注我们,订阅更多最新消息

“邃瞳科学云”直播服务

“邃瞳科学云”推出专业的自然科学直播服务啦!不仅直播团队专业,直播画面出色,而且传播渠道多,宣传效果佳。

“邃瞳科学云"平台正在收集、整理各类学术会议信息,欢迎学会、期刊、会议组织方择优在邃瞳平台上进行线上直播,希望藉此帮助广大科研人员跨越时空的限制,实现自由、畅通地交流互动。欢迎老师同学们提供会议信息(会有礼品赠送),学会、期刊、会议组织方商谈合作,均请联系翟女士:18612651915(微信同)。

投稿、荐稿、爆料:Editor@scisight.cn

扫描二维码下载

邃瞳科学云APP

点分享
点收藏
点点赞
点在看 
【声明】内容源于网络
0
0
邃瞳科学云
邃瞳科学云是一个百家争鸣的个性化学术传播平台。依托新媒体矩阵,小程序及APP等完整产品线,在开展专业性的学术活动的同时,还致力于科普教育和科学传播,更自由、重分享。 格物致知,光被遐荒。Meet Your Science!
内容 8582
粉丝 0
邃瞳科学云 邃瞳科学云是一个百家争鸣的个性化学术传播平台。依托新媒体矩阵,小程序及APP等完整产品线,在开展专业性的学术活动的同时,还致力于科普教育和科学传播,更自由、重分享。 格物致知,光被遐荒。Meet Your Science!
总阅读8.4k
粉丝0
内容8.6k