点击科学材料站,关注我们
结合机器学习和多层晶体图描述符加速二维铁磁材料研发
作者:陆帅华1,周跫桦1,过伊吕,章烨晖,吴艺蕾
通讯作者:王金兰*
研究背景
二维铁磁材料由于其原子级别的厚度和可控的电子自旋自由度,已成为下一代自旋电子器件制造的研究热点。但是二维铁磁材料的实验合成非常昂贵且极具挑战性,因此现有的二维本征铁磁材料十分有限,尤其是具有半导体或半金属性质的二维铁磁材料。以第一性原理高通量计算为代表的理论模拟,在某种程度上可以加速新材料的开发过程。但由于二维材料磁性性质成因复杂,如果对整个化学空间进行逐一搜索需要耗费庞大的计算资源。因此,开发高效的新方法来加速新型二维铁磁性材料的研发是至关重要的。
近年来,人工智能在计算机技术领域取得了举世瞩目的成就,作为其代表的机器学习技术有望大幅缩短新材料的研发周期,推动材料开发智能化的发展。与常规的计算模拟方法不同,机器学习技术主要依靠已有的数据进行学习,绕过了求解复杂的量子力学方程,因此可以极大地加速材料研发过程。
文章简介
近日,东南大学王金兰教授团队在国际顶级期刊 Advanced Materials (Advanced Materials, 2002658 (2020))上发表题为“Coupling a crystal graph multilayer descriptor to active learning for rapid discovery of 2D ferromagnetic semiconductors/half-metals/metals”的研究工作。
该文章第一作者为博士研究生陆帅华和青年教师周跫桦,王金兰教授为通讯作者。该工作借助人工智能技术,结合密度泛函理论和高通量计算材料数据库,搭建了二维铁磁功能材料的智能化设计平台,并针对二维结构和磁性的复杂性提出了一种新的材料描述符。
这一策略成功地从近4000种二维材料中,快速筛选出了近百种未研究过的二维本征铁磁半导体、半金属和金属材料。通过第一性原理计算和蒙特卡洛模拟,进一步发现了数十种具有较高居里温度的铁磁材料,比如铁磁金属CrCuTe2单层具有898K的高居里温度。值得一提的是,通过设计一种基于晶体图论和元素基本性质的通用材料描述符,并结合迭代反馈机制,机器学习模型在热力学稳定性、磁性和能带方面的预测准确率均超过了90%。该描述符采用灵活的层状结构,并且摆脱了原子精确坐标的制约,从而为机器学习设计其他新型二维功能材料提供了一种可行的方案。此外,作者还建立了一个包含了近1500种二维磁性材料的数据库,为二维磁性的理论和实验研究提供了丰富的候选材料。
我们课题组早期开发了结合机器学习预测新材料的设计平台,提出了单目标/多目标性质导向的材料筛选与设计方法。通过对212个已知HOIPs材料的训练,在第一性原理精度上预测了5000多种有机无机钙钛矿太阳能电池材料的带隙值,并从中筛选出218种符合目标带隙适于太阳能电池应用的候选材料,进而利用第一性原理计算对稳定性、毒性等性质做进一步筛选,得到了6种最具应用前景的太阳能光伏材料 [Nat. Commun. 2018, 9, 3405]。
针对铁电光伏材料设计中的稳定性、极性和合适带隙这三个目标性质,课题组采用了包括分类算法和回归算法的多步骤筛选方法,从19841种无机钙钛矿材料中成功得到151种同时符合三个目标的候选材料。
要点解析
图1.
图1显示了二维铁磁材料智能化设计流程。
(1)数据准备。从材料数据库C2DB中收集了2569个包含晶体结构,热稳定性和自旋带隙信息的二维材料作为机器学习训练集和测试集。其中,训练/测试集中的所有二维磁性材料的磁基态都通过严格的第一性原理高通量计算进行确定(在构建超胞的前提下,考虑所有铁磁和反铁磁构型)。然后,从其他二维材料数据库中收集仅包含晶体结构信息的3759个候选材料作为预测集(未进行过磁性研究)。
(2) 机器学习过程。利用特征工程对特征进行挑选,将训练/测试集放入机器学习模型进行训练和测试,使用训练好的模型对预测集中候选材料的热力学稳定性、磁基态和带隙值进行预测。
(3) 筛选选择过程。从机器学习模型的预测结果中交叉筛选出热力学稳定的二维铁磁半导体、半金属和金属。
(4) 第一性原理计算验证。对所有筛选出的二维铁磁材料的热力学稳定性、电子性质、磁性和居里温度进行细致的第一性原理计算。
图2.
图2显示了多层晶体图描述符(CGMD)。数据集中的所有二维材料(训练,测试和预测集)包含了100多种不同的晶体结构,组成元素覆盖了除惰性气体和放射性元素外的整个元素周期表。在数据集规模较小的情况下,复杂的材料组成和结构对于机器学习模型的建立是非常困难的,即仅仅利用传统的向量描述符或者几何描述符来进行构效关系的描述将难以取得较好的效果,对于成因复杂的磁性性质来说会尤为困难。
为此作者基于晶体图论和元素性质发展了一种新型描述符CGMD来克服这一难题。首先,基于晶体图论,二维材料的晶体结构被转换为原子邻接矩阵,该矩阵表示相邻原子之间的连通性。黑框/白框分别表示晶体中相邻原子成键/不成键的情况。然后,基于元素特征构造元素特征矩阵(矩阵主对角线元素由原子本身的元素属性组成,非对角元素表示相邻原子间的元素属性的相对比值),在这里我们选取了7种基本元素性质,包括门捷列夫数、原子的未配对电子数和空轨道数、电负性、共价半径、原子化焓、第一电离能和原子极化率。
最后,将每个晶体结构的原子邻接矩阵分别点乘不同的元素特征矩阵,每一个矩阵我们定义为特征层。由于数据集中的材料具有不同数量的原子,导致不同材料的描述符的维度不一致。为了利于机器学习模型学习,每个材料的描述符矩阵都会扩展为48×48×7的大小,其中48是材料中包含的最大原子数。
图3. 机器学习测试结果和材料描述符CGMD重要性分析
图3显示了机器学习测试结果和材料描述符CGMD重要性分析。在材料数据和描述符准备好的情况下,我们分别使用GBC(gradient boosting classification, 梯度增强分类器)分类算法对于热力学稳定性、磁基态和带隙进行特征层选择。
如图3a所示,所有三种目标材料性质的CGMD都包含门捷列夫数特征层,它描述了晶体结构的原子局部环境。除此之外,未配对电子数特征层也成为描述磁基态和带隙的最重要的三个特征之一。这一特征层通过考虑金属原子的未配对电子数和非金属电子中的未占据轨道数来描述材料的电子配位情况,这对于电子性质和磁性质非常重要。原子化焓(化学键形成或者断裂过程中焓的变化)通常描述键的强度,对热力学稳定性和磁性非常重要。
此外,电负性特征层包含在热力学稳定性以及带隙的CGMD中,反应了元素的电子性质。显然,这些筛选出的特征层在很大程度上与我们的物理化学直觉相符,表明我们特征选择方法的准确性。构建了每个目标性质的最佳CGMD之后,分别训练GBC模型来预测材料的热力学稳定性、磁基态和带隙。
在机器学习过程中,为了提高GBC模型的泛化能力,改善训练/测试集的不完备性,我们采用了迭代反馈回路。在每个循环中,如果材料性质的某个类别的分类概率误差大于10%时,则通过第一性原理计算进行详细验证,然后把计算结果作为训练数据反馈到下一个循环里。最终,机器学习分类模型在三个目标性质上都得到了90%以上的预测准确率。
此外,通过机器学习模型中的特征层相对重要性排序,我们可以更好地理解模型的结果。如图3d所示,近邻原子(矩阵中的非对角线元素)之间的相互作用对于相应的材料属性(磁基态以及带隙)明显要比每个单独元素(矩阵得对角线)的属性更为重要。在磁基态分类中,门捷列夫数特征层在磁性/非磁性分类中起着最重要的作用,而未配对电子数特征层在铁磁/反铁磁分类中起着最重要的作用。在带隙分类中,除了门捷列夫数特征层外,未配对电子数特征层对半导体/金属和半金属/金属分类都有重要影响。从机器学习模型获得的这些结果表明,我们的模型可以有效地从数据中提取物理化学知识,并构建具有相应材料性质的映射,从而获得良好的预测性能。
在包含3759种材料的预测集中,有1424种材料具有较高的热力学稳定性(占总数的37.5%);在磁基态预测中,有252种材料具有本征铁磁性(占总数的6.7%);在带隙预测中,有1574种材料是二维半导体(占总数的42.1%)。
图4. 机器学习预测结果的统计分析
图5. 第一性原理计算验证结果
结论
投稿请联系contact@scimaterials.cn
点击“在看”分享你的观点![]()

