计算中心服务｜机器学习与材料计算- 大数跨境

北京市计算中心有限公司

2018-04-01

导读：人工智能与机器学习人工智能 (Artificial Intelligence，AI) 是研究、

人工智能与机器学习

人工智能 (Artificial Intelligence，AI) 是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大。

机器学习 (Machine learning, ML) 是人工智能的一个分支，介于几个不同理论学科之间，主要是计算机科学、统计学、数学和工程学。它主要通过各类算法，利用计算机从大量历史数据中解析规律，从而能对新的样本做智能识别或对未来进行预测。机器学习常用算法包括：　　

神经网络 (Neural Network)、支持向量机 (Support Vector Machines, SVM)、提升算法 (Boosting)、决策树 (Decision Tree)、随机森林 (Random Forest)、贝叶斯模型 (Bayesian Model)等。

早期的机器学习算法由于受到理论模型和计算资源的限制，一般只能进行浅层学习，只在搜索排序系统、垃圾邮件过滤系统、内容推荐系统等地方有所应用。近10年来，机器学习有了长足的发展，已深入到包括语音识别，图像识别，数据挖掘等诸多领域，并取得了瞩目的成绩。

材料计算

材料计算是利用计算机模拟对材料组成、结构与固有性质、适用性能和服役行为以及合成加工进行综合研究的一门新兴学科，涉及材料、物理、计算机、数学、化学等多门学科知识的交叉。材料计算的目的在于自主地对材料进行组分、结构、功能的优化与控制，以便按需制备新材料。材料计算也为复杂材料体系的研究提供了新的手段。

材料计算涉及材料不同层次的结构、各种性能，进行材料计算时，首先要根据所要计算的对象、条件、要求等因素选择适当的方法。目前，主要有两种分类方法：一是按理论模型和方法分类，二是按材料计算的特征空间尺寸 (characteristic space scale) 分类。材料的性能在很大程度上取决于材料的微结构，材料的用途不同，决定其性能的微结构尺度会有很大的差别。例如，对结构材料来说，影响其力学性能的结构尺度在微米以上，而对于电、光、磁等功能材料来说可能要小到纳米，甚至是电子结构。因此，计算材料学的研究对象的特征空间尺度从纳米到米。时间是计算材料学的另一个重要的参量。对于不同的研究对象或计算方法，材料计算的时间尺度可从10-15 s (如分子动力学) 到106 s（如对腐蚀、蠕变或疲劳等的模拟）。

对于具有不同特征空间、时间尺度的研究对象，均有相应的材料计算方法：

电子结构层次： 量子力学第一原理计算(Hartree-Fock, HF; Density Functional Theory, DFT)

原子-分子层次：分子动力学(Molecule Dynamics, MD)、Monte-Carlo方法

Nano-介观尺度层次：Monte-Carlo方法、有限元方法(Finite Element Method, FEM)

宏观连续介质：有限元方法(FEM)、经典力学

机器学习在材料计算中的应用

长期以来，机器学习在物理和化学研究领域主要作为辅助分类工具，应用于如光谱分析、生物分子的成键位置预测、确定药物的结构-活性位点 (quantitative structure-activity relationship, QSARs) 的定量关系等。直到近几年，机器学习的思想才渐渐接触到计算物理、理论化学和计算材料科学的核心基础区域；目前主要仍用于确定材料结构和某些具体性质的关系，特别是基于大型的材料数据库，利用机器学习方法挖掘原子结构与具体物性的某种隐藏的定量关系，在合金的原子相互作用势函数、金属表面的吸附与催化机理和复杂大分子动力学计算研究都成为机器学习重要的应用领域。具体实现时，首先通过第一原理计算建立多种不同简单结构的模型，再将模态特性(即最终关注的物理或材料性质)作为输入变量，将对应的模型结构参数作为输入变量，利用Gaussian回归或训练神经网络的方法，利用非参Bayesian分类算法或神经网络的泛化特性，得到设计参数的修正值。结合Monte-Carlo方法，进行多组有限元分析，将数据输入神经网络中进行训练，可以用来分析结构的可靠度。但是总的来说，到目前为止，这一进程依然比较缓慢。

已有的研究成果

1. A. P. Bartòk, M. Payne, R. Kondor and G. Csányi, Gaussian approximation potentials: The accuracy of quantum mechanics, without the electrons, Phys. Rev. Lett. 104, 136403, (2010)

2. J. Behler, Atom-centered symmetry functions for constructing high-dimensional neural network potentials, J. Chem. Phys. 134, 074106, (2011)

3. N. Artrith, A. Urban, An implementation of artificial neural-network potentials for atomistic materials simulations: Performance for TiO2， Comput. Mat. Sci. 114, 135, (2016)

4. J. Behler, Perspective: Machine learning potentials for atomistic simulations, J. Chem. Phys. 145, 170901, (2016)

5. Z. W. Uissi, A. J. Medford, T. Bligaard and J. K. Nørskov, To address surface reaction network complexity using scaling relations machine learning and DFT calculations, Nat. commun. 8, 14621, (2017)

未来的发展方向

“材料基因组计划”(The Materials Genome Initiative, MGI)是2011年由美国首先提出的保持和提升美国新材料的技术优势的国家性计划，总目标是“将先进材料的发现、开发、制造和使用的速度提高一倍”。白宫科技政策办公室在2011年6月发布的相应的白皮书《具有全球竞争力的材料基因组计划》中阐述了材料创新基础设施的三个平台：计算工具平台、实验工具平台和数字化数据(数据库及信息学)平台。材料基因组计划/工程不仅仅是要开发快速可靠的计算方法和相应的计算程序，而且也要开发高通量的实验方法来对理论进行快速验证并为数据库提供必需的输入，还要建立普适可靠的数据库和材料信息学工具，以加速新材料的设计和使用。材料基因组计划/工程旨在材料领域建立一个新的以理论模拟和预测优先、实验验证在后的“文化”，从而取代现有的以经验和实验为主的材料研发的理念。可以预见，在“材料基因组计划”中将会高度集成和整合机器学习的各种算法和技术，推动新材料研发。

“材料基因组计划”摘自赵继成，材料基因组计划简介，Chin. J. Nature, 36, 89, (2014)

北京市计算中心

北京市计算中心于2011年成立了材料计算学科团队，面向化学、材料、物理、工程等诸多领域提供建模，计算及计算资源服务。团队抓住科技部国家重点研发计划“材料基因工程关键技术与支撑平台”重点专项立项机会开始合作申报，与清华大学联合申报“高通量并发式材料计算算法和软件”并获得批复，与以北京科技大学牵头申报“国家材料基因工程数据管理与数据服务技术平台”已经完成正式答辩。北京市计算中心着力建立材料数据专业管理与分析能力，打造新材料研究全链条，引入机器学习等前沿技术手段，支持材料研究模式的转变，实现由“经验指导实验”向“理论预测和实验验证相结合”的模式转变，提高新材料的研发效率，促进材料产业的发展，助力《智能制造2025》。

【声明】内容源于网络

北京市计算中心有限公司

成立于1973年，国内最早的一批计算中心之一，致力于应用计算技术研究和服务。2010年，创建“工业云”服务平台，面向工业企业尤其是对制造型中小企业提供产品创新的公共服务平台。2011年，工业云成为北京市“祥云计划”十大重点示范工程项目之一。

内容 942

粉丝 0

北京市计算中心有限公司成立于1973年，国内最早的一批计算中心之一，致力于应用计算技术研究和服务。2010年，创建“工业云”服务平台，面向工业企业尤其是对制造型中小企业提供产品创新的公共服务平台。2011年，工业云成为北京市“祥云计划”十大重点示范工程项目之一。

总阅读3

粉丝0

内容942