在2024年诺贝尔物理学奖与化学奖双双授予"AI for Science"相关领域,这一里程碑事件为学科发展注入强劲动能。在科学研究第四范式——"AI for Science"时代,基于数据驱动的机器学习力场(ML-FFs)有效弥合了第一性原理电子结构方法与传统经验力场在精度与效率之间的矛盾。近年来该领域呈现爆发式增长态势,Web of Science平台检索显示相关研究成果频繁发表于Nature、Science、Cell等顶尖期刊。
得益于计算硬件的指数级发展,基于ML-FFs实现第一性原理精度的大规模分子模拟已成为现实。机器学习方法不仅拓展了传统分子模拟的时空尺度,更揭示了诸如小分子非对称电子效应等新物理现象,为实验现象提供了更深刻的理论诠释。可以预见,ML-FFs正逐步成为现代计算化学与分子模拟研究的核心工具。
值得注意的是,作为新兴交叉学科领域,其知识体系横跨量子化学、分子模拟与机器学习等多学科领域,存在技术门槛高、开源资源少、学习曲线陡峭等挑战,系统的专业培训显得尤为重要。
本课程设置科学严谨,涵盖量子化学软件快速入门、机器学习理论精讲、GPUMD/LAMMPS等模拟工具高阶应用,以及ML-FFs模型开发全流程,配套海量代码案例。课程特色包括:首度系统解析国产分子动力学软件GPUMD-NEP,深入剖析生态最完善的DeePMD工具链,独家传授数据效率超群的等变模型(MACE)应用技巧,以及开源即用的通用大模型(MACE-OFF23、MACE-MP0、DPA等)实战指南。
课程一:机器学习分子动力学
课程二:机器学习第一性原理
课程三:深度学习材料设计实践应用
课程四:深度学习有限元仿真
课程五:深度学习PINN
第一天的课程内容丰富多样。首先以诺贝尔奖AI元年为切入点,探讨AI与科学研究的深度交叉,阐释科学研究的四范式演进,重点解析从大数据时代到AI4Science时代的发展脉络,包括Google DeepMind、微软研究院、Meta FAIR等顶尖团队的AI4Science工作。系统讲解AI4Science时代的分子动力学模拟:涵盖分子模拟基本方法与发展沿革、经验力场与第一性原理方法的差异对比、机器学习力场方法的技术突破。同时剖析机器学习分子动力学在各领域的应用现状与发展趋势,解读相关支撑项目,阐述机器学习分子动力学的特征分类、工作流程,以及数据集构建策略。实践环节覆盖Linux系统与超算平台基础操作(ls/cd/cp/mv等命令及vim编辑器使用)、虚拟环境配置(Anaconda/Mamba命令精讲)、Python集成开发环境应用,以及分子模拟软件实操:包括GPUMD入门(软件特性、NEP力场简介、pyNEP自动化工具应用)、LAMMPS精解(并行原理、输入文件配置、机器学习势函数调用),并指导量子化学软件VASP的快速上手(泛函选择、赝势获取、任务自动化)。
理论模块双线并进:一方面快速构建机器学习知识体系—通过可视化案例解析神经网络通用近似理论,阐释GPU依赖原理,详解神经元、反向传播、损失函数、残差连接等核心概念,对比ANN/CNN/RNN/Transformer网络架构;另一方面聚焦科学领域专用模型—解析AI模型需遵守的物理约束与对称性,剖析局部环境描述方法分类,深入解读HDNNPs、ANI、DeePMD等经典模型的技术特性。实践环节重点突破DeePMD生态:完成离线安装与验证测试、输入文件参数精析、训练/测试全流程操作。通过LAMMPS+DeePMD联用实现高精度分子动力学模拟,掌握分子轨迹后处理技术,并系统演练DPGEN软件的工作流配置(参数文件解析、跨分区任务提交、收敛标准判定)。
第三天进入高级课程,以二维材料为范例,建立"数据-模型-验证"技术闭环。理论层面:解构机器学习力场科学内核,从势能面数学本质到DFT数据生成范式,剖析NEP模型的GPU加速原理,通过DeePMD/GAP/SchNet对比研究揭示模型选择规律。实践环节打造端到端工程体系:基于Materials Project数据库实现数据清洗与预训练优化,集成M3GNet智能采样与AIMD主动学习技术,突破传统DFT数据局限,最终完成热导率预测与声子态密度等多尺度模拟,并通过独创的"量子精度-微观结构"验证体系确保模型可靠性。
聚焦材料模拟终极挑战,构建"预训练-微调-部署"技术生态。理论解析MACE-MP-0、CHGNet等大模型的架构革新——通过图注意力与等变网络实现跨尺度建模,结合电池界面动力学等案例揭示非平衡态预测优势。实践环节打造全栈开发平台:基于ASE框架实现势函数迭代优化,通过LAMMPS多GPU并行完成晶圆级模拟,创新性融合预训练迁移策略,在石墨烯外延生长等场景实现精度效率双优。针对有机体系,运用MACE-OFF23势函数精准预测结构演化规律。
作为机器学习力场领域的突破性技术范式,本日课程深度聚焦等变模型(Equivariant Models)这一学术前沿,系统解构其通过严格保持SE(3)物理对称性实现量子精度建模的核心机理,揭示高阶架构在数据效率与泛化能力上的颠覆性优势。课程将结合NequIP等标杆模型,展示几何深度学习如何重构势能面逼近的数学本质。对比NEP模型与传统力场对水分子能量、力的预测差异,确保模型达到实验验证标准,通过真实代码操作与经典案例,掌握从理论到落地的全流程技能,胜任电池材料、纳米器件等领域的尖端模拟需求。实操部分包括DeePMD 软件的进阶使用与补充讲解,包括多 GPU 并行训练,LAMMPS 以多 GPU 并行方式运行机器学习力场模型,使用 Python 代码快速可视化机器学习力场模型在等变与不变设计上的区别,使用多种机器学习的降维方法结合 K-Means 聚类从分子模拟轨迹中以低冗余方式提取多帧结构文件。以及MACE的超参数介绍和使用经验,MACE模型与DeePMD模型的对比,Libtorch与 LAMMPS软件的编译,机器学习力场领域的ChatGPT的使用与分析,对通用大模型进行微调与分析,以及DPA-1和DPA-2的介绍与特点。
《AI赋能MD—机器学习力场驱动的分子动力学模拟》
诺贝尔奖的AI元年
AI与 SCIENCE的交叉:
科学研究的四范式
从大数据时代到AI4SCIENCE时代
AI4SCIENCE时代的分子动力学模拟
分子模拟基本方法与发展历史
经验力场与第一性原理方法的对比与区别
机器学习力场方法的兴起
基于机器学习的分子动力学方法在各个领域的应用情况与发展趋势,以及相关支撑项目
机器学习的分子动力学的特点,分类和工作流程
数据集的常见收集方式与建议
Linux系统与超算服务器的常规操作
ls/ll/cd/cp/mv/cat/pwd/less/tail/mkdir/touch以及vim的常见操作
虚拟环境(Anaconda)的使用
conda create/activate/deactivate/install/info/env等命令
Python的介绍与基本使用
Python的基本数据类型
Pycharm的常见用法与代码调试,以及虚拟环境的配套
分子模拟软件介绍
GPUMD的入门与使用
软件发展趋势与方法特点
运行脚本与注意事项
NEP力场的简要介绍
使用pyNEP软件和Calorine快速、自动化生成任意有机分子的力场参数文件(同时也适用GROMACS)
LAMMPS的入门与使用
软件发展趋势与特点
大规模并行的原理:域分解算法介绍
输入文件的详细解析与注意事项
相关势函数和晶格常数的获取渠道
分子模拟轨迹的后处理与分析:径向分布函数与扩散系数
机器学习势函数在LAMMPS中的使用
量子化学计算软件的介绍与快速上手
量子化学中常见理论方法的分类与区别,DFT相关泛函的简要介绍
VASP软件的介绍与快速上手:
软件发展趋势与特点
安装与使用,以及赝势文件的介绍与获取
输入文件的字段解释与注意事项
使用Shell实现自动化提交任务与任务后处理
在VASP中计算单点能
MS软件的基本介绍与LAMMPS结合使用
MSI2LMP工具及PCVV/CVFF力场的概述
使用LAMMPS执行有机体系的分子模拟
基于机器学习力场方法,结合LAMMPS执行合金体系,锂电池体系的分子模拟
使用ASE等软件进行模拟结果的后处理分析与Python高质量科研绘图,包括:能量与力的预测曲线,径向分布函数,键长键角二面角分布等。
科研绘图软件VMD、OVITO的基本使用及编程脚本示例。
理论内容(机器学习力场的模型设计)
机器学习与深度学习的快速入门
常见概念与分类
机器学习的发展历史以及通用近似理论:
通过交互的可视化案例,理解神经网络的通用近似理论
解释神经网络对GPU的依赖
神经元,反向梯度下降,损失函数,过/欠拟合等基本概念
ANN, CNN, RNN等经典深度神经网络的基本框架的介绍与特点
相关学习资源的推荐
Pytorch与Tensorflow的发展现状
科学领域的机器学习模型介绍
AI模型在势函数开发中需要遵守的几个物理约束/物理对称性
高效描述局部环境方法的分类与特点
基于核方法或深度神经网络方法
基于描述符或分子图方法
基于描述符的机器学习力场模型
MACE模型详解与发展
机器学习力场的开篇工作
机器学习力场模型Deep Potential
DeePMD工作的详解
DeePMD的发展和几种描述符的介绍,特点与应用
DeePMD的压缩原理与特点
DPGEN的工作原理
机器学习力场模型NEP
NEP系列工作的详解
NEP的发展和几种描述符的介绍,特点与应用
NEP相关后处理软件
实操内容
DeePMD的离线安装与验证测试
DeePMD输入文件详解:与理论课的模型框架相对应地进行超参数设定的讲解,及使用经验
DeePMD的常见功能,包括训练,重启,冻结,压缩和测试
DeePMD的常见问题与训练过程的分析
综合使用LAMMPS和DeePMD, 执行高精度的分子动力学模拟
分子模拟的数据后处理与分析
DPGEN软件的安装,介绍与工作流程
DPGEN软件的输入和输出文件:param.json和machine.json文件的参数详解
DPGEN软件跨计算分区的提交任务示例;不同量化级别方法的示例
DPGEN软件的常用命令与使用经验,以及不同体系收敛的参考标准
GPUMD&NEP的离线安装与验证测试
GPUMD&NEP输入文件详解:与理论课的模型框架相对应地进行超参数设定的讲解,及使用经验
GPUMD&NEP的常见功能,包括训练,重启,冻结,压缩和测试
GPUMD&NEP的常见问题与训练过程的分析
综合使用LAMMPS和DeePMD, 执行高精度的分子动力学模拟
分子模拟的数据后处理与分析
GPUMD&NEP后处理软件的安装,介绍与工作流程
GPUMD&NEP软件的常用命令与使用经验,以及不同体系收敛的参考标准
高级课程 —— 从头构建机器学习力场
机器学习力场的特性,发展和分类
特性解析:高精度与泛化能力突破
发展脉络:从浅层网络到深度势能模型
分类体系:基于描述符/端到端模型的二分法
机器学习力场构建的一般流程,从量子计算到分子动力学的闭环
方法的完备性,效率和系列发展
密度泛函理论的逼近程度
百万原子体系的实时模拟
典型机器学习力场的迭代升级
适用于大规模GPU并行框架的NEP模型
主流机器学习力场模型的详解与比较(与传统力场的加速比分析)
验证机器学习力场的准确性
能量/力/应力的一致性检验
结合动力学过程验证势函数对材料性质结构的预测能力
实操内容(石墨烯等二维材料为案例)
下载收集公开数据集
公开数据集的评估
公开数据集的预训练和数据筛选
使用MACE-MP-0,CHGNET,M3GNET等通用势函数获取初始构型
从materials project收集初始构型
DFT单点计算
从DFT结果提取数据集(如何考虑色散力)
验证机器学习力场的准确性
主动学习技术
AIMD+微扰等数据集扩充技术
数据集精简技术
机器学习力场在热导率的应用
机器学习立场驱动的晶体材料声子性质计算
高阶应用——机器学习力场大模型的开发与应用
a)现有机器学习力场大模型简介与发展
i.大模型生态:MACE/M3GNet/CH3GNET等架构
ii.预训练范式
iii.开源框架:GPUMD-NEP集成方案
b)机器学习力场大模型使用案例详解
i.工业级应用:电池材料界面演化模拟
ii.相变过程的预测验证
iii.化学反应
c)构建机器学习力场大模型各类数据集简介
i.使用ASE在PYTHON环境下实现主动学习和代码详解
d)实操部分(通用势函数的完全演示案例)
i.使用ASE在PYTHON环境下实现主动学习和代码详解
ii.ASE+calculator计算各类静态性质
iii.calculator进行高通量计算
iv.MACE-MP-0模型的使用(石墨烯生长,二维材料力学模拟)
v.通用势函数的MD模拟(包括基于ASE的MD模拟和基于LAMMPS的MD模拟)
vi.使用预训练模型进行微调
vii.预训练微调与从头训练的对比
viii.基于MACE-OFF23,NEP模型的势函数对有机物的模拟MACE模型的超参数介绍和使用经验
高级课程 —— 等变模型系列,领域热点
a)等变模型的概念,特点,分类和应用
b)等变模型的分类与特点
c)高阶等变模型的介绍:超高数据利用率与优秀的泛化能力
d)高阶等变模型与传统模型,经验力场的区别
e)等变机器学习力场的经典模型
i.NequIP示例模型的详解和代码框架
f)实操内容
i.DeePMD软件的进阶使用与补充讲解,包括多GPU并行训练
ii.LAMMPS以多GPU并行方式运行机器学习力场模型
iii.使用Python代码快速可视化机器学习力场模型在等变与不变设计上的区别
iv.使用机器学习数据降维及结合最远点采样法,从分子模拟轨迹中以低冗余方式提取多帧结构文件。
v.NequIP模型的超参数介绍和使用
vi.复现多篇文献结果(液态水、Si等体系)
vii.基于委员会方法的主动学习方案构建钙钛矿 NEP 模型
viii.以 DP 势函数的数据集为基础展示水的 NEP 模型的构造与评估
徐老师,现任海外Top50高校博士后研究员,多个开源代码核心贡献者,精通分子动力学模拟与机器学习方法开发,具有丰富机器学习势函数研发经验,熟练掌握各类开发工具与后处理软件。已在Nat. Commun.、Chem. Mater.、Energy Storage Mater.等顶级期刊发表机器学习相关论文20余篇。
近年来,随着人工智能技术的飞速发展,机器学习在科学研究中的应用逐渐成为跨学科研究的前沿热点。2024年诺贝尔物理奖与化学奖均授予“AI for Science”相关领域的突破性成果,这一事件标志着人工智能与基础科学的深度融合已进入新的发展阶段。在材料科学领域,第一性原理计算作为研究材料电子结构和性质的核心工具,为理解微观世界提供了坚实的理论基础。然而,其高昂的计算成本限制了其在大规模复杂体系中的应用。机器学习的引入,为这一问题提供了新的解决方案,通过构建高效的数据驱动模型,实现了从第一性原理精度到大规模模拟的无缝衔接。
机器学习在第一性原理领域的应用不仅加速了材料设计与发现的进程,还为传统理论计算提供了新的视角。例如,通过高通量计算与机器学习相结合,研究者能够快速筛选出具有特定性能的材料,从而显著提高研发效率。此外,机器学习模型还能够挖掘隐藏在数据中的物理规律,为实验研究提供理论支持。在这一背景下,掌握第一性原理与机器学习的交叉知识,已成为现代材料科学研究人员必备的技能。
本课程旨在为学员提供第一性原理与机器学习交叉领域的系统性培训,并安排了较多的上机实验,提供大量相关代码与示例教程,帮助学员熟悉各种深度学习第一性原理计算方法的使用,快速掌握相关理论知识与实操技能。课程将从基础理论出发,逐步深入到高级应用,学员将具备独立开展第一性原理与机器学习交叉研究的能力,能够运用所学知识解决材料科学中的实际问题,并为未来的研究工作奠定坚实的基础。
《机器学习第一性原理》
第一天(请滑动查看)
理解第一性原理计算的基本理论框架,包括薛定谔方程、Hohenberg-Kohn定理、Kohn-Sham方程等核心概念。掌握机器学习在材料科学中的应用现状与发展趋势,了解当前领域内的前沿成果与挑战。
理论内容
介绍量子力学在材料科学中的应用及其重要性。
第一性原理计算的基本概念:从量子力学到材料性质的预测。
机器学习的兴起及其在科学研究中的应用。
机器学习在材料设计、性质预测和高通量计算中的应用案例。
当前机器学习技术在第一性原理领域的突破与挑战。
未来发展趋势:从数据驱动到智能设计。
典型案例分析:如催化剂设计、二维材料的高通量筛选等。
实操内容
Python环境搭建:Anaconda的安装与使用。
Jupyter Notebook的使用:代码编写、运行与调试的基本操作。
安装常用机器学习库:NumPy、Pandas、Matplotlib、Scikit-Learn等。
深度学习框架(PyTorch)的安装与环境配置。
安装第一性原理软件
第一天下午
实操内容
Python的基本语法:缩进、注释、变量命名规则。
数据类型详解:整数、浮点数、字符串、布尔值。
序列类型:列表、元组、集合的操作与区别。
映射类型:字典的创建、访问与修改。
条件语句:if-elif-else的使用场景与逻辑判断。
循环语句:for循环与while循环的语法与应用。
循环控制:break、continue、pass语句的作用与使用场景。
自定义函数:函数的定义、参数传递、返回值。
模块的导入与使用:标准库与第三方库的调用。
类与对象的基本概念:封装、继承、多态。
类的定义与实例化:属性与方法的使用。
面向对象的设计思想:如何通过类组织代码结构。
NumPy数组的创建与操作:数组的形状、索引、切片。
数学运算:矩阵运算、统计函数、随机数生成。
示例应用:数据标准化、矩阵变换等。
Pandas:数据分析利器
数据结构:Series与DataFrame的创建与操作。
数据处理:数据清洗、筛选、分组、聚合。
数据读写:CSV、Excel文件的读取与保存。
示例应用:材料数据的预处理与分析。
Matplotlib:数据可视化
基本绘图:折线图、柱状图、散点图的绘制。
熟练掌握第一性原理软件的使用方法,包括输入文件编写、任务提交、结果分析等。学会使用Python及其科学计算库(如NumPy、Pandas、Matplotlib)进行数据分析与处理。掌握机器学习库(如Scikit-Learn、PyTorch)的基本使用方法,能够搭建并训练简单的神经网络模型。
第二天上午
理论内容
讲解第一性原理计算:薛定谔方程、波函数与电子状态、Hohenberg-Kohn定理、Kohn-Sham方程、交换-相关泛函、晶格的周期性、平面波与平面波基组、
介绍VASP软件的基本操作和输入文件编写方法。
详细指导如何编写VASP的输入文件,包括INCAR、KPOINTS、POSCAR等。
演示如何提交VASP计算任务:命令行提交、作业调度系统提交、OSZICAR、OUTCAR
第二天下午
实操内容
使用Python实现批量计算任务的生成与提交。
高效计算流程:并行计算、分布式计算的优化。
结构优化结果分析:能量、晶格参数、原子位置的收敛性。
电子结构、力学性质、热学性质的计算与分析。
使用Matplotlib绘制能带图、态密度图等。
实战1:二氧化碳还原反应(CO₂RR)的催化剂设计、选择与催化剂性能相关的特征(如电子结构、表面性质等)、使用Scikit-Learn搭建线性回归、决策树等模型。通过交叉验证评估模型的预测性能。用机器学习预测二氧化碳还原催化剂的少特征模型
实战2:氧还原反应(ORR)和氧进化反应(OER)在能源存储中的重要性。从第一性原理计算结果中提取材料的电子性质和催化活性指标。基于物理直觉和机器学习算法选择关键特征。DFT和机器学习方法加速具有高ORR和OER催化活性的DMSCs的发现
学习高通量计算策略,掌握自动化脚本编写技巧,能够高效处理大规模计算任务。理解机器学习在材料性质预测中的应用,掌握特征工程、模型训练与验证的基本流程。
第三天上午
实操内容
pymatgen的功能与应用场景:从材料结构到计算文件的生成。
材料项目(Materials Project)数据库的访问与数据提取。
使用pymatgen获取晶体结构:通过材料ID或化学式查询。
批量下载结构数据:自动化脚本编写与数据管理。
批量生成计算文件:POSCAR、INCAR等。
自动化生成VASP输入文件。
编写Python脚本,从Materials Project下载一组材料的结构数据。
分析下载数据的格式与内容,提取关键信息(如晶格参数、原子位置等)。
使用pymatgen的API查询Materials Project数据库。
筛选特定条件下的材料数据:如元素组成、晶体结构类型等。
第三天下午
理论内容
介绍晶体结构与电子结构特点
晶体结构的基本概念:布拉维格子、空间群、对称性。
电子结构计算:能带计算流程、能带图的解读。
态密度分析:电子态密度的物理意义与计算方法。
电荷密度分析:电荷分布与材料性质的关系。
材料计算的特征工程
特征类型:空间特征(晶格参数、原子间距等)、拓扑特征(拓扑绝缘体的特征)、化学特征(元素组成、键合类型等)、物理特征(电子结构、力学性质等)。
统计特征与信息熵:如何从数据中提取统计信息。
领域特定特征的构建与优化:结合物理直觉与机器学习方法。
特征工程在材料计算中的重要性。
当前研究热点:如何通过特征工程提高机器学习模型的性能。
实操内容
实战3:VASP计算TiO2的电子能带结构和密度态、电荷密度、功函数
实战4:VASP和机器学习实现二维材料的高通量计算
掌握卷积神经网络、循环神经网络、图神经网络等深度学习模型的基本原理及其在材料科学中的应用。学会使用机器学习力场(如ML-FFs)结合分子动力学软件(如LAMMPS)进行复杂体系的模拟与分析。
第四天上午
理论内容
神经元的基本结构与功能。
常见激活函数:ReLU、Sigmoid、Tanh等。
前向传播与反向传播的基本原理。
网络结构设计:全连接层、卷积层、循环层。
CNN在图像识别中的应用。
RNN在序列数据处理中的优势。
GNN在材料科学中的应用:图结构数据的处理。
实操内容
PyTorch的基本功能与模块化设计。
构建简单的神经网络模型。
实战5:基于图神经网络的钠离子电池正极材料人工智能驱动设计
第四天下午
理论内容
讲解分子动力学模拟的基本原理
分子动力学的基本概念:牛顿运动方程的数值求解。
温度、压力与化学势的定义与计算:热力学量的统计计算方法。
微观状态与系综选择:NVT、NPT、NVE等系综的区别与应用场景。
时间步长与模拟精度的平衡:选择合适的模拟参数。
实操内容
实战6:如何通过机器学习力场提高分子动力学模拟的效率、力场的构建与训练:从第一性原理数据中训练机器学习力场模型、VASP-MD及机器学习力场计算:力场的构建与训练
实战7:AIMD在复杂体系中的应用与挑战、从头算分子动力学模拟AIMD后处理分析-轨迹分析:径向分布函数、扩散系数等。
通过实战案例,如催化剂设计、二维材料高通量计算等,巩固所学知识,提升解决实际问题的能力。学会使用开源工具(如pymatgen、matminer)获取材料数据,构建数据驱动的机器学习模型。
完成本课程后,学员将具备独立开展第一性原理与机器学习交叉研究的能力,能够运用所学知识解决材料科学中的实际问题,并为未来的研究工作奠定坚实的基础。
第五天上午
理论内容
LAMMPS输入文件的编写及任务提交
指导如何编写LAMMPS的输入脚本,并提交计算任务。
in文件基本语法:结合实例,讲解in文件常用命令
LAMMPS在材料科学中的应用现状与挑战。
当前研究热点:机器学习力场与LAMMPS的结合。
实操内容

