哈佛大学Nature：诺奖级别！被拒稿三次终登Nature封面！催化计算迎来巅峰时刻！



哈佛大学Nature：诺奖级别！被拒稿三次终登Nature封面！催化计算迎来巅峰时刻！

邃瞳科学云

2025-11-19

面对海量催化剂组合带来的筛选困境，是依赖经验、运气，还是理性设计？

哈佛大学Eric N. Jacobsen等团队独辟蹊径，在Nature发表最新研究，将医学检测中的“群体检测”数学原理创新性地应用于化学催化领域。开发了一种全新的“池化-解卷积”筛选算法。该方法不依赖于任何先验的化学机制知识，而是通过构建智能重叠的催化剂池，并定义协同性评分函数，便能以极低的实验成本，从成百上千的组合中精准“打捞”出具有强协同效应的催化剂配对。该研究不仅成功复现了已知协同体系，更在一个颇具挑战的Pd催化脱羰Suzuki-Miyaura偶联反应中，出人意料地发现了多个能大幅降低反应温度和催化剂负载量的高效配体组合。这项工作为系统性探索“未知的未知”提供了强大、普适的工具，有望彻底改变多催化体系的发现范式，开启协同催化研究的新篇章。

顶尖专题

01 机器学习与催化剂设计专题

02 机器学习第一性原理专题

03 机器学习辅助金属有机框架（MOFs）智能设计专题

04 机器学习分子动力学专题

Course.01

机器学习与催化剂设计专题

授课讲师

主讲老师来自全国重点大学、国家“985工程”、“211工程”重点高校，长期致力于机器学习在催化剂设计中的创新应用，尤其在深度学习、图深度学习等前沿技术的催化材料探索中积累了丰富经验。主讲老师在该领域累计发表高水平论文70余篇。授课风格清晰生动，善于将抽象的理论与复杂的计算方法转化为易于理解的知识点，帮助学员轻松把握核心内容。

课程内容

第一天上午

理论内容（约1小时）：

1.机器学习在材料领域的前沿应用

2.机器学习催化剂设计的常用方法

3.机器学习辅助催化剂设计详细应用

实操内容（约1.5小时）

1.Python基础：字符串，列表，字典，变量，if语句，循环，函数

2.Python科学数据处理：NumPy，Pandas，seaborn，Matplotlib，Scipy

案例：在AI For Science深刻重塑科研与产业运作逻辑的当下，机器学习已成为打破传统研究边界、催生创新解决方案的核心工具。本课程聚焦于帮助学员突破Python基础应用的瓶颈，构建贴合科研数据建模与程序开发需求的核心编程能力，同时指导学员快速搭建稳定高效的开发与分析环境，为后续开展AI驱动的科学计算、数据挖掘与算法实现夯实基础，助力学员真正跻身AI赋能科学创新的新阵营。

第一天下午

理论内容（约1小时）：

1.sklearn基础介绍

2.十大机器学习算法理论框架

3.线性回归原理和正则化

4.机器学习中的监督学习

5.机器学习中的回归、分类任务

实操内容（约2小时）

1. 线性回归方法的实现与初步应用

2.L1和L2正则项的实现方式

3.岭回归和Lasso回归的示例操作

4. 线性回归用于单原子合金筛选

案例：单原子合金因活性位点明确、原子利用率高且能精准调控催化反应路径，直接关联反应活化能与产物选择性，其精准预测对催化剂设计至关重要。。本研究采用DFT 与机器学习相结合的方法，以数百种潜在单原子合金为研究对象，构建吸附物-合金体系的结构特征与吸附自由能之间的关联模型，旨在通过机器学习实现单原子合金吸附能的快速精准预测，为高效单原子合金催化剂的设计与筛选提供数据支撑和理论指导。

——————————————————————————————————————

第二天上午

理论内容（约1小时）：

1.逻辑回归（LR）与交叉熵损失的内在联系

2. K近邻方法（KNN）原理

3. 神经网络内部参数详解

4.支持向量机（SVM）中软间隔和硬间隔的区别

实操内容（约1.5小时）

1.逻辑回归用于分类任务

2.KNN方法用于回归任务的实现

3.支持向量机用于回归和分类任务

4.神经网络方法用于CO₂还原电催化剂的发现

案例：铜基合金催化剂在二氧化碳还原反应（CO₂RR）领域得到了广泛应用，这是因为其具有良好的选择性和较低的过电位。本课程目的是指导学员设计机器学习模型。通过实施严格的特征选择过程，并通过ML模型能够成功且快速地预测 CO₂RR 过程中关键中间体的吸附能，用于筛选出用于 CO₂RR 的极具前景的二元合金。

第二天下午

项目实操(约-3.5小时)：

1.机器学习方法设计高性能锂硫电池电催化剂

2.机器学习数据集来源

3.机器学习中数据分析及数据清洗

4.机器学习中特征工程实现方式有那些

5.sklearn实现网格搜索和随机搜索

6.机器学习中交叉验证的基本原理和实现方式

案例：在锂硫电池电催化剂的研发进程中，高效性能的突破始终依赖于对催化剂材料特性的精准调控--而单原子催化剂所具备的灵活组成、可调结构及可修饰吸附位点，恰好为满足锂硫电池的催化需求提供了关键支撑。本课程的核心目标，便是指导学员运用机器学习这一高效工具，构建起单原子催化剂的材料特性与锂硫电池催化活性之间的定量关联模型，进而缩短锂硫电池电催化剂的研发周期，推动其性能优化与实际应用进程。

——————————————————————————————————————

第三天上午

理论内容（约1小时）：

1．决策树

1.1决策树的原理

1.2决策树的分类决策方式

2．集成学习方法

2.1集成学习基本原理

2.2bagging基本原理

2.3随机森林方法

2.4Boosting方法的基本原理及多种模型区别

实操内容（约1.5小时）

1.决策树的模型实现及决策过程可视化

2.随机森林的实现和应用

3.Xgboost、LightGBM的实现及网格搜索最优参数

案例：集成学习通过多层模型的组合与融合，在提升模型性能上有显著优势。在数据挖掘中，面对海量且复杂的数据，单一模型往往难以全面捕捉数据特征；而集成学习能结合弱学习器的性能，先让各基础模型从不同角度挖掘数据，再通过加权等方式融合结果，从而更全面地剖析机器学习的结果。本课程旨在指导学员利用集成学习的强大优势，更高效快速的建立机器学习模型，以加速催化剂的发现。

第三天下午

项目实操（约2.5-3小时）

1.机器学习用于发现CO2RR催化剂

2.树模型中的特征重要性分析

3.SHAP可解释性分析在模型中的可解释性

案例：近年来，结合高通量策略与机器学习的技术路径，已成为加速潜在高性能催化剂发现的核心方向，受到领域内广泛关注。机器学习结合高通量方法对大量候选体系进行快速筛选，从而精准定位高效二氧化碳还原催化剂。此外，通过SHAP可解释性分析，还能深度挖掘影响二氧化碳还原催化剂活性、选择性与稳定性的关键制备条件，为实验制备提供明确指导，大幅提升高效二氧化碳还原催化剂的研发效率。

——————————————————————————————————————

第四天上午

理论内容（约1小时）：

无监督学习基础

1.1 无监督学习适用场景

1.2 无监督学习核心算法--聚类：原理、典型方法与应用场景

1.3 无监督学习核心算法--降维：目标、常用技术与适用场景

材料与化学数据的特征工程技术

2.1 分子指纹：结构表示的构建方法

2.2 One-Hot 编码：在材料/化学数据中的实现步骤

2.3 matminer 工具：材料特征编码的优势、核心功能与完整构建流程

实操训练（约1.5 小时）

3.1鸢尾花数据集：聚类模型搭建与结果分析

3.2 K-Means 聚类：算法实现调优与结果评估

3.3 T-SNE 降维：高维特征向量映射与降维后可视化分析

3.4 PCA 特征工程实战：特征降维处理、二维映射绘制

3.5 层次聚类实战：聚类树构建、最佳聚类数确定与应用

案例：无监督学习旨在从无标签数据中挖掘模式与结构，t-SNE作为其中重要的降维工具，专注于保留高维数据点间的局部结构。本课程将深入解析t-SNE的核心原理--通过概率分布衡量数据点间的相似性，借助优化KL散度实现降维，展现其在高维数据可视化中的强大作用，并通过代码实操涵盖数据加载、参数调优、降维及可视化等环节，帮助学员熟练掌握t-SNE在不同场景下的应用，从而更好地探索数据的潜在结构与模式。

第四天下午

项目实操（约2.5-3小时）

理论模块（约1 小时）：深度学习与材料研发的核心关联

1.深度学习基础与技术核心：从数据驱动角度，解析神经网络基本结构、梯度下降、反向传播等训练原理，点明其适配材料复杂数据的优势

2.深度学习在材料领域的应用：聚焦HER 电催化材料，简述其在材料结构预测、催化活性回归、失效分析等场景的应用，对比传统实验的效率优势

3.材料适配的深度学习框架：针对材料数据类型，讲解CNN、RNN/LSTM、Transformer的核心架构与应用逻辑

实操模块（约2.5 小时）：HER 电催化剂的深度学习研发实践

1. PyTorch 工具链实操：完成环境配置、材料数据预处理

2. pymatgen 开放接口：调用Materials Project数据库获取 HER 电催化剂数据，完成清洗、格式转换

3. matminer 特征工程：用其生成催化剂结构化特征，训练机器学习模型

4. 深度学习模型开发：搭建 CNN、LSTM模型，调优后预测 HER 催化活性，筛选高活性催化剂

案例：近年来，高通量与机器学习相结合的策略在加速潜在新材料发现方面受到广泛关注。为此，可设计一种直观方法：检索Materials Project数据库并结合深度学习模型，再将其与HT方法耦合，以筛选高效的HER催化剂。

——————————————————————————————————————

第五天上午

理论内容(约1小时)：

1.图深度学习理论基础

2.图深度学习应用实例及知识图谱分析

3.知识图谱与机器学习的联系

实操内容（约1.5小时）

1. 图结构构建及可视化

2. PyTorch Geometric基础介绍

案例：近年来，在晶体性能预测领域，图神经网络（graph neural network，GNN）模型取得了显著进展。GNN模型能够有效从晶体结构中捕捉高维晶体特征，从而实现优异的性能预测效果。同时本课程将指导学员搭建图深度学习开发环境，助力其顺利构建图结构并开展机器学习训练。

第五天下午

项目实操（约3小时）

1.图神经网络模型基本概述及CGCNN代码深度解读应用

2.Neo4j构建二氧化碳还原图反应网络

3.知识图谱构建、桑基图和弦图分析

4.图神经网络编码后结构的T-SNE二维可视化

案例：本课程指导学生设计完成知识图谱的构建，挖掘其隐性关联信息，建立知识图谱的推理能力；指导学员构建图神经网络，用于催化材料的高通量筛选，为AI加速材料设计提供新的思路。

Course.02

机器学习第一性原理

授课老师

主讲老师来自国内985重点高校，拥有两年海外留学经历，计算物理和计算材料研究方向，参与多项国家自然科学基金面上项目。熟悉深度学习方法和第一性原理计算及相关软件的使用，具有丰富的编程经验，对深度学习方法应用于第一性原理计算有深入的研究和优秀的成果，在Physical Review Letters、Physical Review B等PR系列期刊和Journal of Physical Chemistry C等期刊上发表15余篇论文。

课程内容

第一部分：第一性原理基础和Python编程

1. 理论内容

(1) 课程引言

① 深度学习在第一性原理的应用和优势

② 课程内容安排

(2) 第一性原理计算介绍

① 第一性原理计算的发展历程——从薛定谔方程到密度泛函理论

② 密度泛函理论（DFT）——从波函数到电子密度

③ 常用的原子建模环境软件——ASE和pymatgen

④ 常用的第一性原理计算软件——VASP和GPAW

2. 实操内容

(1) Linux系统的常用命令和超算服务器的使用

① 命令行终端软件——iTerm和Xshell

② ls/ll/cd/cp/mv/cat/pwd/less/tail/mkdir/touch等命令行操作

③ vim文本编辑

(2) Python编程语言基础和集成开发环境(IDE)的介绍

① 数据类型、函数、类和对象、模块

② Pycharm软件的使用和常见用法

(3) Python环境管理软件Anaconda的使用

① 使用Conda命令创建环境、安装Python库

② 使用Conda命令管理环境和环境的回溯

③ Pytorch的安装和调用GPU训练模型

(4) 原子建模环境软件ASE的使用

① 使用ASE对体系结构进行建模，得到cif文件

② ASE和GPAW软件结合使用

(5) 第一性原理计算软件GPAW的使用

① 第一性原理计算软件的参数设置和结果收敛性检查

② 以晶体材料为例，使用GPAW进行第一性原理计算

③ 体系能量、原子受力和极化等性质的计算

第二部分：深度学习在第一性原理计算中的应用—神经网络势函数（一）

1.课程内容

(1)深度学习基本理论

①人工神经网络与万能近似定理

②神经元的基本结构与功能

③常见的激活函数及其特点

④前向传播与反向传播的基本原理

(2)深度学习的发展历程和优势

①神经网络的发展历程：从全连接到深度学习大模型

②神经网络的常见分类：FNN、CNN、RNN和GNN

③深度神经网络入门——以ResNet残差神经网络为例

④常用的深度学习库——Pytorch介绍

(3)神经网络势函数

①从高斯核回归到神经网络势函数

②神经网络势函数的基本假设——局域性假设和对称性要求

③原子结构和周围化学环境的表征

④BPNN描述符和DP深度神经网络势函数

(4)晶体材料简介及其电子结构特点

①晶体的基本概念：布拉维格子、空间群和对称性

②晶体材料的电子结构和态密度分析

2.上机实验

(1)第一性原理计算软件进阶

①VASP/GPAW计算BaTiO3的电子能带结构和态密度、电荷密度等性质

②第一性原理数据集的构造——AIMD从头算分子动力学

③使用T-sne技术进行数据集的可视化

(2)Pytorch深度学习库

①Pytorch的安装和调用GPU训练模型

②Pytorch的基本功能与模块化设计

③使用Pytorch搭建简单的神经网络模型

④神经网络的训练流程

(3)深度学习项目实践——ResNet残差网络用于手写数字识别

①手写数据集的准备

②ResNet模型的训练、测试和评估

③深度学习模型训练的超参数设置和调参

第三部分：深度学习在第一性原理计算中的应用——神经网络势函数（二）

1.课程内容

(1)分子动力学模拟

①第一性原理分子动力学——从微观到宏观

②分子动力学的基本原理——牛顿运动方程

③牛顿运动方程的几种数值求解方法

④统计力学系综概念

⑤LAMMPS分子动力学软件介绍

⑥神经网络势函数和LAMMPS的结合——机器学习分子动力学模拟

(2)从描述符到图表示：图神经网络和MPNN消息传递神经网络

①具有不变性的消息传递神经网络

②晶体图卷积神经网络CGCNN

③消息传递神经网络的一般框架和组成

(3)SchNet和DimeNet++等不变消息传递神经网络的介绍

①SchNet和DimeNet++的特点

②DimeNet++中角度信息的引入——球谐基函数

③深入理解消息传递过程——图卷积

④图卷积和图像卷积的区别

2.上机实验

(1)LAMMPS分子动力学软件

①LAMMPS软件的输入设置

②LAMMPS脚本编写的基本语法

③LAMMPS软件任务运行与结果分析

(2)DeePMD深势模型的安装和使用

①DeePMD的离线安装与测试

②DeePMD模型的训练和验证

③使用DeePMD模型进行高效的分子动力学模拟

④数据的处理和分析

(3)GNN图神经网络用于处理图结构数据——以SchNet为例

①晶体结构的图结构抽象和数据表示

②图神经网络的输入、特征处理与输出

③从预测能量到预测力——神经网络自动微分的妙用

第四部分：深度学习在第一性原理计算中的应用——神经网络势函数（三）

1.课程内容

(1)从不变性到等变性——具有等变性的消息传递神经网络

①等变的概念

②等变性和不变性的区别

③理解等变性——群论的初步介绍

④等变消息传递神经网络和不变等变消息传递神经网络的对比

(2)常见的等变模型——PaiNN、NequIP和Allegro模型

①PaiNN——通过距离矩阵实现等变性

②NequIP和Allegro——通过不可约表示实现等变性

③易于大规模并行的等变模型——Allegro

2.上机实验

(1)SchNet消息传递神经网络的安装和使用

①QM9数据集的准备

②使用QM9数据集训练SchNet模型

③模型对体系能量和原子受力预测精度的评估

④将SchNet模型用于分子动力学模拟

⑤原子对径向分布函数等性质的计算

(2)高精度、轻量化的PaiNN等变神经网络

①PaiNN模型代码的详解

②PaiNN模型的训练和使用

③SchNet和PaiNN模型的精度对比

④体会不变性和等变性消息传递神经网络的区别

(3)NequIP模型的安装和使用，以及Nature Communications顶刊论文结果复现

①NequIP软件包的安装

②超参数的设置和介绍

③复现Nature Communications论文结果

第五部分：深度学习在第一性原理计算中的应用——高阶内容

1.课程内容

(1)在神经网络势函数模型中加入长程相互作用

①长程相互作用介绍

②使用神经网络预测离子电荷

③基于离子电荷计算长程相互作用

(2)磁性材料的第一性原理计算和建模

①磁性材料的磁性自由度

②磁性材料的势能面建模——从传统哈密顿量模型到机器学习模型

③磁性机器学习势能面建模的挑战：数据集构造和模型搭建

(3)利用神经网络对密度泛函理论哈密顿量进行建模

①DeepH方法

②深度学习密度泛函微扰理论（DFPT）方法

(4)Attention is All You Need——Transformer模型

①Transformer原理讲解

②Transformer架构在AI模型中的应用

(5)通用原子体系大模型——MACE框架

①原子簇展开（ACE）方法

②MACE架构介绍和改进

③MACE：MPNN和ACE方法的结合

2.上机实验

(1)Allegro模型的安装和使用以及Nature Communications顶刊论文结果复现

①Allegro代码框架详解

②Allegro软件的安装和使用

③Allegro和LAMMPS分子动力学软件结合使用

④Nature Communications论文结果复现，

(2)声子谱的计算

①使用Phonopy软件计算固体材料的声子谱

②使用深度学习势函数加速声子谱的计算

③比较模拟结果和第一性原理计算结果

(3)Transformer模型和实战

①Transformer的Pytorch实现

②Transformer对序列化数据建模和预测

(4)MACE实战

①MACE超参数的讲解

②MACE-MP-0模型的加载和微调

③MACE模型用于分子动力学模拟

Course.03

机器学习辅助金属有机框架（MOFs）智能设计

课程背景

诺贝尔物理学奖曾授予了推动“人工智能科学（AI for Science）”发展的奠基者们，标志着人工智能成为推动科学研究范式变革的核心力量。而 2025 年诺贝尔化学奖则聚焦于金属有机框架材料（Metal–Organic Frameworks, MOFs）在气体储存、分离、催化及药物递送中的革命性贡献，充分体现了材料化学在绿色能源与可持续发展中的巨大潜能。

在这一“AI × MOF”时代，机器学习（Machine Learning, ML）正以前所未有的速度推动 MOF 设计进入智能化、自动化阶段。通过整合实验数据、量子化学计算与人工智能算法，研究者能够实现 MOF 性质的高效预测、结构的智能生成与性能的定向优化，从而打通“数据-模型-应用”的完整闭环。

为响应“AI for Materials”时代的科研与产业需求，本课程围绕“机器学习辅助MOFs 智能设计”主题，系统讲解从基础理论到前沿模型的全流程内容，涵盖传统机器学习、图神经网络（GNN）、生成模型（VAE/Diffusion）以及大语言模型（LLM）在 MOF 设计中的创新应用。课程共五天，每天均包含“理论讲授 + 实操演练”模块，结合真实数据集、开源代码与可复现案例，助力学员快速掌握 AI 驱动 MOF 设计的核心技能。

讲师介绍

主讲老师来自国内985.211双一流高校！长期从事基于大数据和人工智能的环境毒理和智慧农业研究，发表论文50余篇，其中SCI论文44篇；以第一或通讯作者身份在Chem. Rev. 、Nat. Commun.、Environ. Sci. Technol.、Anal. Chem.等期刊发表论文20篇；主持国家自然科学基金面上项目和青年基金等项目6项；申请中国发明专利13件，其中授权4件。

课程内容

第一天：AI与MOF的基础认知，开启智能材料设计新纪元

第一天的课程以人工智能与材料科学的交汇为起点，聚焦AI for Science的革命性进展与MOF研究的历史沿革。理论部分从2024年诺贝尔物理学奖引发的“AI科学时代”谈起，系统介绍人工智能的基本原理、发展历程与核心概念，阐述机器学习与深度学习的基本架构、典型流程与应用逻辑。随后讲解金属有机框架（MOF）的基本结构组成、发展历史及在气体储存、催化、药物递送等领域的研究热点，强调AI在加速MOF发现与性能预测中的关键作用。实操部分涵盖Python与Linux环境配置、MOF数据库（CSD、CoRE-MOF、QMOF）使用、结构可视化与特征提取（Zeopp、Poreblazer、MOFid），帮助学员完成从“数据理解”到“初步分析”的过渡。

第一天：AI 与 MOF 的基础认知与科学范式

理论部分

• 人工智能的科学革命：从符号主义到深度学习的演进路径

• AI 基本理论框架：监督学习、无监督学习、强化学习、生成模型的基本概念与应用领域

• 机器学习典型流程：数据预处理 → 特征工程 → 模型训练 → 验证与解释

• 深度学习简介：神经网络结构、反向传播算法、过拟合与泛化能力

• MOF 材料基础知识：结构组成（有机配体–金属节点–拓扑网络）

• MOF 的发展历程与研究热点：从 MOF-5、ZIF-8 到多功能杂化框架

• MOF 在能源、环境与医药领域的应用：气体储存、CO₂ 捕集、污染物吸附、药物缓释、催化反应

• AI 与 MOF 的融合趋势：从实验发现到智能预测与自主设计

实操部分

• Linux 与 Python 科学计算环境搭建（Anaconda / Mamba）

• MOF 结构可视化与格式转换（ASE、Avogadro）

• 数据集构建：从 CoRE-MOF、CSD、QMOF 数据库筛选与清洗

• 特征提取：Zeopp、Poreblazer、MOFid 工具的使用

• Python 实现 MOF 比表面积、孔径分布、能量参数计算

第二天：传统机器学习方法在MOF性质预测中的深入实践

第二天聚焦传统机器学习算法在MOF性质预测中的理论与实操应用。课程首先回顾机器学习在材料科学中的发展脉络，介绍回归、分类与聚类模型在MOF结构–性能关系建模中的核心思想。理论部分系统讲解线性回归、支持向量机（SVM）、随机森林（RF）、梯度提升（XGBoost、LightGBM）等算法的基本原理与适用场景，结合MOF比表面积、吸附能、能带结构等具体任务展示其建模流程与可解释性分析方法。实操部分以CO₂和CH₄吸附预测为案例，带领学员进行特征工程、模型训练、参数优化与SHAP特征贡献分析，掌握模型从构建到评估的完整过程。

第二天：传统机器学习方法在 MOF 性质预测中的应用

理论部分

• 机器学习在材料科学中的应用模式

• MOF 结构–性质关系的定量表征思路（QSAR/QSPR）

• 特征工程在 MOF 性质预测中的作用

• 常用算法解析：线性回归（LR）、SVM、随机森林（RF）、XGBoost、LightGBM、CatBoost

• 模型评估指标（R²、RMSE、MAE）及交叉验证方法

• 案例研究：CO₂ / CH₄ 吸附等温线预测、MOF 比表面积与能带结构预测、SHAP 可解释性分析

实操部分

• 构建 MOF 性质预测数据集（QMOF + CoRE-MOF）

• 使用 Python 实现 XGBoost/RF/SVM 模型训练

• 参数优化与特征选择（GridSearchCV、SHAP、Boruta）

• 可视化模型性能（学习曲线、误差散点图）

• 结果解释与物理关联分析

第三天：图神经网络（GNN）赋能MOF结构–性能建模

第三天进入课程核心模块，聚焦图神经网络（Graph Neural Network, GNN）在MOF研究中的应用。理论部分首先介绍GNN的数学基础与消息传递机制（Message Passing），阐释如何将MOF的晶体结构转化为原子–键图表示，从而实现结构信息的高效编码。课程进一步讲解主流模型如CGCNN、MEGNet、ALIGNN、CrystalNN及MatGL的网络架构、优势与局限，并结合Nature Communications等高被引研究案例展示GNN在MOF吸附能与能带预测中的表现。实操部分带领学员使用PyTorch Geometric / DGL框架构建并训练GNN模型，掌握从数据预处理、图结构生成到模型训练与注意力可视化的完整流程，帮助学员实现从“描述符思维”向“结构图学习”的转变。

第三天：图神经网络（GNN）与 MOF 结构–性能建模

理论部分

• GNN 基础：从分子图到晶体图表示

• 节点与边特征的构建方式：化学键、配位环境、拓扑连通性

• 消息传递机制（Message Passing）与图卷积操作（Graph Convolution）

• 主流 GNN 模型：CGCNN、MEGNet、ALIGNN、CrystalNN、MatGL

• GNN 在 MOF 建模中的优势与挑战

• 案例研究：基于 GNN 的 MOF 能带与吸附能预测

实操部分

• 使用 PyTorch Geometric / DGL 框架构建 GNN 模型

• 将 MOF 结构转换为图表示（节点–边矩阵）

• 训练 MEGNet 模型预测 CO₂ 吸附能

• 可视化注意力权重与结构贡献区域（Attention Heatmap）

• 模型对比实验：GNN vs XGBoost vs RF

第四天：生成模型与逆向MOF设计的前沿探索

第四天课程聚焦生成式人工智能（Generative AI）在MOF设计中的应用与创新。理论部分介绍变分自编码器（VAE）、生成对抗网络（GAN）和扩散模型（Diffusion Model）在材料设计中的基本原理与发展趋势，阐述潜空间学习（Latent Space）与性能引导型生成（Property-guided Generation）的核心思想。重点讲解MOF-VAE、MOF-Diffusion与MOFGen等代表性框架如何实现从性能目标到结构反向生成，并讨论贝叶斯优化与强化学习在逆向设计中的融合策略。实操内容包括基于VAE的MOF潜空间映射、性能导向生成模型训练、Diffusion模型微调与生成结构的稳定性验证，帮助学员掌握“从属性到结构”的AI反向设计路径。

第四天：生成模型与逆向 MOF 设计

理论部分

• 生成式 AI 在材料科学中的崛起（VAE、GAN、Diffusion）

• 潜空间（Latent Space）学习与结构生成机制

• MOF-VAE、MOF-Diffusion 与 MOFGen 框架介绍

• 性能引导型生成策略：从目标性质出发的反向设计

• 贝叶斯优化与强化学习在逆向设计中的结合

• 可合成性与稳定性判定：synthetic accessibility 指标

• 案例研究：基于生成模型的 CO₂ 捕集 MOF 反向设计

实操部分

• 使用 MOF-VAE 实现结构潜空间映射与生成

• 构建目标导向生成模型（以甲烷吸附量为目标）

• 贝叶斯优化算法调控生成方向

• Diffusion 模型训练与新结构筛选

• 使用 DFT / GCMC 验证生成结构的能量与吸附性能

第五天：大语言模型（LLM）赋能MOF智能设计与自主发现

课程的最后一天聚焦大语言模型（Large Language Model, LLM）在MOF研究中的最新应用与发展方向。理论部分首先回顾从ChatGPT到MatGPT、ChemLLM的演化历程，系统阐述大模型在科学知识建模、文本生成与跨模态推理中的潜能。课程进一步讲解LLM在MOF领域的三大应用方向：文献语义挖掘与自动摘要、语义驱动的结构筛选与性质预测、以及结合AutoML实现的自动化设计与分析。实操部分将带领学员使用MatGPT与LangChain框架实现“文本→结构→性能预测”的智能闭环，探索如何构建自学习型MOF智能体，实现从知识理解到材料发现的自主创新过程，为AI赋能材料科学的未来奠定实践基础。

第五天：大语言模型（LLM）在 MOF 智能设计中的应用

理论部分

• 大语言模型的崛起与科学研究新范式（ChatGPT → MatGPT → ChemLLM）

• LLM 在材料科学中的认知与生成能力：文本到结构、文本到实验

• 材料知识图谱与 LLM 的融合（MaterialsKG、MatGPT、MATTERverse）

• LLM 在 MOF 研究中的应用：文献挖掘、语义筛选、AutoML 自动化分析

• 未来展望：多模态智能体（Multi-agent）助力自主材料发现

实操部分

• 使用 MatGPT 或 ChemLLM 生成 MOF 结构候选

• 文献语料的自动标注与知识抽取（Python + LangChain）

• 实现“文本 → 结构 → 性质预测”全流程

• 利用 LLM 结合 AutoML 实现自适应 MOF 筛选

• 构建自学习型 MOF 智能体

Course.04

机器学习分子动力学

授课老师

主讲老师来自985重点高校

研究方向：计算材料学高熵合金研究主要从事AI4S，从事计算机和物化方面的交叉研究。有SCI一区一作2篇，SCI二区一作2篇，SCI一区和二区三作共一第二各一篇。熟悉机器学习算法，图神经网络，graphormer，uni-mol等，熟悉机器学习势deepmd、nep、mace等，在JCTC、JPCL、PCCP等顶刊发表机器学习与材料相结合多篇文章。

课程内容

第一天、第一性原理基础、分子动力学原理和Python编程

1.理论内容

（1）科学研究的四范式

①从大数据时代到AI4SCIENCE时代，如Google DeepMind/微软研究院/Meta FAIR等著名AI团队的AI4SCIENCE工作介绍

（2）AI4SCIENCE时代的分子动力学模拟

①　分子模拟基本方法与发展历史

②　量子化学中常见理论方法的分类与区别，DFT相关泛函的简要介绍

③　经验力场与第一性原理方法的对比与区别

④　机器学习力场方法的兴起

2.实操内容

（1）Linux系统与超算服务器的常规操

① ls/ll/cd/cp/mv/cat/pwd/less/tail/mkdir/touch以及vim的常见操作

（2）python虚拟环境(Anaconda)的使用

① conda create/activate/deactivate/install/info/env等命令

（3）Python的集成开发环境(IDE)的介绍与基本使用

① Python的基本数据类型、函数、模块

② Pycharm的常见用法与代码调试，以及虚拟环境的配套

③ Pytorch的安装和调用GPU训练模型

（4）原子建模环境软件ASE的使用

① 使用ASE对体系结构进行建模，得到cif文件

② ASE和VASP、GPAW等软件结合使用

（5）分子模拟软件介绍——LAMMPS的入门与使用

①　软件发展趋势与特点

②　大规模并行的原理：域分解算法介绍

③　输入文件的详细解析与注意事项

4.相关势函数和晶格常数的获取渠道

5.分子模拟轨迹的后处理与分析：径向分布函数与扩散系数

6.机器学习势函数在LAMMPS中的使用

（6）量子化学计算软件VASP的介绍与快速上手

①　软件发展趋势与特点

②　安装与使用，以及赝势文件的介绍与获取

③　使用VASPKIT软件快速生成VASP的单点能或分子动力学模拟的输入文件

④　输入文件的字段解释与注意事项

⑤　使用Python实现自动化提交任务与任务后处理

（4）案例：传统力场方法与机器方法力场方法的对比

①　基于基于经验力场方法，结合LAMMPS执行合金体系模拟；

②　基于机器学习力场方法，结合LAMMPS执行合金体模拟；

使用MDtraj等软件进行模拟结果的后处理分析与Python高质量科研绘图，包括：能量与力的预测曲线，径向分布函数，键长键角二面角分布等。

Fig 1. Schematic Diagram of Spatiotemporal Scale Distribution and Cross-Scale Accuracy-Efficiency Trade-off of Multiscale Physical Models

.第二天、机器学习力场的模型设计

1.理论内容

（1）机器学习与深度学习的快速入门

①　机器学习常见概念与分类

②　机器学习的发展历史以及通用近似理论：

③　解释神经网络对GPU的依赖

④　神经元，反向梯度下降，损失函数，过/欠拟合，残差连接等基本概念

⑤　ANN, CNN, RNN, TRANSFORMER,ResNet等经典深度神经网络的基本框架的介绍与特点

⑥　相关学习资源的推荐

⑦　Pytorch与Tensorflow的发展现状

（2）科学领域的机器学习模型介绍

①　AI模型在SCIENCE领域需要遵守的几个物理约束/物理对称性

②　高效描述局部环境方法的分类与特点

a.基于核方法或深度神经网络方法

b.基于描述符或分子图方法

③　基于描述符的机器学习力场模型

④　机器学习力场的开篇工作——HDNNPs(BPNN)模型详解与发展

⑤　国内生态最好的机器学习力场模型——DeePMD系列

a.DeePMD系列工作的详解

b.DeePMD的发展和几种描述符的介绍，特点与应用

c.DeePMD的压缩原理与特点

d.DPGEN的工作原理

2.实操内容

①　DeePMD的离线安装与验证测试

②　DeePMD输入文件详解:与理论课的模型框架相对应地进行超参数设定的讲解，及使用经验

③　DeePMD的常见功能，包括训练，重启，冻结，压缩和测试

④　DeePMD的常见问题与训练过程的分析

⑤　综合使用LAMMPS和DeePMD, 执行高精度的分子动力学模拟

⑥　分子模拟的数据后处理与分析

⑦　DPGEN软件的安装，介绍与工作流程

⑧　DPGEN软件的输入和输出文件：param.json和machine.json文件的参数详解

⑨　DPGEN软件跨计算分区的提交任务示例；不同量化级别方法的示例

⑩　DPGEN软件的常用命令与使用经验，以及不同体系收敛的参考标准

Fig 2. The components of the DeePMD-kit package. The direction of the arrow indicates the dependency between the components. The blue box represents an optional component.

Fig 3. Flowchart of DP-GEN Active Learning (Active Learning Framework for Materials Simulation Based on Density Functional Theory).

第三天、图神经网络与等变模型

1.理论内容

（1）图神经网络、图卷积网络和消息传递神经网络的发展与理解

①　图神经网络和MPNN消息传递神经网络

②　具有不变性的消息传递神经网络

③　晶体图卷积神经网络CGCNN

④　消息传递神经网络的一般框架和组成

⑤　SchNet和DimeNet++等不变消息传递神经网络的介绍

⑥　SchNet和DimeNet++的特点

⑦　DimeNet++中角度信息的引入——球谐基函数

⑧　深入理解消息传递过程——图卷积

（2）等变模型的理解

①　具有等变性的消息传递神经网络

②　等变的概念

③　等变性和不变性的区别

④　理解等变性——群论的初步介绍

⑤　等变消息传递神经网络和不变等变消息传递神经网络的对比

⑥　常见的等变模型——PaiNN、NequIP和Allegro模型介绍

⑦　PaiNN——通过距离矩阵实现等变性

⑧　NequIP和Allegro——通过不可约表示实现等变性

2.实操内容

（1）以不变消息传递神经网络SchNet为例，介绍SchNetPack的安装和使用，包括：

①QM9数据集的准备

②使用QM9数据集训练SchNet模型

③模型对体系能量和原子受力预测精度的评估

④将SchNet模型用于分子动力学模拟

⑤原子对径向分布函数等性质的计算

（2）高精度、轻量化的PaiNN等变神经网络

①PaiNN模型代码的详解

②PaiNN模型的训练和使用

③SchNet和PaiNN模型的对比——精度

④切身体会不变性和等变性消息传递神经网络的区别

（3）NequIP模型的安装和使用，以及Nature Communications顶刊论文结果复现

①NequIP软件包的安装

②超参数的设置和介绍

③复现Nature Communications论文结果

（4）MACE模型的安装和使用以及Nature Communications

①MACE代码框架详解

②MACE软件的安装和使用

③MACE和LAMMPS分子动力学软件结合使用

④Nature Communications论文结果复现，

（5）Allegro模型的安装和使用以及Nature Communications顶刊论文结果复现

①Allegro代码框架详解

②Allegro软件的安装和使用

③Allegro和LAMMPS分子动力学软件结合使用

④Nature Communications论文结果复现，

Fig 4. Prediction and explanation of molecular energies with a deep tensor neural network.

Fig 5. The NequIP network architecture.

第四天、NEP势函数训练与金属体系应用

1.理论内容

①　NEP 势函数核心特性：轻量、高效、金属体系适配

②　NEP机器学习势函数训练程序的输入与输出

③　NepTrain与NepTrain-kit软件的介绍与简单使用

④　NEP 在金属模拟中的价值：解决传统力场精度不足问题

⑤　NEP89 大模型：元素覆盖范围、泛化能力

⑥　DPA3通用原子大模型

2.实操内容

（1）NEP 数据集制备

a.从 DFT 计算结果（如 VASP OUTCAR）提取数据

b.数据集格式转换；用 dpdata 制作微扰结构（增强数据多样性）

（2）NEP 模型训练

a.NEP 训练程序安装

b.输入 / 输出文件解析；模型训练与收敛判断（能量 / 力误差标准）

（3）金属体系模拟实践

a.基于 NEP 模型的金属模拟：拉伸测试（Al）、熔点预测（Cu）、压缩实验（Cu-Ni 合金）

b.后处理：Python 绘制应力-应变曲线、MSD、RDF 等科研图表

Fig 6. Schematic architecture of NEP4 model and multi-loss evolutionary training algorithm.

授课时间

机器学习分子动力学

2025.12.20--2025.12.21 (09:00-11:30 13:30-17:00)

2025.12.22--2025.12.25 (19:00--22:00)

机器学习第一性原理

2025.12.19(19:00--22:00)

2025.12.26(19:00--22:00)

2025.12.28(09:00-11:3013:30-17:00)

2026.01.09(19:00--22:00)

2026.01.10--2026.01.11(09:00-11:3013:30-17:00)

2026.01.12(19:00--22:00)

机器学习辅助金属有机框架（MOFs）智能设计

2025.12.20---2025.12.21 (09:00-11:30 13:30-17:00)

2025.12.23---2025.12.24 (19:00--22:00)

2026.01.03----2026.01.04 (09:00-11:30 13:30-17:00)

机器学习辅助催化剂设计

2025.12.22 -2025.12.26 (19:00--22:00)

2025.12.29 -2025.12.31(19:00--22:00)

2026.01.04 (09:00-11:30 13:30-17:00)

课程费用

机器学习分子动力学、机器学习第一性原理、

机器学习辅助催化剂设计、机器学习辅助金属有机框架（MOFs）智能设计

每人每个课程￥4980元（含报名费、培训费、资料费）

套餐价：

同时报名两个课程 9880元（含报名费、培训费、资料费）

报名福利：

报二送一（同时报名两个班赠送一个学习课程，赠送课程可任选）

两班同报：9880元

三班同报：13880元（可以任选四个班学习）

免费学习一年：18880元（可免费学习一整年本单位举办的任意课程）

报名缴费后发送预习视频资料

优惠：提前报名缴费学员可得300元优惠（仅限前15名）

报名费用可开具正规报销发票及提供相关缴费证明、邀请函，可提前开具报销发票、文件用于报销

报名直播课程可赠送往期课程回放（报一赠一回放课、报二赠四回放课）

(点击上方蓝色字体可查看具体内容）

培训特色及福利

1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿

2、学习模式--理论知识与上机操作相结合，让零基础学员快速熟练掌握

3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答

授课方式：通过腾讯会议线上直播，理论+实操的授课模式，老师手把手带着操作，从零基础开始讲解，电子PPT和教程开课前一周提前发送给学员，所有培训使用软件都会发送给学员，有什么疑问采取开麦共享屏幕和微信群解疑，学员和老师交流、学员与学员交流，培训完毕后老师长期解疑，培训群不解散，往期培训学员对于培训质量和授课方式一致评价极高！

学员对于培训给予高度评价